HTTP状态码
HTTP状态码是用以表示网页服务器超文本传输协议响应状态的3位数字代码。它由 RFC 2616 规范定义的,并得到 RFC 2518、RFC 2817、RFC 2295、RFC 2774 与 RFC 4918 等规范扩展。所有状态码的第一个数字代表了响应的五种状态之一。 简而言之就是一个3位数字的代码。
http状态码对照表
200 表示正常返回 301 表示重定向 304 表示页面未修改 404 表示无法访问 500 表示服务器错误 503 服务器不可用
网站日志有什么用?
可以分析爬虫抓取页面有效性(减少搜索引擎在一些噪音页面上:重复页面,低质量页面,空内容页面,404页面,不排名页面 的抓取频率);
排查蜘蛛爬取网站页面是否遇到404错误页面,500服务器错误等,定位网站降权的原因
监控蜘蛛有没有来爬去自己的网站
为什么两个页面都爬行了,缺只收录了一个,分析对比收录的文章和未被收录的文章的区别,找到哪些文章容易被收录,从而提交收录率。
为什么蜘蛛总是喜欢爬行一个栏目,分析优化,让蜘蛛去爬行我们想让他爬行的栏目
正确分辨蜘蛛爬虫
分析蜘蛛的爬行轨迹
重要页面内容是否被爬虫完整爬到并且快速遍历
如何分析日志
手工分析
人工查询日志文件进行归类分析,效率低
工具分析
将日志下载到本地,使用工具进行分析日志,大大提高分析的效率,例如光年日志分析等软件
通过分析日志对网站进行一对一的优化
如何判断真假蜘蛛
tracert
nslookup
上次更新时间 13 3 月, 2023 at 09:59 上午