江明涛的博客
《SEO 教程九》网站日志分析
《SEO 教程九》网站日志分析

《SEO 教程九》网站日志分析

HTTP状态码

HTTP状态码是用以表示网页服务器超文本传输协议响应状态的3位数字代码。它由 RFC 2616 规范定义的,并得到 RFC 2518、RFC 2817、RFC 2295、RFC 2774 与 RFC 4918 等规范扩展。所有状态码的第一个数字代表了响应的五种状态之一。
简而言之就是一个3位数字的代码。

http状态码对照表

200 表示正常返回
301 表示重定向
304 表示页面未修改
404 表示无法访问
500 表示服务器错误
503 服务器不可用

网站日志有什么用?

可以分析爬虫抓取页面有效性(减少搜索引擎在一些噪音页面上:重复页面,低质量页面,空内容页面,404页面,不排名页面 的抓取频率);

排查蜘蛛爬取网站页面是否遇到404错误页面,500服务器错误等,定位网站降权的原因

监控蜘蛛有没有来爬去自己的网站

为什么两个页面都爬行了,缺只收录了一个,分析对比收录的文章和未被收录的文章的区别,找到哪些文章容易被收录,从而提交收录率。

为什么蜘蛛总是喜欢爬行一个栏目,分析优化,让蜘蛛去爬行我们想让他爬行的栏目

正确分辨蜘蛛爬虫

分析蜘蛛的爬行轨迹

重要页面内容是否被爬虫完整爬到并且快速遍历

如何分析日志

手工分析
人工查询日志文件进行归类分析,效率低

工具分析
将日志下载到本地,使用工具进行分析日志,大大提高分析的效率,例如光年日志分析等软件

通过分析日志对网站进行一对一的优化

如何判断真假蜘蛛

tracert

nslookup

上次更新时间 13 3 月, 2023 at 09:59 上午