江明涛的博客
《SEO 教程十一》robots.txt详解
《SEO 教程十一》robots.txt详解

《SEO 教程十一》robots.txt详解

robots协议

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots ExclusionProtocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取.

robots可以做什么?

优化蜘蛛爬行,提高爬行效率、减少带宽消耗、防止双收录。

提交网站地图。

网站如何添加robots?

1.创建一个robots.txt文件,文件名必须小写。

2.将robots.txt文件当道网站根目录下。

robots.txt语法详解

User-agent
表示搜索引擎的名称
用法
User-agent: GoogleBot #只针对与Google
User-agent: * #所有搜索引擎 *表示所有
注意:在冒号后面要加一个空格,否则不生效

Disallow

表示禁止收录
用法
Disallow: / #禁止收录所有页面
Disallow: /user/login.html #禁止收录登陆页面
Disallow: /wp-admin/ #禁止收录wp-admin目录
Disallow: *?* #禁止收录动态页面
Allow
表示允许收录
Allow: / #允许收录所有页面,默认
Allow: .jpg$ #$:通配符表示某一类型文件后缀

Sitemap

表示提交网站地图
用法
Sitemap: https://www.jiangmingtao.com/sitemap.xml #必须使用绝对路径

语法检测:https://ziyuan.baidu.com/robots/index

上次更新时间 13 3 月, 2023 at 09:59 上午