robots协议
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots ExclusionProtocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取.
robots可以做什么?
优化蜘蛛爬行,提高爬行效率、减少带宽消耗、防止双收录。
提交网站地图。
网站如何添加robots?
1.创建一个robots.txt文件,文件名必须小写。
2.将robots.txt文件当道网站根目录下。
robots.txt语法详解
User-agent
表示搜索引擎的名称
用法
User-agent: GoogleBot #只针对与Google
User-agent: * #所有搜索引擎 *表示所有
注意:在冒号后面要加一个空格,否则不生效
Disallow
表示禁止收录
用法
Disallow: / #禁止收录所有页面
Disallow: /user/login.html #禁止收录登陆页面
Disallow: /wp-admin/ #禁止收录wp-admin目录
Disallow: *?* #禁止收录动态页面
Allow
表示允许收录
Allow: / #允许收录所有页面,默认
Allow: .jpg$ #$:通配符表示某一类型文件后缀
Sitemap
表示提交网站地图
用法
Sitemap: https://www.jiangmingtao.com/sitemap.xml #必须使用绝对路径
语法检测:https://ziyuan.baidu.com/robots/index
上次更新时间 13 3 月, 2023 at 09:59 上午