robots又叫robots协议,robots文件是一个纯文本格式,一般形式为robots.txt,他相当于一个屋子的门牌,告诉搜索引擎哪些蜘蛛可以进来爬取,哪些蜘蛛不能进来爬取,可以进来爬取哪些文件,不可以进来爬取哪些文件。
robots文件放在什么位置
robots文件基本都会选择放到网站的根目录下的,且文件名称一定是小写,可以说搜索引擎爬虫来你的网站之前是一定要先去robots文件看看哪些应该去,哪些不应该爬,比如https://www.code7.cn/robots.txt
robots文件的作用有哪些
robots是一种协议,是网站与搜索引擎之间的一种常规协议,通过你上传的robots告诉各个搜索引擎蜘蛛允许爬取哪个网站目录,不允许爬取哪个网站目录等,这样对于网站的收录与排名是非常有利的。
常用规则
一般站点的robots文件很简单:
User-agent: *
Disallow: /*?*
sitemap:https://www.xxxx.com/sitemap.xml
解释:
User-agent:用户代理
* :通配符,代表所有
Disallow:不允许
/*?*:链接里包含?的文件(多为动态链接)
sitemap:https://www.xxxx.com/sitemap.xml(网站地图,利于蜘蛛爬行)