编程网

robots文件是什么?robots文件的作用有哪些?介绍常用规则

robots又叫robots协议,robots文件是一个纯文本格式,一般形式为robots.txt,他相当于一个屋子的门牌,告诉搜索引擎哪些蜘蛛可以进来爬取,哪些蜘蛛不能进来爬取,可以进来爬取哪些文件,不可以进来爬取哪些文件。

robots文件放在什么位置

robots文件基本都会选择放到网站的根目录下的,且文件名称一定是小写,可以说搜索引擎爬虫来你的网站之前是一定要先去robots文件看看哪些应该去,哪些不应该爬,比如https://www.code7.cn/robots.txt

robots文件的作用有哪些

robots是一种协议,是网站与搜索引擎之间的一种常规协议,通过你上传的robots告诉各个搜索引擎蜘蛛允许爬取哪个网站目录,不允许爬取哪个网站目录等,这样对于网站的收录与排名是非常有利的。 

常用规则

一般站点的robots文件很简单:

  User-agent: *

  Disallow: /*?*

  sitemap:https://www.xxxx.com/sitemap.xml

  解释:

  User-agent:用户代理

  * :通配符,代表所有

  Disallow:不允许

  /*?*:链接里包含?的文件(多为动态链接)

  sitemap:https://www.xxxx.com/sitemap.xml(网站地图,利于蜘蛛爬行)

热门内容