robots文件分析及具体写法介绍
作为搜索引擎一定要遵从robots协议来对网站进行抓取,尤其是一些涉及到网站的用户资料站点,更是会屏蔽一些重要的信息,以防出现数据泄露。当然,在现今的互联网也不乏很多平台屏蔽百度等搜索引擎,不让其抓取优质内容。
在SEO优化过程中,robots文件是不得不分析的,因为有些屏蔽出现错误导致网站整体抓取,从而影响收录和排名,下面我们就robots文件分析及具体写法介绍下。
【什么是robots】
robots.txt文件是一个文本文件,使用任何一个常见的文本编辑器,比如Windows系统自带的Notepad,就可以创建和编辑它。
robots.txt是一个协议,而不是一个命令。robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。
【robots.txt文件的作用】
robots.txt是搜索引擎蜘蛛访问网站时要查看的第一个文件,并且会根据robots.txt文件的内容来爬行网站。在某种意义上说,它的一个任务就是指导蜘蛛爬行,减少搜索引擎蜘蛛的工作量。
当搜索引擎蜘蛛访问网站时,它会首先检查该站点根目录下是否存在robots.txt文件,如果该文件存在,搜索引擎蜘蛛就会按照该文件中的内容来确定爬行的范围;如果该文件不存在,则所有的搜索引擎蜘蛛将能够访问网站上所有没有被口令保护的页面。
通常搜索引擎对网站派出的蜘蛛是有配额的,多大规模的网站放出多少蜘蛛。如果我们不配置robots文件,那么蜘蛛来到网站以后会无目的的爬行,造成的一个结果就是,需要它爬行的目录,没有爬行到,不需要爬行的,也就是我们不想被收录的内容却被爬行并放出快照。所以robots文件对于我们做网站优化来说具有很重要的影响。
【robots.txt禁止收录协议写法】
User-agent: * *代表所有搜索引擎,也可指定搜索引擎
如指定百度,User-agent: BaiduspiderDisallow: /a/ 这里定义是禁止抓取a目录下面的所有内容
Disallow: /cgi-bin/*.htm 禁止访问
/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)
Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。
Allow: /cgi-bin/a/ 这里定义是允许爬寻cgi-bin目录下面的a目录
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 允许访问以”.htm”为后缀的URL
Allow: .gif$ 允许抓取网页和gif格式图片
Sitemap: 网站地图,告诉爬虫这个页面是网站地图
User-agent: *
Disallow: /i*/
Disallow: /a*d/
Disallow: /*.php
Disallow: /*/*.php
Disallow: /*/list*.html
Allow: /img/
Sitemap: https://域名/sitemap.xml