「搜索引擎蜘蛛」抓取流程里面涉及到的重要节
SEO资讯 2019-04-10 13:3459未知admin
现在的网络环境相对比较复杂,因此对于搜索引擎的抓取要求也是有很大的要求,为了能正确有效的抓取到网页,又不对网站造成访问压力,搜索引擎会通过很多策略来抓取你的网站,下面我们就来分享一些抓取流程里面涉及到的重要节点!
1、抓取友好性
一般状况下,基于IP的压力限制.这是因为假如基于域名,也许存在一个域名对几个IP或者几个域名对同一个IP的原因.
现实中,常常依据IP以及域名的多个条件来做压力调配限制.同时,站长平台也推广了压力反馈机制,站长能够人工调配对我们站点的抓取的压力,这个时候蜘蛛会优先依照站长的需求来做抓取压力限制.
2、常用抓取返回码示意
简单说明几个Baidu支持的返回码:
2.1 常见的404页面说明了NOT FOUND,认为网页已经没有了,一边会在库中删掉,同时短时间里面假如蜘蛛再次看到这条url也不会抓取;
2.2 403说明了Forbidden,认为页面现在屏蔽访问.假如是新url,蜘蛛短时间不会抓取,短时间里面一样会反复访问多次;假如是已收录url,就不会马上删掉,短时间里面一样反复访问多次.
假如是页面正常访问,就会正常抓取;假如还是屏蔽访问,那么这个url也会被认同是没用的链接,从库里面删掉.
相关阅读
-->