18720358503 在线客服 人才招聘 返回顶部
企业动态 技术分享 行业动态

百度搜索蜘蛛抓取时回到304情况码的难题剖析

2021-03-08分享 "> 对不起,没有下一图集了!">
近期遇到1个网站被百度搜索蜘蛛抓取主页后很多回到304情况码的难题,之前遇到过301和302,便是没掌握过304,恰好能够对这个状况开展1下剖析和观查,便于较为深层次的掌握该难题的出現和解决之策。
百度搜索百科对304情况码是这么解释的:假如顾客端推送了1个带标准的 GET 恳求且该恳求已被容许,而文本文档的內容(自之前浏览以来或依据恳求的标准)并沒有更改,则服务器理应回到这个304情况码。简易的表述便是:顾客端早已执 行了GET,但文档未转变,也便是大家所了解的网页页面没升级。
GET /index.html - 80 - 220.181.135.120 Sosospider+(+http://help.soso.com/webspider.htm) 304 0 0
GET /index.html - 80 - 123.129.209.113 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) 304 0 0
但网站每日都有较多內容的升级,如何会回到未升级的情况码呢,查询了网站进几日的网站IIS系统日志,发现这几日对主页的抓取全是回到的304情况码,1般状况下大约会是1下几种将会:
1、服务器缓存文件原因
设定缓存文件的功效1般全是以便加快网站的提早载入,就像大家在访问器上浏览网站的情况下也较为非常容易出現缓存文件难题,当你开启1个网站以后,假如该网站有升级或有 转变,立即点一下主页会发现還是以前浏览的网页页面,而ctrl+F5再次载入后才会显示信息新的网页页面,这实际上便是缓存文件的原因。此外,有的情况下和1些较大的网站换友谊连接也会遇到,对方加了友链以后主页不容易立刻显示信息,会由于缓存文件而必须过1段時间才可以显示信息。
2、网站构造难题
假如网站构造不可以合理的让蜘蛛圆满爬取,也便是说尽管蜘蛛有抓取,但因为网站构造难题致使蜘蛛前后左右两次抓取內容同样,或说蜘蛛每次抓取主页都只抓了那块固定不动的內容,那末就必然致使蜘蛛对主页的抓取回到304情况码。
3、网站速率难题
谷歌就对于网站的载入時间更 新过优化算法,把网站载入時间列入了排名要素,即使检索模块排名不高度重视这点,针对客户体验也是有很大危害,谁也不容易想要多花時间在1个必须载入几10秒乃至几分 钟的网站上面。而针对检索蜘蛛也是这般,网站的载入速率也会危害蜘蛛的一切正常抓取,1般状况下网站全是从上往下的载入,而有的情况下因为速率要素致使网站只载入了头顶部,后边一部分而沒有立即显示信息出来,也将会致使蜘蛛只抓取了头顶部一部分內容,而因为1般网站的头顶部全是同样的,也就非常容易出現了抓取回到没升级的情况码。
此外,互联网路线的互通也是1个要素。
4、网站內容难题
在网上搜索了下有关304情况码的1些內容,很多人都觉得是网站內容长期性收集或是伪原創也能致使蜘蛛回到该情况码,由于网站內容收集或伪原創确实会减少网站品质,致使百度搜索不收录等状况,检索蜘蛛也会觉得网站內容不具有收录的实际意义,那末也就不容易抓取新的內容而回到沒有升级的情况。
5、高度重视该情况码
既然304情况码是表明未升级的状况,那末常常出現就必须引发高度重视,另外也必须观查出現该情况码的另外网站各层面数据信息的转变和发展趋势,便于对该情况码的危害有较好的掌握。
临时网站出現304情况码以后历经百度搜索升级收录有一定的降低,前几日有过时断时续的网站没法浏览的状况,第2天网站主页就被K掉,在拆换服务器以后修复网站一切正常浏览,第二天主页再度修复,现阶段仍必须观查和剖析,才可以更好把握该情况码。
"> 对不起,没有下一图集了!">
在线咨询