baiduspider(Baiduspider每次抓取耗时非常长是什么原因)
你是否对于baiduspider和Baiduspider每次抓取耗时非常长是什么原因感到困惑?别担心,今天小编将为您揭开这个谜团,让我们一同探索吧!
新站上线一个半月,Baiduspider不来抓取我的网页,首页都不来
你好。你的新网站每天更新,更新的是原创内容还是采集的其他网站内容呢?如果原创内容很少,绝大部分都是采集的内容。那么蜘蛛排爬行的次数就会少很多。这种情况下制住都是几天甚至几周才来爬行一次,发现没有好的文章内容。也就是说原创文章特别少。下次爬行的时间就会更加延长。所以做网站最关键的就是原创内容。如果你的网站模板本身就是改动很少。网站模板与其他网站相同的地方过多,或者是大量采集别人的网站的文章。那么蜘蛛就会认定你的垃圾站。所以就会收录的,爬行者越来越少。所以做网站能够原创出大量的文章才是王道。
Baiduspider每次抓取耗时非常长是什么原因
Baiduspider抓取耗时非常长一般凸显以下这几点:
快照时常不更新
网站收录少
网站关键词排名低
而造成这种抓取耗时的原因,分为以下几种:
网站是新站,这类情况的话,抓取耗时长是正常的,有些新站一个月才被百度收录。
蜘蛛爬过站点,但是没有抓取带走站点数据,页面。这类情况,可以查看网站日志根据蜘蛛反馈的状态码查询原由。
站点充斥了太多富媒体文件,而且网站信息原创度不高,这类会导致蜘蛛对站点失去兴趣,从而不在抓取站点。
那么怎么解决呢?
提高站点原创度,网站更新频率稳定。
主关键词,副关键词分布合理。切勿堆砌关键词
查看网站日志,根据所反馈状态码,作出相应的解决方法。
蜘蛛反馈码一般分为以下几种:
200 0 0成功访问该页面,0代表抓取成功并带回数据库。这个时候你就放心了,这个页面已经被bd收录,但是还没有释放出来,bd更新时就可能释放出来。
200 0 64访问了该页面,但并没有任何抓取也没有带回数据库。这种原因多为空间不稳定、服务器不稳定。
304 0 0这个返回码代表蜘蛛访问的页面没有更新,和他之前来的时候是一样的,所以看到这个不要担心,蜘蛛来过,只不过你没有更新,所以他也不愿意带走这个页面。
404 0 0这个是代表404页面,但是有个很严重的问题,这个返回码告诉我们,蜘蛛来到了404页面并把他带走了。
请问Baiduspider对网站抓取压力值为多少才是正常的
同样咨询百度抓取
自动向百度推送URL链接,百度搜索也会考虑来抓取,自己的新站百度抓取频次不过几次,百度抓取的频次低大家帮助分析一下
参考站:www.grtcsh.com
取频率是通过查看每日的日志里百度蜘蛛抓取次数,网站怎么做才能符合百度的抓取规则?
如何正确识别Baiduspider移动ua
百度站长平台发布公告宣布新版Baiduspider移动ua上线,同时公布了PC版Baiduspider ua,那么该如何正确识别移动ua呢?我们百度站长平台技术专家孙权老师给出了答案:
新版移动ua:
Mozilla/5.0(Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46(KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3(compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)
PC ua:
Mozilla/5.0(compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)
之前通过“+http://www.baidu.com/search/spider.html”进行识别的网站请注意!您需要修改识别方式,新的正确的识别Baiduspider移动ua的方法如下:
1.通过关键词“Android”或者“Mobile”来进行识别,判断为移动访问或者抓取。
2.通过关键词“Baiduspider/2.0”,判断为百度爬虫。
另外需要强调的是,对于robots封禁,如果封禁的agent是Baiduspider,会对PC和移动同时生效。即,无论是PC还是移动Baiduspider,都不会对封禁对象进行抓取。之所以要强调这一点,是发现有些代码适配站点(同一个url,PC ua打开的时候是PC页,移动ua打开的时候是移动页),想通过设置robots的agent封禁达到只让移动Baiduspider抓取的目的,但由于PC和移动Baiduspider的agent都是Baiduspider,这种方法是非常不可取的。
关于本次baiduspider和Baiduspider每次抓取耗时非常长是什么原因的问题分享到这里就结束了,如果解决了您的问题,我们非常高兴。