使用Robots.txt引导百度爬虫合理分配抓取资源
我所在的网站算是一个大型网站,百度收录3000万,每天百度爬虫抓取总次数在500w次左右,单页的百度收录率 80%,看起来已经是一个相当不错的数据,但分析一下详细的日志文件,还是可以发现一些问题,
1.大型网站的列表页为了方便用户查找所需信息,通常会设置多重的筛选条件(Facet Navigation),但爬虫并没有智能到可以自主判断哪些条件可以组合,哪些条件组合起来没有意义,只要在代码里面有链接就会去抓取,导致百度爬虫耗费了大量资源在列表筛选页上。分析了一个月的数据,发现百度的抓取量有30%消耗在列表页,但是列表页带来的百度自然流量仅占所有百度自然流量的2%,所以对网站的列表页来说,爬虫的投入产出非常低。绵阳网站多少钱,绵阳网络公司推荐阅读>>> 禁止搜索引擎收录的方法,
2.重复抓取现象严重。 我个人觉得,对网站来说,只被爬虫抓取过1次的页面(Distinct Crawl)最有价值,因为对一张本身内容质量还可以的页面来说,只要被抓取过一次,收录的几率就超过80%。如果页面本身质量不行,即使被抓取过几十次,也依然不会被收录。 继续分析我们网站的数据,发现在百度爬虫一天500w的抓取中,有超过一半的抓取是对相同页面的多次抓取,如果能把这些重复的抓取转移到那些一次都没被抓过的页面上,对网站的价值无疑更大。网站制作公司绵阳,做网站推荐阅读>>> 被黑和站点安全,
如何解决这两个问题?
先说第一个,针对筛选页消耗爬虫资源问题,很多人都建议使用nofollow标签告诉爬虫,不要继续给这些页面分配权重,我们也这么做过。但事实证明百度爬虫对nofollow并不敏感,使用之后爬虫依旧疯狂抓取,同时也没有把权重从筛选页面上转移到规范页面上。
无奈之下,我们只好考虑起用SEO的大杀器:Robots文件,把所有的筛选页面全部disallow掉,之前没有使用robots禁止抓取的原因是担心万一爬虫被禁止抓取列表后,会不会其他的页面也不抓了?毕竟列表筛选页还是会给单页贡献大量入口,但基于我们网站单页收录还不错的现状,还是决定尝试一下。绵阳网站建设推荐阅读>>> 巧用robots避免蜘蛛黑洞-百度站长平台资讯,
事实证明,效果非常明显,新版的robots上线三天后,列表页的爬虫抓取量下降到15%;同时之前担心的问题也没有发生,爬虫的抓取总量不但没有下降,反而增长了10%左右,单页的抓取量也上升了20%,可以算是达到了我们的预期目标:把列表页浪费的爬虫资源转移到其他需要被抓取的页面上。
但是如何证明抓取资源是被转移到需要被抓取的页面上呢,这正好也是之前提到的第二个问题,我们看了唯一抓取率( 只抓一次的页面数/总抓取数)的变化,从50%增长到74%,可以说明爬虫在阅读robots文件后,对爬虫资源做了更合理的分配,更多的单页被抓取。绵阳做网站推荐阅读>>> 带你玩转robots协议,新手必备,
总结:Robots文件相比其他手段,可以在较短时间内优化百度爬虫的抓取资源分配,但这得建立在网站本身结构良好,内容过关的基础之上,同时最重要的还是得反复测试,通过日志分析实际情况来调整以取得最佳效果 转自百度站长社区
相关文章:
-
User-agent: * Disallow: / Allow: /complain/ Allow: /media_partners/ Allow: /about/ Allow: /user_agreement/ User-agent: ByteSpider Allow: / User-agent: ToutiaoSpider Allow: / 以上是今日头条的robots.txt,禁止所有搜索引擎收录,同时又...
-
有同学问百度站长学院一个关于robots的问题:我们有个站点的目录结构使用的是中文,这样式儿的:www.a.com/冒险岛/123.html,那在制作robots文件和sitemap文件的时候,可以直接使用中文吗?百度能...
-
robots文件是搜索生态中很重要的一个环节,同时也是一个很细节的环节。很多站长同学在网站运营过程中,很容易忽视robots文件的存在,进行错误覆盖或者全部封禁robots,造成不必要损失! 那...
-
目前百度图片搜索也使用了与百度网页搜索相同的spider,如果想禁止Baiduspider抓取网站上所有图片、禁止或允许Baiduspider抓取网站上的某种特定格式的图片文件可以通过设置robots实现:绵阳广告...
-
对于百度搜索引擎来说,蜘蛛黑洞特指网站通过极低的成本制造出大量参数过多、内容类同但url不同的动态URL ,就像一个无限循环的黑洞,将spider困住。spider浪费了大量资源抓取的却是无效网...
-
robots是站点与spider沟通的重要渠道,站点通过robots文件声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。请注意,仅当您的网站包含不希望被搜索引擎收录的内容...
-
亲爱的网站管理员, 很高兴的告诉大家,百度站长平台 robots 工具全新升级,升级后能够实时查看网站在百度中已生效的的robots文件,并支持对robots进行语法及逻辑校验,有助于站长更清晰的...
-
资料一 1.robots.txt文件是什么 robots.txt是一个纯文本文件,是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。每个站点最好建立...
-
robots.txt文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示: field:optional spacevalueoptionalspace 在该文件中可以使用#进行注解,具体使...
-
搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信 息。您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot 访问的部分,这...