巧用robots避免蜘蛛黑洞-百度站长平台资讯

来源：未知日期：2017-06-27 | 分类：seo

　　对于百度搜索引擎来说，蜘蛛黑洞特指网站通过极低的成本制造出大量参数过多，及内容雷同但具体参数不同的动态URL ，就像一个无限循环的“黑洞”将spider困住，Baiduspider浪费了大量资源抓取的却是无效网页。

　　比如很多网站都有筛选功能，通过筛选功能产生的网页经常会被搜索引擎大量抓取，而这其中很大一部分检索价值不高，如“500-1000之间价格的租房”，首先网站（包括现实中）上基本没有相关资源，其次站内用户和搜索引擎用户都没有这种检索习惯。这种网页被搜索引擎大量抓取，只能是占用网站宝贵的抓取配额。那么该如何避免这种情况呢？绵阳网站建设推荐阅读>>> 带你玩转robots协议，新手必备，

　　我们以北京某团购网站为例，看看该网站是如何利用robots巧妙避免这种蜘蛛黑洞的：

　　对于普通的筛选结果页，该网站选择使用静态链接，如：http://bj.XXXXX.com/category/zizhucan/weigongcun

　　同样是条件筛选结果页，当用户选择不同排序条件后，会生成带有不同参数的动态链接，而且即使是同一种排序条件（如：都是按销量降序排列），生成的参数也都是不同的。如：http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqhek

　　http://bj.XXXXX.com/category/zizhucan/weigongcun/hot?mtt=1.index%2Fpoi.0.0.i1afqi5c

　　对于该团购网来说，只让搜索引擎抓取筛选结果页就可以了，而各种带参数的结果排序页面则通过robots规则拒绝提供给搜索引擎。

　　robots.txt的文件用法中有这样一条规则：Disallow: /*?* ，即禁止搜索引擎访问网站中所有的动态页面。该网站恰是通过这种方式，对Baiduspider优先展示高质量页面、屏蔽了低质量页面，为Baiduspider提供了更友好的网站结构，避免了黑洞的形成。

利用robots.txt禁止百度蜘蛛Baidusppider抓取

User-agent: * Disallow: / Allow: /complain/ Allow: /media_partners/ Allow: /about/ Allow: /user_agreement/ User-agent: ByteSpider Allow: / User-agent: ToutiaoSpider Allow: / 以上是今日头条的robots.txt，禁止所有搜索引擎收录，同时又...
【官方说法】robots文件是否支持中文目录

有同学问百度站长学院一个关于robots的问题：我们有个站点的目录结构使用的是中文，这样式儿的：www.a.com/冒险岛/123.html，那在制作robots文件和sitemap文件的时候，可以直接使用中文吗？百度能...
网站误封Robots该如何处理

robots文件是搜索生态中很重要的一个环节，同时也是一个很细节的环节。很多站长同学在网站运营过程中，很容易忽视robots文件的存在，进行错误覆盖或者全部封禁robots，造成不必要损失！那...
禁止百度图片搜索收录某些图片的方法

目前百度图片搜索也使用了与百度网页搜索相同的spider，如果想禁止Baiduspider抓取网站上所有图片、禁止或允许Baiduspider抓取网站上的某种特定格式的图片文件可以通过设置robots实现：绵阳广告...
使用robots巧妙避免蜘蛛黑洞

对于百度搜索引擎来说，蜘蛛黑洞特指网站通过极低的成本制造出大量参数过多、内容类同但url不同的动态URL ，就像一个无限循环的黑洞，将spider困住。spider浪费了大量资源抓取的却是无效网...
robots.txt写法_怎么写robots

robots是站点与spider沟通的重要渠道，站点通过robots文件声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。请注意，仅当您的网站包含不希望被搜索引擎收录的内容...
百度站长平台robots工具升级公告

亲爱的网站管理员，很高兴的告诉大家，百度站长平台 robots 工具全新升级，升级后能够实时查看网站在百度中已生效的的robots文件，并支持对robots进行语法及逻辑校验，有助于站长更清晰的...
怎样写robots文件_robots文件写法技巧_robot.txt的例子

资料一 1.robots.txt文件是什么 robots.txt是一个纯文本文件，是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。每个站点最好建立...
robots.txt文件的格式

robots.txt文件包含一条或更多的记录，这些记录通过空行分开（以CR,CR/NL, or NL作为结束符），每一条记录的格式如下所示： field:optional spacevalueoptionalspace 在该文件中可以使用#进行注解，具体使...
robots.txt文件是什么？

搜索引擎通过一种程序robot（又称spider），自动访问互联网上的网页并获取网页信息。您可以在您的网站中创建一个纯文本文件robots.txt，在这个文件中声明该网站中不想被robot 访问的部分，这...