作者:雅虎中国 来源:雅虎中国-网页搜索帮助   酷勤网收集 2008-08-12

摘要
  在robots.txt 里,YST有一个特定的扩展名,可以通过它对我们的抓取程序设定一个较低的抓取请求频率。您可以加入Crawl-delay:xx指示,其中,“XX”是指在crawler程序两次进入站点时,以秒为单位的最低延时。

 由于我们从整个因特网上抓取数以百亿计的网页,对于网络抓取我们采取大量系统,因此,您的网络服务器会从不同的YST抓取程序的客户端IP地址登录请求。不同的抓取程序系统彼此配合,来限制任何来自单一网络服务器的活动。所谓单一网络服务器,是由IP地址判断的。因此,如果您的服务器主机拥有多个IP,它的活动则会处于更高的级别。

    在robots.txt 里,YST有一个特定的扩展名,可以通过它对我们的抓取程序设定一个较低的抓取请求频率。您可以加入Crawl-delay:xx指示,其中,“XX”是指在crawler程序两次进入站点时,以秒为单位的最低延时。如果crawler频率对您的服务器是一个负担,您可以将这个延时设定为任何您认为恰当的数字,例如1或10。

    例如,您想设定一个2秒的延时,语句如下:

    User-agent: Slurp
    Crawl-delay: 2

来自:http://search.help.cn.yahoo.com/h4_5.html

分类: 站长经验 Web开发 网页设计

上一篇:10个超漂亮的Blogger模板下载   下一篇:利用robots.txt控制Yahoo! Slurp蜘蛛的抓取频度