首页 新闻 论坛 群组 Blog 文档 下载 读书 Tag 网摘 搜索 .NET Java 游戏 视频 人才 外包 第二书店 程序员
您的位置:软件研发->Yahoo更新 Slurp 3.0搜索爬虫机制

Yahoo更新 Slurp 3.0搜索爬虫机制 2008-04-22 来自:java060515  [收藏到我的网摘]

Yahoo于周一(4/14)表示,该公司最近正逐步更新搜索引擎,并采用新的Yahoo! Slurp 3.0搜索爬虫机制,预计要几周内分阶段完成全球更新。

搜索爬虫(crawler)或称网络爬虫是搜索引擎后端的重要元素,它在全球的因特网上漫游,并搜集所有网站资料并回传到搜索引擎服务器上。

Yahoo说明,新的Yahoo! Slurp 3.0仍能辨识与先前Yahoo! Slurp一样的使用者代理人及所有的robots.txt指令,只是它在用户的网页纪录上会将其视为Yahoo! Slurp 3.0。

Yahoo! Slurp 3.0将从一个不同的小群IP地址开始搜集数据,但同样来自crawl.yahoo.net domain。不过,Yahoo表示若网站业者使用以IP为基础的爬虫辨识设定,可能会被Yahoo爬虫所忽略,因此强烈建议业者采用反向DNS辨识,任何利用反向DNS来确认Yahoo爬虫的皆能持续运作。

此外,新爬虫会发表一个新的Yahoo! Slurp/3.0使用者代理人,既有的Slurp或Yahoo! Slurp底下的robots.txt指令都能继续运作,不过新爬虫无法辨识以Slurp/2.0为名的用户代理人指令。

robots.txt是一存放于网站根目录中的文本文件,用来定义网站上哪些内容可以或不能供网络爬虫存取,Yahoo也在网站上说明如何利用robots.txt以避免网站或特定网页资料不被搜索引擎搜集及索引

推荐人评论

Yahoo近日表示,该公司最近正逐步更新搜索引擎,并采用新的Yahoo! Slurp 3.0搜索爬虫机制,预计要几周内分阶段完成全球更新。

用户评论

正在载入评论列表...

是谁推荐了此篇文章

专家头像付江CSDN频道编辑
个人blog发送信息
付江推荐的其他文章

热点新闻

热点评论

    视频访谈

    精彩专题

    网站简介|广告服务|VIP资费标准|银行汇款帐号|网站地图|帮助|联系方式|诚聘英才|English|版权声明|问题报告

    北京创新乐知广告有限公司 版权所有, 京 ICP 证 070598 号
    世纪乐知(北京)网络技术有限公司 提供技术支持
    Copyright 2000-2008, CSDN.NET, All Rights Reserved
    GongshangLogo