简单分析搜索引擎蜘蛛的爬取策略

nsxia110 · 发表于 2013-3-28 12:05:45

搜索引擎蜘蛛每天是怎么样去爬取我们的网的呢？针对这些你有多少的了解？那搜索引擎蜘蛛的爬取过程又是怎么样的呢？在搜索引擎蜘蛛系统中，待爬取URL队列是很关键的部分，需要蜘蛛爬取的网页URL在其中顺序排列，形成一个队列结构，调度程序每次从队列头取出某个URL，发送给网页下载器页面内容，每个新下载的页面包含的URL会追加到待爬取URL队列的末尾，如此形成循环，整个爬虫系统可以说是由这个队列驱动运转的。同样我们的网站每天都要经过这样一个队列，让搜索引擎进行爬取的。

那么待爬取URL队列中的页面URL 的排列顺序是如何来确定的呢？上面我们说了将新下载页面中的包含的链接追加到队列尾部，这固然是一种确定队列URL顺序的方法，但并非唯一的手段，事实上，还可以采纳很多其他技术来实现，将队列中待爬取的URL进行排序。那么究竟搜索引擎蜘蛛是按照什么样的策略进行的爬取呢？以下我们来进行更深入的分析吧。

第一、宽度优化遍历策略

宽度优化遍历是一种非常简单直观且历史很悠久的遍历方法，在搜索引擎爬虫一出现就开始采用了。新提出的抓取策略往往会将这种方法作为比较基准，但应该注意到的是，这种策略也是一种相当强悍的方法，很多新方法实际效果不见昨比宽度优化遍历策略好，所以至今这种方法也是很多实际爬虫系统优先采用的爬取策略。网页爬取顺序基本是按照网页的重要性排序的。之所以如此，有研究人员认为，如果某个网页包含很多入链，那么更有可能被宽度优化遍历策略早早爬到，而入链这个数从侧面体现了网页的重要性，即实际上宽度优化遍历策略隐含了一些网页优化级假设。

账号		自动登录	找回密码
密码			开放注册

简单分析搜索引擎蜘蛛的爬取策略

浏览过的版块