网络爬虫类型
1、 首先介绍通用网络爬虫(General Purpose Web 觊皱筠桡Crawler),通用网络爬虫的爬取目标是全网资源,目标数据庞大。主要刂茗岚羟应用于大型搜索引擎中,如百度搜索引擎的百度蜘蛛,商业价值巨大。 通用网络爬虫主要是由初始URL集合、URL队列、页面爬行模块、页面分析模块、页面数据库、连接过滤模块等构成。爬行的时候需要采用一定的爬行策略,主要有深度优先爬行策略和广度优先爬行策略。

3、 增量式网络爬虫(Incremental Web Crawler),所谓增量式,即增量式更新。增量式更新指的是再更新的时候只更新改变的地方,而为改变的地方则不更新,所以该爬虫只爬取内容发生变化的网页或者新产生的网页。

声明:本网站引用、摘录或转载内容仅供网站访问者交流或参考,不代表本站立场,如存在版权或非法内容,请联系站长删除,联系邮箱:site.kefu@qq.com。
阅读量:96
阅读量:48
阅读量:52
阅读量:22
阅读量:48