搜索引擎抓取网页的工作原理
1、一.抓取建库
蜘蛛抓取是搜索引擎主要的数据来源,如果把web理解为一个有向图,那么蜘蛛的工作过程可以看做是对这个有向图的遍历,如图为抓取过程。

2、二.抓取策略类型
友好型抓取:一个域名对多个ip(很多大网站)或多个域名对应同一个ip(小网站共享ip)的问题,根据ip及域名的多种条件进行压力调配控制,也即根据友好度来抓取。

3、三.新链接重要程度判断
主要从两方面来判断,一是内容独特,主题突出,内容丰富,广告适当,这些都是从用户体验的角度了分析;其次是目录层级,层级越深越不重要!

4、四.优先抓取建重要库的原则
有时效性且有价值的页面,并且内容优质,原创度高,活跃度和访问量趋于稳定且比较大。

5、五.外部投票
也就是外链的作用,就相当于投票机制,有越多优质的外链链接到你的网站,即你的投票数就越多,当然外链也是分优质和低劣的区别,以及行业相关程度。

声明:本网站引用、摘录或转载内容仅供网站访问者交流或参考,不代表本站立场,如存在版权或非法内容,请联系站长删除,联系邮箱:site.kefu@qq.com。
阅读量:155
阅读量:55
阅读量:133
阅读量:151
阅读量:127