搜索引擎抓取策略

2025-05-10 19:52:40

1.大站点优先

大站点属性:PR值高;外链多;内容质量高;抓取速率快(有着稳定的服务器/良好的网站结构/鬲尚嫱侉优秀的用户体验/内容质量高/),抓取频率高,有些甚至7x24小时不间断

利用策略 :将新站点地址放在这些大站点或者类大站点上

2.重要页面优先抓取

重要页面排序依据:页面获取的已抓取页面的连接的多少和连接权重的高低

3.抓取策略

spider选择性的使用深度和广度优先原则(搜索引擎自身资源有限)对站点进行URL抓取,对URL进行以上1、2点比较后放入队列内排序

4.更新策略

a.用户体验

网页被搜索到的次数越多,被再次抓取的频率就会越高。

b.历史更新频率

搜索引擎对页面再次抓取并分析页面是否更新,记录更新频率,更新频率越高的,被再次抓取就越高

c.网页类型

同一站点下,首页、目录页、专题页和文章页的更新频率不同,首页、目录页要快。

s

权重高的页面抓取频率高

对网页进行a/b/c/d四项进行权衡,对网页更新频率进行确定。

声明:本网站引用、摘录或转载内容仅供网站访问者交流或参考,不代表本站立场,如存在版权或非法内容,请联系站长删除,联系邮箱:site.kefu@qq.com。
猜你喜欢