织梦仿站进阶:[13]织梦采集侠(一)

2025-05-24 10:30:10

1、我们本次讲解的功能是,【绑定rrs】的办法。大家对采集要有个理念,所谓采集的过程实际上就是对【网页两头夹住,取出中间】,所谓的过滤替换规则 实际就是对采集过来的内容进行修补替换

织梦仿站进阶:[13]织梦采集侠(一)

2、我们先来复习下,如何织梦自带采集的办法,然后 【新建节点】,填上【列表页网址获取规则】,

织梦仿站进阶:[13]织梦采集侠(一)
织梦仿站进阶:[13]织梦采集侠(一)

3、【文章网址匹配规则】,在我们要采集的网页【右键】—【参看网页源代码】。有的时候,我们运气比较好,可以直接看到制作者在代码中直接把列表开始的网址标出来,如下图,为了方便取出网址,我们在【对区域网址进行再次筛选:】这里,填上一些取出网址的特征。

织梦仿站进阶:[13]织梦采集侠(一)
织梦仿站进阶:[13]织梦采集侠(一)
织梦仿站进阶:[13]织梦采集侠(一)

4、点击测试,如下图,就是正常情况,如果失败或者你不懂,请给笔者的经验留言

织梦仿站进阶:[13]织梦采集侠(一)

5、到了【新增采集节点:第二步设置内容亨蚂擤缚字段获取规则】,我们直接往下看,到了【文章内容】这部分,我们再到要采集的网页文板丘衡噎章的地方,右键【查看源码】,很明显,下面两处就是全文唯一的标识,我们填到采集处。我们先点【保存配置预览】,看下效果

织梦仿站进阶:[13]织梦采集侠(一)
织梦仿站进阶:[13]织梦采集侠(一)

6、采集回来的正文内容,有下面有几个细节:1.不要有争犸禀淫<div>存在,不然网站文章页就错位了,但是<p><br />这种符号是可以存在的2.其次不要有其他网站链接,不让就给其他人做广告了上面这两点,用过滤规则就可以解决

织梦仿站进阶:[13]织梦采集侠(一)

7、接下,正文内容正确后,我们就回头看下,文章的标题和文章的作者,时间之类的采集了,测试成功

织梦仿站进阶:[13]织梦采集侠(一)
织梦仿站进阶:[13]织梦采集侠(一)

8、我们到【织梦采集侠】—【绑定采集节点】—选择一个栏目绑定,不要更新的太多,设置每小时更新1篇就好,因为我们有ping插件,会自动提交的

织梦仿站进阶:[13]织梦采集侠(一)

9、我们测试,【采集单个栏目】,PS:请将采集每小时设置为3(之后再改回去),自动采集时间设置为你现在采集的时间,

织梦仿站进阶:[13]织梦采集侠(一)
织梦仿站进阶:[13]织梦采集侠(一)
织梦仿站进阶:[13]织梦采集侠(一)

10、请把采集的代码放到模板上,因为织梦采集侠,说穿了就是靠触碰而不是准点采集的。这样做也是为了减少内存消耗

织梦仿站进阶:[13]织梦采集侠(一)
声明:本网站引用、摘录或转载内容仅供网站访问者交流或参考,不代表本站立场,如存在版权或非法内容,请联系站长删除,联系邮箱:site.kefu@qq.com。
猜你喜欢