dedecms织梦采集规则编写教程之文章类采集
1、首先我们先登录后台,分别点击 采集--采集节点管理,进入采集管理设置界面

3、然后填写节点名称(建议是和栏目相关的名称,避免导入的时候出错),这个按实际填就可以了。然后第一个重点:目标页面编码 。这个是一定要填写目标网页的编码,非自己网页的。查看方法:打开目标网站随便一个页面,空白地方右键-查看源代码(编码一般在前几行)

5、另一种是列表规则是 手工指定列表网址,这个就比较通俗了。就是把你所有需要采集的列表页填写上去。(比较适合只采集某几页或者变量比较多的页面)注意:很多网站的栏目首页是以http://youqubu.cn/tansuo/这样的形式展示的,可以对比以上我们发现,少了后面的变量项。所以找到有变量项的方法是:点击这个列表的下一页,如果还弄不清楚就再点击下一页,对比列表的第二和第三页,我们可以同样发现步骤四的变量项。

7、下一步的缩略图我们可以选择不采集,因为织梦本身是会把第一张图片默认为缩略图的,这个看实际情况。下面是对网址的筛选:包含的意思是:这个步骤六选择的代码庐舌垩卫区间的文章网址只有包含了这部分才会被采集(这里有两种情况:1。譬如上面演示的地址,它是以超链接的形式,不是完整的网址,所以这种情况千万不要填写包含。2.就是列表涉及到多个链接的,比如标签这样的,最好填写包含,填写你想要的网址有的,不想要的网址没有的部分)。然后下一步。这边会列出因为上面填写的规则所采集到的列表页中文章的网址。如果是空白:我们可以先删除必须包含和不能包含,点击下一步测试,如果能采集到连接但是很乱,那就是你这步包含相关填错了;如果这样操作还是没有采集到东西,那就是“包含文章网址区域”这步填写错了。

8、分页规则也主要分两种:一种是直接填写默认代码:{path}{file}_{p}{ext} 然后选择分页列表规则(如下图)。 另一种是打开目标文章页,找到有上下几页的文章,右键查看源码,找到这部分代码,填写方式和文章页网址区域的方法一样,然后右边选择:全部列出的分页列表。(第二种方法要注意,因为涉及到多页,填写首尾代码的时候一定要多翻几张,然后查看源代码,把你认为共同的代码在多个页面查找下,因为可能出现你选择的代码在首页是可以找到的,在2.3四页后面就没有了,那就说明这个不是公用代码,你填上去也会导致采集不到分页的)


10、下面的内容也是一样的道理,这里要注意的是把广告代码或者不需要的东西屏蔽掉,这里就要用到“过滤规则”。一般情况下除了IMG这个,其他都可以过滤,如果你连图片也不要的话,全选即可。

11、最后点击保存,开始采集网页,采集完成后,我们点击采集-采集节点管理。我们进入后在刚才采集好的节点前面打钩,然后点击“导出数据”,选择你需要导入的栏目,确认即可。(最后一步设置最好设置下重复标题)
