dedecms 如何采集文章

2026-06-16 15:20:04

1、首先：登录后台，进入“采集节点管理”，新建一个节点，选择内容模型为“普通文章”。

设置节点基本信息

　　先填写一个方便记忆的节点名称（如：情话大全），选择目标页面编码为GB2312，防盗链模式不做设置，因目标站没做限制，这一项就不做修改，系统默认超时时间10秒。

2、设置列表网址获取规则

　　这一步我们要做些设置，获取文章列表地址，回到目标站列表页，观察分页间的变化，可以发现只有“_5”后的数字有规律的递增变化。
　　首页：http://www.weilaiai.com/sgqh/index_1.html
　　中间：http://www.weilaiai.com/sgqh/index_(*).html
　　末页：http://www.weilaiai.com/sgqh/index_5.html

复制一个分页地址，回到“新增采集节点”页面，选择“来源属性”为“批量生成列表网址”，把粘贴地址到“匹配网址”中，修改规律变化处为(*)，“批量生成地址设置”处(*)输入1到5，这里的意思是生成出列表第一页到最后5页的所有地址。

　　测试一下，在弹出框中我们可以看到循环出5条地址记录，很顺利的就设置好了。有时候会碰到较难获取的列表，那我们可以把把没规律的地址复制到”手工指定列表网址“文本框中来采集。

3、设置文章网址匹配规则

　　上面指定好了文章地址来源页，这一步就需要在这些页面中找出符合要求的文章地址页了。打开一个列表页面观察，左栏的方框中包含了我们需要的全部地址，这种情况区分明显的页面，可以利“区域开始的HTML”和“区域结束的HTMLL”设置进行过滤。
　　不过也可以使用其他方法。把鼠标移到各处链接地址，观察浏览器左下角显示的完整地址，我们需要的地址都包含“sgqh/”，那我们把它填写到“必须包含”中。
　　两种方法都能够过滤出地址，碰上复杂页面，可以配合起来使用，加上正则，几乎没有筛选不出的地址。最后确定，进入下一步“网页内容获取规则”。

4、网页内容获取规则

　　上面介绍了列表设置的方法，接下来我们进入内容获取规则的设置，如果说采集是上菜的话，上面一到三步的作用，只是开胃菜为下面的主菜做引。接下来是介绍如何从目标站把文章内容采集过来，这一步是是整个采集中最为核心的部分。

5、保存自己的设置，可以采集。

声明：本网站引用、摘录或转载内容仅供网站访问者交流或参考，不代表本站立场，如存在版权或非法内容，请联系站长删除，联系邮箱：site.kefu@qq.com。