网站数据采集 文章采集,织梦网站采集功能教程

2025-10-25 11:26:58

1、第一步:

登录网站后台,点击采集模块,选择采集节点管理—文章采集—点击确定。

创建采集节点。

网站数据采集 文章采集,织梦网站采集功能教程

网站数据采集 文章采集,织梦网站采集功能教程

2、第二步:

1.给新建的采集节点命名,这里一某网站为例为教大家操作。

2.目标页面编码:点选和要采集的目标网站的编码一致,目标网站的编码是什么可以在目标网站页面右击—查看源文件—一般在页面最上面有本网站所用的编码类型,如图本次掩饰的网站用的是utf-8,那我们就要选择utf-8。

网站数据采集 文章采集,织梦网站采集功能教程

网站数据采集 文章采集,织梦网站采集功能教程

网站数据采集 文章采集,织梦网站采集功能教程

3、第三步:

1.引用网址设置:找到我们要采集的目标网站的列表页,在列表页内任意选择一篇文章把这篇文章的链接复制进来就可以了

2.来源属性中匹配网址的设置:在列表页的最下面点击下一页,我们会发现每一页的网址都是有规律的,网址中只有一个数字是不一样的,而这个数字就是每一页的页码数,我们复制任意一个列表页的网址以:http://网址.com/listpage/5574/(*)/list.shtml的格式填入匹配网址中。中间的(*)是变量,代表列表的页数。

然后输入自己要采集多少页,作为演示我采集两页,就输入从1到2.

网站数据采集 文章采集,织梦网站采集功能教程

网站数据采集 文章采集,织梦网站采集功能教程

网站数据采集 文章采集,织梦网站采集功能教程

网站数据采集 文章采集,织梦网站采集功能教程

4、第四步:

1.文章网址匹配规则设置:在目标网站列表页右击--查看源文件

2.在源文件中找到我们要采集的文章列表区域:本次演示的是从第一篇文章(一道菜轻松除口臭 百试百灵)---到最后一篇文章(每晚睡8小时死得快?到底该睡多久)这个区域。

也就是从:区域开始的HTML:<h2>健康提示</h2>——到区域结束的HTML:<div class="nextPage">这个区域里的内容,把这两段代码分别输入,(注意这两段代码必须在源文件中是唯一的:可以用Ctrl+F查找是否是唯一的,不然采集会出错)

3.保存进入下一步。

网站数据采集 文章采集,织梦网站采集功能教程

网站数据采集 文章采集,织梦网站采集功能教程

网站数据采集 文章采集,织梦网站采集功能教程

5、第五步:

上面保存进入下一步后看到以下截图,就说明填写正确,然后继续下一步。

网站数据采集 文章采集,织梦网站采集功能教程

6、第六步:

1.文章标题设置:任意打开列表页一篇文章,右击查看源文件,找到文章标题所在的代码,本次演示站的代码是<h1 itemprop="headline" id="artical_topic">男人必知:老中医不外传的10个养肾秘密</h1>。

然后复制这段代码以这种格式<h1 itemprop="headline" id="artical_topic">[内容]</h1>填入就好了。

2.文章内容匹配规则设置:和第四步想同,找到文章所在区域的开始代码和结束代码然后填入代码,本次演示站的开始结束代码是<!--mainContent begin-->和<!--mainContent end-->。然后写成<!--mainContent begin-->[内容]<!--mainContent end-->这种格式。

点击保存并预览

网站数据采集 文章采集,织梦网站采集功能教程

网站数据采集 文章采集,织梦网站采集功能教程

网站数据采集 文章采集,织梦网站采集功能教程

网站数据采集 文章采集,织梦网站采集功能教程

网站数据采集 文章采集,织梦网站采集功能教程

7、第七步:

预览结果如下就可以了,保存并开始采集。

网站数据采集 文章采集,织梦网站采集功能教程

网站数据采集 文章采集,织梦网站采集功能教程

网站数据采集 文章采集,织梦网站采集功能教程

8、第八步:

采集完成,点击采集节点管理,勾选采集节点,然后导出数据到相应的网站栏目里,演示时采集的是关于健康的文章,所以此处导入到两性健康栏目,勾选排除重复标题,采集重复的会自动过滤掉,然后确定。

网站数据采集 文章采集,织梦网站采集功能教程

网站数据采集 文章采集,织梦网站采集功能教程

网站数据采集 文章采集,织梦网站采集功能教程

9、第九步:

生成:点击一键更新网站,选择更新当前内容,点击确定更新。会把采集来的文章生成静态的HTML网页。大功告成了!

网站数据采集 文章采集,织梦网站采集功能教程

10、第十步:

采集规则编写步奏还是挺多的,如果一遍看不懂建议多看几遍,多试几次,本次教程到此结束希望能够帮助大家。

声明:本网站引用、摘录或转载内容仅供网站访问者交流或参考,不代表本站立场,如存在版权或非法内容,请联系站长删除,联系邮箱:site.kefu@qq.com。
猜你喜欢