如何采集搜狗微信文章

2025-05-09 03:19:57

1、步骤1:创建采集任务1)进入主界面,选择“自定义模式”

如何采集搜狗微信文章

3、步骤2:创建翻页循环1)打开右上角的“流程”。网页打开后,默认显示“热门”文章。下拉页面,找到并点击“加载更多内容”按钮,在操作提示框中,选择“更多操作”

如何采集搜狗微信文章

5、由于此网页涉及Ajax技术,我们需要进行一些高级选项的设置。选中“点击元素”步骤,打开“高级选项”,勾选“Ajax加载数据”,设置时间为“2秒”

如何采集搜狗微信文章

7、步骤3:创建列表循环并提取数据1)移动鼠标,选中页面里第一篇文章的区块。系统会识别此区块中的子元素,在操作提示框中,选择“选中子元素”

如何采集搜狗微信文章

9、3)我们可以看到,页面中文章区块里的所有元素均被选中,变为绿色。右侧操作提示框中,出现字段预览表,将鼠标移到表头,点击垃圾桶图标,可删除不需要的字段。字段选择完成后,选择“采集以下数据”

如何采集搜狗微信文章

11、5)选择“采集以下链接地址”

如何采集搜狗微信文章

13、步骤4:修改Xpath我们继续观察,通过5次点击“加载更多内容”后,此网页加载出全部100篇文章。因而我们配置规则的思路是,囗寝嗵若先建立翻页循环,加载出全部100篇文章,再建立循环列表,提取数据1)选中整个“循环”步骤,将其拖出“循环翻页”步骤。如果不进行此项操作,那么将会出现很多重复数据

如何采集搜狗微信文章

15、2)在“列表循环”步骤中,我们建立100篇文章的循环列表。选中整个“循环步骤”,打开“高级选项”,将不固定元素列表中的这条淌捌釜集Xpath://BODY[@id='loginWrap']/DIV[4]/DIV[1]/DIV[3]/UL[1]/LI ,复制粘贴到火狐浏览器中的相应位置

如何采集搜狗微信文章

17、4)将Xpath修改为: //BODY[@id='loginWrap']/DIV/DIV[1]/DIV[3]/UL/LI,我们发现页面中所有要采集的文章都被定位了

如何采集搜狗微信文章

19、6)点击左上角的“保存并启动”,选择“启动本地采集”

如何采集搜狗微信文章

21、2)这里我们选择excel作为导出为格式,数据导出后如下图

如何采集搜狗微信文章
声明:本网站引用、摘录或转载内容仅供网站访问者交流或参考,不代表本站立场,如存在版权或非法内容,请联系站长删除,联系邮箱:site.kefu@qq.com。
猜你喜欢