建站之路028火车头采集器抓取网页文章
1、百度搜索下载火车头采集器,然后运行LocoyPlatform.exe程序


4、在火车头采集器中添加采集地址,然后点击“添加”按钮加入采集列表

6、回到经验页面,在内容选择内容第一段,然后再源代码中找到相应的位置

8、同样的原理将文章的尾部也提取一段文字进行查找,并提取一段唯一的结束代码,小范提取的是<span class="prompt-ico">

10、接着我们进入第二步,设置采集内容规则,这里我尺攵跋赈们主要是来设置提取的规则,告诉火车头采集器从哪里开始采集,方法和之前的采集范围设定是一样的,只是这里分的比较细。标题、内容采、作者、时间等等,可以分开来提取

12、内容提取,选择正文首尾内容然后再源代码中查找对应的标签,然后我们来测试下采集效果,这是我们采集到的内容,可以看出来采集到的是源代码中的内容。

14、回到主页,我们开始执行采集任务,看看采集效果如何

15、这样就可以提取到网站的内容了,但是提取比较粗糙,格式都乱了,而且有很多多于的代码,所以要想完整准确的提取正文,还需要多下功夫,慢慢调整规则。
声明:本网站引用、摘录或转载内容仅供网站访问者交流或参考,不代表本站立场,如存在版权或非法内容,请联系站长删除,联系邮箱:site.kefu@qq.com。