火车头采集软件如何批量采集网页数据
1、打开软件并注册
2、新建分组,新建任务
3、打开界面,按顺序填入您想采集的网址以及采集的选择范围,范围从网页的源代码里选取不重复的代码段,不然会报错。这个樘论罪朋网址可以是直接是要采集的内容页也可以是分页,本例以最简单的直接采集页面为例,那么选择级别为“0”
4、编辑内容采集的规则,也是要求能识别的标志性代码段,能够唯一识别或最早识别所需采集内容的。这样出来结果是一条数据。
5、如果采集网址内容有规律的重复,且为我们需要的数据,可以点击“循环匹配”这样能采集下来所有相同代码段的内容。这样出来结果是格式相同的n条数据。
6、选择发布的格式,好多收费的,txt不收费,自己看的话可以选此,有其他需要请自行选择,另外模板标签需要自己编辑。
7、图例为采集结果,直观显示,如果问题亦会在此报错。
8、选择任务,右键单击“开始”即可。
声明:本网站引用、摘录或转载内容仅供网站访问者交流或参考,不代表本站立场,如存在版权或非法内容,请联系站长删除,联系邮箱:site.kefu@qq.com。
阅读量:69
阅读量:78
阅读量:20
阅读量:51
阅读量:73