怎样采集需要登陆的网页内容——前嗅
1、第一步:新建任务①点击左上角“加号”新建任务,如图1② 弹窗里填写采集地址,任务名称,开启手动登录配置,如图2。若未在此处开启登录配置,可在模板抽取配置中点击相应的模板,开启登录配置,如图3③点击下一步,选择进行数据抽取还是链接抽取,本次采集列表下的正文数据,所以本次需要抽取内容选择链接列表,所以点击抽取链接,选择链接列表,如图4④完成后模板抽取配置列表有两个模板,默认模板和子栏目。默认模板下自动生成一个链接抽取,名称为链接列表,此链接抽取已与链接列表模板关联,如图5






4、第四步:关联模板在软件中模板的关联关系,与网页中链接跳转的关系相同。根据网页跳转规律,将“链接列表”关联模板二“链接列表:02”,此处由于我们开始就选择了创建列表链接,所以软件自动关联好了模板二。如果配置的时候发现关联有问题,可以自己进行更改,如图1






9、第九步:字段取值①值方法:按住Ctrl+鼠标左键,进行区域选择,按住Shift+鼠标左键,扩大选择区域。点击“确认选区”按钮,确认操作。pub_time、content字段,如图1、图2:② 击采集预览确数据是否采集完全,如图3:



声明:本网站引用、摘录或转载内容仅供网站访问者交流或参考,不代表本站立场,如存在版权或非法内容,请联系站长删除,联系邮箱:site.kefu@qq.com。
阅读量:51
阅读量:87
阅读量:87
阅读量:29
阅读量:59