熊猫采集器如何采集小说
1、点击 新建项目(标准)。

3、标题列表页及其翻页设置,列表页是包含我们要采集内容的链接网址的页面,比如百度搜索一个关键词,会列出来很多网页,有点类似这个。我们随便找一部小说的章节列表,复制该网页的网址。

5、软件会询问是否需要自动进行翻页设置,因为这地方我们只采集这一页的上的链接,不需要翻页,选择否,保持默认设置,直接点击下一步。

6、然后是选择内容页,这个步骤就是告诉软件需要采集哪些链接里面的内容。我们在软件左咐搭趔涮边随便选择一个需要采集的链接。一般情况下软件会自动分析,和你所选择链接枷讹般身相似的链接都会被框选,由于各个网站千变万化,有时软件的自动框选并不准确,就像这里软件只选中了两个链接,显然不是我们想要的结果。

8、如果直到最后都没能达到我们预期,那么就需要到高级设置里进行微调。

10、针对这个网站,我们把进行泛海选勾上,然后点击确定。

12、来到内容页面模板管理,直接点击添加新模板,会凸鹣沮北把我们在上一步选中的链接作为模板,这地方也可以自己选择一个模板,然后把网址粘贴到添加新模板按钮左边的文本框里,点击添加新模板。

14、此时软件会根据模板页面的内容分析展示在软件的左边,但查看之后可以发现,左边模板页面内容的分析与指定区域只有标题信息,并看不到我们要的正文信息。

16、点击那个以.txt结尾的链接就可以看到完整的小说正文了。

18、但由于这地方我们要的链接在网页中并不存在,我们还需要先自己添加一个这样的链接,软件有一个利用中介方式添加新的指向能够人为的在软件中添加一个新的链接。

20、然后系统会让你确认中介设置是否正确,如果没有问题点击确定就可以。

22、在此之前别忘了先把标题采集一下,注意每级页面保证至少采集一项内容,以避免不必要的问题。

24、点击开始分析,小说的正文就全部出现了,完全采集就可以了。但这里我们选用另一种更简单方式来采集,直接采集网页的源代码,这样就不会漏采任何段落。

26、回到主界面,点击软件下方的项目高级设置。

28、点击修改按钮来修改我们的模板。

30、对采集结果修缮一下,去掉不要的内容。

32、到此,采集设置全部完成,一路点击确定保存配置,然后可以点击运行按钮开始采集。

34、采集完之后,点击软件上方的项目管理-->打开项目文件夹。

36、点击启用。

38、选中标题和正文两列,复制到txt文件中。
