如何在爬虫中使用正则表达式获取相关内容
1、比如我们需要爬虫一个招聘网站上的相关招聘信息,来用作我们之后的处理和操作的话,我们需要先右键当前网页,来查看我们的网页源代码。可以看见,下图就是我们网页源代码的一部分。


3、但是在这里我们需要注意的是,直接通过<p>这样子筛选是很有可能又弊瞿搋村乇端的,因为html的标签之中,<p class="???"稆糨孝汶;>这样子的标签也是很常见的,这样子仅仅要通过<p>这样子筛选是肯定会漏掉的,因此我们拟采用<p.*?>.*?</p>这个方法来进行筛选,别的标签比如div span 也是同理。




声明:本网站引用、摘录或转载内容仅供网站访问者交流或参考,不代表本站立场,如存在版权或非法内容,请联系站长删除,联系邮箱:site.kefu@qq.com。
阅读量:52
阅读量:89
阅读量:79
阅读量:21
阅读量:33