完成巨量html标签的去除(bs4的妙用)
1、python、pip、bs4的安装,bs4用pip install命令获取
2、先看原始文件,全是html标签,总共1.7亿字

4、打开python命令行(这里我为了看起来方便用了idel,但是命令行处理能力较强)载入BeautifulSoup模块来去除html标签

6、然后用open 'r' 读取文件,168Mb纯文本,几秒就读完了。因为文本中含有中文,要加encoding='utf-8',否则会出错。

8、关掉python,可以看到新文件已经缩减为了原来的四分之一

声明:本网站引用、摘录或转载内容仅供网站访问者交流或参考,不代表本站立场,如存在版权或非法内容,请联系站长删除,联系邮箱:site.kefu@qq.com。
阅读量:71
阅读量:61
阅读量:86
阅读量:76
阅读量:84