Python教程:[38]正则表达式匹配中文

2025-11-03 03:41:09

做数据分析经常从网页获取数据,如果你做文本挖掘,你就经常用到正则表达式来匹配中文,这是个非常麻烦的事情,网页的编码不同,你还需要进行解码,今天我就遇到了一个这样的问题,我把这个过程中的经验分享给大家,希望对大家有用。

    假如我们使用getpage函数获得网页文件f

    Python教程:[38]正则表达式匹配中文

    我们知道网页文件的编码方式是utf-8,所以先使用decode进行解码。假如你不知道网页的编码方式,你可以看我以前的文章【如何知道网页编码方式】

    Python教程:[38]正则表达式匹配中文

    写好你的正则表达式,我们看到我的正则表达式包含中文,如果直接跟网页文件进行匹配,则无法匹配,我们只是对这个正则表达式进行解码

    Python教程:[38]正则表达式匹配中文

    因为我们知道python对中文的编码是gbk,所以我们使用gbk进行解码

    Python教程:[38]正则表达式匹配中文

    好了,前期工作准备好以后,我们就可以进行正则表达式的匹配了。

(共篇)上一篇:处理网页源码中的...|下一篇:
声明:本网站引用、摘录或转载内容仅供网站访问者交流或参考,不代表本站立场,如存在版权或非法内容,请联系站长删除,联系邮箱:site.kefu@qq.com。
猜你喜欢