Python教程：[38]正则表达式匹配中文

2026-05-03 07:28:36

做数据分析经常从网页获取数据，如果你做文本挖掘，你就经常用到正则表达式来匹配中文，这是个非常麻烦的事情，网页的编码不同，你还需要进行解码，今天我就遇到了一个这样的问题，我把这个过程中的经验分享给大家，希望对大家有用。

假如我们使用getpage函数获得网页文件f

我们知道网页文件的编码方式是utf-8，所以先使用decode进行解码。假如你不知道网页的编码方式，你可以看我以前的文章【如何知道网页编码方式】

Python教程：[38]正则表达式匹配中文

写好你的正则表达式，我们看到我的正则表达式包含中文，如果直接跟网页文件进行匹配，则无法匹配，我们只是对这个正则表达式进行解码

Python教程：[38]正则表达式匹配中文

因为我们知道python对中文的编码是gbk，所以我们使用gbk进行解码

Python教程：[38]正则表达式匹配中文

好了，前期工作准备好以后，我们就可以进行正则表达式的匹配了。

声明：本网站引用、摘录或转载内容仅供网站访问者交流或参考，不代表本站立场，如存在版权或非法内容，请联系站长删除，联系邮箱：site.kefu@qq.com。