Python教程:[38]正则表达式匹配中文
做数据分析经常从网页获取数据,如果你做文本挖掘,你就经常用到正则表达式来匹配中文,这是个非常麻烦的事情,网页的编码不同,你还需要进行解码,今天我就遇到了一个这样的问题,我把这个过程中的经验分享给大家,希望对大家有用。
假如我们使用getpage函数获得网页文件f
![Python教程:[38]正则表达式匹配中文](https://exp-picture.cdn.bcebos.com/e177fc9147e833e0d03be9b730ea3e86314859e2.jpg)
我们知道网页文件的编码方式是utf-8,所以先使用decode进行解码。假如你不知道网页的编码方式,你可以看我以前的文章【如何知道网页编码方式】
![Python教程:[38]正则表达式匹配中文](https://exp-picture.cdn.bcebos.com/3c42a5ea3e8630488f0a0360c33104ebf7a752e2.jpg)
写好你的正则表达式,我们看到我的正则表达式包含中文,如果直接跟网页文件进行匹配,则无法匹配,我们只是对这个正则表达式进行解码
![Python教程:[38]正则表达式匹配中文](https://exp-picture.cdn.bcebos.com/6002c9d4483104eb04ee8bbb092b74ee1d324ee2.jpg)
因为我们知道python对中文的编码是gbk,所以我们使用gbk进行解码
![Python教程:[38]正则表达式匹配中文](https://exp-picture.cdn.bcebos.com/05aae8a75f0f822b81a7c886c018512c8df14de2.jpg)
好了,前期工作准备好以后,我们就可以进行正则表达式的匹配了。
声明:本网站引用、摘录或转载内容仅供网站访问者交流或参考,不代表本站立场,如存在版权或非法内容,请联系站长删除,联系邮箱:site.kefu@qq.com。
阅读量:129
阅读量:60
阅读量:38
阅读量:29
阅读量:120