Python教程:[37]处理网页源码中的\x22字符
python采集网页,不一样的网页有不一样的编码方式,我今天采集的一个网页处理起来有点麻烦,不仅仅是编码的问题,我尝试了各种编码最后还是没有解决这个问题,我们来看看下面,源码里有大量的\x22,其实你一看就知道是双引号,但是我print出来,按照常理双引号应该显示正常,为什么这里不行了呢?如果你知道原因,可以指导我一下,我说说我的解决方法吧。
![Python教程:[37]处理网页源码中的\x22字符](https://exp-picture.cdn.bcebos.com/7830e01d96d8181902af7479876efbf203b3de27.jpg)
我用到了decode方法中的string_escape来处理这些代码,果然问题解决
![Python教程:[37]处理网页源码中的\x22字符](https://exp-picture.cdn.bcebos.com/db196cdade49610fe4d97eb0a56817e950e1d227.jpg)
果然,问题就解决了:我们看看下面的源码,也是print出来的:
![Python教程:[37]处理网页源码中的\x22字符](https://exp-picture.cdn.bcebos.com/d47cb624d8e9ccd2c1e982ed0e40102a05e2c927.jpg)
声明:本网站引用、摘录或转载内容仅供网站访问者交流或参考,不代表本站立场,如存在版权或非法内容,请联系站长删除,联系邮箱:site.kefu@qq.com。
阅读量:95
阅读量:40
阅读量:33
阅读量:67
阅读量:33