Python教程:[41]判断抓取的网页的编码方式
在抓取网页的时候经常遇到网页编码问题,我们需要将抓取的网页进行解码以后才能正确得到网页上的 内容,那么怎么获取网页的编码方式呢?很多人还在手动去查看网页源码,然后找到charset吗?下面是百度经验的编辑器页面的编码方式。
现在我们要学习使用python的命令来读取编码方式,这种方法的好处是在你抓取网页的时候自动读取编码方式,然后对页面进行解码,省的你自己去设置编码解码了。
![Python教程:[41]判断抓取的网页的编码方式](https://exp-picture.cdn.bcebos.com/16a84fe10ef85856b0cb4c9053e9ccd2ba66cd4e.jpg)
引入两个模块,urllib2用于获取源码,chardet用于检测编码方式
![Python教程:[41]判断抓取的网页的编码方式](https://exp-picture.cdn.bcebos.com/ba274f598540102a6914da16b142a07aa110c54e.jpg)
先获取网页,存放于f中
![Python教程:[41]判断抓取的网页的编码方式](https://exp-picture.cdn.bcebos.com/a13bbe10bc33ec38404dfd5b295f0c14c37b3c4f.jpg)
读取网页的内容,存放在txt中
![Python教程:[41]判断抓取的网页的编码方式](https://exp-picture.cdn.bcebos.com/a31e1214c27bd282fc7f45f23cb1eef97ebd364f.jpg)
使用detect方法来获得网页的编码方式
![Python教程:[41]判断抓取的网页的编码方式](https://exp-picture.cdn.bcebos.com/efb861bd4c7c34b3bdb7d70e5841037de037314f.jpg)
我们读取一下网页编码方式:
![Python教程:[41]判断抓取的网页的编码方式](https://exp-picture.cdn.bcebos.com/e076d77622bc7dc54691cfeb5e460596b914294f.jpg)
声明:本网站引用、摘录或转载内容仅供网站访问者交流或参考,不代表本站立场,如存在版权或非法内容,请联系站长删除,联系邮箱:site.kefu@qq.com。
阅读量:139
阅读量:48
阅读量:120
阅读量:86
阅读量:85