Python教程:[41]判断抓取的网页的编码方式

2025-10-30 01:32:28

在抓取网页的时候经常遇到网页编码问题,我们需要将抓取的网页进行解码以后才能正确得到网页上的 内容,那么怎么获取网页的编码方式呢?很多人还在手动去查看网页源码,然后找到charset吗?下面是百度经验的编辑器页面的编码方式。

现在我们要学习使用python的命令来读取编码方式,这种方法的好处是在你抓取网页的时候自动读取编码方式,然后对页面进行解码,省的你自己去设置编码解码了。

Python教程:[41]判断抓取的网页的编码方式

    引入两个模块,urllib2用于获取源码,chardet用于检测编码方式

    Python教程:[41]判断抓取的网页的编码方式

    先获取网页,存放于f中

    Python教程:[41]判断抓取的网页的编码方式

    读取网页的内容,存放在txt中

    Python教程:[41]判断抓取的网页的编码方式

    使用detect方法来获得网页的编码方式

    Python教程:[41]判断抓取的网页的编码方式

    我们读取一下网页编码方式:

    Python教程:[41]判断抓取的网页的编码方式

(共篇)上一篇:列表与字符串相互...|下一篇:
声明:本网站引用、摘录或转载内容仅供网站访问者交流或参考,不代表本站立场,如存在版权或非法内容,请联系站长删除,联系邮箱:site.kefu@qq.com。
猜你喜欢