用python写爬虫
1、创建项目,设置项目存储位置
2、安装requests模块
3、创建py文件
4、编写基础爬虫框架代码
5、使用Microsoft Edge浏览器访问百度,并进行关键词搜索
6、在搜索到的页面中点击鼠标右键,在菜单中点击“检查”打开浏览器自带的抓包工具
7、在抓包工具中选择“网络”标签选项
8、使用快捷键Ctrl+R进行刷新
9、找到名称与请求域名相同的数据包
10、在数据包的“标头”标签选项详情中找到“查询字符串参数”,将其中的内容复制
11、将复制的字符串参数在代码中封装成字典,并在get()方法中传入params
12、修改指定的url观察发现浏览器抓到的数据包中请求URL后半部分其实就是前面找到的那些字符串参数
13、运行代码,代码成功运行,生成新文件
14、打开文件查看,和前面用浏览器搜索到的页面一样,说明爬取成功了
15、观察“字符串参数”中,wd后面的内容即为输入的关键词,因此在代码中将该参数动态化
16、运行代码,键入关键词,运行完成
17、查看baidu.html文件,成功爬取到所键入关键词相关的搜索内容
声明:本网站引用、摘录或转载内容仅供网站访问者交流或参考,不代表本站立场,如存在版权或非法内容,请联系站长删除,联系邮箱:site.kefu@qq.com。
阅读量:26
阅读量:63
阅读量:37
阅读量:28
阅读量:90