博主开始更新爬虫实战教程了,期待你的关注!!!
第一篇:Python爬虫实战(一):翻页爬取数据存入SqlServer
第二篇:Python爬虫实战(二):爬取快代理构建代理IP池
懂得都懂
我们要爬取的网页是:https://www.kuaidaili.com/free/inha/
博主爬取最后实现的效果如下:
我用的是python3.8,VScode编辑器,所需的库有:
开头导入所需用到的导入的库:
准备就绪开始代码分析!
先讲讲我的整体思路在逐步分析:
- 第一步:构造主页url地址,发送请求获取响应
- 第二步:解析数据,将数据分组
- 第三步:将数组的数据提取出来
- 第四步:检测代理IP的可用性
- 第五步:保存到文件中
构造主页的url地址,发送请求获取响应
提取分组中我们需要的数据,IP,类型和端口号
这里做了拼接,这种形式存入列表,方便我们使用!
检测IP的可用性,因为是免费的IP所以有一些可能用不了,有一些访问速度较慢,这里我们让拼接好的ip去访问某度秒能访问成功的保存在另一个列表中!
将访问速度不错的ip保存在文件中,方便我们调用
IP保存在文件中了,可有一些小伙伴还不知道怎么去使用?
这里我们需要实现,从文件中随机取出一个IP去访问网址,用到了库