推广 热搜: page  音视频  使用  个数  选择  搜索引擎  企业  父亲  百度  可以 

使用python实现自动爬取得物交易记录,商品信息进行数据分析

   日期:2024-12-18     作者:arrfb    caijiyuan   评论:0    移动:http://ww.kub2b.com/mobile/news/7436.html
核心提示:文章仅用于交流学习。 刚刚学习爬虫有一段时间,打算找一个网站突破一下,提升一下自己的爬虫与逆向能力。刚好最近

使用python实现自动爬取得物交易记录,商品信息进行数据分析

文章仅用于交流学习。

刚刚学习爬虫有一段时间,打算找一个网站突破一下,提升一下自己的爬虫与逆向能力。刚好最近买东西都在使用得物APP,所以就决定突破一下它。整个过程很曲折,踩了很多坑,遇到很多做之前没有预料到的问题。项目一共分为两个版本,第一版是由mitmproxy+appium自动化操作APP完成获取数据,由于完成之后发现爬取过程耗时很长并且无法准确的抓到指定的商品数据所以放弃,发开第二版。第二版突破了,得物sign值的加密过程,实现了使用调用API来获取商品数据。
目前实现功能
1、定时爬取商品详情数据
2、定时爬取商品交易记录数据
3、对交易记录进行分析、统计

以上为项目的简要介绍。本人处于初学阶段,还有很多的不足之处,全文有任何疑问,欢迎各位大神指出错误。

1、API抓包
2、破解请求数据
3、编写爬虫代码
4、反爬

我们在抓包之前可以登录得物web网站以及APP、小程序三个入口查看数据情况,会发现能获取商品信息的地方只有小程序与APP,并且小程序的数据要比APP的少很多内容。这个时候我们同时对两个入口进行抓包操作。我这里使用的抓包工具是Charles .
下载地址: Charles下载地址.
具体的安装步骤自行百度,这里不详细介绍了。

这里会遇到两个相对比较繁琐的问题
1、配置抓取HTTPS的包
2、配置抓取APP的包
这里推荐篇文章用于解决这两个问题: 推荐文章

APP数据包与小程序数据包抓下来之后,我们会发现APP的请求数据相对与小程序的请求数据要复杂的很多,基于到时间成本与需要数据的考虑,我选择了突破小程序。psAPP端虽然有点复杂但是最后也搞明白了。

分析数据包

逆向

我这边使用的思路是通过反编译小程序的,拿到其中的加密key,然后尝试多种加密方式最终得到与抓包获得的sign相同的值。
这里我使用的逆向工具是wxappUnpacker,具体使用教程网上有很多就不一一赘述了。
反编译脚本下载地址

验证

编写代码就是一个枯燥无味的过程,文章最后会给出项目代码的github地址。
其中需要处理几个问题
(1)如何通过python发送https请求,绕过ssl认证。
(2)如何保证每次获取的交易记录是上一次交易交易记录的后一条。
如何保证每次请求都能够成功获取数据。
(3)如何保证每次请求都能够成功获取数据,不被得物服务器拦截。

我目前所了解到的得物小程序做了两个反爬措施,一个是签名认证,就是刚刚提到的破解请求数据中的sign,第二是IP限流。
第一个问题在上一节中已经讲到。
第二个问题我采用的反反爬手段是使用IP代理。ps代理是需要自行购买的。

以上就是关于使用python实现自动爬取得物交易记录,商品信息的所有内容,如发现有遗漏或是对于文章有疑问欢迎与我沟通,邮箱:3392903032@qq.com
如文章影响得物平台利益,请通过上方联系方式与我取得联系。

Github地址

本文地址:http://ww.kub2b.com/news/7436.html     企库往 http://ww.kub2b.com/ ,  查看更多

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。

 
 
更多>同类最新文章
0相关评论

文章列表
相关文章
最新动态
推荐图文
最新文章
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号