使用Python爬取华为市场APP应用进行分析

日期：2024-12-22 作者：3i225 caijiyuan 评论：0 移动：http://ww.kub2b.com/mobile/news/10778.html

核心提示：这个网站也是作者最近接触到的一个APP应用市场类网站。讲实话，还是蛮适合新手朋友去动手学习的。毕竟爬虫领域要想进步，还

这个网站也是作者最近接触到的一个APP应用市场类网站。讲实话，还是蛮适合新手朋友去动手学习的。毕竟爬虫领域要想进步，还是需要多实战、多分析！该网站中的一些小细节也是能够锻炼分析能力的，也有反爬虫处理。甚至是下载APP的话在Web端是无法拿到APK下载的直链，需要去APP端接口数据获取

需要抓取的内容为整个游戏板块（当然可以是所有板块甚至是关键词去搜素命中）。游戏板块包含了所有分类与子分类下APP信息，如下所示：

首先我们打开控制台发个包先，监测一下请求内容，如下所示：

这里可以直接把请求CURL出来，转换成Python代码，如下所示：

这里直接请求，会失败！因为其中有一个细节的反爬虫检测，代码运行会提示接口验证失败，如下所示：

这个是什么原因？根据返回提示中接口检验的问题，回看请求头内携带有Interface-Code参数，大概率是这个参数的问题，重放失败！这个参数是动态的，不过好在并非算法加密生成

Interface-Code参数其实相当于一个动态注册的令牌，在我们请求接口的时候。需要去固定的接口请求并拿到值，然后携带这个参数的值进行后续的任何请求

注意！这个动态的值也是有时效性的，大概在一分钟时间不等～

如上图，动态获取Interface-Code参数的接口，可每次在提交页面请求之前，从这个接口拿动态值携带！

这里我们经过分析可以找到属于游戏板块全量分类的一个唯一ID，拿它可以获取到所有的子分类ID，如下所示：

完整链接地址如下：

这个接口请求之后，去解析拿到tabInfo下面的tabId字段即可！这是子分类板块的ID，用来后续请求细分栏目下的所有游戏类APP所需要的字段，同样放到上面链接替换uri，如下所示：

接下来就是详情页数据抓取，找到详情页面的接口，如下所示：

这里我们构造出对详情接口请求的具体实现功能，代码如下：

对详情页面接口构造完请求后同样将会得到JSON数据，需要对结构化数据进行解析，实现代码如下：

如上，拿到完整的APP信息数据（包括名称、版本、发布时间、大小、下载量、开发者...）其中process_downloads_times方法是一个自定义方法，对下载量数据进行清洗，页面下载量如下：

所以需要一个对该下载量数据清洗的方法，实现代码如下所示：

接下来，最重要的就是对APK包的下载了，在Web端可以看到有一个getAppDownloadUrl的接口，但是它并不是APK包的下载链接，它是华为应用商店的APP下载链接，所以注意不要被误导了，如下所示：

要获取APK包的下载链接，需要从APP端入手，Web网站内不再提供APK的下载直链！以前是可以的，早期的下载链接直接拼appid即可，早期链接如下所示：

这里需要对手机端的华为应用商店APP进行抓包分析，拿到下载链接接口！最终APK在移动端的下载接口如下所示：

这里下载接口的请求参数巨长，好在没有加密的参数字段，如下所示：

这里我们拿一个APP的appid对移动端的详情进行请求，可以看到接口数据内包含APK的下载链接，如下所示：

最终，完整的APP类爬虫运行及数据抓取效果如下所示：

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

更多>同类最新文章

0 条相关评论

文章列表

相关文章

最新动态

推荐图文

最新文章

点击排行

• 智能家居“伪智能”、直播间买到的羽绒服穿不了	• 智能手机传感器及作用大盘点手机的作用「智能手
• 您知道唐僧师徒在南通长牌中分别是谁吗？	• 【华为】新版模拟器eNSP Lite安装攻略提前解锁
• Android监控虚拟键 android手机虚拟摄像头手机I	• 微信语音怎么提取到电脑【苹果安卓手机】苹果手
• 修成正果！安东尼已被通知入选2025年奈史密斯篮	• 在任意手机上使用带有图形化界面（GUI）的完整L
• 腾讯史上最大就业计划技术岗超六成，大厂加码AI	• 纪律处罚消息两则：海港主教练穆斯卡特停赛1场