目标:对常见手机应用商店评论进行爬取,对第三方数据网上的评论数据进行爬取
1. 爬虫
1.2 动态网页爬虫:selenium库
selenium是一个web测试工具,可以模拟浏览器操作,如打开网页,点击元素等。
下面是调用部分,以某第三方数据网的vivo商店评论为例:
2. 定时任务 sched库
参考链接:Python事件调度器定时任务sched
-
利用内置模块 实现定时任务
sched 模块实现了一个通用事件调度器,在调度器类中使用一个延迟函数,等待特定的时间,执行任务。但该方法会阻塞线程,直到所有被调度的任务都执行完成。 -
这个类定义了调度事件的通用接口,需要外部传入两个参数,
:无参数,返回时间戳的函数。常用的有模块里面的 time。
:需要一个参数,与的输出兼容,常用的有模块的 sleep。 -
对象主要方法:
- ,延迟 delay 个时间单位安排一个事件。
- :从队列中删除事件。如果事件不是当前队列中的事件,则该方法将抛出一个 ValueError。
- :运行所有预定的事件。这个函数将等待(使用 函数),然后执行事件,直到不再有预定的事件。
代码示例:
3. django后端框架 版本3.2.5
参考链接:
菜鸟教程-django
Django官方教程 (推荐)
3.1 安装Django
- 使用,安装自己需要的版本
- 测试是否可用:
- 创建Django项目:
3.2 数据库
-
使用和对该数据表进行初始化,也就是创建这些表
总之,模型更改的三步指南:
1. 在中更改模型。
2. 运行,存储这些更改。
3. 运行,将这些更改应用到数据库。
至此,后端部分完成。
4. 将后端部署到腾讯云和阿里云服务器上,进行生产环境部署
参考链接:【Django】宝塔面板部署Django+MySQL项目实战 这篇文章写的很详细,可以直接去看这篇文章
-
部署前准备
- 调开发模式为生产模式
Django配置文件修改,调开发模式为生产模式: - 导出项目依赖包
- 收集静态文件
# 必须调到生产模式才能成功
其中带有后台的项目必须要收集静态文件,部署时才能显示后台。
- 调开发模式为生产模式
-
添加站点
-
上传本地项目至站点文件夹下
-
编辑uwsgi.ini文件
-
配置数据库,修改项目配置文件 中 MySQL配置
-
Python项目管理器添加项目