源代码放在文末。
本次爬虫需要的工具如下:
- selenium 驱动器
- 对应浏览器的 webdriver
- 一个微信订阅号
在 2017 年 6 月左右,微信官方发布一篇文章 https://mp.weixin.qq.com/s/67sk-uKz9Ct4niT-f4u1KA,大致意思就是以后发布文章的时候可以插入其他公众号的文章。由此,我们即可获得采集文章的接口。
之后,我们需要重新登陆一次,保存 cookie,以后则载入 cookie 即可,不需要再扫码登陆。代码如下:
之后我们开始文章的爬取。
至此,我们就可以将所爬取的公众号文章存入相应的 txt 文件,文本每三行为一篇文章,分别是标题、链接、发表时间。
最后,整合代码如下:
本次爬虫到这里就结束了。在下一篇图文中,将会分享如何配置自己的 webdriver 以及如何从已有的链接中提取文章正文。
提取正文链接