用python制作一款爬虫软件,爬取公众号文章信息,爬虫之路,永无止境!!!(附源码)
今天拿手机看公众号里面的文章,不小心退出来,进去之后还得一页一页的翻,好麻烦,突发奇想,把信息爬下来,想看哪个看哪个。。嘿嘿,来自程序员的快乐。
爬虫操作演示
电脑卡,各位别见怪。。。
开发工具
python pycharm selenium tkinter xlwt
开发思路
首先start_url="https://mp.weixin.qq.com/" 扫码注册一下微信公众平台,有的话直接忽略,扫码登录即可。(注册个人订阅号就行) 利用selenium自动操作扫码登录获得cookie值,之后响应要用cookie 要先下载webdriver插件 插件你下载对应谷歌浏览器的版本,下载之后会获得chromedriver.exe,然后把这个chromedriver.exe放在python解释器的python.exe文件的同级目录下就可以了 登录进去界面为:
响应拿回网页源码,拿回token值,token值是有时效性的
操作点开要搜索公众号的位置
搜索想要爬取的公众号名字
右击打开检查,拿回fakeid值,确定公众号,具有唯一性
本文以CSDN为例,爬取公众号的文章
拿回第二页的地址