爬着玩的,训练自己的爬虫能力。
以下是除了微信公众号爬取有问题其他内容可以爬取的源代码。
用到了selenium来模拟人为打开浏览器。之前尝试过直接用requests.get(),发现会弹出百度安全验证,加了referer,user-agent等headers都无法爬取,于是采用了这个方法。这个方法实测能用,但爬取速度较慢。
接下来将进行测试,如何正确输出微信公众号的文本内容。
实测可用。
问题更新2024-7-1
在连接不同的网络的时候爬取结果会不一样。用某些局域网会导致安全验证识别不到,但只有前三个识别不到。换了自己的热点之后问题解决。
另外,针对知乎界面爬取不到数据,解决方法为增加利用selenium的判断条件。将以下代码做修改即可:
改为:
实测结果正确。
以上就是本篇文章【爬取百度搜索新闻(大模型 银行)】的全部内容了,欢迎阅览 ! 文章地址:http://ww.kub2b.com/quote/10747.html
栏目首页
相关文章
动态
同类文章
热门文章
网站地图
返回首页 企库往资讯移动站http://ww.kub2b.com/mobile/,查看更多