相关文章
爬取百度搜索新闻(大模型 银行)
2024-12-26 03:36

爬着玩的,训练自己的爬虫能力。

以下是除了微信公众号爬取有问题其他内容可以爬取的源代码。
用到了selenium来模拟人为打开浏览器。之前尝试过直接用requests.get(),发现会弹出百度安全验证,加了referer,user-agent等headers都无法爬取,于是采用了这个方法。

这个方法实测能用,但爬取速度较慢。

 

接下来将进行测试,如何正确输出微信公众号的文本内容。

 

实测可用。

问题更新2024-7-1

在连接不同的网络的时候爬取结果会不一样。用某些局域网会导致安全验证识别不到,但只有前三个识别不到。换了自己的热点之后问题解决。

另外,针对知乎界面爬取不到数据,解决方法为增加利用selenium的判断条件。将以下代码做修改即可

爬取百度搜索新闻(大模型 银行)

 

改为

 

实测结果正确。 

    以上就是本篇文章【爬取百度搜索新闻(大模型 银行)】的全部内容了,欢迎阅览 ! 文章地址:http://ww.kub2b.com/quote/10747.html 
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 企库往资讯移动站http://ww.kub2b.com/mobile/,查看更多   
发表评论
0评