推广 热搜: 可以  搜索引擎  page  企业  个数  百度  音视频  使用  选择 

爬取百度搜索新闻(大模型 银行)

   日期:2024-12-26     移动:http://ww.kub2b.com/mobile/quote/10747.html

爬着玩的,训练自己的爬虫能力。

以下是除了微信公众号爬取有问题其他内容可以爬取的源代码。
用到了selenium来模拟人为打开浏览器。之前尝试过直接用requests.get(),发现会弹出百度安全验证,加了referer,user-agent等headers都无法爬取,于是采用了这个方法。

这个方法实测能用,但爬取速度较慢。

 

接下来将进行测试,如何正确输出微信公众号的文本内容。

 

实测可用。

问题更新2024-7-1

在连接不同的网络的时候爬取结果会不一样。用某些局域网会导致安全验证识别不到,但只有前三个识别不到。换了自己的热点之后问题解决。

另外,针对知乎界面爬取不到数据,解决方法为增加利用selenium的判断条件。将以下代码做修改即可

爬取百度搜索新闻(大模型 银行)

 

改为

 

实测结果正确。 

本文地址:http://ww.kub2b.com/quote/10747.html     企库往 http://ww.kub2b.com/ ,  查看更多

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


0相关评论
相关最新动态
推荐最新动态
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号