推广 热搜: page  音视频  使用  选择  搜索引擎  百度  企业  可以  个数  父亲 

怎样用python3爬取电子书网站所有下载链接

   日期:2024-12-17     作者:ht234    caijiyuan   评论:0    移动:http://ww.kub2b.com/mobile/news/5603.html
核心提示:引言:今天周末,想找本电子书看看。发现了一个很好的电子书下载网站。为了以后找书方便,顺便练习一下python

引言:今天周末,想找本电子书看看。发现了一个很好的电子书下载网站。为了以后找书方便,顺便练习一下python3写爬虫,于是就有了今天的小成果,python3爬取电子书网站所有链接。

第一步:网站分析

首先,这是网站的首页:http://www.ireadweek.com/index.php/index/1.html。

点击网站的尾页,看看总共有多少网页。如下图

点击之后,发现网址变为:http://www.ireadweek.com/index.php/index/218.html。 这说明总共有218个父页面。每个主页面是如下图这样的列表

怎样用python3爬取电子书网站所有下载链接

点击链接,进入任意子页面,要爬取下面的5个框框。

2.开始写代码

先获取每个父页面所有书名链接。

取得页面结构。

根据以上分析,先写代码,拼接出所有的父页面。

 
 

然后,获取某一父页面中所有书名链接

 
 

然后,拼接子页面来获取子页面的网页内容

 
 

,在子页面中获取上面的5个框框里面的信息,方法也是如上,书名上鼠标右键->审查元素,得到下图

于是,得到这样的结构分支

body > div > div > div.hanghang - za > div: nth - child(1)
 
 

通过同样的方式,将其他信息获取。

 
 

终端打印如下

3.遇到的问题

1)如何提取类似下面这样内容里面的网址链接

 
 

解决:如下

 
 

2)如下写法会报错。

 
 
 
 

解决方法: 删除【from_encoding="utf-8"】      

原因:python3 缺省的编码是unicode, 再在from_encoding设置为utf8, 会被忽视掉,去掉【from_encoding="utf-8"】这一个好了 。

3)写入csv文件后,用notepad打开正常显示,用Excel打开是乱码。如下

解决:代码中打开方式这样写

 
 
 
 

好啦,解决了以上问题,终于可以爬取了。如果觉得有帮助的话,请支持一下。

下面上完整代码

 
 

 

 

 

本文地址:http://ww.kub2b.com/news/5603.html     企库往 http://ww.kub2b.com/ ,  查看更多

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。

 
 
更多>同类最新文章
0相关评论

文章列表
相关文章
最新动态
推荐图文
最新文章
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号