怎样用python3爬取电子书网站所有下载链接

日期：2024-12-17 作者：ht234 caijiyuan 评论：0 移动：http://ww.kub2b.com/mobile/news/5603.html

核心提示：引言：今天周末，想找本电子书看看。发现了一个很好的电子书下载网站。为了以后找书方便，顺便练习一下python

引言：今天周末，想找本电子书看看。发现了一个很好的电子书下载网站。为了以后找书方便，顺便练习一下python3写爬虫，于是就有了今天的小成果，python3爬取电子书网站所有链接。

第一步：网站分析

首先，这是网站的首页：http://www.ireadweek.com/index.php/index/1.html。

点击网站的尾页，看看总共有多少网页。如下图：

点击之后，发现网址变为：http://www.ireadweek.com/index.php/index/218.html。这说明总共有218个父页面。每个主页面是如下图这样的列表：

怎样用python3爬取电子书网站所有下载链接

点击链接，进入任意子页面，要爬取下面的5个框框。

2.开始写代码

先获取每个父页面所有书名链接。

取得页面结构。

根据以上分析，先写代码，拼接出所有的父页面。

然后，获取某一父页面中所有书名链接：

然后，拼接子页面来获取子页面的网页内容：

再，在子页面中获取上面的5个框框里面的信息，方法也是如上，书名上鼠标右键->审查元素，得到下图：

于是，得到这样的结构分支：

body > div > div > div.hanghang - za > div: nth - child(1)

通过同样的方式，将其他信息获取。

终端打印如下：

3.遇到的问题：

1)如何提取类似下面这样内容里面的网址链接？

解决：如下，

2)如下写法会报错。

解决方法：删除【from_encoding="utf-8"】

原因：python3 缺省的编码是unicode, 再在from_encoding设置为utf8, 会被忽视掉，去掉【from_encoding="utf-8"】这一个好了。

3）写入csv文件后，用notepad打开正常显示，用Excel打开是乱码。如下

解决：代码中打开方式这样写：

好啦，解决了以上问题，终于可以爬取了。如果觉得有帮助的话，请支持一下。

下面上完整代码：

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

更多>同类最新文章

0 条相关评论

文章列表

相关文章

最新动态

推荐图文

最新文章

点击排行

• DxoMark新规则，排名重排，小米10霸占榜首！dxo	• 世界时钟(免费版)手机时钟app「世界时钟(免费版
• 到底是谁在用折叠屏手机？柔性屏手机「到底是谁	• 与小霸王游戏机一起凉了的，还有那个“山寨”的
• betapubg绝地求生体验服（PUBG MOBILE）绝地求	• Global Venture Capital Transactions Plummet
• DNF手游：传承战士火了，能增加无形装备爆率？	• 与上海相伴上百年，恼人的一个多月怎么办
• A股集体收涨！	• iphone13 pro电池容量是多少？iphone13pro电池