以上就是本篇文章【基于sprint boot WebMagic 实现 微信公众号文章、新闻等网站文章爬取详细文档+资料齐全.zip】的全部内容了,欢迎阅览 ! 文章地址:http://ww.kub2b.com/quote/7936.html
栏目首页
相关文章
动态
同类文章
热门文章
网站地图
返回首页 企库往资讯移动站http://ww.kub2b.com/mobile/,查看更多
基于sprint boot WebMagic 实现 微信公众号文章、新闻等网站文章爬取详细文档+资料齐全.zip
2024-12-21 08:39
# **奇伢爬虫使用介绍**
----------
## **导航**
----------
1. [简介](https://github.com/qiyaTech/javaCrawling#一.简介)
2. [运行项目](https://github.com/qiyaTech/javaCrawling#运行项目)
* [运行环境](https://github.com/qiyaTech/javaCrawling#运行环境)
* [运行必备配置](https://github.com/qiyaTech/javaCrawling#运行必备配置)
* [项目运行](https://github.com/qiyaTech/javaCrawling#项目运行)
* [运行效果及爬取操作](https://github.com/qiyaTech/javaCrawling#运行效果及爬取操作)
3. [爬取网站文章操作手册](https://github.com/qiyaTech/javaCrawling#爬取网站文章操作手册)
4. [爬取文章配置手册](https://github.com/qiyaTech/javaCrawling#爬取文章配置手册)
* [微信公众号爬取配置](https://github.com/qiyaTech/javaCrawling#微信公众号爬取配置)
* [普通网站爬取配置](https://github.com/qiyaTech/javaCrawling#普通网站爬取配置)
5. [爬取效果展现](https://github.com/qiyaTech/javaCrawling#爬取效果展现)
## 一.**简介**
----------
[奇伢爬虫](https://github.com/qiyaTech/javaCrawling)基于spring boot 、 WebMagic 实现 微信公众号文章、新闻、csdn、info等网站文章爬取,可以动态设置文章爬取规则、清洗规则,基本实现了爬取大部分网站的文章。
#### **(奇伢爬虫技术讨论群:365155351,大家可以加群一起来讨论哦~)**
## 二.**运行项目**
----------
###
### 1.**运行环境**
项目开发环境:IntelliJ IDEA 15 , **JDK 1.8**
### 2.**运行必备配置**
#### 2.1.**数据库配置**
* 先创建数据库,然后修改配置文件[application-dev.properties](https://github.com/qiyaTech/javaCrawling/blob/master/boss/src/main/resources/application-dev.properties)的如下属性:
* ```spring.datasource.url = jdbc:mysql:// 数据库ip地址 : 数据库端口号/数据库名称?useUnicode=true&characterEncoding=UTF-8```
* ```spring.datasource.username = 数据库用户名```
* ```spring.datasource.password = 数据库密码```
#### 2.2.**数据导入**
我们提供了一些基础数据供大家测试,在新建的数据库中执行文件[db_sql.txt](https://github.com/qiyaTech/javaCrawling/blob/master/boss/src/main/resources/data/db_sql.txt)中的sql,就可以将一些必备的表及数据导入数据库了。
#### 2.3.**redis 配置**
* 项目中用到 redis 对一些数据的存储, 如果之前没有安装过 redis, 需要先安装 redis ,然后修改配置文件 [application-dev.properties](https://github.com/qiyaTech/javaCrawling/blob/master/boss/src/main/resources/application-dev.properties)的如下属性:
* ```spring.redis.host = redis ip 地址```
* ```spring.redis.password = redis 密码```
* ```spring.redis.port = redis 端口```
#### 2.4.**七牛云存储配置**
* 注册七牛云账号,登录后在控制台新建“存储空间“,(保存存储空间的名称,配置会用到),并在“个人中心——密钥管理“中查看 ak 与 sk。
* 修改配置文件 [application-dev.properties](https://github.com/qiyaTech/javaCrawling/blob/master/boss/src/main/resources/application-dev.properties)的如下属性:
* `qiniu.bucket = 七牛存储空间名称`
* `qiniu.accessKey = 七牛 ak`
* `qiniu.secretKey = 七牛 sk`
* `qiniu.http.context = 七牛外链域名`
### 3.**项目运行**
* 完成了[运行必备配置](https://github.com/qiyaTech/javaCrawling#运行必备配置)就可以运行项目了**(注:上述配置步骤缺一不可哦~~)**
* 启动项目只需要运行java文件[BossApplication.java](https://github.com/qiyaTech/javaCrawling/blob/master/boss/src/main/java/com/qiya/boss/BossApplication.java)就可以了。