网站地图(站点地图、Sitemap)通常包含了该网站的大部分文章链接,是一种指明信息资源方位与联系,并且具有导航功能的可视化工具。
网站地图网址一般为:或
简数采集器支持快速采集网站地图(sitemap)中的文章数据,而且有两种方式,二选一即可。
1)在简数采集器某个采集任务,打开【列表提取器】配置页面;
2)点击【配置为SiteMap】按钮,简数便会自动切换为专门适配网站地图的采集设置,十分简单快捷,保存。
3)正常配置文章页采集规则,完成后即可开始采集;
1)打开某个采集任务的【列表提取器】配置页面;
2)【列表页网址类型】处选择【特殊网页(如xml、txt等用正则获取链接)】,系统便会切换为正则获取链接模式,自动识别并获取网站地图页面中的全部网址链接,保存即可。
3)正常配置文章页采集规则,完成后即可开始采集;