推广 热搜: 百度  搜索引擎  企业  可以  选择  使用  上海  技术  设备  page 

当AI遇上爬虫:ScrapeGraphAI结合LLM实现前所未有的网页抓取效率,一言即搜!

   日期:2024-12-24     作者:br0qf    caijiyuan  
核心提示:原创 Aitrainee | 公众号:AI进修生:AI算法工程师 / Prompt工程师 / ROS机器人开发者 | 分享AI动态与算法应用资讯&

原创 Aitrainee | 公众号:AI进修生:AI算法工程师 / prompt工程师 / ROS机器人开发者 | 分享AI动态与算法应用资讯,提升技术效率。

排版不佳,公众号阅读原文:配套视频 · 一触即达

🌟ScrapeGraphAI 是一个网络抓取Python 库,它使用 LLM 和直接图形逻辑为网站、文档和 XML
文件创建抓取管道。只需说出您想要提取哪些信息,ScrapeGraphAI就会为你完成

在当今数据驱动的世界中,网络抓取已成为从广阔的互联网中收集信息的重要工具。
然而,传统的网络抓取工具往往难以适应网站的动态特性,需要开发人员不断维护和更新。

输入 ScrapeGraphAI,这是一个革命性的 Python 库,它利用大型语言模型 (LLMs) 的强大功能和直接图形逻辑来创建灵活且适应性强的
Web 抓取管道。

ScrapeGraphAI 代表了网络抓取领域的重大进步,提供了一个开源解决方案,旨在应对当今不断发展的网络环境的挑战。这就是 ScrapeGraphAI
脱颖而出的原因

直接图逻辑 :此功能使用基于图的方法动态创建爬取管道,确保基于用户定义的提示实现高效的数据检索。

多功能模型和API
:ScrapeGraphAI支持各种模型和API,包括OpenAI的GPT、Docker、Groq、Azure等,允许用户根据自己的抓取需求选择最佳选项。

灵活性和适应性 :传统的网页抓取工具通常依赖于固定模式或手动配置来从网页中提取数据。ScrapeGraphAI 由 LLMs
提供支持,可适应网站结构的变化,减少开发人员持续干预的需要。

易于安装 :通过简单的 pip install 命令,用户可以快速设置 ScrapeGraphAI 并开始从网站、文档和 XML 文件中抓取数据。

Scrapegraph-ai 的参考页面可在 pypy 的官方页面上找到: pypi 。

 

您还需要安装 Playwright 以进行基于 Javascript 的爬取

 

注意 :建议在虚拟环境中安装库,以避免与其他库的冲突 🐱

官方 streamlit 演示

 
 

在网上直接尝试使用 Google Colab

 

按照以下链接上的步骤设置您的 OpenAI API 密钥:[link]

 
 

ScrapeGraphAI 的文档可以在[这里]

 

还请查看 docusaurus [文档]

 
 

您可以使用 类通过提示从网站提取信息。

类是一个直接图实现,使用网页爬取管道中最常见的节点。有关更多信息,请参阅 文档 。

情况 1:使用 Ollama 提取信息

记得单独在 Ollama 上下载模型

 

情况 2:使用 Docker 提取信息

注意:在使用本地模型之前,请记得创建 docker 容器

 

您可以使用 Ollama 上可用的模型或您自己的模型,而不是 stablelm-zephyr

 

情况 3:使用 Openai 模型提取信息

 

情况 4:使用 Groq 提取信息

 

情况 5:使用 Azure 提取信息

 

情况 6:使用 Gemini 提取信息

 

所有 3 个情况的输出将是一个包含提取信息的字典,例如

 

参考链接

Github: https://github.com/VinciGit00/Scrapegraph-ai?tab=readme-ov-file Colab
Notebook:
https://colab.research.google.com/drive/1sEZBonBMGP44CtO6GQTwAlL0BGJXjtfd?usp=sharing

本文地址:http://ww.kub2b.com/tnews/186.html     企库往 http://ww.kub2b.com/ ,  查看更多

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。

 
 
更多>同类生活信息

文章列表
相关文章
最新动态
推荐图文
生活信息
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号