原创 Aitrainee | 公众号:AI进修生:AI算法工程师 / prompt工程师 / ROS机器人开发者 | 分享AI动态与算法应用资讯,提升技术效率。
排版不佳,公众号阅读原文:配套视频 · 一触即达
🌟ScrapeGraphAI 是一个网络抓取Python 库,它使用 LLM 和直接图形逻辑为网站、文档和 XML
文件创建抓取管道。只需说出您想要提取哪些信息,ScrapeGraphAI就会为你完成!
在当今数据驱动的世界中,网络抓取已成为从广阔的互联网中收集信息的重要工具。
然而,传统的网络抓取工具往往难以适应网站的动态特性,需要开发人员不断维护和更新。
输入 ScrapeGraphAI,这是一个革命性的 Python 库,它利用大型语言模型 (LLMs) 的强大功能和直接图形逻辑来创建灵活且适应性强的
Web 抓取管道。
ScrapeGraphAI 代表了网络抓取领域的重大进步,提供了一个开源解决方案,旨在应对当今不断发展的网络环境的挑战。这就是 ScrapeGraphAI
脱颖而出的原因:
直接图逻辑 :此功能使用基于图的方法动态创建爬取管道,确保基于用户定义的提示实现高效的数据检索。
多功能模型和API
:ScrapeGraphAI支持各种模型和API,包括OpenAI的GPT、Docker、Groq、Azure等,允许用户根据自己的抓取需求选择最佳选项。
灵活性和适应性 :传统的网页抓取工具通常依赖于固定模式或手动配置来从网页中提取数据。ScrapeGraphAI 由 LLMs
提供支持,可适应网站结构的变化,减少开发人员持续干预的需要。
易于安装 :通过简单的 pip install 命令,用户可以快速设置 ScrapeGraphAI 并开始从网站、文档和 XML 文件中抓取数据。
Scrapegraph-ai 的参考页面可在 pypy 的官方页面上找到: pypi 。
您还需要安装 Playwright 以进行基于 Javascript 的爬取:
注意 :建议在虚拟环境中安装库,以避免与其他库的冲突 🐱
官方 streamlit 演示:
在网上直接尝试使用 Google Colab:
按照以下链接上的步骤设置您的 OpenAI API 密钥:[link]:
ScrapeGraphAI 的文档可以在[这里]:
还请查看 docusaurus [文档]:
您可以使用 类通过提示从网站提取信息。
类是一个直接图实现,使用网页爬取管道中最常见的节点。有关更多信息,请参阅 文档 。
情况 1:使用 Ollama 提取信息
记得单独在 Ollama 上下载模型!
情况 2:使用 Docker 提取信息
注意:在使用本地模型之前,请记得创建 docker 容器!
您可以使用 Ollama 上可用的模型或您自己的模型,而不是 stablelm-zephyr
情况 3:使用 Openai 模型提取信息
情况 4:使用 Groq 提取信息
情况 5:使用 Azure 提取信息
情况 6:使用 Gemini 提取信息
所有 3 个情况的输出将是一个包含提取信息的字典,例如:
参考链接
Github: https://github.com/VinciGit00/Scrapegraph-ai?tab=readme-ov-file Colab
Notebook:
https://colab.research.google.com/drive/1sEZBonBMGP44CtO6GQTwAlL0BGJXjtfd?usp=sharing