随着AI技术的飞速发展,搜索引擎领域也迎来了新的变革。继 OpenAI 发布 SearchGPT 之后,国内也涌现出一批优秀的AI搜索引擎,其中,由中科大和上海人工智能实验室联合研发的 MindSearch(思·索)尤为引人注目。这款开源AI搜索引擎,不仅性能媲美Perplexity.ai Pro,更重要的是,它跳脱了传统搜索引擎的窠臼,不再仅仅依赖关键词匹配,而是模拟人类的思维过程,深度理解用户的搜索意图,并提供更精准、更全面的搜索结果。这款开源AI搜索引擎的出现,无疑为我们打开了一扇通往未来搜索引擎的大门。
试想一下,当你想要了解“量子计算的应用”时,传统的搜索引擎会提供给你什么?
大概率是大量关于量子计算基本概念的网页,需要你花费大量时间自行筛选出关于应用的内容。而 MindSearch 则截然不同,它会像人类一样思考,分析你的问题,并直接呈现量子计算在各个领域的应用案例和深入分析,让你快速精准地获取所需信息。
这种革命性的改变源于 MindSearch 独特的多智能体框架。它不再仅仅关注关键词,而是会分析问题的上下文,并结合知识图谱等技术,深度理解用户的搜索意图,提供更精准、更全面的搜索结果。
MindSearch的优势:深度、广度、准确性兼备
相比于传统的搜索引擎,MindSearch 的优势在于:
-
深度知识探索: MindSearch 能够浏览数百个网页,提供更广泛、更深层次的答案,帮助用户深入了解某个主题。
-
透明的解决方案路径: MindSearch 会展示其思考路径和搜索关键词等详细信息,提高了搜索结果的可信度和可用性。
-
多种用户界面: MindSearch 提供React、Gradio、Streamlit和本地调试等多种用户界面,方便用户根据自己的需求进行选择。
-
动态图构建: MindSearch 能够将用户查询分解为图中的子问题节点,并根据WebSearcher的搜索结果逐步扩展图,实现更灵活的搜索策略。
与 ChatGPT-Web、**Perplexity.ai(Pro)**等 AI 搜索引擎相比,MindSearch 在深度、透明度和开放性方面更胜一筹:
-
更深度: MindSearch 的多智能体框架能够进行更深层次的推理和分析,提供更深入的知识探索。
-
更透明: MindSearch 会展示其思考路径和搜索关键词等详细信息,提高了搜索结果的可信度和可用性。
-
更开放: MindSearch 是开源的,这意味着开发者可以参与贡献,共同推动其发展,这对于 AI 搜索引擎技术的进步和生态建设具有重要意义。
为了更直观地展现 MindSearch 的优势,我们用 100 个由人类专家精心设计的现实问题,对 ChatGPT-Web、Perplexity.ai(Pro)和 MindSearch 的表现进行了评估,并由 5 位专家进行评分,结果如下:
MindSearch 的核心竞争力在于其创新的多智能体框架,它包含 WebPlanner 和 WebSearcher 两个关键组件,分别扮演着“思考者”和“执行者”的角色,就如同人类大脑中多个功能区域协同工作。
突破传统搜索引擎的局限,WebPlanner 赋予 MindSearch “思考”的能力
传统的搜索引擎,就像一个只会机械地执行命令的“机器人”,只能根据用户输入的关键词进行匹配,无法理解用户的深层需求。而 MindSearch 的 WebPlanner 则更像一位经验丰富的“侦探”,它能够将用户提出的复杂问题分解成多个子问题,并构建一张清晰的“搜索地图”——有向无环图(DAG),来引导搜索引擎找到最佳答案。
WebPlanner 如何像人类一样思考?
-
理解逻辑关系,构建“搜索地图”: WebPlanner 能够理解用户问题中各个关键词之间的逻辑关系,并将这些关系转化为 DAG 图中的节点和边。每个节点代表一个独立的搜索任务,而边则代表节点之间的逻辑和推理关系。通过构建 DAG 图,WebPlanner 能够清晰地展现解决问题的思路,并引导搜索引擎沿着正确的路径前进。
-
利用 LLM 的代码能力,动态调整搜索策略: WebPlanner 不仅能够构建静态的 DAG 图,还能够根据搜索结果动态调整搜索策略。它利用大型语言模型 (LLM) 强大的代码生成能力,编写代码来与 DAG 图进行交互,例如添加新的节点或边。这样,WebPlanner 就可以根据新的信息不断完善搜索策略,确保最终找到最优解。
-
并行处理,提高搜索效率: 由于 DAG 图中的节点之间存在依赖关系,WebPlanner 可以将这些节点分配给 WebSearcher 并行处理,从而大大提高信息收集的速度。
WebPlanner 的工作流程:
-
接收用户问题: WebPlanner 接收用户提出的问题。
-
构建初始 DAG 图: WebPlanner 根据对问题的理解,构建初始的 DAG 图,并将起始节点设置为用户的问题。
-
启动 WebSearcher 进行搜索: WebPlanner 启动 WebSearcher,根据 DAG 图中的节点进行搜索。
-
根据搜索结果,动态调整 DAG 图: WebPlanner 根据 WebSearcher 返回的搜索结果,动态调整 DAG 图,例如添加新的节点或边。
-
重复步骤 3 和 4,直到找到最终答案: WebPlanner 不断重复步骤 3 和 4,直到找到最终答案。
-
添加结束节点,输出最终答案: 找到最终答案后,WebPlanner 将添加结束节点,并将最终答案输出给用户。
WebPlanner 就像 MindSearch 的“大脑”,它能够像人类一样思考,理解用户的搜索意图,并制定最佳的搜索策略,从而帮助用户更快、更准确地找到所需的信息。
如果说 WebPlanner 是 MindSearch 的“大脑”,负责思考和制定搜索策略,那么 WebSearcher 就像它的“千里眼”,能够在互联网的汪洋大海中精准锁定关键信息,为用户提供最 relevant 的答案。
海量信息,如何高效检索?WebSearcher 的分层检索策略
面对互联网上浩如烟海的信息,即使是强大的大型语言模型 (LLM) 也无法一下子处理完所有的页面。为了解决这个问题,MindSearch 的研发团队设计了一种巧妙的策略——分层检索,并将其应用于 WebSearcher。
WebSearcher 的工作流程:
-
接收 WebPlanner 分配的任务: WebSearcher 接收 WebPlanner 分配的搜索任务,例如搜索“量子计算的应用”。
-
生成多个类似的搜索问题: 为了扩大搜索范围,WebSearcher 会根据 WebPlanner 分配的任务,生成多个类似的搜索问题,例如“量子计算的应用场景”、“量子计算的实际应用案例”等。
-
调用多个搜索引擎 API: WebSearcher 会调用多个搜索引擎的 API,例如 Google、Bing 和 DuckDuckGo,并使用生成的多个搜索问题进行查询。
-
获取关键信息: WebSearcher 会从搜索引擎返回的结果中获取关键信息,例如网页链接、标题和摘要等。
-
筛选重要网页: WebSearcher 会根据关键信息,筛选出最重要的网页,例如排名靠前、内容相关的网页。
-
深度阅读,提炼关键信息: WebSearcher 会深度阅读筛选出来的重要网页,并提炼出关键信息。
-
汇总信息,返回给 WebPlanner: WebSearcher 将提炼出来的关键信息汇总,并返回给 WebPlanner。
WebSearcher 的分层检索策略,就像一位经验丰富的“情报员”,先进行广泛的调查,收集大量的线索,然后再进行精细的分析,筛选出最有价值的信息。
WebSearcher 的优势:
-
高效检索: 分层检索策略能够帮助 WebSearcher 快速锁定关键信息,避免在海量信息中迷失方向。
-
全面覆盖: 通过调用多个搜索引擎 API,WebSearcher 能够覆盖更广泛的信息来源,确保搜索结果的全面性。
-
精准筛选: WebSearcher 能够根据关键信息,精准筛选出最重要的网页,避免浪费时间阅读 irrelevant 的内容。
WebSearcher 是 MindSearch 的“千里眼”,它能够精准锁定关键信息,为用户提供最 relevant 的答案。它与 WebPlanner 密切配合,共同构成了 MindSearch 的核心竞争力,使其能够像人类一样思考,深度理解用户的搜索意图,并提供更精准、更全面的搜索结果。
MindSearch的效率令人惊叹!它能够在短短3分钟内完成300多页信息的搜集和整合,这可是人类专家需要花费3小时才能完成的工作!这意味着,你可以更快地获取所需信息,节省宝贵的时间和精力。
试想一下,当你需要了解某个领域的最新研究成果时,MindSearch能够迅速帮你搜集整理数百篇论文,并提炼出关键信息,让你在短时间内掌握该领域的最新动态。
MindSearch不仅能够快速找到你所需的信息,更能够帮助你深入探索某个主题,了解其背后的知识体系。它就像一位博学的导师,带领你进入知识的殿堂,开启智能搜索新时代!
例如,当你想要了解“量子计算”这个领域时,MindSearch不仅会为你提供相关的网页链接,还会帮你梳理量子计算的发展历程、核心概念、应用领域以及未来发展趋势,让你对量子计算有一个全面的了解。
MindSearch已开源,这意味着开发者可以参与贡献,共同推动其发展。这种开放的姿态,不仅体现了研发团队的自信,也为AI搜索引擎的未来发展指明了方向。
我们相信,在开源社区的共同努力下,MindSearch将会不断进化,解决当前存在的局限性,例如信息幻觉和搜索引擎偏见等问题。同时,MindSearch也将探索更多信息源,为用户提供更全面、更可靠的搜索体验。
MindSearch的出现,预示着AI搜索引擎将进入一个全新的时代。它不再仅仅是信息的搬运工,而是能够真正理解用户需求,并提供个性化、智能化的搜索体验。
我们有理由相信,在未来,MindSearch将会成为我们探索知识、获取信息的重要工具,引领我们进入一个更加智能化的未来!
MindSearch的出现,不仅仅是一款新的搜索引擎的诞生,更是一场关于“思考”的革命。它让我们看到了AI的无限可能,也让我们对未来充满了期待。
让我们一起期待MindSearch在未来的发展,期待它为我们带来更多惊喜!
值得一提的是,MindSearch 已于 7 月初正式开源!上海人工智能实验室慷慨地分享了搭载 MindSearch 架构的 InternLM2.5-7B-Chat 模型及完整的前后端代码,为广大开发者和研究者提供了宝贵的学习和实践机会。
零距离体验 MindSearch 的魅力:
- 在线 Demo: 无需下载安装,点击链接即可体验 MindSearch 的强大功能:https://mindsearch.openxlab.org.cn/
技术爱好者:本地部署,定制专属 MindSearch!
-
开源代码https://github.com/InternLM/mindsearch
-
基于智能体框架 Lagent,MindSearch 的本地部署也非常简单:
1、在 GitHub 下载 MindSearch 仓库。
2、启动服务:
3、一键启动多种前端:
MindSearch 是一款极具潜力的开源 AI 搜索引擎,它模拟了人类的思维过程,实现了深度知识探索,为用户带来了更精准、更全面的搜索体验。相信在未来,MindSearch 将会在 AI 搜索领域发挥更大的作用,引领搜索引擎进入一个全新的智能化时代。
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- prompt 攻击和防范
- …
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 Javascript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。