相关动态
为什么向量搜索引擎这么快?
2024-12-18 03:49
  • 为什么速度如此之快?
  • 什么是向量搜索?
  • kNN
  • ANN
  • Weaviate的HNSW
  • 概括

每当我谈到向量搜索时,我都喜欢用一个语义搜索的例子来演示它。为了增加令人惊叹的因素,我喜欢在 Wikipedia 数据集上运行我的查询,该数据集包含来自 Wikipedia 的超过 2800 万段。

例如,我可以问:“柏林最高的建筑是什么?”,而向量搜索引擎(在我的演示中 - Weaviate的例子中)会用“Fernsehturm Berlin”来响应。

事情是这样的,在一个巨大的非结构化数据存储库中找到正确的答案并不是这个演示最令人印象深刻的部分(我的意思是,它非常令人印象深刻),但它是这一切发生的速度。UI 显示结果需要几分之一秒。

我们谈论的是语义搜索查询,它需要几毫秒才能在包含2800 万段的数据集中找到答案。有趣的是,呈现结果的时间比向量搜索引擎找到答案的时间要长。

请注意,语义搜索与常规关键字搜索不同(它匹配类似关键字),而是根据查询和数据的语义含义来搜索答案。

跟随这个演示不可避免的问题总是:

为什么速度如此之快?

要回答这个问题,我们需要看看向量搜索引擎是如何工作的。

与其他数据库不同,向量搜索引擎基于数据向量(或向量嵌入)对数据进行索引。向量嵌入捕获数据的含义和上下文,通常由机器学习模型预测。

在输入/导入(或对数据对象进行任何重大更改)时,对于每个新的/更新的数据对象,向量搜索引擎使用机器学习模型来预测和计算向量嵌入,然后将其与对象一起存储。

数据集中的每个数据对象都有一个向量

简而言之,向量嵌入是一个数字数组,可以用作高维空间中的坐标。虽然很难想象超过 3 维空间 (x, y, z) 的坐标,但我们仍然可以使用向量来计算向量之间的距离,这可以用来表示对象之间的相似性。

有许多不同的距离度量,例如余弦相似度和欧几里得距离(L2 距离)。

以类似的方式,每当我们运行查询(例如:“柏林最高的建筑是什么?”)时,向量搜索引擎也可以将其转换为“查询”向量。矢量搜索引擎的任务是使用距离度量和搜索算法识别和检索最接近查询的给定矢量的矢量列表。

这有点像滚球游戏——小标记(杰克)是我们查询向量的位置,球(滚球)是我们的数据向量——我们需要找到离标记最近的滚球。

找到相似向量的一种方法是使用简单的k 近邻 (kNN) 算法,该算法通过将数据库中的每个数据向量与查询向量进行比较,返回 k 个最近的向量。

在我们的滚球示例(如下图所示)中,有 6 个滚球,kNN 算法将测量千斤顶与地面上 6 个滚球中的每一个之间的距离。这将导致 6 次单独的计算。

仅在两个维度上将搜索向量与 10、100 或 1000 个数据向量进行比较是一项简单的工作。但当然,在现实世界中,我们更有可能处理数百万(如维基百科数据集)甚至数十亿的数据项。此外,大多数 ML 模型在语义搜索中使用的维度数量高达数百或数千个维度!

kNN 搜索的蛮力计算上非常昂贵- 并且根据数据库的大小,单个查询可能需要几秒钟甚至几小时的时间。如果将 300 维向量与 10M 向量进行比较,搜索引擎将需要进行 300 x 10M = 3B 计算!所需计算的数量随着数据点的数量 (O(n)) 线性增加(图 2)。

总之,kNN 搜索不能很好地扩展,并且很难在生产中使用它与大型数据集进行图像处理。

向量搜索引擎不是逐个比较向量,而是使用近似最近邻 (ANN) 算法,该算法牺牲了一点准确性(因此名称中的 A)以大幅提高速度。

ANN 算法可能不会返回真正的 k 最近向量,但它们非常有效。ANN 算法在非常大规模的数据集上保持良好的性能(亚线性时间,例如(多)对数复杂度,参见图 2)。

请注意,大多数矢量搜索引擎都允许您配置 ANN 算法的行为方式。这使您可以在召回权衡(真正的 top-k 最近邻居的结果比例)、延迟吞吐量(每秒查询数)和导入时间之间找到适当的平衡。
举个很好的例子,检查Weaviate benchmarks,看看efConstruction、maxConnections 和 ef这三个参数如何影响召回、延迟、吞吐量和导入时间。

ANN 方法的例子有:

  • ——例如ANNOY(图 3),
  • 邻近 - 例如HNSW(图 4),
  • 聚类- 例如FAISS,
  • 散列- 例如LSH,
  • 矢量压缩- 例如PQ或SCANN。

哪种算法效果最好取决于您的项目。性能可以通过延迟、吞吐量(每秒查询数)、构建时间和准确性(召回)来衡量。这四个组件通常需要权衡取舍,因此取决于用例哪种方法效果最好。

因此,ANN 并不是一种总能在数据集中找到真正的 k 个最近邻居的神奇方法,它可以找到真正的 k 个邻居的一个非常好的近似值。但它可以在很短的时间内做到这一点!

Weaviate是向量搜索引擎的一个很好的例子,它使用 ANN 算法提供超快速查询。引入 Weaviate 的第一个 ANN 算法是分层可导航小世界图 (HNSW)的自定义实现。

查看Weaviate ANN 基准,了解 HNSW 在现实大规模数据集上的表现。您可以使用它来比较召回、QPS、延迟和导入时间之间的权衡。
您会发现有趣的是,Weaviate 可以保持非常高的召回率(>95%),同时保持高吞吐量和低延迟(均以毫秒为单位)。这正是您进行快速但可靠的矢量搜索所需要的!

快速回顾:

  • 向量搜索引擎使用机器学习模型来计算矢量嵌入并将其附加到所有数据对象
  • 向量嵌入捕获数据的含义和上下文
  • 借助 ANN 算法,矢量搜索引擎提供超快速查询
  • 人工神经网络算法以少量的准确度换取性能的巨大提升


原文标题:Why is Vector Search so fast?
原文作者:LAURA HAM
原文链接:https://weaviate.io/blog/2022/09/Why-is-Vector-Search-so-fast.html#learn-more
    以上就是本篇文章【为什么向量搜索引擎这么快?】的全部内容了,欢迎阅览 ! 文章地址:http://ww.kub2b.com/news/6733.html
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 企库往资讯移动站 http://ww.kub2b.com/mobile/ , 查看更多   
最新文章
智能家居“伪智能”、直播间买到的羽绒服穿不了……江苏一季度消费投诉热点出炉
4月9日,江苏省消费者权益保护委员会发布2025年一季度消费投诉及舆情热点报告。一季度全省消保委系统受理投诉51464件,接待消费
智能手机传感器及作用大盘点手机的作用「智能手机传感器及作用大盘点」
已经成为不可思议的小机器,几十年前,这样的设备只存在于科幻小说。如果回到几十年前,人们可能会认为是魔法。现在已经成为最普
您知道唐僧师徒在南通长牌中分别是谁吗?
《西游记》中,猪八戒与孙悟空对峙打斗时,曾经这样说“放生遭贬出天关,福陵山下图家业。我因有罪错投胎,俗名唤做猪刚鬣”,这
【华为】新版模拟器eNSP Lite安装攻略提前解锁华为手机模拟器「【华为】新版模拟器eNSP Lite安装攻略提前解锁」
新版模拟器eNSP Lite资源下载:华为新版模拟器eNSPLite镜像资源资源-CSDN文库    最近华为发布了新版模拟器eNSP Lite
Android监控虚拟键 android手机虚拟摄像头手机IM「Android监控虚拟键 android手机虚拟摄像头」
在工作中,camera这一块上,可能会有各种各样的需求。比如有人想新增一个虚拟摄像头,当用户app打开摄像头设备时,打开的不是系
微信语音怎么提取到电脑【苹果安卓手机】苹果手机备份到电脑「微信语音怎么提取到电脑【苹果安卓手机】」
微信语音中可能保存着一些温馨记忆,如年迈父母发给自己的语音消息,微信语音中也可能保存着知识技能,如培训老师发给自己的各种
修成正果!安东尼已被通知入选2025年奈史密斯篮球名人堂
北京时间4月3日讯 据Shams Charania报道,十次入选NBA全明星的卡梅隆·安东尼已获通知,他被选入2025年奈史密斯篮球名人堂。曾六
在任意手机上使用带有图形化界面(GUI)的完整Linuxlinux手机「在任意手机上使用带有图形化界面(GUI)的完整Linux」
不过,在我们今天的任务中只有运行者两者。这篇教程不会讲述任何运行后的自定义使用。不同于之前的两次尝试——安装Window
腾讯史上最大就业计划技术岗超六成,大厂加码AI人才校招
4月17日,腾讯宣布启动史上最大就业计划,三年内将新增28000个实习岗位并加大转化录用,仅2025年将迎来10000名校招实习生。在大
纪律处罚消息两则:海港主教练穆斯卡特停赛1场罚款1万 & 广东男篮外援莫兰德罚款3万
各CBA俱乐部、赛区:2025年4月8日,2024-2025赛季CBA联赛季后赛12进8阶段场序467,上海久事大鲨鱼俱乐部久事篮球队与广东宏远华