探索 Elasticsearch 的向量搜索能力 – wiki基地


探索 Elasticsearch 的向量搜索能力:拥抱语义时代的检索革新

随着人工智能技术的飞速发展,特别是大型语言模型(LLMs)和各种嵌入模型(embedding models)的普及,数据检索的需求正在从传统的基于关键词匹配转向基于语义理解。我们不再仅仅搜索包含特定词语的文档,而是希望找到与我们的意图、概念或整体含义最相似的内容。这正是向量搜索(Vector Search)所擅长的领域。

长期以来,Elasticsearch 作为世界领先的开源搜索引擎和数据分析平台,以其强大的全文检索、聚合分析和分布式能力而闻名。面对语义检索的新浪潮,Elasticsearch 并未止步于传统的关键词匹配。通过引入并不断增强其向量搜索能力,Elasticsearch 成功地将自身定位为一个能够同时处理结构化数据、非结构化文本以及高维向量的统一平台。

本文将深入探讨 Elasticsearch 的向量搜索能力,从基本概念、实现原理到实际应用,带您全面了解如何在 Elasticsearch 中利用向量实现更智能、更灵活的数据检索。

1. 为什么需要向量搜索?传统搜索的局限性

传统的搜索引擎主要依赖于倒排索引(Inverted Index),通过匹配查询关键词与文档中词语的字面形式来查找相关内容。这种方法的效率很高,非常适合处理精确匹配和基于词频的排名。然而,它存在一些固有的局限性:

  1. 同义词和近义词问题: 搜索 “汽车” 可能无法找到包含 “轿车”、”车辆” 或 “autombile” 的文档,即使它们在语义上是相关的。
  2. 一词多义问题: 搜索 “苹果” 可能同时返回关于水果和科技公司的结果,而用户可能只对其中一种感兴趣。
  3. 缺乏上下文理解: 传统搜索难以理解词语在句子或段落中的具体含义和语境。
  4. 跨语言搜索困难: 搜索中文的 “猫” 不会找到英文的 “cat” 文档,除非进行显式的翻译处理。
  5. 处理非文本数据: 对于图像、音频或视频等多媒体内容,传统搜索无法直接基于其内容进行检索(除非依赖于元数据或人工标签)。

为了克服这些局限性,我们需要一种能够理解数据“含义”的方法,而不仅仅是字面形式。向量搜索正是为了解决这个问题而诞生的。

2. 向量搜索的核心:嵌入(Embeddings)与语义相似性

向量搜索的核心在于将各种类型的数据(文本、图像、音频等)转换成高维空间中的数值向量。这个转换过程通常通过深度学习模型(如 BERT, Sentence-BERT, CLIP 等)来实现,这些模型能够捕捉数据的语义信息,并将相似的内容映射到向量空间中彼此靠近的位置。这些数值向量被称为“嵌入”(Embeddings)。

嵌入的特点:

  • 高维度: 嵌入向量通常包含数百甚至上千个维度。
  • 语义表示: 向量的数值代表了原始数据的语义特征。
  • 相似性度量: 在向量空间中,两个向量之间的距离或角度可以用来衡量它们对应原始数据之间的语义相似性。常用的相似性度量包括:
    • 余弦相似度(Cosine Similarity): 衡量两个向量方向的相似性,常用范围 [-1, 1],值越大越相似。特别适合文本等数据的方向性特征。
    • 点积(Dot Product): 衡量两个向量的投影长度和方向。如果向量经过归一化,点积与余弦相似度等价。
    • 欧几里得距离(L2 Distance): 衡量两个向量在空间中的直线距离,值越小越相似。

向量搜索的过程就是:将查询也转换成一个向量,然后在数据库中寻找与查询向量距离最近(或相似度最高)的那些向量,从而找到语义上最相关的原始数据。

3. Elasticsearch 的向量搜索之路

Elasticsearch 最初是为全文检索而设计,但随着社区对向量搜索需求的日益增长,Elasticsearch 逐步将其集成到核心功能中。这个过程大致经历了几个阶段:

  1. 第三方插件时期: 早期,一些开发者通过开发 Elasticsearch 插件来引入向量数据类型和向量搜索算法(如 LSH, Annoy 等)。这些插件虽然提供了向量搜索能力,但并非官方原生支持,集成度和性能可能受限。
  2. 原生支持 dense_vector 数据类型: Elasticsearch 7.x 版本引入了 dense_vector 数据类型,允许用户将高维向量作为字段存储在文档中。这是一个重要的基础,使得向量能够成为 Elasticsearch 文档的一部分。
  3. 集成 HNSW 算法: Elasticsearch 8.x 版本原生集成了高性能的近似最近邻(Approximate Nearest Neighbor, ANN)搜索算法——分层可导航小世界(Hierarchical Navigable Small World, HNSW)。HNSW 是一种图结构的 ANN 算法,它在搜索速度和召回率(recall)之间取得了很好的平衡,非常适合在大规模数据集中进行高效的向量搜索。

通过原生支持 dense_vector 和集成 HNSW 算法,Elasticsearch 成为了一个强大的向量数据库,能够直接在其平台内进行高效的向量索引和搜索。

4. Elasticsearch 向量搜索的核心概念与实现

要在 Elasticsearch 中实现向量搜索,需要理解并配置以下核心概念:

4.1. dense_vector 数据类型

这是用于存储浮点数向量的字段类型。在创建索引映射(Mapping)时,需要指定向量的维度(dims)。向量的维度必须是固定的,由您使用的嵌入模型决定。

json
PUT my-vector-index
{
"mappings": {
"properties": {
"text": {
"type": "text"
},
"text_embedding": {
"type": "dense_vector",
"dims": 768, // 例如,使用 BERT base model 的嵌入维度
"index": true, // 开启向量索引
"index_options": {
"type": "hnsw", // 使用 HNSW 算法进行索引
"m": 16, // HNSW 图的构建参数,控制每层节点连接的邻居数
"ef_construction": 100 // HNSW 图的构建参数,控制构建时的搜索范围
}
}
}
}
}

  • dims: 指定向量的维度。
  • index: true: 开启向量索引,这会根据 index_options 中指定的算法构建向量索引结构(默认为 HNSW)。
  • index_options: 配置向量索引算法及其参数。
    • type: "hnsw": 指定使用 HNSW 算法。
    • m: 控制 HNSW 图中每个节点的最大连接数。较大的 m 值会创建更密集的图,提高召回率但增加索引时间和内存使用。
    • ef_construction: 控制构建 HNSW 图时搜索新节点邻居的范围。较大的值会创建更高质量的图,提高召回率但增加索引时间。

这些 index_options 参数是性能调优的关键,需要在索引构建时确定。

4.2. HNSW 索引与搜索参数

HNSW 算法在索引构建和搜索时都有参数需要配置:

  • 索引构建参数 (m, ef_construction): 在索引映射中配置,影响索引的大小、构建速度和搜索召回率。这些参数在索引构建后无法更改。
  • 搜索参数 (ef_search): 在搜索请求中指定,控制 HNSW 搜索时探索的邻居数量。较大的 ef_search 值会提高召回率,但增加搜索延迟。

json
POST my-vector-index/_search
{
"knn": {
"field": "text_embedding",
"query_vector": [...], // 查询向量,由嵌入模型生成
"k": 10, // 返回最相似的前 k 个结果
"num_candidates": 100 // HNSW 搜索时探索的候选数量,通常大于 k
}
}

  • query_vector: 包含查询内容的浮点数向量。
  • k: 指定您最终希望返回的最相似文档数量。
  • num_candidates: 这是 HNSW 搜索算法在内部探索的候选节点数量。算法会从这些候选节点中选出距离最近的 k 个结果。num_candidates 必须大于或等于 k。更大的 num_candidates 通常会提高召回率(找到更准确的最近邻),但会增加计算量和搜索延迟。这个参数与索引构建时的 ef_construction 类似,但作用于搜索阶段。它与 index_options 中的 ef_construction 共同决定了 HNSW 搜索的性能和精度。

4.3. 相似性度量(Similarity Measures)

在定义 dense_vector 字段时,可以指定使用的相似性度量,或者在搜索请求中指定。Elasticsearch 支持多种度量:

json
"index_options": {
"type": "hnsw",
"m": 16,
"ef_construction": 100,
"similarity": "cosine" // 指定余弦相似度
}

或者在搜索请求中指定:

json
"knn": {
"field": "text_embedding",
"query_vector": [...],
"k": 10,
"num_candidates": 100,
"similarity": "l2_norm" // 指定欧几里得距离
}

常用的 similarity 值包括:
* l2_norm (欧几里得距离)
* dot_product (点积)
* cosine (余弦相似度)

选择哪种度量取决于您的数据类型和嵌入模型。例如,对于许多文本嵌入模型,余弦相似度或点积(特别是当向量已经归一化时)是常用的选择。

4.4. knn 查询

Elasticsearch 引入了专门的 knn 查询语法来执行向量搜索。它可以在标准搜索请求的 knn 块中指定。

json
POST my-vector-index/_search
{
"knn": {
"field": "text_embedding",
"query_vector": [0.1, 0.2, ...], // 您的查询向量
"k": 5, // 返回前 5 个结果
"num_candidates": 50 // 从 50 个候选节点中选择
}
}

每个 knn 块执行一次向量搜索。您可以在一个搜索请求中指定多个 knn 块,对不同的向量字段进行搜索。

5. 向量搜索的实际应用:索引与查询流程

实际使用 Elasticsearch 进行向量搜索的流程通常如下:

  1. 数据准备: 获取需要索引的数据(文本、图像等)。
  2. 生成嵌入: 使用合适的嵌入模型将原始数据转换成高维向量。这一步通常在 Elasticsearch 外部完成,使用 Python 等编程语言调用模型 API 或本地模型。
  3. 索引数据: 将原始数据及其对应的向量一起索引到 Elasticsearch 中。确保向量字段使用 dense_vector 类型,并配置了 HNSW 索引。
    json
    POST my-vector-index/_doc/1
    {
    "text": "Elasticsearch is a powerful search engine.",
    "text_embedding": [0.01, 0.05, ..., 0.99] // 768 维向量
    }
  4. 处理查询: 用户输入查询(文本、图像等)。
  5. 生成查询向量: 使用 相同 的嵌入模型将用户查询转换成查询向量。
  6. 执行 knn 搜索: 将查询向量发送到 Elasticsearch 的 _search API,在 knn 块中指定向量字段、查询向量、knum_candidates
  7. 获取并处理结果: Elasticsearch 返回最相似的 k 个文档及其相似度得分。您可以根据得分进行排序、过滤或进一步处理。

6. 向量搜索与传统搜索的结合:混合搜索(Hybrid Search)

仅仅进行向量搜索可能会错过一些重要的信息。例如,用户搜索 “最新的苹果手机”,向量搜索可能返回很多关于苹果公司产品的信息,但如果用户文档中明确包含 “最新” 和 “手机” 这两个关键词,传统的全文搜索可能会更直接地命中目标。

Elasticsearch 的一个强大之处在于它可以轻松地将向量搜索(基于语义)与传统的关键词搜索(基于字面匹配)结合起来,实现混合搜索(Hybrid Search)。这通常通过在同一个搜索请求中结合使用 knn 块和标准的 query 块来实现。

json
POST my-vector-index/_search
{
"query": { // 传统关键词查询
"bool": {
"must": {
"match": {
"text": "最新 手机"
}
}
}
},
"knn": { // 向量查询
"field": "text_embedding",
"query_vector": [...], // "最新的苹果手机" 的向量
"k": 10,
"num_candidates": 100
},
"size": 10
}

Elasticsearch 提供了多种方式来组合 queryknn 的结果:

  1. 简单的组合: Elasticsearch 可以执行独立的 query 搜索和 knn 搜索,然后合并两者的结果集并进行重新排序。Elasticsearch 8.10 引入了 RRF (Reciprocal Rank Fusion) 算法作为默认的混合得分融合方法,它能够有效地结合不同搜索方法的排名结果。
  2. 带过滤条件的 knn 搜索: 您可以在 knn 块内部指定 filter 条件。这种方式更高效,因为 Elasticsearch 会先根据过滤条件缩小搜索范围,再在过滤后的文档子集中进行向量搜索。
    json
    POST my-vector-index/_search
    {
    "knn": {
    "field": "text_embedding",
    "query_vector": [...],
    "k": 10,
    "num_candidates": 100,
    "filter": { // 在 knn 搜索前应用的过滤条件
    "range": {
    "timestamp": {
    "gte": "now-1y/d"
    }
    }
    }
    }
    }
  3. 在标准查询中过滤 knn 结果: 虽然可以在标准查询中过滤 knn 返回的结果,但这效率较低,因为向量搜索可能返回大量结果,然后在这些结果中进行过滤。通常不推荐这种方式。

混合搜索是提高搜索相关性和灵活性的关键,它能够同时利用关键词的精确匹配和向量的语义理解。

7. 性能考量与调优

Elasticsearch 的向量搜索性能受多种因素影响:

  • 向量维度: 维度越高,存储和计算成本越大。
  • 数据集大小: 数据量越大,索引和搜索时间越长。
  • HNSW 参数 (m, ef_construction, ef_search): 这些参数直接影响索引大小、构建速度、搜索速度和召回率。需要在这些因素之间找到平衡点。通常需要通过实验来确定最佳参数。
  • 硬件资源: 向量搜索是计算密集型的,需要足够的 CPU、内存和存储 I/O。特别是内存,HNSW 图结构需要加载到内存中以实现快速搜索。
  • 分片策略: 合理的分片可以分散负载,提高并行处理能力。

调优建议:

  • 仔细选择 HNSW 参数: 提高 ef_construction 可以提高索引质量和召回率,但增加索引时间。提高 ef_search 可以提高搜索召回率,但增加搜索延迟。m 影响图的连接密度,对内存和性能都有影响。根据您的性能目标(速度优先还是召回率优先)进行权衡和实验。
  • 监控资源使用: 密切关注 CPU、内存和磁盘 I/O,确保资源充足。特别是 HNSW 索引占用的内存。
  • 使用过滤条件: 如果可能,在 knn 块内部使用 filter 来缩小搜索范围,这能显著提高搜索效率。
  • 考虑数据局部性: 如果您的查询经常针对数据的子集(例如,特定用户的数据),考虑使用路由或按时间序列划分索引。

8. Elasticsearch 向量搜索的优势与局限性

优势:

  • 统一平台: 在同一个平台中处理结构化数据、非结构化文本和高维向量,简化架构。
  • 混合搜索能力: 无缝结合关键词搜索和向量搜索,提供更强大和灵活的检索体验。
  • 分布式和可伸缩性: 利用 Elasticsearch 原生的分布式架构处理大规模数据集。
  • 成熟的生态系统: 结合 Elasticsearch 的监控、安全、可视化等功能。
  • 易于上手: 如果您已经熟悉 Elasticsearch,学习其向量搜索功能相对容易。

局限性:

  • 纯向量搜索性能: 在某些极端场景下,专门的向量数据库(如 Milvus, Pinecone, Weaviate 等)可能针对纯向量搜索做了更多极致优化,提供略优的性能或支持更多样的 ANN 算法。
  • 资源消耗: 向量数据占用大量存储空间,HNSW 索引需要 상당한 内存。
  • 参数调优复杂性: HNSW 参数对性能影响很大,找到最优配置需要经验和实验。
  • 嵌入模型的依赖: 向量搜索的效果高度依赖于您选择的嵌入模型的质量和适用性。

9. 总结与展望

Elasticsearch 凭借其强大的原生向量搜索能力,已经从一个传统的全文搜索引擎转型成为一个全面的数据检索和分析平台,能够有效应对语义时代的挑战。通过 dense_vector 类型和 HNSW 算法的集成,Elasticsearch 为用户提供了一种高效、可扩展且灵活的方式来索引和搜索高维向量。

特别是其强大的混合搜索能力,使得用户可以轻松地将基于语义的向量搜索与基于字面匹配的关键词搜索结合起来,实现更智能、更相关的检索结果。这使得 Elasticsearch 在构建各种现代搜索应用(如语义搜索、图像搜索、推荐系统、RAG 管道等)时成为一个极具吸引力的选择。

当然,向量搜索是一个快速发展的领域。Elasticsearch 也在不断进步,例如引入了 ELSER (Elastic Learned Sparse EncodeR) 等无需向量模型的语义搜索方法,以及持续优化 HNSW 算法和混合搜索功能。

如果您正在寻找一个能够统一处理文本、结构化数据和向量的强大平台,并希望构建具有语义理解能力的现代搜索应用,那么深入探索和利用 Elasticsearch 的向量搜索能力无疑是一个值得投入的方向。它不仅能够提升您的检索效率,更能为您的用户带来前所未有的智能搜索体验。


发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部