Elasticsearch 实战教程指南 – wiki基地

Elasticsearch 实战教程指南：从入门到实践

在数据爆炸的时代，如何高效地存储、搜索和分析海量数据成为了一个核心挑战。传统的关系型数据库在处理全文搜索、实时分析等场景时往往力不从心。Elasticsearch 作为一款基于 Apache Lucene 构建的开源分布式搜索和分析引擎，凭借其强大的搜索能力、灵活的扩展性以及近乎实时的处理速度，成为了解决这一问题的首选方案。

本篇文章将带你从零开始，深入理解 Elasticsearch 的核心概念，学习如何安装、配置，并掌握基础的数据操作和搜索技巧，最终通过一个简单的实战案例巩固所学知识。无论你是开发者、运维工程师还是数据分析师，这篇指南都将为你打开 Elasticsearch 的大门。

文章目录

Elasticsearch 简介与核心概念
- 什么是 Elasticsearch？为什么选择它？
- 核心概念：索引、文档、类型（注：类型在较新版本中已淡化）、映射、分片与副本
环境准备与安装
- 安装 Java 环境
- 下载与安装 Elasticsearch
- 下载与安装 Kibana
- 基本配置与启动
使用 Kibana Dev Tools 进行交互
- Dev Tools 简介
- 基本语法：HTTP 方法、路径、请求体
基础数据操作：CRUD
- 创建/索引文档 (Index)
- 获取文档 (Get)
- 更新文档 (Update)
- 删除文档 (Delete)
- 批量操作 (Bulk)
深入理解映射 (Mapping)
- 什么是映射？为什么重要？
- 动态映射 vs 显式映射
- 常见数据类型
- 查看与创建映射
Elasticsearch 搜索：Query DSL 详解
- 搜索的基本方式：URI 搜索 vs 请求体搜索
- Query DSL 结构
- 基本查询类型：match、term、terms
- 布尔查询 (bool): must、should、filter、must_not
- 范围查询 (range)
- 全文搜索与分析器 (Analyzer)
- 过滤 (Filter) vs 查询 (Query)
数据聚合 (Aggregations)
- 什么是聚合？为什么使用它？
- 度量聚合 (Metrics Aggregations)：avg、sum、min、max、value_count
- 桶聚合 (Bucket Aggregations)：terms、range、date_range
- 嵌套聚合
实用技巧与注意事项
- 分片与副本的最佳实践
- 性能优化初步
- 常见问题与排查
实战案例：构建一个简单的文章搜索系统
- 定义映射
- 索引样本数据
- 执行搜索查询 (按标题、内容、作者)
- 执行过滤查询 (按发布日期范围)
- 执行聚合查询 (统计各作者文章数量)
总结与展望

1. Elasticsearch 简介与核心概念

什么是 Elasticsearch？为什么选择它？

Elasticsearch 是 Elastic Stack（前身为 ELK Stack：Elasticsearch, Logstash, Kibana）的核心组件，是一个高度可伸缩、全文搜索和分析引擎。它基于 RESTful API，易于使用，并且能够处理 PB 级别的数据。

选择 Elasticsearch 的理由：

强大的搜索能力： 提供丰富的查询类型和全文搜索功能，支持复杂的搜索场景。
速度快： 近乎实时的索引和搜索速度。
分布式： 易于横向扩展，能够处理大量数据和高并发请求。
高可用性： 通过副本机制保证数据不丢失，即使部分节点宕机也能继续服务。
易用性： 基于 RESTful API，可以通过多种编程语言客户端进行交互。
生态完善： 配合 Kibana 提供强大的可视化分析能力，Logstash 和 Beats 负责数据采集和处理。

核心概念

理解这些概念是掌握 Elasticsearch 的基础：

索引 (Index): 类似于关系型数据库中的“数据库”。它是具有相似特性的文档的集合。一个集群可以有多个索引。例如，你可以有一个存储产品信息的索引，一个存储订单信息的索引。
文档 (Document): 类似于关系型数据库中的“行”。它是 Elasticsearch 中可被索引的最小单位。每个文档都是一个 JSON 对象。例如，一个产品文档、一个订单文档。
类型 (Type): 在 Elasticsearch 6.x 及以前版本中，一个索引可以包含多个类型，类似于数据库中的“表”。但在 Elasticsearch 7.x 及以后版本中，一个索引只允许一个类型 (_doc)，并且类型概念被逐步淡化。我们这里主要关注现代版本，认为一个索引主要包含同一“类型”的文档集合。
映射 (Mapping): 类似于数据库中的“表结构”或“Schema”。它定义了文档中的字段名称、数据类型以及如何对字段进行索引和搜索（例如，是否分词、如何分词）。
分片 (Shard): 索引被分成多个分片，每个分片是一个独立的、功能完整的索引。分片的存在使得 Elasticsearch 能够处理大量数据（分发到不同节点）和并行执行操作（提高性能）。当创建索引时，需要指定主分片的数量。
副本 (Replica): 每个分片都可以有一个或多个副本。副本是主分片的拷贝，用于提高搜索性能（可以在副本上并行搜索）和提高可用性（当主分片所在节点宕机时，副本可以晋升为新的主分片）。当创建索引时，需要指定副本的数量。

一个形象的比喻：
想象一个巨大的图书馆 (Elasticsearch Cluster)。
这个图书馆里有不同的主题区域，比如“小说区”、“科技区”、“历史区” (Indices)。
每个主题区域里摆满了书 (Documents)。
每本书都有自己的分类、作者、出版社等信息 (Mapping)。
为了方便管理和借阅，每个主题区域的书不是都堆在一起，而是被分成了很多小区域或书架 (Shards)。
为了防止某个书架上的书丢失或损坏，我们为每个书架都准备了几个一模一样的备份书架 (Replicas)。

2. 环境准备与安装

Elasticsearch 需要 Java 环境。推荐安装 OpenJDK 或 Oracle JDK 8 或更高版本。

安装 Java 环境

请根据你的操作系统自行安装 Java Development Kit (JDK)，并配置 JAVA_HOME 环境变量。

下载与安装 Elasticsearch

访问 Elastic 官方下载页面，下载适合你操作系统的最新版本（推荐 7.x 或 8.x 系列）。

Linux/macOS: 下载 .tar.gz 包并解压。
bash wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-8.x.x-linux-x86_64.tar.gz tar -xzf elasticsearch-8.x.x-linux-x86_64.tar.gz cd elasticsearch-8.x.x/
Windows: 下载 .zip 包并解压。

下载与安装 Kibana

Kibana 是 Elasticsearch 的可视化界面工具，提供了 Dev Tools 方便我们与 Elasticsearch 进行交互。访问 Elastic 官方下载页面，下载与你 Elasticsearch 版本匹配的 Kibana。

Linux/macOS: 下载 .tar.gz 包并解压到与 Elasticsearch 同级的目录。
bash wget https://artifacts.elastic.co/downloads/kibana/kibana-8.x.x-linux-x86_64.tar.gz tar -xzf kibana-8.x.x-linux-x86_64.tar.gz
Windows: 下载 .zip 包并解压。

基本配置与启动

进入解压后的 Elasticsearch 目录。

配置： 编辑 config/elasticsearch.yml 文件。对于本地开发环境，可以保持大部分默认设置。注意以下几个关键配置项：
- node.name: 当前节点的名称，建议设置一个唯一的名称。
- network.host: 监听的 IP 地址。设置为 0.0.0.0 允许外部访问，或者设置为 localhost 或 127.0.0.1 仅本地访问。
- http.port: HTTP 端口，默认为 9200。
- cluster.initial_master_nodes: 集群启动时需要知道哪些节点可能是主节点。对于单节点环境，设置为当前节点的名称即可。
- xpack.security.enabled: 开启安全认证 (在较新版本中默认开启)。首次启动会生成密码，或者你需要手动配置用户。为了简化本地入门，可以暂时禁用 (false)，但在生产环境务必开启。
启动 Elasticsearch:
- Linux/macOS: 在 Elasticsearch 目录下执行 ./bin/elasticsearch
- Windows: 在 Elasticsearch 目录下执行 .\bin\elasticsearch.bat

等待 Elasticsearch 启动。如果 xpack.security.enabled 为 true，启动日志会打印出初始用户的密码。

进入解压后的 Kibana 目录。

配置： 编辑 config/kibana.yml 文件。
- server.port: Kibana 端口，默认为 5601。
- elasticsearch.hosts: Elasticsearch 的地址，默认为 ["http://localhost:9200"]。
- 如果 Elasticsearch 开启了安全认证，还需要配置 elasticsearch.username 和 elasticsearch.password。
启动 Kibana:
- Linux/macOS: 在 Kibana 目录下执行 ./bin/kibana
- Windows: 在 Kibana 目录下执行 .\bin\kibana.bat

等待 Kibana 启动。然后在浏览器访问 http://localhost:5601。如果开启了安全认证，需要输入用户名和密码（默认用户 elastic，密码在 Elasticsearch 启动日志中）。

3. 使用 Kibana Dev Tools 进行交互

Kibana 的 Dev Tools 提供了一个控制台界面，可以直接发送 RESTful 请求与 Elasticsearch API 进行交互，非常方便学习和调试。

在 Kibana 左侧导航栏找到 “Management” (管理) 或 “Dev Tools” (开发工具)，点击进入 Console。

基本语法

Dev Tools 控制台支持一种简洁的请求语法，通常是：

HTTP_METHOD /path/to/endpoint Request Body (JSON)

例如：

json GET /

这条命令会发送一个 GET 请求到 Elasticsearch 的根路径，通常用于检查集群信息。点击右侧的绿色播放按钮执行请求。

json GET /_cluster/health

检查集群健康状态。

json GET /_cat/indices?v

以表格形式列出所有索引及其基本信息。

4. 基础数据操作：CRUD

Elasticsearch 提供了 RESTful API 来进行文档的增删改查（CRUD）操作。我们将使用 Dev Tools 来演示。

创建/索引文档 (Index)

使用 POST 或 PUT 方法将文档添加到指定索引。

自动生成文档 ID: 使用 POST /{index_name}/_doc
json POST /my_index/_doc { "title": "Elasticsearch 入门指南", "author": "张三", "publish_date": "2023-10-26", "content": "这是一篇关于 Elasticsearch 入门的详细指南。" }
Elasticsearch 会自动生成一个唯一的文档 ID。响应中会包含 _index, _id, _version 等信息。
指定文档 ID: 使用 PUT /{index_name}/_doc/{document_id}
json PUT /my_index/_doc/1 { "title": "深入理解 Mapping", "author": "李四", "publish_date": "2023-10-20", "content": "本文详细讲解 Elasticsearch 的映射机制。" }
如果 ID 1 不存在，则创建文档；如果存在，则替换（覆盖）现有文档。

获取文档 (Get)

使用 GET /{index_name}/_doc/{document_id} 根据 ID 获取单个文档。

json GET /my_index/_doc/1
响应会包含文档的源数据 (_source) 以及 _index, _id, _version 等元信息。

更新文档 (Update)

使用 POST /{index_name}/_update/{document_id} 进行部分更新。请求体中使用 doc 关键字包含要更新的字段。

json POST /my_index/_update/1 { "doc": { "author": "李四改", "tags": ["elasticsearch", "mapping"] } }
这会更新文档 ID 为 1 的 author 字段，并添加一个 tags 字段。其他字段保持不变。

也可以使用脚本进行更复杂的更新，例如计数器增加：

json POST /my_index/_update/1 { "script": { "source": "ctx._source.views = ctx._source.views + 1", "lang": "painless" }, "upsert": { "views": 1 } }
upsert 用于当文档不存在时，插入一个新文档（例如，views 字段设置为 1）。

删除文档 (Delete)

使用 DELETE /{index_name}/_doc/{document_id} 根据 ID 删除单个文档。

json DELETE /my_index/_doc/1

批量操作 (Bulk)

批量操作允许在单个请求中执行多个索引、更新或删除操作，显著提高效率。使用 POST /_bulk 或 POST /{index_name}/_bulk。请求体格式比较特殊，是 action/metadata 和 document 的组合，每两行组成一个操作，行之间必须以换行符 \n 分隔。

json POST /_bulk {"index": {"_index": "my_index", "_id": "2"}} {"title": "批量操作详解", "author": "王五", "publish_date": "2023-10-25", "content": "学习如何高效进行 Elasticsearch 批量操作。"} {"delete": {"_index": "my_index", "_id": "auto_generated_id"}} // 替换 auto_generated_id 为实际的ID {"update": {"_index": "my_index", "_id": "1"}} {"doc": {"tags": ["bulk", "efficiency"]}}
注意： Bulk 请求体末尾必须有一个换行符。

5. 深入理解映射 (Mapping)

映射决定了 Elasticsearch 如何存储和索引文档的字段。它是搜索、排序和聚合的基础。

什么是映射？为什么重要？

映射定义了：
* 字段的数据类型 (e.g., string, integer, date, boolean, object, array)。
* 如何对文本字段进行分析 (e.g., 分词器)。
* 字段是否可以被搜索 (index)。
* 字段是否存储原始值 (store)。
* 字段是否应该有文档值 (doc_values) 或字段数据 (fielddata) 用于排序和聚合。

精确的映射能够确保你的数据被正确地索引，从而实现高效准确的搜索和分析。

动态映射 vs 显式映射

动态映射 (Dynamic Mapping): 当索引一个新文档，如果遇到之前未见的字段，Elasticsearch 会根据字段的值自动推断其数据类型并创建新的映射。这非常方便，尤其是在数据结构不固定时。但是，自动推断可能不总是符合预期，例如，字符串字段可能会被映射为 text（用于全文搜索）和 keyword（用于精确匹配、排序、聚合）两种类型。
显式映射 (Explicit Mapping): 手动定义索引的映射。这提供了对数据索引方式的完全控制，推荐在生产环境中使用，以避免不可预测的行为。

常见数据类型

文本类型:
- text: 用于全文索引，会进行分词处理。
- keyword: 用于结构化数据、标签、ID 等，不分词，用于精确匹配、过滤、排序、聚合。
数值类型: long, integer, short, byte, double, float, half_float, scaled_float
日期类型: date (支持多种格式)
布尔类型: boolean
二进制类型: binary
复杂类型:
- object: 用于嵌套 JSON 对象。
- nested: 专门用于处理对象数组，保证数组中每个对象的独立性。
地理位置类型: geo_point, geo_shape
特殊类型: ip, completion, token_count 等

查看与创建映射

查看现有索引的映射:
json GET /my_index/_mapping
创建索引并指定映射: 在创建索引时，可以通过请求体提供 mappings 部分。

json PUT /articles { "settings": { "index": { "number_of_shards": 3, "number_of_replicas": 1 } }, "mappings": { "properties": { "title": { "type": "text", "analyzer": "standard" }, "author": { "type": "keyword" }, "publish_date": { "type": "date" }, "views": { "type": "long" }, "content": { "type": "text" }, "tags": { "type": "keyword" } } } }
这里创建了一个名为 articles 的索引，指定了分片和副本数量，并为各个字段定义了精确的映射类型。注意 author 和 tags 使用 keyword 类型，因为它们通常用于精确匹配或聚合，而不是全文搜索。

6. Elasticsearch 搜索：Query DSL 详解

搜索是 Elasticsearch 的核心功能。Elasticsearch 提供强大的 Query DSL (Domain Specific Language) 来构建复杂的搜索请求。

搜索的基本方式

URI 搜索: 通过请求参数进行简单搜索。例如 GET /my_index/_search?q=title:Elasticsearch。功能有限，不常用。
请求体搜索 (Query DSL): 使用 POST /{index_name}/_search 或 GET /{index_name}/_search 并在请求体中提供 JSON 格式的查询语句。这是最常用和强大的方式。

Query DSL 结构

请求体通常包含一个 query 对象，以及可选的 size (返回结果数量)、from (分页起始位置)、sort (排序)、_source (过滤返回字段) 等参数。

json GET /my_index/_search { "query": { // Query goes here }, "size": 10, "from": 0, "sort": [ {"publish_date": "desc"} ], "_source": ["title", "author"] }

基本查询类型

match Query: 用于执行全文搜索或模糊匹配。它会根据字段的映射类型和分析器对查询字符串进行处理（分词）。
json GET /my_index/_search { "query": { "match": { "title": "入门指南" } } }
这会在 title 字段中搜索包含“入门”或“指南”分词的文档。
term Query: 用于精确匹配字段的完整值。常用于 keyword 字段。它不会对查询字符串进行分词。
json GET /my_index/_search { "query": { "term": { "author": "李四改" } } }
这会精确查找 author 字段值为 “李四改” 的文档。注意与 match 的区别，match “李四改” 可能会分词成 “李四” 和 “改” 然后去匹配。
terms Query: 类似 term，但可以匹配多个值。
json GET /my_index/_search { "query": { "terms": { "tags": ["elasticsearch", "mapping"] } } }
查找 tags 字段（假设是 keyword 数组）包含 “elasticsearch” 或 “mapping” 的文档。

布尔查询 (bool)

bool 查询组合其他查询条件，类似于编程语言中的逻辑运算符 (AND, OR, NOT)。它包含四个子句：
* must: 文档必须匹配这些查询。类似于 AND。会影响相关性得分 (_score)。
* filter: 文档必须匹配这些查询。类似于 AND。与 must 不同的是，filter 不计算相关性得分，常用于过滤结构化数据，性能更高。
* should: 文档应该匹配这些查询。类似于 OR。如果 bool 查询中没有任何 must 或 filter 子句，则至少需要匹配一个 should 子句。会影响相关性得分。
* must_not: 文档不能匹配这些查询。类似于 NOT。不影响相关性得分。

示例：查找作者是“张三” 或 “王五”，并且内容包含“指南”，发布日期在最近一年内的文章。

json GET /articles/_search { "query": { "bool": { "should": [ { "term": { "author": "张三" } }, { "term": { "author": "王五" } } ], "must": [ { "match": { "content": "指南" } } ], "filter": [ { "range": { "publish_date": { "gte": "now-1y/d" } } } ] } } }

范围查询 (range)

用于查找某个字段值在指定范围内的文档。支持数值和日期类型。

json GET /articles/_search { "query": { "range": { "views": { "gte": 100, // 大于等于 100 "lt": 500 // 小于 500 } } } }
参数：gt (大于), gte (大于等于), lt (小于), lte (小于等于)。

全文搜索与分析器 (Analyzer)

当字段类型是 text 时，Elasticsearch 会在索引和搜索时使用分析器 (Analyzer) 对文本进行处理。一个分析器由三个部分组成：
1. 字符过滤器 (Character Filters): 在分词前处理字符串，例如移除 HTML 标签，转换特殊字符。
2. 分词器 (Tokenizer): 将字符串分割成单个的词条 (tokens)。例如 standard 分词器按空格和标点符号分割。
3. 词条过滤器 (Token Filters): 处理分词器产生的词条，例如转小写、移除停用词、添加同义词、词干提取等。

默认的 standard 分析器适用于大多数西文语言，它会将文本转小写，并按标点和空格分词。对于中文，通常需要安装并使用中文分词器插件（如 IK Analysis），因为它能更好地处理中文词语边界。

在映射中可以指定字段使用的分析器：

json PUT /my_chinese_index { "settings": { "index": { "analysis": { "analyzer": { "ik_smart": { "tokenizer": "ik_smart" } } } } }, "mappings": { "properties": { "content": { "type": "text", "analyzer": "ik_smart", "search_analyzer": "ik_smart" } } } }
需要先安装 IK Analysis 插件。

过滤 (Filter) vs 查询 (Query)

这是 Elasticsearch 中一个重要的概念区分：

查询 (Query): 关注文档的相关性得分 (_score)。它们用于判断文档与查询条件的匹配程度，并影响结果的排序。match, term (在 must 或 should 中) 等属于查询。
过滤 (Filter): 不计算相关性得分。它们只用于判断文档是否符合条件 (Yes/No)。通常用于过滤结构化数据或范围查询。term, terms, range, exists, ids 等查询类型放在 bool 查询的 filter 子句中时，就作为过滤器使用。过滤操作通常比查询更快，且可被缓存。

在构建查询时，应尽可能将不关心得分的条件放在 filter 子句中。

7. 数据聚合 (Aggregations)

聚合允许你对搜索结果进行分组和计算统计信息，提供了一种强大的数据分析能力，类似于 SQL 中的 GROUP BY 和统计函数 (COUNT, SUM, AVG, MIN, MAX) 的组合。

聚合与搜索请求一起发送，结果包含在响应的 aggregations 部分。

聚合有两种主要类型：

度量聚合 (Metrics Aggregations): 计算一组文档的度量指标，如总和、平均值、最大值、最小值、计数等。
- avg: 计算平均值。
- sum: 计算总和。
- min: 计算最小值。
- max: 计算最大值。
- value_count: 计算值的数量。
- cardinality: 计算去重后的数量 (近似值，适用于大量数据)。
桶聚合 (Bucket Aggregations): 将文档分组到不同的“桶”中，每个桶代表一个分类或范围。类似于 SQL 的 GROUP BY。
- terms: 根据字段值进行分组（例如，按作者分组）。
- range: 根据字段值的范围进行分组。
- date_range: 根据日期范围进行分组。
- histogram: 按数值间隔进行分组。
- date_histogram: 按时间间隔进行分组。

聚合语法

聚合请求在搜索请求体的 aggregations (或 aggs) 字段中定义。每个聚合有一个自定义名称，然后指定聚合类型和参数。

示例：统计不同作者的文章数量。

json GET /articles/_search { "size": 0, "_source": false, // 通常聚合不需要返回文档和源数据 "aggs": { "articles_by_author": { // 聚合的名称 "terms": { // 桶聚合类型：按词条分组 "field": "author.keyword", // 按 author 字段分组 (使用 keyword 类型以保证精确匹配) "size": 10 // 返回数量最多的前10个作者 } } } }
响应结果会在 aggregations 中包含 articles_by_author，列出每个作者及其对应的文档数量 (doc_count)。

示例：计算所有文章的平均浏览量。

json GET /articles/_search { "size": 0, "aggs": { "average_views": { // 聚合的名称 "avg": { // 度量聚合类型：平均值 "field": "views" // 计算 views 字段的平均值 } } } }

嵌套聚合

可以将度量聚合嵌套在桶聚合中，或者将桶聚合嵌套在另一个桶聚合中，以实现更复杂的分析。

示例：统计不同作者的文章数量，并且计算每个作者文章的平均浏览量。

json GET /articles/_search { "size": 0, "aggs": { "articles_by_author": { // 按作者分组 (桶聚合) "terms": { "field": "author.keyword", "size": 10 }, "aggs": { // 在每个作者的桶内进行子聚合 "average_author_views": { // 计算当前桶（某个作者）内的平均浏览量 (度量聚合) "avg": { "field": "views" } } } } } }
响应会显示每个作者的桶，每个桶中包含该作者的文章数量 (doc_count) 和一个 average_author_views 子聚合结果，显示该作者文章的平均浏览量。

8. 实用技巧与注意事项

分片与副本：
- 分片数量 (number_of_shards): 在创建索引时指定，之后不能修改。合理的数量取决于数据总量、增长速度、集群节点数等。过少可能导致单个分片过大、无法充分利用集群资源；过多可能导致管理开销大。
- 副本数量 (number_of_replicas): 默认为 1。可以在任何时候动态修改。副本提高可用性和搜索性能，但会占用更多磁盘空间和索引时间。生产环境至少设置为 1。
性能优化初步：
- 合理设计映射，尤其区分 text 和 keyword。
- 利用 filter 子句提高过滤性能。
- 避免使用通配符开头的查询 (*keyword)，性能很差。
- 使用 _bulk API 进行批量操作。
- 监控集群健康状态（JVM 内存、CPU、磁盘 I/O）。
常见问题与排查：
- 集群状态非绿色 (yellow 或 red): 通常是分片未分配或丢失导致。检查节点状态和日志。
- 内存不足 (CircuitBreakerException): 某些操作（如大型聚合）可能消耗过多内存。调整 JVM 堆大小或优化查询/聚合。
- 磁盘空间不足：定期清理旧索引或扩容。
- 映射问题：字段类型不匹配导致索引或搜索异常。

9. 实战案例：构建一个简单的文章搜索系统

我们将创建一个 articles 索引，索引一些文章数据，然后执行不同的搜索和聚合操作。

步骤 1: 删除旧索引 (如果存在)

json DELETE /articles

步骤 2: 创建索引并指定映射

使用我们之前定义的映射来创建 articles 索引。

json PUT /articles { "settings": { "index": { "number_of_shards": 3, "number_of_replicas": 1 } }, "mappings": { "properties": { "title": { "type": "text", "analyzer": "standard" }, "author": { "type": "keyword" }, "publish_date": { "type": "date" }, "views": { "type": "long" }, "content": { "type": "text" }, "tags": { "type": "keyword" } } } }

步骤 3: 索引样本数据

使用 _bulk API 批量索引几篇样本文章。

json POST /_bulk {"index": {"_index": "articles", "_id": "101"}} {"title": "Elasticsearch 入门实战", "author": "张三", "publish_date": "2023-10-28T10:00:00Z", "views": 120, "content": "本文是 Elasticsearch 入门的实战教程。", "tags": ["elasticsearch", "入门", "实战"]} {"index": {"_index": "articles", "_id": "102"}} {"title": "Lucene 原理浅析", "author": "李四", "publish_date": "2023-10-25T11:30:00Z", "views": 85, "content": "探讨 Lucene 搜索引擎的核心原理。", "tags": ["lucene", "原理"]} {"index": {"_index": "articles", "_id": "103"}} {"title": "Kibana 可视化指南", "author": "王五", "publish_date": "2023-10-27T14:00:00Z", "views": 210, "content": "教你使用 Kibana 进行数据可视化分析。", "tags": ["kibana", "可视化", "分析"]} {"index": {"_index": "articles", "_id": "104"}} {"title": "Logstash 数据采集", "author": "张三", "publish_date": "2023-10-26T09:00:00Z", "views": 95, "content": "介绍如何使用 Logstash 收集各种数据源。", "tags": ["logstash", "数据采集"]} {"index": {"_index": "articles", "_id": "105"}} {"title": "Elasticsearch 性能调优", "author": "李四", "publish_date": "2023-10-28T15:00:00Z", "views": 150, "content": "Elasticsearch 集群的性能优化技巧。", "tags": ["elasticsearch", "性能优化"]}
注意日期的格式，我们使用了 ISO 8601 格式。

等待几秒钟，让数据被索引。可以通过 GET /_cat/indices?v 查看索引状态和文档数量。

步骤 4: 执行搜索查询

搜索标题或内容包含“实战”的文章：
json GET /articles/_search { "query": { "multi_match": { // 多字段匹配 "query": "实战", "fields": ["title", "content"] } } }
查找作者是“张三”或标签是“可视化”的文章：
json GET /articles/_search { "query": { "bool": { "should": [ { "term": { "author.keyword": "张三" } }, { "term": { "tags.keyword": "可视化" } } // 注意使用 .keyword ] } } }
查找发布日期在 2023-10-27 之后，且浏览量大于 100 的文章：
json GET /articles/_search { "query": { "bool": { "filter": [ { "range": { "publish_date": { "gte": "2023-10-27" } } }, { "range": { "views": { "gt": 100 } } } ] } } }
我们将这些条件放在 filter 中，因为它们只用于过滤结果，不影响得分。

步骤 5: 执行聚合查询

统计各作者的文章数量，并按数量降序排序：
json GET /articles/_search { "size": 0, "aggs": { "articles_count_by_author": { "terms": { "field": "author.keyword", "order": { "_count": "desc" } // 按文档数量降序排序桶 } } } }
统计各作者的文章数量，并计算其平均浏览量：
json GET /articles/_search { "size": 0, "aggs": { "articles_by_author": { "terms": { "field": "author.keyword", "size": 10 }, "aggs": { "avg_views": { "avg": { "field": "views" } } } } } }

通过这些实战例子，你应该对 Elasticsearch 的基本操作和 Query DSL 有了更直观的理解。

10. 总结与展望

恭喜你完成了这篇 Elasticsearch 实战教程的学习！我们从核心概念出发，一步步了解了如何搭建环境、进行基本数据操作，深入掌握了映射、强大的 Query DSL 搜索语法以及数据聚合功能。通过最后的实战案例，将这些知识串联起来，初步体验了构建搜索系统的过程。

Elasticsearch 功能非常强大，这篇指南仅仅触及了其冰山一角。未来你可以继续深入学习：

更复杂的查询类型： 短语搜索 (match_phrase)、模糊搜索 (fuzzy)、同义词搜索、跨字段搜索等。
排序 (sort) 与高亮 (highlight)。
脚本 (script) 的高级用法。
索引生命周期管理 (ILM)。
快照与恢复 (Snapshot/Restore)。
安全认证、授权和审计。
性能调优的更多细节和工具。
集成 Logstash 和 Beats 搭建完整的数据管道。
使用 Kibana 进行更深入的数据分析和可视化。

最好的学习方法是不断实践。动手尝试不同的查询和聚合，使用自己的数据构建索引，你会越来越熟练地运用 Elasticsearch 解决实际问题。祝你在 Elasticsearch 的探索之旅中取得成功！