Redis SCAN 命令教程：全面了解 Redis SCAN 的功能与应用场景

在 Redis 中，KEYS 命令可以用来查找所有符合给定模式（pattern）的 key。然而，当 Redis 数据库中包含大量 key 时，KEYS 命令可能会导致 Redis 服务器阻塞，影响其他客户端的请求。为了解决这个问题，Redis 2.8.0 版本引入了 SCAN 命令，它允许我们以渐进式的方式迭代数据库中的 key，避免了服务器阻塞。

本文将深入探讨 SCAN 命令，包括其工作原理、基本用法、参数详解、不同类型的 SCAN 命令（如 SSCAN, HSCAN, ZSCAN）、应用场景、与 KEYS 命令的对比，以及使用注意事项。

1. SCAN 命令的工作原理

SCAN 命令基于游标（cursor）进行迭代。每次执行 SCAN 命令时，Redis 服务器会返回一个新的游标，客户端需要将这个新的游标作为下一次 SCAN 命令的参数。当服务器返回的游标为 0 时，表示迭代完成。

SCAN 命令的迭代过程并不是一次性完成的，而是分多次进行的。每次迭代只会返回数据库中的一部分 key，这样可以避免一次性加载大量 key 导致服务器阻塞。

SCAN 命令的算法保证：

完整性： 从迭代开始到结束，如果一个 key 始终存在于数据库中，那么 SCAN 命令一定会返回这个 key。
可能有重复： 同一个 key 可能会被返回多次。应用程序需要处理重复的 key。
可能无序： 返回的 key 的顺序是不确定的。
迭代过程中可能有新增或删除: 在迭代过程中，如果数据库中的 key 发生了变化（新增或删除），那么迭代的结果可能不会反映这些变化。新增的key不一定被返回, 被删除的key也可能被返回.

2. SCAN 命令的基本用法

SCAN 命令的基本语法如下：

SCAN cursor [MATCH pattern] [COUNT count] [TYPE type]

cursor: 游标，初始值为 0。Redis 服务器会返回一个新的游标，客户端需要将这个新的游标作为下一次 SCAN 命令的参数。
MATCH pattern: 可选参数，用于匹配 key 的模式。模式支持 glob-style 的通配符，例如：
- *: 匹配任意多个字符。
- ?: 匹配单个字符。
- [abc]: 匹配 a、b 或 c 中的任意一个字符。
- [^abc]: 匹配除了 a、b、c 之外的任意一个字符。
- [a-z]: 匹配 a 到 z 之间的任意一个字符。
- \x: 转义字符, 例如 \* 用来匹配 * 本身.
COUNT count: 可选参数，用于指定每次迭代返回的 key 的数量。COUNT 只是一个提示，Redis 不保证每次都返回指定数量的 key。实际返回的key数量可能比COUNT值大，也可能比它小, 甚至可能返回空(当没有匹配的key时)。
TYPE type: 可选参数 (Redis 6.0 以后支持), 指定返回key的类型. 比如只返回string类型的key, 或者只返回hash类型的key. 可以是以下值: string, list, set, zset, hash, stream.

示例：

简单迭代：

“`
redis> SCAN 0
1) “17”
2) 1) “key:12”
2) “key:8”
3) “key:4”
4) “key:14”
5) “key:3”
6) “key:7”
7) “key:1”
8) “key:2”
9) “key:11”
10) “key:15”

redis> SCAN 17
1) “0”
2) 1) “key:5”
2) “key:9”
3) “key:10”
4) “key:13”
5) “key:6”
6) “key:0”
7) “key:16”
“`

第一次执行 SCAN 0，返回游标 “17” 和一部分 key。第二次执行 SCAN 17，返回游标 “0”，表示迭代完成。
使用 MATCH 选项：

redis> SCAN 0 MATCH key:1* 1) "17" 2) 1) "key:12" 2) "key:14" 3) "key:11" 4) "key:15"

只返回以 “key:1” 开头的 key。
使用 COUNT 选项：

redis> SCAN 0 COUNT 5 1) "17" 2) 1) "key:12" 2) "key:8" 3) "key:4" 4) "key:14" 5) "key:3"

尝试每次返回 5 个 key，但 Redis 不保证一定返回 5 个。
使用 TYPE 选项 (Redis 6.0+):

redis redis> SCAN 0 TYPE string 1) "0" 2) 1) "string_key_1" 2) "string_key_2"
这个命令只返回 string 类型的 key。

3. 不同类型的 SCAN 命令

除了基本的 SCAN 命令，Redis 还提供了针对不同数据结构的 SCAN 命令：

SSCAN: 用于迭代集合（Set）中的元素。

SSCAN key cursor [MATCH pattern] [COUNT count]
* HSCAN: 用于迭代哈希表（Hash）中的字段和值。

HSCAN key cursor [MATCH pattern] [COUNT count]
返回的数组中，偶数索引位置是字段名，奇数索引位置是字段值。
* ZSCAN: 用于迭代有序集合（Sorted Set）中的元素和分数。

ZSCAN key cursor [MATCH pattern] [COUNT count]
返回的数组中，偶数索引位置是元素值，奇数索引位置是元素的分数。

这些命令的用法与 SCAN 命令类似，都需要传入游标，并支持 MATCH 和 COUNT 选项。

示例：

SSCAN 示例：

redis> SADD myset "element1" "element2" "element3" "element4" "element5" (integer) 5 redis> SSCAN myset 0 1) "3" 2) 1) "element1" 2) "element4" 3) "element2" redis> SSCAN myset 3 1) "0" 2) 1) "element5" 2) "element3"
HSCAN 示例：

redis> HSET myhash field1 "value1" field2 "value2" field3 "value3" (integer) 3 redis> HSCAN myhash 0 1) "0" 2) 1) "field1" 2) "value1" 3) "field2" 4) "value2" 5) "field3" 6) "value3"
ZSCAN 示例：

redis> ZADD myzset 1 "one" 2 "two" 3 "three" (integer) 3 redis> ZSCAN myzset 0 1) "0" 2) 1) "one" 2) "1" 3) "two" 4) "2" 5) "three" 6) "3"

4. SCAN 命令的应用场景

SCAN 命令及其衍生命令在以下场景中非常有用：

大数据集遍历： 当需要遍历一个包含大量 key 的 Redis 数据库时，SCAN 命令可以避免 KEYS 命令导致的阻塞。
定期清理过期 key： 可以使用 SCAN 命令定期扫描数据库，找出符合特定模式的 key，然后进行清理或处理。
查找符合条件的 key： 可以使用 MATCH 选项查找符合特定模式的 key，例如查找所有以 “user:” 开头的 key。
监控 key 的分布： 可以使用 SCAN 命令定期扫描数据库，统计不同类型 key 的数量，或者统计 key 的长度分布等。
数据迁移： 可以使用SCAN 命令结合 DUMP 和 RESTORE 命令，将一个 Redis 实例的数据迁移到另一个 Redis 实例，避免一次性迁移大量数据导致阻塞。

5. SCAN 命令与 KEYS 命令的对比

特性	SCAN	KEYS
阻塞性	非阻塞	阻塞
迭代方式	渐进式迭代，每次返回一部分 key	一次性返回所有匹配的 key
性能	适合大数据集，不会阻塞服务器	适合小数据集，大数据集会导致阻塞
返回结果	返回一个游标和一部分 key	返回所有匹配的 key 的列表
原子性	非原子操作	原子操作
复杂度	每次调用O(1), 完整迭代一遍是O(N), N为数据库内key的数量	O(N)，N 为数据库内 key 的数量

6. 使用 SCAN 命令的注意事项

重复 key 的处理： SCAN 命令可能会返回重复的 key，应用程序需要处理这种情况。例如，可以使用一个集合（Set）来存储已经处理过的 key，避免重复处理。
迭代过程中数据变化： 在迭代过程中，如果数据库中的 key 发生了变化（新增或删除），那么迭代的结果可能不会反映这些变化。
COUNT 参数的理解： COUNT 参数只是一个提示，Redis 不保证每次都返回指定数量的 key。实际返回的 key 数量可能更多或更少。
游标的使用： 每次 SCAN 命令返回的游标都需要作为下一次 SCAN 命令的参数，直到返回的游标为 0，表示迭代完成。
避免在主节点上长时间执行 SCAN： 尽管 SCAN 命令本身不会阻塞服务器，但是如果在主节点上长时间执行 SCAN 命令，仍然可能会对性能产生一定影响。建议在从节点上执行 SCAN 操作。如果没有从节点, 可以考虑将COUNT值设置的小一些, 并控制每次SCAN操作的执行时间。
MATCH 匹配的效率: MATCH 选项会对每一个 key 进行模式匹配，当 key 的数量非常大时，MATCH 匹配可能会消耗较多的 CPU 资源。如果只是需要遍历所有 key，不需要进行模式匹配，那么可以不使用 MATCH 选项。
不要期望返回的Key是有序的: SCAN 命令以及相关的 SSCAN、HSCAN 和 ZSCAN 命令都不保证返回的 key 是有序的。如果需要对 key 进行排序，需要在客户端进行处理。

7. 总结

SCAN 命令是 Redis 中一个非常重要的命令，它提供了一种渐进式迭代数据库 key 的方式，避免了 KEYS 命令可能导致的阻塞问题。通过理解 SCAN 命令的工作原理、基本用法、参数详解、不同类型的 SCAN 命令、应用场景、与 KEYS 命令的对比，以及使用注意事项，我们可以更好地利用 SCAN 命令来管理和操作 Redis 数据库。特别是在大数据集环境下，SCAN 命令是不可或缺的工具。