图解Redis数据结构 (如果文章配图) – wiki基地

图解Redis数据结构：揭开高性能的秘密

前言

Redis，作为一个开源的、基于内存的键值对存储系统，以其出色的性能、丰富的功能和灵活的数据类型，在现代互联网应用中扮演着越来越重要的角色，被广泛应用于缓存、消息队列、分布式锁等场景。许多开发者可能熟悉Redis的各种命令，例如SET、GET、LPUSH、RPUSH、HSET、ZADD等等。然而，要真正驾驭Redis，发挥其最大潜力，仅仅了解命令是远远不够的。

理解Redis底层是如何存储和组织数据的，也就是深入探讨它的内部数据结构（Internal Data Structures），才是掌握Redis高性能秘密的关键。Redis不仅仅是一个简单的键值存储，它提供了String、List、Set、Sorted Set、Hash等多种抽象数据类型（Abstract Data Types，ADT）。这些ADT的用户接口是统一且易于理解的，但Redis在内部使用了一系列精心设计的底层数据结构来高效地实现这些ADT，例如SDS、双端链表、压缩列表、跳跃表、哈希表、整数集合等。

本文将带领读者一起“图解”Redis的内部世界（虽然无法直接展示图片，但会通过详细的描述帮助读者构建画面感），深入剖析这些底层数据结构，解释它们的工作原理、优缺点以及Redis如何在不同场景下选择和切换这些结构，最终帮助读者更好地理解Redis的性能特点，并在实际应用中做出更明智的选择。

为什么需要了解Redis的内部数据结构？

了解Redis的内部数据结构并非学院派的枯燥理论，而是具有重要的实际意义：

性能理解： 不同的数据结构有不同的时间复杂度和空间复杂度。了解底层实现能帮助你预测特定操作的性能，例如，你知道在一个非常大的List中间插入元素为什么慢，或者在Set中查找元素为什么快。
内存优化： Redis是内存数据库，内存是宝贵的资源。不同的内部结构对内存的使用效率差异巨大。了解这些差异可以帮助你估算内存占用，避免内存溢出，并进行有效的内存优化。
故障排查： 当遇到性能瓶颈或内存问题时，了解底层结构有助于定位问题根源，例如，一个List或Hash因为使用了低效的内部编码导致性能下降。
合理选型： 掌握每种ADT底层实现的特性，能让你在多种选择中（例如用Hash还是String存储结构化数据，用List还是Sorted Set实现排行榜）做出最符合业务需求和性能要求的决策。
配置调优： Redis的一些配置项（如list-max-ziplist-entries、hash-max-ziplist-value等）直接关联着内部结构的切换阈值。理解结构原理才能有效地进行配置调优。

简而言之，内部数据结构是Redis高性能的基石。深入理解它们，就像理解引擎盖下的组件一样，能让你更有效地“驾驶”Redis。

Redis的通用键值存储结构

在深入了解各种具体数据类型之前，首先需要知道Redis是如何存储键值对的。Redis的核心是一个巨大的哈希表，也称为字典（dict）。

（想象一幅图：一个大的哈希表，表中有许多“桶”（buckets），每个桶里可能挂着一个键值对或一个链表。）

这个全局哈希表维护着所有的键和它们关联的值。键总是一个String类型（内部使用SDS表示），而值则是一个指向各种Redis对象（redisObject）的指针。

（想象一幅图：在全局哈希表的某个桶里，有一个条目，左边是键（一个SDS结构的表示），右边是一个指向内存中某个位置的箭头，这个位置存储了一个redisObject。）

redisObject是Redis内部表示值的一种封装结构。它包含了：

type: 对象的类型，比如REDIS_STRING, REDIS_LIST, REDIS_SET, REDIS_ZSET, REDIS_HASH等。这就是我们看到的抽象数据类型。
encoding: 对象的编码方式。这指明了该类型底层实际使用的哪种内部数据结构，例如REDIS_ENCODING_RAW, REDIS_ENCODING_INT, REDIS_ENCODING_HT, REDIS_ENCODING_ZIPLIST, REDIS_ENCODING_SKIPLIST等。同一个type可能对应多种encoding。
lru: 记录对象最后一次被访问的时间，用于LRU（Least Recently Used）淘汰策略。
refcount: 引用计数，用于内存管理。
ptr: 指向实际存储数据结构的指针。

正是通过redisObject的encoding字段，Redis能够根据存储的数据特点（数量、大小等）动态选择最合适的底层数据结构。这种多态性是Redis高效和灵活的关键。

接下来，我们将逐一解析每种抽象数据类型及其对应的内部数据结构。

1. String（字符串）

抽象类型：最基本的数据类型，可以存储任何二进制安全的数据，如文本、图片、序列化的对象等。
常见命令：SET, GET, INCR, DECR, APPEND, STRLEN等。

String类型的底层编码主要有两种：

REDIS_ENCODING_INT: 如果一个String类型的值是一个整数，并且长度在特定的范围内（通常是long类型能表示的范围），Redis会直接将这个整数存储在redisObject的ptr字段里，或者利用某种优化方式直接存储，而不是创建一个实际的字符串结构。这种方式非常节省内存。
REDIS_ENCODING_RAW (或 REDIS_ENCODING_EMBSTR): 对于非整数或者超出范围的整数，String的值会存储为一个SDS (Simple Dynamic String) 结构。

SDS (Simple Dynamic String)

Redis没有直接使用C语言传统的字符串（以\0结尾的字符数组），而是自己实现了一个名为SDS的结构。SDS相比C字符串有以下优点：

记录长度（len字段）： SDS结构包含一个len字段，记录了当前字符串的实际长度。获取字符串长度的时间复杂度是O(1)，而C字符串需要遍历到\0，是O(N)。
防止缓冲区溢出： SDS包含一个alloc字段，记录了已分配的内存空间大小。当需要对SDS进行修改（如APPEND）时，SDS会先检查空间是否足够。如果不足，会进行预分配（fast allocation path），分配大于实际所需空间的内存，避免了C字符串常见的缓冲区溢出问题。
二进制安全： SDS不是通过\0字符来判断字符串结束，而是通过len字段。这意味着SDS可以存储包含\0字符在内的任意二进制数据，这对于存储序列化对象等非常有用。
减少修改字符串带来的内存重新分配次数： SDS的预分配机制使得多次短小的追加操作无需频繁地重新分配内存，提高了效率。

（想象一幅图：一个SDS结构，上面有三个字段：len (当前长度), alloc (已分配空间), flags (类型标记)，下面紧跟着一个buf[]字符数组，存储实际的字符串内容，buf数组的末尾总是有个\0，但这个\0只用于兼容C函数，不是SDS长度的标志。alloc通常会大于len。）

总结 String:
String是Redis最基础的类型，内部使用SDS（或直接存储整数）实现，提供了O(1)的长度获取和高效安全的动态字符串操作。选择REDIS_ENCODING_INT时内存效率极高。

2. List（列表）

抽象类型：一个有序的、可以包含重复元素的字符串列表。可以从列表的两端进行元素的推入和弹出，用作队列或栈。
常见命令：LPUSH, RPUSH, LPOP, RPOP, LRANGE, LLEN, LINDEX, LINSERT等。

List类型在Redis 3.2版本之前主要使用两种内部编码：

REDIS_ENCODING_ZIPLIST (压缩列表): 当列表元素数量较少且元素本身长度不太大时使用。
REDIS_ENCODING_LINKEDLIST (双端链表): 当列表元素数量较多或元素较大时使用。

Redis 3.2版本引入了新的编码REDIS_ENCODING_QUICKLIST，它成为了List的默认实现，并取代了单独的ZIPLIST和LINKEDLIST。

双端链表 (linkedlist)

标准的双向链表结构，每个节点包含：指向前一个节点的指针、指向后一个节点的指针、以及元素值。此外，List对象自身会维护指向头节点和尾节点的指针，以及列表长度。

（想象一幅图：一系列节点通过双向箭头连接起来。List对象有一个指向第一个节点的箭头，一个指向最后一个节点的箭头，以及一个记录总节点数的计数器。每个节点内部有一个指向前、后节点的箭头，以及存储数据的区域。）

优点：
* 从两端进行push和pop操作的时间复杂度是O(1)。
* 在链表的任意位置进行插入和删除操作的时间复杂度是O(1)（需要先找到节点，找节点是O(N)）。

缺点：
* 内存开销较大：每个节点都需要额外的空间存储两个指针，以及一些元数据。
* 缓存不友好：节点分散在内存中，不利于CPU缓存。
* 随机访问效率低：获取指定索引的元素需要从头或尾遍历，时间复杂度是O(N)。

压缩列表 (ziplist)

压缩列表是为了节约内存而设计的，它是一个连续的内存块，而不是分散的节点。它以一种特殊的编码方式存储数据，将多个元素紧凑地挨在一起。

（想象一幅图：一块连续的内存区域。区域内从头到尾紧密排列着多个“entry”（条目）。每个entry不是简单的数据，而是一种特殊的格式，包含了：前一个entry的长度（用于从后往前遍历）、当前entry的编码方式和数据长度、以及实际的数据。）

优点：
* 内存效率高：没有指针开销，数据紧凑存储。
* 缓存友好：数据在连续内存中，有利于CPU缓存。

缺点：
* 随机访问效率低：查找某个元素需要遍历，时间复杂度是O(N)。
* 修改（插入、删除、更新）效率低：当在列表中间进行修改时，可能需要移动大量的后续元素，甚至需要重新分配整个压缩列表的内存，最坏情况下时间复杂度是O(N)。
* 连锁更新 (Cascade Update): 当一个entry的长度变化导致其后继entry需要更新其“前一个entry长度”字段时，如果后继entry的“前一个entry长度”字段空间不足，它自身的大小也会增加，可能导致其再后继的entry也需要更新，形成连锁反应。

Redis通过配置参数控制何时使用ziplist：
* list-max-ziplist-entries: 当列表元素数量小于此值时使用ziplist（默认512）。
* list-max-ziplist-value: 当列表任一元素的大小小于此值时使用ziplist（默认64字节）。
只有两个条件都满足时，List才会使用ziplist编码。

快速列表 (quicklist)

Quicklist是Redis 3.2版本引入的，它是一个由ziplist组成的双端链表。Quicklist的每个节点都是一个ziplist，这个ziplist里面存储了多个列表元素。

（想象一幅图：一个双端链表，但链表中的每个节点不是存储单个元素，而是存储了一个完整的ziplist。第一个quicklist节点包含一个ziplist A，ziplist A里存了元素1,2,3。第二个quicklist节点包含一个ziplist B，ziplist B里存了元素4,5,6，以此类推。Quicklist对象有指向头、尾节点的指针，以及总元素数。）

Quicklist结合了双端链表和压缩列表的优点：

优点：
* 从两端push和pop操作的时间复杂度是O(1)（大部分情况下，只需操作链表头尾的ziplist，如果ziplist满了或空了需要链表操作）。
* 内存效率相对较高：每个节点存储多个元素（通过ziplist），降低了链表节点的指针开销。每个ziplist的大小可以通过配置list-compress-depth和list-max-ziplist-size控制，平衡了空间效率和操作效率。
* 缓存友好：每个ziplist块是连续内存，有利于局部性原理。

缺点：
* 随机访问仍然是O(N)，但比纯粹的双端链表要快一些（先找到对应的ziplist块 O(N)，然后在ziplist中遍历 O(M)，总共O(N/M + M)）。
* 中间插入/删除操作可能涉及ziplist的移动或分裂，效率不如纯链表。

Quicklist的出现基本取代了旧的两种编码。现在的List默认使用Quicklist。你可以通过list-max-ziplist-size配置每个ziplist块的大小（可以按元素个数或字节大小限制），通过list-compress-depth配置ziplist是否以及如何进行压缩。

总结 List:
List主要通过Quicklist（链表套ziplist）实现，兼顾了O(1)的两端操作、相对较高的内存效率和一定的缓存友好性。理解其内部结构有助于理解LRANGE等操作的性能特点。

3. Set（集合）

抽象类型：无序的、包含唯一元素的字符串集合。
常见命令：SADD, SMEMBERS, SISMEMBER, SINTER, SUNION, SREM, SCARD等。

Set类型在内部使用两种编码：

REDIS_ENCODING_INTSET (整数集合): 当集合中只包含整数元素，且元素数量和元素值都在特定范围内时使用。
REDIS_ENCODING_HT (哈希表): 当集合不满足使用intset的条件时使用。

整数集合 (intset)

Intset是一个有序的、不重复的整数数组。它之所以高效，是因为它在存储小范围的整数时，会根据最大的整数值自动升级数组元素类型（从16位到32位再到64位），从而用最小的内存存储数据。

（想象一幅图：一个连续的内存块，表示一个数组。数组内部存储着一些整数，并且是按大小排序的。Intset结构自身包含：编码方式（记录数组元素当前用的位数）、元素数量、以及实际存储整数的数组。）

优点：
* 内存效率极高：紧凑存储，没有指针开销。
* 虽然是数组，但因为有序，查找（SISMEMBER）可以使用二分查找，时间复杂度是O(log N)。
* 添加元素时，如果元素比当前所有元素都大或小，添加到末尾或开头也比较快。

缺点：
* 只适用于存储整数。
* 添加元素时，如果新元素需要升级数组类型（如从16位整数升级到32位整数），所有现有元素都需要转换并移动，可能发生连锁更新（类似于ziplist），最坏情况下插入操作的时间复杂度是O(N)。在数组中间插入元素也需要移动后续元素，时间复杂度是O(N)。

Redis通过配置参数控制何时使用intset：
* set-max-intset-entries: 当集合元素数量小于此值时使用intset（默认512）。

只有当集合中的所有元素都是整数，且数量小于等于set-max-intset-entries时，Redis才使用intset编码。一旦有非整数元素加入，或者元素数量超出阈值，Redis会立即将intset升级（Convert）为哈希表编码。

哈希表 (hashtable)

哈希表（在Redis源码中常称为字典dict）是一种非常通用的数据结构，Redis的全局键值对存储就是用哈希表实现的。在Set的语境下，哈希表的键是集合的元素，值是NULL（或者一个占位符），因为Set只关注元素是否存在，不存储额外的值。

（想象一幅图：一个大的哈希表，有多个桶。每个桶里存储着Set的元素（作为键），并且每个元素都是唯一的。查找、添加、删除元素的平均时间复杂度都是O(1)。）

优点：
* 查找、添加、删除的平均时间复杂度为O(1)，性能稳定。
* 可以存储任意类型的字符串元素。

缺点：
* 内存开销相对较大：每个哈希表节点需要存储指针、哈希值等额外信息。
* 哈希冲突和rehash（扩容时需要将所有元素重新计算哈希并移动到新的更大的哈希表）会带来一定的性能损耗（Redis的rehash是渐进式的，不会一次性阻塞）。

总结 Set:
Set根据元素类型和数量选择使用内存高效的intset（仅限整数）或性能稳定的hashtable。SISMEMBER等操作在intset下是O(log N)，在hashtable下是O(1)，通常都非常快。集合运算（如SINTER交集、SUNION并集）的性能取决于集合大小。

4. Sorted Set (有序集合)

抽象类型：有序的、包含唯一元素的字符串集合，每个元素都关联一个分数（score），集合中的元素按照分数从小到大排序。如果分数相同，则按元素字典序排序。
常见命令：ZADD, ZRANGE, ZRANK, ZSCORE, ZREM, ZCARD, ZRANGEBYSCORE等。

Sorted Set在内部使用两种编码：

REDIS_ENCODING_ZIPLIST (压缩列表): 当元素数量较少且元素和分数本身长度不太大时使用。
REDIS_ENCODING_SKIPLIST (跳跃表) 和 REDIS_ENCODING_HT (哈希表): 当不满足ziplist条件时，同时使用这两种结构。

压缩列表 (ziplist)

与List和Hash中的ziplist类似，Sorted Set的ziplist编码也是一个连续内存块。不同之处在于，Sorted Set的ziplist是将元素和其分数紧挨着存储，并且按照分数有序排列。

（想象一幅图：一块连续内存。从头到尾是按分数有序排列的条目。每个条目由两部分紧密组成：元素成员和它的分数。例如：memberA scoreA, memberB scoreB, …）

优点：
* 内存效率高：紧凑存储，没有指针开销。
* 缓存友好。

缺点：
* 修改（插入、删除）效率低：需要保持有序性，可能导致大量元素移动，最坏O(N)。
* 查找效率低：ZSCORE等操作需要遍历，最坏O(N)。范围查询（如ZRANGE）也需要遍历。

Redis通过配置参数控制何时使用ziplist：
* zset-max-ziplist-entries: 当有序集合元素数量小于此值时使用ziplist（默认128）。
* zset-max-ziplist-value: 当有序集合任一元素的大小小于此值时使用ziplist（默认64字节）。
只有两个条件都满足时，Sorted Set才会使用ziplist编码。

跳跃表 (skiplist) 和哈希表 (hashtable) 联合使用

当Sorted Set不能使用ziplist编码时，Redis会同时使用一个跳跃表和一个哈希表来存储数据。

跳跃表 (skiplist): 这是一个概率型数据结构，构建在有序链表之上，通过增加多层跳跃指针来实现快速查找。它是一个多层索引结构。底层是一个普通的有序链表，上面是多层稀疏的索引。

（想象一幅图：最底层是一条普通链表，元素按分数有序排列。上面有几层索引：第一层索引每隔几个节点有一个指针指向下一层对应的节点，第二层索引更稀疏，每隔更多节点有一个指针，以此类推。查找时从顶层索引开始，快速跳过大部分节点，直到找到一个比目标小的最大节点，然后下降到下一层，重复过程，最终在最底层找到目标节点。）

优点：
* 查找、插入、删除操作的平均时间复杂度为O(log N)，最坏情况为O(N)，但概率非常低。
* 范围查找（如ZRANGEBYSCORE）也非常高效，平均时间复杂度为O(log N + M)，其中M是范围内元素的数量。
* 实现相对简单（与平衡树如红黑树相比）。

缺点：
* 内存开销相对较大，每个节点需要存储多个指针。
哈希表 (hashtable): 这个哈希表用于存储成员（member）到分数（score）的映射。键是成员字符串，值是对应的分数。

（想象一幅图：一个哈希表，键是Sorted Set的成员字符串，值是该成员对应的分数。）

优点：
* 根据成员快速查找分数（ZSCORE）的时间复杂度为O(1)平均。
* 快速检查成员是否存在于集合中 (ZSCORE返回非NULL即存在)。

缺点：
* 内存开销相对较大。

为什么同时使用跳跃表和哈希表？
Sorted Set需要根据分数快速范围查询（跳跃表特长）以及根据成员快速查找分数（哈希表特长）。单独使用其中一种结构无法高效地支持所有操作。例如，如果只用跳跃表，查找分数很快，但要根据成员找到分数则需要遍历跳跃表（O(log N)）。同时使用两者，就可以实现：
* 通过哈希表O(1)获取成员的分数。
* 通过跳跃表O(log N)快速进行分数范围查找和排序。
* 通过跳跃表O(log N)快速插入、删除和更新元素（因为修改分数或成员需要同时更新哈希表和跳跃表）。

总结 Sorted Set:
Sorted Set根据元素数量和大小选择内存高效的ziplist或联合使用性能强劲的skiplist+hashtable。理解跳跃表的结构是理解其高性能范围查询和排序操作的关键。哈希表则提供了快速的成员到分数查找。

5. Hash（哈希）

抽象类型：存储字段-值（field-value）对的无序散列表。类似于很多编程语言中的Map或Dictionary。
常见命令：HSET, HGET, HGETALL, HDEL, HKEYS, HVALS, HLEN等。

Hash类型在内部使用两种编码：

REDIS_ENCODING_ZIPLIST (压缩列表): 当哈希中字段数量较少且字段名和字段值本身长度都不太大时使用。
REDIS_ENCODING_HT (哈希表): 当不满足ziplist条件时使用。

压缩列表 (ziplist)

与List和Sorted Set的ziplist类似，Hash的ziplist编码也是一个连续内存块。它以紧凑的方式将字段和值挨在一起存储。

（想象一幅图：一块连续内存。从头到尾是紧密排列的field-value对。例如：fieldA valueA, fieldB valueB, …）

优点：
* 内存效率高：紧凑存储，没有指针开销。
* 缓存友好。

缺点：
* 查找（HGET）需要遍历ziplist，最坏时间复杂度O(N)。
* 插入、删除、更新字段时，可能需要移动大量后续元素，最坏时间复杂度O(N)。
* 获取所有字段或值（HKEYS, HVALS, HGETALL）需要遍历，时间复杂度O(N)。

Redis通过配置参数控制何时使用ziplist：
* hash-max-ziplist-entries: 当哈希中字段数量小于此值时使用ziplist（默认512）。
* hash-max-ziplist-value: 当哈希中任一字段或值的大小小于此值时使用ziplist（默认64字节）。
只有两个条件都满足时，Hash才会使用ziplist编码。

哈希表 (hashtable)

当Hash不满足ziplist条件时，Redis会将其转换为标准的哈希表（字典dict）。这个哈希表的键就是哈希的字段（field），值就是对应的字段值（value）。

（想象一幅图：一个哈希表，有多个桶。每个桶里存储着一个field-value对。Field是键，value是值。）

优点：
* 查找（HGET）、添加（HSET）、删除（HDEL）的平均时间复杂度为O(1)，性能稳定。
* 获取所有字段或值（HKEYS, HVALS, HGETALL）需要遍历哈希表，时间复杂度为O(N)。

缺点：
* 内存开销相对较大：每个哈希表节点需要存储指针、哈希值等额外信息。
* Rehash可能带来短暂性能波动。

总结 Hash:
Hash根据字段数量和大小选择内存高效的ziplist或性能稳定的hashtable。对于字段较多或字段值较大的Hash，会使用hashtable，提供O(1)的单字段操作性能；对于小Hash，使用ziplist节省内存，但单字段操作是O(N)。理解这一点对于设计复杂对象在Redis中的存储方式至关重要。

Redis的其他内部数据结构或特殊用途的结构

除了以上五种主要的ADT，Redis还利用一些特殊的结构或编码来支持更高级的功能。

Bitmaps (位图)

Bitmaps并不是一个独立的数据类型，它实际上是将String类型作为位数组来处理。用户可以通过命令对String值中的特定位进行设置（0或1）、获取、统计或位运算。
常见命令：SETBIT, GETBIT, BITCOUNT, BITOP。

（想象一幅图：一个String类型的SDS结构。它的buf数组不再被看作是字符序列，而是看作一串比特位。例如，一个存储字节值为0x41 (‘A’) 的String，在Bitmaps看来就是二进制位序列01000001。SETBIT操作就是修改这个序列中的某一位。）

优点：
* 极致的内存效率：使用位来表示状态，非常适合存储大量的布尔值信息（如用户在线状态、用户签到记录）。1亿用户一年的签到记录可能只需要几十兆字节内存。
* 位运算效率高：BITOP命令可以在多个String之间进行位运算，快速完成交集、并集等操作。

内部实现： 基于String的SDS结构，SETBIT等命令操作的是SDS的buf数组中的具体比特位。

应用场景： 记录用户活动（如活跃用户、签到）、状态标记等。

HyperLogLogs

HyperLogLog是一种概率型数据结构，用于估算集合中唯一元素的数量。它不能返回具体的元素，也无法得到精确的数量，但可以在非常小的内存（固定约12KB）下，估算大规模数据的基数（Cardinality），误差率较低（标准误差约为0.81%）。
常见命令：PFADD, PFCOUNT, PFMERGE。

（想象一幅图：一个固定大小的内存区域（12KB）。数据通过哈希函数映射到这个区域，并记录一些信息（如哈希后二进制串中第一个1出现的位置）。根据这些统计信息，使用算法来估算原始集合的基数。）

优点：
* 内存占用极小且固定，与待统计的元素数量无关。
* 用于估算大规模数据的基数，如网站独立访客UV统计。

缺点：
* 估算结果有误差，不是精确值。
* 只能用于估算基数，无法获取元素或进行其他集合操作。

内部实现： 基于String类型，存储了一个稀疏或稠密的概率算法状态。

应用场景： UV统计、搜索引擎查询词独立数量统计、社交网络独立IP统计等。

Geospatial Indexes (地理空间索引)

Redis 3.2版本引入的功能，允许存储带有经度（longitude）、纬度（latitude）信息的点，并根据这些信息进行范围查询（如查找某个点附近N公里内的其他点）。
常见命令：GEOADD, GEORADIUS, GEODIST, GEOHASH等。

内部实现： Geospatial功能是基于Sorted Set实现的。每个地理位置信息通过GeoHash算法编码成一个可排序的52位整数。这个整数既包含了位置信息，又保留了邻近位置在编码上相似的特性。然后将这个GeoHash值作为Sorted Set的分数，将成员作为Sorted Set的成员（通常是位置的标识符）。

（想象一幅图：一个Sorted Set。每个成员是一个地点名称（如“故宫”），对应的分数是该地点经纬度经过GeoHash算法编码得到的52位整数。 Sorted Set按照这个GeoHash分数排序。）

优点：
* 利用Sorted Set的高效范围查询能力，可以快速进行地理位置的范围搜索。
* 利用哈希表（Sorted Set内部结构之一），可以快速查找某个位置的GeoHash值或经纬度。

缺点：
* GeoHash编码存在精度和边界问题（box查询可能包含边界外的点，radius查询可能漏掉一些近距离的点，需要后处理）。
* 相对于专门的地理数据库功能较基础。

应用场景： 位置服务（LBS）、附近的人、查找特定区域内的商家等。

内部编码的选择与转换

前面提到，Redis的许多抽象数据类型（List, Set, Hash, Sorted Set）都有多种内部编码。Redis会根据数据的特点（元素数量、元素大小）在这些编码之间进行动态转换（Conversion）。

这种转换是单向的：通常是从更省内存的编码（如ziplist, intset）转换为功能更全面、性能更稳定的编码（如hashtable, skiplist+hashtable）。一旦转换发生，不会再转回去。

例如：
* 一个List最初用ziplist存储，当元素数量超过list-max-ziplist-entries或任一元素大小超过list-max-ziplist-value时，会转换为quicklist。
* 一个Set最初用intset存储，当加入非整数元素或元素数量超过set-max-intset-entries时，会转换为hashtable。
* 一个Hash最初用ziplist存储，当字段数量超过hash-max-ziplist-entries或任一字段/值大小超过hash-max-ziplist-value时，会转换为hashtable。
* 一个Sorted Set最初用ziplist存储，当元素数量超过zset-max-ziplist-entries或任一元素/分数大小超过zset-max-ziplist-value时，会转换为skiplist+hashtable。

这些转换发生在执行修改命令（如LPUSH, SADD, HSET, ZADD）时，并且是一个同步过程。虽然Redis的设计尽量优化了转换过程，但在数据量较大时，转换操作仍可能带来短暂的性能影响，尤其是在需要进行大规模内存移动和重新分配时。

理解这些转换规则及其触发条件，对于预估Redis的行为、进行配置调优以及避免潜在的性能陷阱非常重要。通常建议根据实际数据规模和操作特点，合理设置这些转换阈值。

性能与内存的权衡

通过以上分析，我们可以看到Redis在设计其内部数据结构时，始终在性能和内存效率之间进行权衡。

内存效率优先（针对小数据量）: Redis为List, Set, Hash, Sorted Set等提供了ziplist或intset这样的紧凑编码。这些编码在存储少量、小尺寸的数据时非常节省内存，因为它消除了指针开销，并将数据紧密地排列在连续内存中。这是Redis能在单机管理大量小对象的重要原因之一。
性能优先（针对大数据量或复杂操作）: 当数据量增长或需要执行更复杂的操作（如Set的交并集，Sorted Set的范围查询）时，Redis会切换到hashtable, linkedlist (或quicklist), skiplist等标准数据结构。这些结构虽然内存开销相对较大（需要指针、节点额外信息等），但提供了更优越的渐近时间复杂度（如O(1)或O(log N)），保证了操作的性能和稳定性。

了解这种权衡，能帮助我们在选择数据类型和设计数据模型时做出更明智的决策。例如：

存储一个用户的大量标签：如果标签不多且长度短，用Hash（小Hash走ziplist）可能比每个标签一个Set更省内存。
存储一个对象的详细信息：如果字段不多且值短，Hash（小Hash走ziplist）比多个String类型键更节省内存（键名有重复开销），且可以通过HGETALL一次获取，减少网络往返。
处理大量的队列消息：使用List（Quicklist）的两端O(1)操作是理想选择。但要注意如果需要随机访问，性能会下降。
实现精确的排行榜：Sorted Set是首选，其Skiplist保证了O(log N)的增删查和范围查询性能。

总结与展望

Redis的高性能并非偶然，而是建立在其精心设计的内部数据结构之上。通过本文的“图解”描述，我们深入了解了：

Redis使用redisObject封装值，通过type和encoding字段实现抽象类型与底层结构的解耦和多态。
String类型底层使用高效安全的SDS，或直接存储为整数。
List类型现在主要使用Quicklist（链表套ziplist），兼顾两端操作效率和内存效率。
Set类型根据元素特点选择使用内存高效的Intset（仅限整数）或通用高性能的Hashtable。
Sorted Set类型根据数量和大小选择内存高效的Ziplist或联合使用性能卓越的Skiplist和Hashtable。
Hash类型根据字段数量和大小选择内存高效的Ziplist或通用高性能的Hashtable。
Bitmaps, HyperLogLogs, Geospatial等功能则巧妙地利用或构建于String和Sorted Set等基础结构之上。
Redis会根据数据量和元素大小动态转换内部编码，以在性能和内存之间取得平衡。

理解这些内部机制，能帮助我们更深刻地理解Redis的性能瓶颈，更准确地评估内存使用，更合理地选择和使用数据类型，并进行有效的配置调优。

掌握Redis的数据结构是进阶之路上的重要一步。希望这篇文章能帮助你更好地“看到”Redis内部的世界，让你在使用Redis时更加得心应手，构建出更高效、更稳定的应用系统。未来的Redis版本可能会引入新的数据结构或优化现有结构的实现，但理解其核心设计理念——巧妙利用多种底层结构服务上层抽象数据类型——将始终是理解和使用Redis的关键。

图解Redis数据结构：揭开高性能的秘密

前言

为什么需要了解Redis的内部数据结构？

Redis的通用键值存储结构

1. String（字符串）

SDS (Simple Dynamic String)

2. List（列表）

双端链表 (linkedlist)

压缩列表 (ziplist)

快速列表 (quicklist)

3. Set（集合）

整数集合 (intset)

哈希表 (hashtable)

4. Sorted Set (有序集合)

压缩列表 (ziplist)

跳跃表 (skiplist) 和 哈希表 (hashtable) 联合使用

5. Hash（哈希）

压缩列表 (ziplist)

哈希表 (hashtable)

Redis的其他内部数据结构或特殊用途的结构

Bitmaps (位图)

HyperLogLogs

Geospatial Indexes (地理空间索引)

内部编码的选择与转换

性能与内存的权衡

总结与展望

发表评论 取消回复

跳跃表 (skiplist) 和哈希表 (hashtable) 联合使用

发表评论取消回复