一文搞懂Redis数据类型 – wiki基地

一文搞懂Redis数据类型：深入剖析与应用实践

Redis，作为一个高性能的键值存储系统，不仅仅是一个简单的缓存或数据库，它更因其丰富而强大的数据结构而备受青睐。理解Redis的各种数据类型是掌握Redis、发挥其威力的关键。本文将带你深入探索Redis的核心数据类型，包括它们的内部实现、常见命令、典型应用场景以及背后的设计思想，助你彻底搞懂Redis的数据世界。

1. Redis简介与数据类型的重要性

Redis（Remote Dictionary Server）是一个开源的、内存中的数据结构存储，可用作数据库、缓存和消息代理。与传统关系型数据库或简单的键值存储（如Memcached）不同，Redis不仅仅存储简单的字符串键值对，它的“值”可以是多种复杂的数据结构。

正是这些多样化的数据类型，使得Redis能够以非常高效的方式解决许多现实世界中的问题，例如排行榜、计数器、消息队列、发布/订阅、地理位置服务等。选择并正确使用合适的数据类型，是编写高性能、可扩展Redis应用的基础。

Redis主要提供了以下几种核心数据类型：

String (字符串)
List (列表)
Set (集合)
Sorted Set (有序集合，ZSet)
Hash (哈希)

此外，还有一些特殊用途的数据类型：

Bitmap (位图) – 基于String的位操作
HyperLogLog (基数统计)
Geospatial (地理位置) – 基于Sorted Set实现
Stream (流) – Redis 5.0引入

接下来，我们将逐一详细介绍这些数据类型。

2. 核心数据类型深度解析

2.1 String (字符串)

描述:
String是Redis最基本的数据类型。一个键对应一个值，值可以是字符串（文本或二进制数据）、整数或浮点数。Redis的String是动态字符串（SDS，Simple Dynamic String），它比C语言的字符串更安全、更高效，能存储二进制数据，并且获取长度是O(1)操作。

内部实现:
当字符串长度较小且不包含特殊字符时，Redis会使用ziplist（压缩列表）或embstr（嵌入式字符串）来存储，节省内存。字符串较长或需要修改时，会转为SDS。

常用命令:
* SET key value: 设置指定键的值。
* GET key: 获取指定键的值。
* DEL key: 删除指定键。
* INCR key: 将键的值加1（值必须是整数）。
* DECR key: 将键的值减1（值必须是整数）。
* INCRBY key increment: 将键的值加上指定的增量。
* DECRBY key decrement: 将键的值减去指定的减量。
* APPEND key value: 将值追加到指定键的末尾。
* STRLEN key: 获取指定键的值的长度。
* SETEX key seconds value: 设置键的值，并设置过期时间（秒）。
* SETNX key value: 仅在键不存在时设置其值（用于实现分布式锁）。
* MSET key1 value1 key2 value2 ...: 同时设置多个键值对。
* MGET key1 key2 ...: 同时获取多个键的值。

应用场景:
* 缓存对象: 存储序列化后的对象（如JSON、XML）或网页片段。
* 简单的键值存储: 存储配置信息、用户会话Token等。
* 计数器: 利用INCR/DECR实现文章阅读量、点赞数、访客计数等。
* 分布式锁: 利用SETNX和过期时间实现简易的分布式锁。
* 缓存验证码/短信验证码: SETEX方便设置过期时间。

复杂度:
大多数String操作的复杂度为O(1)。GETRANGE, SETBIT, GETBIT等命令的复杂度与操作的字符串长度或偏移量有关，但通常被视为非常高效。

2.2 List (列表)

描述:
List是一个有序的字符串集合，可以包含重复元素。Redis的List可以在头部 (LPUSH, LPOP) 或尾部 (RPUSH, RPOP) 进行操作，使其既可以作为队列使用，也可以作为栈使用。

内部实现:
Redis 3.2之前使用ziplist（压缩列表）和linkedlist（双向链表）。Redis 3.2引入了quicklist，它是ziplist和linkedlist的混合体，将多个ziplist连接起来形成一个双向链表，兼顾了查找和插入的效率以及内存的使用。

常用命令:
* LPUSH key value1 value2 ...: 将一个或多个值插入到列表头部。
* RPUSH key value1 value2 ...: 将一个或多个值插入到列表尾部。
* LPOP key: 移出并获取列表头部第一个元素。
* RPOP key: 移出并获取列表尾部最后一个元素。
* LLEN key: 获取列表的长度。
* LRANGE key start stop: 获取列表指定范围内的元素。
* LINDEX key index: 通过索引获取列表中的元素。
* LINSERT key BEFORE|AFTER pivot value: 在列表中指定元素的前面或后面插入新元素。
* LREM key count value: 根据count值，移除列表中与value相等的元素。
* BLPOP key1 key2 ... timeout: 阻塞式地移除并获取列表的第一个元素，如果列表为空，会阻塞直到有元素或超时。
* BRPOP key1 key2 ... timeout: 阻塞式地移除并获取列表的最后一个元素。

应用场景:
* 消息队列: LPUSH生产消息，RPOP或BRPOP消费消息（或反过来）。
* 栈: LPUSH入栈，LPOP出栈。
* 最新消息/动态列表: LPUSH新消息，LRANGE 0 N获取最新N条，LTRIM保持固定长度列表。
* 任务列表: RPUSH添加任务，LPOP获取任务。

复杂度:
LPUSH, RPUSH, LPOP, RPOP等操作的复杂度为O(1)。LRANGE的复杂度为O(S+N)，其中S是起始索引，N是元素数量。LINDEX的复杂度为O(N)。LINSERT, LREM的复杂度为O(N)。

2.3 Set (集合)

描述:
Set是一个无序的字符串集合，元素是唯一的，不允许重复。Set提供了集合运算的能力，如交集、并集、差集。

内部实现:
当集合中的元素数量较少且元素都是整数时，Redis会使用intset（整数集合）来存储，节省内存。否则，会使用hash table（哈希表）来实现，哈希表的优点是查找、添加、删除操作都非常快。

常用命令:
* SADD key member1 member2 ...: 将一个或多个成员添加到集合中。
* SMEMBERS key: 获取集合中的所有成员。
* SISMEMBER key member: 判断成员是否存在于集合中。
* SCARD key: 获取集合的成员数量。
* SREM key member1 member2 ...: 移除集合中的一个或多个成员。
* SPOP key count: 移除并返回集合中一个或多个随机元素。
* SRANDMEMBER key count: 返回集合中一个或多个随机元素，不移除。
* SUNION key1 key2 ...: 计算给定集合的并集。
* SINTER key1 key2 ...: 计算给定集合的交集。
* SDIFF key1 key2 ...: 计算给定集合的差集。
* SUNIONSTORE destination key1 key2 ...: 计算并集并将结果存储到destination集合。
* SINTERSTORE destination key1 key2 ...: 计算交集并将结果存储到destination集合。
* SDIFFSTORE destination key1 key2 ...: 计算差集并将结果存储到destination集合。

应用场景:
* 标签系统: 一个对象可以有多个标签，一个标签下有多个对象ID。使用Set存储对象的标签集合。
* 社交网络: 存储用户的关注/粉丝列表（使用Set方便求共同关注）。
* 去重: 存储某个事件的参与者ID，利用Set的唯一性自动去重。
* 权限控制: 存储用户拥有的角色或权限列表。
* 抽奖: SPOP实现随机抽取中奖用户。
* 统计共同好友/兴趣: 利用SINTER。

复杂度:
SADD, SREM, SISMEMBER, SCARD等操作的复杂度为O(1)。SMEMBERS的复杂度为O(N)。集合运算 (SUNION, SINTER, SDIFF) 的复杂度通常与参与运算的集合大小有关，例如SUNION是O(N+M)，SINTER是O(min(N,M))或O(N*M)取决于实现和集合大小。

2.4 Sorted Set (有序集合/ZSet)

描述:
Sorted Set与Set类似，也是字符串的集合，元素是唯一的。但与Set不同的是，Sorted Set的每个成员都关联着一个score（浮点数），集合中的成员是按照score从小到大排序的。score可以重复，但成员不能重复。

内部实现:
Sorted Set的实现结合了hash table和skip list（跳跃表）。hash table用于存储成员到分数的映射，可以快速通过成员查找其分数（O(1)）。skip list用于存储成员和分数的有序列表，可以快速通过分数范围或排名来获取成员（O(log N)）。

常用命令:
* ZADD key score1 member1 score2 member2 ...: 将一个或多个带分数的成员添加到有序集合中。
* ZRANGE key start stop [WITHSCORES]: 按照分数从小到大返回指定索引范围内的成员。
* ZREVRANGE key start stop [WITHSCORES]: 按照分数从大到小返回指定索引范围内的成员。
* ZRANK key member: 返回成员在有序集合中的排名（从0开始，分数小排名靠前）。
* ZREVRANK key member: 返回成员在有序集合中的逆序排名（从0开始，分数大排名靠前）。
* ZSCORE key member: 获取成员的分数。
* ZCARD key: 获取有序集合的成员数量。
* ZREM key member1 member2 ...: 移除有序集合中的一个或多个成员。
* ZCOUNT key min max: 统计在给定分数范围内的成员数量。
* ZRANGEBYSCORE key min max [WITHSCORES] [LIMIT offset count]: 按照分数范围返回成员。
* ZREMRANGEBYSCORE key min max: 移除指定分数范围内的所有成员。
* ZINCRBY key increment member: 给有序集合中指定成员的分数加上增量。
* ZRANGEBYLEX key min max [LIMIT offset count]: 按成员的字典序返回指定范围的成员（要求所有成员分数相同）。

应用场景:
* 排行榜: 游戏积分排行榜、按时间排序的排行榜等。利用ZADD添加成员和分数，ZRANGE/ZREVRANGE获取排名靠前的用户，ZRANK/ZREVRANK获取用户自己的排名。
* 优先级队列: 将任务的优先级或执行时间作为score。
* 延迟任务队列: 将任务的计划执行时间戳作为score，ZRANGEBYSCORE获取到期的任务。
* 根据权重或评分进行排序和查找: 例如，商品按销量排序、用户按活跃度排序等。
* 二级索引: 可以构建简单的二级索引，例如按创建时间或更新时间排序。

复杂度:
ZADD, ZREM, ZSCORE, ZINCRBY 等操作的复杂度为O(log N)，N为有序集合的成员数量。ZRANK, ZREVRANK 也是O(log N)。ZCARD 是O(1)。范围查询 ZRANGE, ZREVRANGE, ZRANGEBYSCORE 的复杂度是O(log N + K)，其中K是返回的元素数量。

2.5 Hash (哈希)

描述:
Hash是一个存储键值对的无序散列表，这里的键是Redis的key，而值是一个field-value对的集合。Hash特别适合存储对象。一个Hash可以存储多个field和value，所有field和value都是字符串。

内部实现:
当Hash的field数量较少且field和value的长度都较小时，Redis会使用ziplist（压缩列表）来存储，非常节省内存。否则，会使用hash table（哈希表）来实现。

常用命令:
* HSET key field value: 设置Hash中指定field的值。
* HGET key field: 获取Hash中指定field的值。
* HMSET key field1 value1 field2 value2 ...: 同时设置多个field-value对（已废弃，推荐使用多个HSET）。
* HMGET key field1 field2 ...: 同时获取多个field的值。
* HGETALL key: 获取Hash中所有field和value。
* HDEL key field1 field2 ...: 删除Hash中指定的一个或多个field。
* HLEN key: 获取Hash中field的数量。
* HKEYS key: 获取Hash中所有field。
* HVALS key: 获取Hash中所有value。
* HEXISTS key field: 判断Hash中指定field是否存在。
* HINCRBY key field increment: 将Hash中指定field的值加上增量（值必须是整数）。
* HSETNX key field value: 仅在field不存在时设置其值。

应用场景:
* 存储对象: 存储用户资料、商品信息等，每个field对应对象的属性。相比String存储序列化对象，使用Hash可以方便地获取或修改对象的某个属性而无需序列化/反序列化整个对象。
* 购物车信息: 存储用户ID -> 商品ID -> 购买数量的映射。
* 配置信息: 存储应用程序的各种配置项。

复杂度:
HSET, HGET, HDEL, HEXISTS, HLEN 等操作的复杂度为O(1)。HMGET的复杂度是O(N)，N为field的数量。HGETALL, HKEYS, HVALS 的复杂度是O(N)，N为Hash中field的数量。

3. 特殊用途数据类型介绍

3.1 Bitmap (位图)

描述:
Bitmap不是一个独立的数据类型，它是在String类型的基础上进行的位操作。它可以将String看作是一个由二进制位组成的数组，通过偏移量（offset）对某个位进行设置或获取。特别适合存储大量的布尔值信息。

内部实现:
本质上是String类型，每个字符（8位）可以存储8个布尔值。

常用命令:
* SETBIT key offset value: 设置指定偏移量的位（0或1）。
* GETBIT key offset: 获取指定偏移量的位。
* BITCOUNT key [start end]: 统计字符串中被设置为1的位的数量。
* BITOP operation destkey key1 key2 ...: 对多个字符串进行位运算（AND, OR, XOR, NOT），并将结果存储到destkey。
* BITPOS key value [start end]: 查找指定值（0或1）在位图中第一次出现的位置。

应用场景:
* 用户活跃度统计: 例如，用日期作为key，用户ID作为offset，每天用户登录时SETBIT date user_id 1。统计某天的活跃用户数就是BITCOUNT date。统计某段时间的活跃用户数可以对这段时间的Bitmap进行BITOP OR。
* 用户在线状态: 用户ID作为offset，SETBIT online_status user_id 1表示在线。
* 签到功能: 用用户ID+年份作为key，天数作为offset，用户签到时SETBIT user:2023 day_of_year 1。

复杂度:
SETBIT, GETBIT的复杂度是O(1)（或者更准确地说，取决于偏移量，但对于合理大小的偏移量通常非常快）。BITCOUNT和BITOP的复杂度与操作的字符串长度有关，是O(N)。

3.2 HyperLogLog (基数统计)

描述:
HyperLogLog是一种概率型数据结构，用于估算集合中不重复元素的数量（即基数）。它的最大特点是占用内存极小（每个HyperLogLog键约占12KB内存），无论统计的元素数量有多大。缺点是估算结果有误差（标准误差约为0.81%）。

内部实现:
基于LogLog算法的改进，使用很少的内存就能对海量数据进行基数估算。

常用命令:
* PFADD key element1 element2 ...: 将一个或多个元素添加到HyperLogLog中。
* PFCOUNT key1 key2 ...: 估算一个或多个HyperLogLog的并集的基数。
* PFMERGE destkey sourcekey1 sourcekey2 ...: 将多个HyperLogLog合并到一个新的HyperLogLog中。

应用场景:
* 统计网站UV (Unique Visitor): 每天或每小时记录访问用户的ID到HyperLogLog中，最后PFCOUNT即可估算UV。
* 统计搜索关键词去重数量:
* 统计独立IP数量:

复杂度:
PFADD和PFCOUNT的复杂度为O(1)，与添加或统计的元素数量无关，只与数据结构本身的大小有关（固定12KB左右）。PFMERGE的复杂度与合并的HyperLogLog数量有关。

3.3 Geospatial (地理位置)

描述:
Geospatial（地理空间）功能允许你存储带有地理坐标（经度、纬度）的地点信息，并能查询这些地点之间的距离或查找给定半径范围内的地点。它是基于Sorted Set实现的，利用Geohash技术将二维的经纬度编码成一维的字符串，并存储在Sorted Set中，Geohash值作为score。

内部实现:
基于Sorted Set和Geohash算法。Sorted Set的成员是地点名称，score是地点对应的Geohash值。

常用命令:
* GEOADD key longitude latitude member1 [longitude latitude member2 ...]: 添加一个或多个地理位置信息到指定键。
* GEOPOS key member1 member2 ...: 获取一个或多个成员的经度和纬度。
* GEODIST key member1 member2 [unit]: 计算两个成员之间的直线距离（单位可以是m, km, mi, ft）。
* GEOHASH key member1 member2 ...: 返回一个或多个成员的Geohash值。
* GEORADIUS key longitude latitude radius unit [WITHCOORD] [WITHDIST] [WITHHASH] [COUNT count] [ASC|DESC] [STORE key] [STOREDIST key]: 以给定的经纬度为中心，查找指定半径内的成员。
* GEORADIUSBYMEMBER key member radius unit [WITHCOORD] [WITHDIST] [WITHHASH] [COUNT count] [ASC|DESC] [STORE key] [STOREDIST key]: 以指定成员的位置为中心，查找指定半径内的成员。

应用场景:
* 附近的商店/餐馆: 存储商店位置，用户查询附近商店时使用GEORADIUS。
* 附近的人: 存储用户位置，查询附近的人时使用GEORADIUS或GEORADIUSBYMEMBER。
* 位置打卡: 记录用户打卡位置。
* 计算两点距离: GEODIST。

复杂度:
GEOADD的复杂度为O(log N)，N为集合中的元素数量。GEOPOS, GEODIST, GEOHASH 的复杂度为O(log N)。GEORADIUS和GEORADIUSBYMEMBER 的复杂度为O(log N + K)，其中K是找到的元素数量。

3.4 Stream (流)

描述:
Stream是Redis 5.0引入的一种新型数据结构，它是一个追加（append-only）的数据结构，类似于只追加日志文件。它可以用于实现高性能的消息队列，支持多消费者、消费者组、消息持久化等特性。每个添加到Stream的消息都有一个唯一的ID。

内部实现:
复杂的结构，内部可能包含多个macro node，每个macro node包含一个或多个listpack（一种紧凑的列表结构）来存储消息条目，并使用radix tree（基数树）来索引消息ID。

常用命令 (仅列举部分):
* XADD key ID field1 value1 [field2 value2 ...]: 添加一条消息到Stream。ID可以是*（由Redis生成唯一的ID）或指定一个ID。
* XRANGE key start end [COUNT count]: 获取指定ID范围内的消息。
* XLEN key: 获取Stream的长度（消息数量）。
* XDEL key ID1 ID2 ...: 删除指定ID的消息。
* XREAD [COUNT count] [BLOCK milliseconds] STREAMS key1 key2 ... ID1 ID2 ...: 从一个或多个Stream中读取消息。支持阻塞读取。
* XGROUP [CREATE key groupname id|'$-'|0] [SETID id|'$-'|0] [DESTROY key groupname] [DELCONSUMER key groupname consumername]: 创建、设置或销毁消费者组。
* XREADGROUP GROUP groupname consumername [COUNT count] [BLOCK milliseconds] [NOACK] STREAMS key1 key2 ... ID1 ID2 ...: 从消费者组中读取消息。支持阻塞读取、消息确认（ACK）。
* XACK key groupname ID1 ID2 ...: 确认一条或多条消息已经被消费者处理。
* XPENDING key groupname [start end count] [consumer]: 获取消费者组待处理的消息列表。

应用场景:
* 消息队列: 强大的消息队列功能，支持多消费者竞争消费或广播消费，支持消费者组协同处理消息。
* 事件溯源 (Event Sourcing): 记录一系列按时间顺序发生的事件。
* 日志聚合: 收集和处理来自不同源的日志。
* IoT 数据流: 实时收集和处理来自物联网设备的数据。

复杂度:
XADD的复杂度为O(1)。XRANGE, XREAD等操作的复杂度与返回的消息数量有关，是O(N)。Stream的读写操作针对的是尾部和特定范围，整体性能高效。

4. 为什么Redis提供了如此多样的数据类型？

Redis之所以设计这么多数据类型，是为了在不同的场景下提供最高效和便捷的数据存储和操作方式。

性能优化: 每种数据类型都经过精心设计，底层使用了不同的数据结构（如哈希表、跳跃表、压缩列表、快列表等），以确保在特定的操作集合（如查找、插入、删除、范围查询等）上达到最佳的性能（通常是O(1)或O(log N)）。
内存效率: Redis会根据存储的数据量和特性，自动选择更紧凑的底层实现（如ziplist、intset），从而在数据量小时节省大量内存。
功能丰富: 这些数据类型封装了常用的操作，如列表的push/pop、集合的交并差、有序集合的排序和排名、哈希的对象存储等，开发者可以直接利用这些高级操作，而无需在客户端自行实现复杂逻辑，减少了网络开销和开发复杂度。例如，实现排行榜用Sorted Set比用关系型数据库或简单的键值存储要简单得多。
解决特定问题: 一些数据类型是为解决特定问题而设计的，如HyperLogLog用于基数统计，Geospatial用于地理位置查询，Stream用于消息队列。

5. 如何选择合适的数据类型？

选择合适的数据类型是发挥Redis潜力的关键。可以从以下几个方面考虑：

存储的数据结构是什么样的？
- 简单键值对？ -> String
- 有序的可重复集合？ -> List
- 无序的不可重复集合？ -> Set
- 需要按分数排序的不可重复集合？ -> Sorted Set
- 表示对象（field-value对）？ -> Hash
- 大量的布尔值？ -> Bitmap
- 需要估算不重复元素的数量？ -> HyperLogLog
- 带有经纬度的位置信息？ -> Geospatial
- 需要追加写入、多消费者、消费者组的消息队列？ -> Stream
需要执行哪些核心操作？
- 快速查找/设置值？ -> String, Hash (HGET/HSET)
- 头部/尾部的高效存取？ -> List (LPUSH/LPOP, RPUSH/RPOP)
- 判断元素是否存在？ -> Set (SISMEMBER), Hash (HEXISTS)
- 集合运算（交/并/差）？ -> Set
- 按分数范围或排名查找？ -> Sorted Set (ZRANGEBYSCORE, ZRANGE)
- 获取/设置对象属性？ -> Hash (HGET/HSET)
- 对大量布尔值进行位操作/统计？ -> Bitmap
- 估算基数？ -> HyperLogLog
- 按半径查找附近地点？ -> Geospatial (GEORADIUS)
- 顺序读取消息，支持消费者组？ -> Stream (XREADGROUP)
考虑内存使用和性能要求。
- 虽然Redis会优化小数据量的存储，但大量使用不适合的数据类型（如用List存储大量不需排序的唯一元素）可能导致性能下降或内存浪费。
- 理解不同数据类型的操作复杂度，避免在生产环境中使用高复杂度（O(N)且N很大）的操作，例如对非常大的Set执行SMEMBERS或对很长的List执行LINDEX。

示例：
* 存储用户信息：如果用户属性很多且经常只需要获取/修改部分属性，用Hash。如果用户对象作为一个整体经常被存取，用String存储序列化后的对象。
* 粉丝列表：需要去重且不关心顺序，用Set。
* 微博时间线：按时间倒序排列，需要高效在头部插入，用List。
* 游戏积分榜：需要按分数排序，且支持排名和获取指定范围的玩家，用Sorted Set。

6. 总结

Redis的数据类型是其强大功能的核心。通过本文的介绍，你应该对String、List、Set、Sorted Set、Hash这五种基本类型以及Bitmap、HyperLogLog、Geospatial、Stream这四种特殊类型有了详细的了解，包括它们的特性、常用命令、底层实现和应用场景。

掌握这些数据类型及其适用场景，是高效使用Redis的关键。在实际开发中，根据业务需求选择最合适的数据类型，能够显著提升应用的性能、降低开发复杂度并优化内存使用。

Redis的数据类型远不止表面看到的这些，它们底层的实现细节和命令参数还有很多可以深挖的地方。建议在理解了这些基本概念后，查阅Redis官方文档，结合具体的业务场景进行实践，才能真正做到“一文搞懂”并在生产环境中游刃有余地使用Redis。