面试题：如何使用 Redis 统计大量用户唯一访问量（UV）？

统计大量用户的唯一访问量（UV，Unique Visitors）是一个常见的需求，尤其是在高并发的场景下。Redis 提供了多种数据结构和方法来实现 UV 统计，以下是几种常用的方案：

1. 使用 Set 数据结构

Set 是 Redis 中的一种集合数据结构，它的特点是存储唯一的元素。可以通过将用户 ID 或唯一标识存储在 Set 中来统计 UV。

实现步骤：

将每个访问用户的唯一标识（如用户 ID、IP 地址等）添加到 Set 中。
使用 SCARD 命令获取 Set 的大小，即为唯一访问量。

示例代码：

# 添加用户访问
SADD uv:20231001 "user1"
SADD uv:20231001 "user2"
SADD uv:20231001 "user1"  # 重复添加，Set 会自动去重

# 获取唯一访问量
SCARD uv:20231001

优点：

简单易用，直接利用 Set 的去重特性。
精确统计，结果准确。

缺点：

内存占用较高，每个用户标识都需要存储。
不适合超大规模用户统计（例如上亿用户）。

2. 使用 HyperLogLog 数据结构

HyperLogLog 是 Redis 提供的一种概率算法，用于统计唯一元素的数量。它的特点是占用内存非常小（每个 HyperLogLog 只需要 12 KB 内存），但统计结果有一定的误差（标准误差约为 0.81%）。

实现步骤：

使用 PFADD 命令将用户标识添加到 HyperLogLog 中。
使用 PFCOUNT 命令获取唯一访问量的估计值。

示例代码：

# 添加用户访问
PFADD uv:20231001 "user1"
PFADD uv:20231001 "user2"
PFADD uv:20231001 "user1"  # 重复添加，HyperLogLog 会自动去重

# 获取唯一访问量
PFCOUNT uv:20231001

优点：

内存占用极低，适合超大规模用户统计。
性能高，统计速度快。

缺点：

统计结果是近似值，存在一定误差。
不支持获取具体的用户标识。

3. 使用 Bitmap 数据结构

Bitmap 是 Redis 中的一种位图数据结构，它通过位操作来存储和统计数据。可以将每个用户 ID 映射到一个位（bit）上，通过统计位图中为 1 的位数来统计 UV。

实现步骤：

将用户 ID 转换为整数（或使用哈希函数映射到整数）。
使用 SETBIT 命令将对应的位设置为 1。
使用 BITCOUNT 命令统计位图中为 1 的位数。

示例代码：

# 添加用户访问
SETBIT uv:20231001 1001 1  # 用户 ID 1001 访问
SETBIT uv:20231001 1002 1  # 用户 ID 1002 访问
SETBIT uv:20231001 1001 1  # 重复访问，位图不变

# 获取唯一访问量
BITCOUNT uv:20231001

优点：

内存占用较低，适合用户 ID 是连续整数的场景。
精确统计，结果准确。

缺点：

如果用户 ID 分布稀疏，可能会浪费内存。
需要将用户 ID 转换为整数。

4. 使用布隆过滤器（Bloom Filter）

布隆过滤器是一种概率数据结构，用于判断一个元素是否存在于集合中。它可以用于统计 UV，但需要结合其他方法（如 HyperLogLog）来实现。

实现步骤：

使用布隆过滤器判断用户是否已经访问过。
如果用户未访问过，则将其添加到 HyperLogLog 或 Set 中。

优点：

内存占用较低。
可以结合其他方法实现精确或近似统计。

缺点：

实现复杂，需要额外的逻辑。
存在一定的误判率。

5. 方案对比

方案	精确性	内存占用	性能	适用场景
Set	精确	高	中等	小规模 UV 统计
HyperLogLog	近似	极低	高	超大规模 UV 统计
Bitmap	精确	中等	高	用户 ID 是连续整数的场景
布隆过滤器	近似	低	高	需要结合其他方法使用

6. 实际应用建议

小规模 UV 统计：使用 Set，简单且精确。
超大规模 UV 统计：使用 HyperLogLog，内存占用低，性能高。
用户 ID 是连续整数的场景：使用 Bitmap，内存占用较低且精确。
需要去重判断的场景：结合 布隆过滤器 使用。

7. 示例代码（Java 使用 Jedis）

以下是一个使用 Jedis 实现 UV 统计的示例：

使用 Set：

Jedis jedis = new Jedis("localhost", 6379);
jedis.sadd("uv:20231001", "user1", "user2", "user1");
long uv = jedis.scard("uv:20231001");
System.out.println("唯一访问量: " + uv);
jedis.close();

使用 HyperLogLog：

Jedis jedis = new Jedis("localhost", 6379);
jedis.pfadd("uv:20231001", "user1", "user2", "user1");
long uv = jedis.pfcount("uv:20231001");
System.out.println("唯一访问量: " + uv);
jedis.close();

使用 Bitmap：

Jedis jedis = new Jedis("localhost", 6379);
jedis.setbit("uv:20231001", 1001, true);
jedis.setbit("uv:20231001", 1002, true);
jedis.setbit("uv:20231001", 1001, true);  // 重复访问
long uv = jedis.bitcount("uv:20231001");
System.out.println("唯一访问量: " + uv);
jedis.close();