SQL DISTINCT 子句：完整语法与应用场景 – wiki基地

SQL DISTINCT 子句：完整语法与应用场景详解

在SQL数据库查询中，我们经常需要处理重复数据。DISTINCT 子句是用于从查询结果中去除重复行的关键工具。它允许我们获取唯一记录，从而更清晰地分析数据、避免重复统计，并优化查询性能。本文将深入探讨 DISTINCT 子句的语法、用法、各种应用场景，以及与其他相关关键字（如 GROUP BY）的区别和联系，并提供丰富的示例来帮助您全面理解和掌握这个重要的SQL工具。

1. DISTINCT 子句的基本语法

DISTINCT 关键字用于 SELECT 语句中，紧跟在 SELECT 关键字之后，位于要选择的列之前。其基本语法如下：

sql SELECT DISTINCT column1, column2, ... FROM table_name WHERE condition;

SELECT DISTINCT: 表示我们要选择不重复的记录。
column1, column2, ...: 指定要从表中检索的列。DISTINCT 将应用于所有指定的列的组合。这意味着只有当所有选定列的值都相同时，才会被认为是重复行。
table_name: 指定要查询的表名。
WHERE condition: (可选) 指定过滤条件，用于筛选满足特定条件的行。 DISTINCT 将应用于过滤后的结果集。

简单示例：

假设我们有一个名为 Customers 的表，其中包含以下数据：

CustomerID	Name	City	Country
1	John Doe	New York	USA
2	Jane Doe	London	UK
3	John Doe	New York	USA
4	Peter Pan	Paris	France
5	Alice Lee	London	UK

要获取不重复的 City 列表，我们可以使用以下查询：

sql SELECT DISTINCT City FROM Customers;

查询结果：

City
New York
London
Paris

可以看到，DISTINCT 子句消除了重复的 “London” 行，只返回唯一的城市列表。

2. DISTINCT 应用于多列

当 DISTINCT 应用于多个列时，它会考虑所有指定列的组合值。只有当所有列的值都相同时，才会被认为是重复行。

示例：

继续使用上面的 Customers 表，如果我们想获取不重复的 City 和 Country 组合，可以使用以下查询：

sql SELECT DISTINCT City, Country FROM Customers;

查询结果：

City	Country
New York	USA
London	UK
Paris	France

尽管 “London” 和 “New York” 都有重复，但由于它们的 Country 列的值不同，因此它们都被视为唯一的组合。

3. DISTINCT 与 COUNT

DISTINCT 经常与 COUNT 函数一起使用，用于计算唯一值的数量。

示例：

要计算 Customers 表中有多少个不同的城市，可以使用以下查询：

sql SELECT COUNT(DISTINCT City) AS UniqueCities FROM Customers;

查询结果：

UniqueCities
3

这表明 Customers 表中有 3 个不同的城市。

注意： COUNT(DISTINCT column) 和 COUNT(*) 的区别：

COUNT(DISTINCT column): 计算指定列中唯一非NULL值的数量。
COUNT(*): 计算表中的总行数，包括NULL值和重复行。

4. DISTINCT 与 NULL 值

DISTINCT 将 NULL 值视为一个特定的值。这意味着，如果一个列中有多个 NULL 值，DISTINCT 只会返回一个 NULL 值。

示例：

假设 Customers 表的 City 列中有一些 NULL 值：

CustomerID	Name	City	Country
1	John Doe	New York	USA
2	Jane Doe	NULL	UK
3	John Doe	New York	USA
4	Peter Pan	Paris	France
5	Alice Lee	NULL	UK

sql SELECT DISTINCT City FROM Customers;

查询结果：

City
New York
NULL
Paris

可以看到，尽管有两个NULL值，但DISTINCT只返回一个。

5. DISTINCT 与 ORDER BY

DISTINCT 可以与 ORDER BY 子句一起使用，对结果集进行排序。ORDER BY 子句应该放在 DISTINCT 之后。

示例：

要获取不重复的城市列表，并按字母顺序排序：

sql SELECT DISTINCT City FROM Customers ORDER BY City;
结果会按照City字母顺序排列。

6. DISTINCT 与 WHERE

DISTINCT 可以与 WHERE 子句结合使用，首先根据 WHERE 子句中的条件过滤数据，然后对过滤后的结果应用 DISTINCT。

示例：
sql SELECT DISTINCT city FROM customers WHERE country = 'UK';
上述查询, 首先根据 WHERE 子句筛选 Country 为 “UK” 的记录。然后在筛选后的结果集中, 使用 DISTINCT 选择不重复的城市。

7. DISTINCT 与 GROUP BY 的区别

DISTINCT 和 GROUP BY 子句都可以用于消除重复行，但它们之间存在重要的区别：

特性	DISTINCT	GROUP BY
主要目的	去除重复行	分组数据，通常与聚合函数一起使用
聚合函数	不与聚合函数一起使用	通常与聚合函数（如 `COUNT`, `SUM`, `AVG`, `MIN`, `MAX`）一起使用
对NULL的处理	将所有 NULL 值视为相同的值	将所有 NULL 值分组到同一个组
性能	通常比 `GROUP BY` 快，特别是当不需要聚合函数时	当需要聚合函数时，`GROUP BY` 是必需的
排序	不保证结果的排序	可以对分组进行排序 (使用 `ORDER BY` 在`GROUP BY`之后)
返回列	返回DISTINCT后的列	返回分组列和聚合函数结果

何时使用 DISTINCT：

只需要获取唯一值列表，不需要进行任何聚合计算。
希望尽可能快地去除重复行。

何时使用 GROUP BY：

需要根据某些列对数据进行分组，并对每个组应用聚合函数（如计算每个组的数量、总和、平均值等）。
需要对分组结果进行排序。

示例：

假设我们有一个 Orders 表，其中包含订单信息：

OrderID	CustomerID	Product	Quantity
1	1	A	2
2	2	B	1
3	1	A	3
4	3	C	2
5	2	B	2

使用 DISTINCT 获取不同的产品：

sql SELECT DISTINCT Product FROM Orders;

结果：

Product

A

B

C
使用 GROUP BY 计算每个客户的订单数量：

sql SELECT CustomerID, COUNT(*) AS OrderCount FROM Orders GROUP BY CustomerID;

结果：

CustomerID OrderCount

1 2

2 2

3 1
使用 GROUP BY 计算每个客户购买的商品种类, 并按种类数量倒序排列:
sql SELECT customerid, Count(DISTINCT product) FROM orders GROUP BY customerid ORDER BY Count(DISTINCT product) DESC;

Product
A
B
C

CustomerID	OrderCount
1	2
2	2
3	1

8. DISTINCT 的高级应用场景

查找不重复的组合： DISTINCT 可以用于查找多个列的不同组合，这对于分析数据的多样性非常有用。例如，在电商网站中，可以使用 DISTINCT 来查找不同的商品类别和品牌的组合。
数据去重： DISTINCT 可以用于从表中删除重复的行。虽然 DELETE 语句更常用于删除数据，但在某些情况下，可以使用 DISTINCT 结合 INSERT INTO 语句来创建一个不包含重复数据的新表。
数据质量检查： DISTINCT 可以用于检查数据质量。通过计算某个列的唯一值数量，可以快速了解该列是否存在大量重复值，这可能表明数据存在问题。
优化查询性能： 在某些情况下，使用 DISTINCT 可以优化查询性能。如果数据库知道某个列是唯一的（例如，主键列），那么使用 DISTINCT 可以避免不必要的排序操作。
与子查询结合: DISTINCT 可以用在子查询中, 对子查询的结果去重后, 再与外层查询结合。

sql SELECT * FROM customers WHERE city IN (SELECT DISTINCT city FROM orders WHERE orderdate >= '2023-01-01');
上述查询, 在子查询中先用DISTINCT找出2023年之后有订单的城市, 然后在外层查询中, 找出位于这些城市的客户。

9. DISTINCT 的性能考虑

虽然 DISTINCT 是一个非常有用的工具，但在处理大型数据集时，它可能会对性能产生影响。

索引： 确保 DISTINCT 操作涉及的列上有适当的索引。索引可以显著提高查询速度，尤其是在大型表上。
数据量： DISTINCT 需要对数据进行排序或哈希处理以消除重复行。对于非常大的数据集，这可能会消耗大量的 CPU 和内存资源。
替代方案： 在某些情况下，可以考虑使用其他方法来替代 DISTINCT，例如使用 EXISTS 子查询或窗口函数。
使用临时表: 对于复杂的查询, 可以考虑将DISTINCT的结果先存入临时表, 后续查询基于临时表进行, 这样可以减少重复的DISTINCT操作。

10. 总结

DISTINCT 子句是SQL中一个强大而灵活的工具，用于从查询结果中去除重复行。它具有简单易懂的语法，可以应用于单个或多个列，并且可以与各种SQL子句（如 WHERE、ORDER BY、COUNT）结合使用。理解 DISTINCT 与 GROUP BY 的区别以及在不同场景下的适用性至关重要。通过掌握 DISTINCT 子句，您可以更有效地处理重复数据，优化查询性能，并进行更深入的数据分析。同时, 也要注意 DISTINCT 的性能影响, 在大数据集上使用时, 要注意优化。