SQL是什么？核心概念与基础知识 – wiki基地

SQL：数据世界的通用语言——核心概念与基础知识深度解析

引言：数据洪流中的指南针

在当今信息爆炸的时代，数据无处不在，成为企业、组织乃至个人决策和创新的重要驱动力。然而，原始、分散的数据如同未经整理的矿石，其价值难以直接体现。我们需要一种有效的方式来存储、管理和提取这些数据，以便进行分析、报告和应用。这时，数据库系统应运而生，而与数据库交互的“通用语言”——SQL，则成为了数据世界的基石。

对于任何希望与数据打交道的人来说，无论是数据分析师、软件开发者、数据科学家，还是仅仅需要查询信息的用户，掌握SQL都是一项必备技能。本文将详细介绍SQL是什么，它的核心概念，以及入门所需掌握的基础知识和常用命令。

第一部分：SQL是什么？

SQL（Structured Query Language），中文译为“结构化查询语言”，是一种用于管理关系型数据库管理系统（RDBMS）的标准化语言。它由IBM的E.F. Codd博士在20世纪70年代基于关系模型理论提出，并在后续发展中逐渐成为数据库领域的国际标准（由ANSI和ISO维护）。

简单来说，SQL就是你与关系型数据库“对话”的工具。通过编写SQL语句，你可以告诉数据库你想做什么，比如：
* 创建新的数据库或表格。
* 向表格中添加、修改或删除数据。
* 从表格中查询符合特定条件的数据。
* 定义表格之间的关系和数据的完整性规则。

SQL不是一种编程语言，而更接近于一种声明性语言（Declarative Language）。这意味着你只需描述你想要的结果是什么（What you want），而无需详细说明如何（How to get it）一步步去获取结果。具体的执行路径和优化由数据库管理系统自身负责。这极大地简化了数据操作的复杂性。

为什么SQL如此重要？

通用性： 几乎所有的主流关系型数据库系统（如MySQL, PostgreSQL, Oracle, Microsoft SQL Server, SQLite等）都支持SQL标准，尽管它们可能有各自的方言或扩展。学习SQL意味着你掌握了与大多数关系型数据库沟通的能力。
强大功能： SQL提供了丰富的功能，从简单的数据查询到复杂的数据分析、聚合、关联查询等，能够满足各种数据管理和提取需求。
标准化： 标准化的语言使得学习和使用变得更容易，也提高了跨平台和跨系统的兼容性。
效率： 关系型数据库系统经过高度优化，能够高效地处理大规模数据集，而SQL作为其接口，能够充分发挥数据库的性能。
生态系统： 几乎所有与数据相关的工具、框架和应用都支持SQL，方便集成和开发。

第二部分：核心概念——理解关系型数据库的基础

要理解SQL，首先必须理解其作用的对象——关系型数据库以及与其相关的核心概念。

2.1 关系型数据库（Relational Database）

关系型数据库基于关系模型理论，其核心思想是使用表（Table）来表示和存储数据，并利用表之间的关系（Relationship）来组织和连接数据。

2.2 表（Table）

表是关系型数据库中最基本的数据存储单元。它可以被想象成一个二维的电子表格或网格。
* 行（Row）/记录（Record）： 表中的每一行代表一个独立的数据项或实体实例。例如，在一个存储学生信息的表中，每一行代表一个具体的学生。
* 列（Column）/字段（Field）/属性（Attribute）： 表中的每一列代表表中实体的一个特定属性或数据点。例如，学生表可能包含“学生ID”、“姓名”、“年龄”、“专业”等列。

表的特征：
* 唯一性： 通常通过主键来保证行数据的唯一标识。
* 无序性： 行的顺序在逻辑上是不重要的（除非使用特定的排序命令）。
* 同质性： 同一列中的所有数据具有相同的数据类型和含义。

2.3 数据类型（Data Type）

每一列都需要指定其存储的数据类型。数据类型定义了该列可以存储的数据种类（如文本、数字、日期等）以及占用的存储空间和允许的操作。常见的数据类型包括：
* 整数类型： INT, SMALLINT, BIGINT等，用于存储整数。
* 浮点数类型： FLOAT, DOUBLE, DECIMAL等，用于存储带小数的数字。DECIMAL常用于需要精确计算的场景（如货币）。
* 字符串/文本类型： VARCHAR (变长字符串), CHAR (定长字符串), TEXT (大文本)等，用于存储字符数据。
* 日期和时间类型： DATE, TIME, DATETIME, TIMESTAMP等，用于存储日期和时间信息。
* 布尔类型： BOOLEAN (或 BOOL)，用于存储真（True）或假（False）值。
* 二进制类型： BLOB (Binary Large Object) 等，用于存储图片、音频等二进制数据。

选择合适的数据类型对于数据的存储效率、查询性能和数据完整性至关重要。

2.4 键（Key）

键是关系型数据库中用于标识行、建立关系和强制数据完整性的重要概念。

主键（Primary Key, PK）：
- 唯一标识表中的每一行。
- 表中只能有一个主键。
- 主键列的值必须是唯一的（Unique）且不允许为空（NOT NULL）。
- 它是用来与其他表建立关系的“锚点”。
- 例如，在学生表中，“学生ID”通常被设为主键。
外键（Foreign Key, FK）：
- 用于建立两个表之间的关系。
- 外键是某个表中的一列（或一组列），其值引用（或“指向”）另一个表（或同一个表）的主键。
- 外键列的值必须在被引用的主键列中存在，或者为NULL（如果允许）。这保证了引用的有效性，维护了参照完整性。
- 例如，在一个“订单”表中，有一个“客户ID”列，它引用了“客户”表中的“客户ID”（主键）。这个“订单”表中的“客户ID”就是外键。它表明了哪个客户下了这个订单，将订单与客户关联起来。
候选键（Candidate Key）： 任何可以唯一标识表中每一行的列（或列组合）都可以称为候选键。主键是从候选键中选取的一个。
唯一键（Unique Key）： 保证列中的所有值是唯一的，但允许为空（通常只允许一个NULL值）。它可以作为主键的替代方案，或者用于约束除主键以外的列的唯一性。

2.5 关系（Relationship）

关系描述了不同表之间数据是如何相互关联的。主要有三种类型的关系：

一对一（One-to-One, 1:1）： 一个表的行最多与另一个表的一行关联，反之亦然。例如，一个“人”可能只有一个“身份证号码”。
一对多（One-to-Many, 1:N 或 1:*）： 一个表的行可以与另一个表的多行关联，但另一个表的行只能与这个表的一行关联。这是最常见的关系类型。例如，一个“客户”可以下“多个订单”，但一个“订单”只属于一个“客户”。一对多关系通常通过在外键表中添加指向主键表主键的外键来实现（即“多”的一方包含指向“一”的一方的主键的外键）。
多对多（Many-to-Many, N:M 或 :）： 一个表的行可以与另一个表的多行关联，反之亦然。例如，“学生”可以选修“多门课程”，而“一门课程”可以被“多个学生”选修。多对多关系不能直接在两个表之间建立，需要通过一个中间表（或连接表、关联表）来实现。这个中间表通常包含两个外键，分别引用原始两个表的主键。例如，“学生-课程”表包含“学生ID”（外键）和“课程ID”（外键），每一行代表一个学生选修了一门课程。

理解表、键和关系是设计和理解关系型数据库结构以及编写复杂SQL查询的基础。

第三部分：SQL基础知识与常用命令

SQL语言主要分为几个子集，其中最常用的是：

DDL (Data Definition Language)： 数据定义语言，用于定义数据库的结构，创建、修改和删除数据库对象（如表、视图、索引等）。
DML (Data Manipulation Language)： 数据操作语言，用于处理数据库中的数据，包括查询、插入、更新和删除数据。
DCL (Data Control Language)： 数据控制语言，用于控制数据库用户的权限。
TCL (Transaction Control Language)： 事务控制语言，用于管理数据库事务。

我们将重点介绍 DDL 和 DML 中的基础和常用命令。

3.1 DDL：定义数据库结构

3.1.1 CREATE DATABASE

用于创建一个新的数据库。

sql CREATE DATABASE database_name;

例如：
sql CREATE DATABASE my_company_db;

3.1.2 CREATE TABLE

用于在数据库中创建一个新表。你需要指定表名、列名、数据类型以及可能的约束（如主键、外键、非空、唯一等）。

sql CREATE TABLE table_name ( column1_name data_type constraints, column2_name data_type constraints, ... PRIMARY KEY (column_name), -- 定义主键 FOREIGN KEY (column_name) REFERENCES other_table(other_column) -- 定义外键 );

例如，创建一个Customers表：
sql CREATE TABLE Customers ( CustomerID INT PRIMARY KEY, -- 客户ID，整数，主键 CustomerName VARCHAR(255) NOT NULL, -- 客户姓名，字符串，不允许为空 ContactName VARCHAR(255), -- 联系人姓名，字符串，允许为空 Address VARCHAR(255), -- 地址 City VARCHAR(100), -- 城市 PostalCode VARCHAR(20), -- 邮政编码 Country VARCHAR(50) -- 国家 );

再创建一个Orders表，并与Customers表建立外键关系：
sql CREATE TABLE Orders ( OrderID INT PRIMARY KEY, -- 订单ID，主键 CustomerID INT, -- 客户ID，整数 OrderDate DATE, -- 订单日期 FOREIGN KEY (CustomerID) REFERENCES Customers(CustomerID) -- CustomerID是外键，引用Customers表的CustomerID );

3.1.3 ALTER TABLE

用于修改已存在的表结构，例如添加、删除或修改列，添加或删除约束等。

添加列：
sql ALTER TABLE table_name ADD column_name data_type constraints;
例如：
sql ALTER TABLE Customers ADD Email VARCHAR(255);
删除列：
sql ALTER TABLE table_name DROP COLUMN column_name;
例如：
sql ALTER TABLE Customers DROP COLUMN PostalCode;
修改列的数据类型（具体语法可能因数据库系统而异）：
“`sql
— MySQL
ALTER TABLE table_name
MODIFY COLUMN column_name new_data_type;

— SQL Server / PostgreSQL
ALTER TABLE table_name
ALTER COLUMN column_name TYPE new_data_type;
“`

3.1.4 DROP TABLE

用于删除一个表及其所有数据和结构。这是一个非常危险的操作，因为数据将无法恢复。

sql DROP TABLE table_name;
例如：
sql DROP TABLE Orders;

3.1.5 TRUNCATE TABLE

用于快速删除表中的所有数据，但保留表的结构。与DROP TABLE不同，它不删除表本身。与DELETE语句删除所有数据相比，TRUNCATE通常更快，且不产生回滚日志（某些数据库），但DELETE可以回滚且可以通过WHERE子句选择性删除。

sql TRUNCATE TABLE table_name;
例如：
sql TRUNCATE TABLE Orders; -- 清空Orders表中的所有订单记录

3.2 DML：操作数据

DML是SQL中最常用的部分，用于查询和修改数据。

3.2.1 SELECT

SELECT语句是SQL中最重要的命令，用于从一个或多个表中检索数据。它的基本结构非常灵活和强大。

基本语法：
sql SELECT column1, column2, ... FROM table_name WHERE condition GROUP BY column(s) HAVING group_condition ORDER BY column(s) ASC|DESC LIMIT number; -- 或 TOP number (SQL Server)

SELECT column1, column2, ...: 指定要检索的列。使用*表示检索所有列。
FROM table_name: 指定要从中检索数据的表。
WHERE condition: 可选。指定过滤数据的条件。只有满足条件的行才会被检索。
GROUP BY column(s): 可选。根据一列或多列的值将结果集分组。通常与聚合函数（如COUNT(), SUM(), AVG(), MIN(), MAX()）一起使用，对每个组进行计算。
HAVING group_condition: 可选。在GROUP BY之后过滤分组。与WHERE子句类似，但用于过滤分组后的结果。
ORDER BY column(s) ASC|DESC: 可选。根据一列或多列对结果集进行排序。ASC表示升序（默认），DESC表示降序。
LIMIT number / TOP number: 可选。限制返回的行数。LIMIT常用于MySQL, PostgreSQL, SQLite等，TOP常用于SQL Server。

SELECT 示例：

检索Customers表中的所有列和所有行：
sql SELECT * FROM Customers;
检索Customers表中所有客户的姓名和城市：
sql SELECT CustomerName, City FROM Customers;
检索城市为“London”的客户的所有信息：
sql SELECT * FROM Customers WHERE City = 'London';
检索国家不是“USA”的客户姓名：
sql SELECT CustomerName FROM Customers WHERE Country != 'USA'; -- 或 WHERE Country <> 'USA'
检索订单日期在2023年内的订单信息：
sql SELECT * FROM Orders WHERE OrderDate BETWEEN '2023-01-01' AND '2023-12-31'; -- 或 SELECT * FROM Orders WHERE OrderDate >= '2023-01-01' AND OrderDate <= '2023-12-31';
检索姓氏以“S”开头的客户信息（使用LIKE和通配符）：
sql SELECT * FROM Customers WHERE CustomerName LIKE 'S%'; -- '%' 表示零个或多个字符 -- 姓氏包含“son”： WHERE CustomerName LIKE '%son%'; -- 姓氏第二个字母是“o”： WHERE CustomerName LIKE '_o%'; ('_' 表示一个字符)
检索城市是“Berlin”或“London”的客户信息：
sql SELECT * FROM Customers WHERE City = 'Berlin' OR City = 'London'; -- 或 SELECT * FROM Customers WHERE City IN ('Berlin', 'London');
按国家对客户进行分组，并计算每个国家的客户数量：
sql SELECT Country, COUNT(*) AS NumberOfCustomers -- 使用聚合函数COUNT()计算数量，并给结果列起别名 FROM Customers GROUP BY Country;
计算客户数量超过5个的国家：
sql SELECT Country, COUNT(*) AS NumberOfCustomers FROM Customers GROUP BY Country HAVING COUNT(*) > 5; -- 在分组后过滤
按客户姓名对所有客户信息进行升序排序：
sql SELECT * FROM Customers ORDER BY CustomerName ASC; -- ASC是默认，可以省略
按国家降序排序，如果国家相同，则按城市升序排序：
sql SELECT * FROM Customers ORDER BY Country DESC, City ASC;
检索前10个客户的信息（语法因数据库而异）：
“`sql
— MySQL
SELECT *
FROM Customers
LIMIT 10;

— SQL Server
SELECT TOP 10 *
FROM Customers;
“`

3.2.2 INSERT INTO

用于向表中添加新行数据。

为所有列添加值（值的顺序必须与表中列的顺序一致）：
sql INSERT INTO table_name (column1, column2, column3, ...) VALUES (value1, value2, value3, ...);
如果为所有列都提供值，可以省略列名列表：
sql INSERT INTO table_name VALUES (value1, value2, value3, ...);

例如，向Customers表添加新客户：
“`sql
INSERT INTO Customers (CustomerID, CustomerName, ContactName, Address, City, PostalCode, Country)
VALUES (1001, ‘Alfred Futterkiste’, ‘Maria Anders’, ‘Obere Str. 57’, ‘Berlin’, ‘12209’, ‘Germany’);

— 添加一个只提供部分信息的客户
INSERT INTO Customers (CustomerID, CustomerName, City, Country)
VALUES (1002, ‘New Customer’, ‘Paris’, ‘France’); — 未提供的列将使用默认值或NULL
“`

3.2.3 UPDATE

用于修改表中已存在的记录。

sql UPDATE table_name SET column1 = new_value1, column2 = new_value2, ... WHERE condition; -- 注意：WHERE子句非常重要！
注意： 如果省略WHERE子句，将会更新表中的所有行！

例如：
* 更新客户ID为1001的客户的城市和国家：
sql UPDATE Customers SET City = 'Frankfurt', Country = 'Germany' WHERE CustomerID = 1001;

将所有城市为“Paris”的客户的国家更改为“France”（危险操作，请谨慎使用或在测试环境中操作）：
sql UPDATE Customers SET Country = 'France' WHERE City = 'Paris';

3.2.4 DELETE

用于删除表中已存在的记录。

sql DELETE FROM table_name WHERE condition; -- 注意：WHERE子句非常重要！
注意： 如果省略WHERE子句，将会删除表中的所有行！与TRUNCATE类似，但DELETE通常支持回滚，并且可以配合WHERE删除特定行。

例如：
* 删除客户ID为1001的客户记录：
sql DELETE FROM Customers WHERE CustomerID = 1001;

删除所有城市为“Berlin”的客户记录（危险操作）：
sql DELETE FROM Customers WHERE City = 'Berlin';
删除表中的所有记录（危险操作）：
sql DELETE FROM Customers; -- 删除所有行

第四部分：超越基础——SQL的更多功能（简述）

除了上述基础知识和命令，SQL还提供了许多更高级的功能，用于处理更复杂的场景：

连接（JOIN）： 用于将来自两个或多个表的行基于相关列之间的共同值组合起来。常见的连接类型包括INNER JOIN, LEFT JOIN (或 LEFT OUTER JOIN), RIGHT JOIN (或 RIGHT OUTER JOIN), FULL JOIN (或 FULL OUTER JOIN)。这是处理关系型数据库中关联数据的核心。
函数：
- 聚合函数（Aggregate Functions）： 用于对一组值执行计算并返回单个值，如COUNT(), SUM(), AVG(), MIN(), MAX()。
- 标量函数（Scalar Functions）： 对输入值进行操作并返回单个值，如字符串函数 (UPPER(), LOWER(), LENGTH()), 数学函数 (ROUND(), ABS()), 日期函数 (NOW(), DATE_FORMAT())等。
子查询（Subquery）： 嵌套在另一个SQL语句中的查询。子查询的结果可以作为外部查询的过滤条件、列值或数据源。
视图（View）： 一个虚拟的表，其内容由查询定义。视图不存储实际数据，而是存储查询语句。每次访问视图时，数据库会执行其背后的查询并返回结果。视图可以简化复杂的查询，限制对敏感数据的访问。
索引（Index）： 数据库对象，用于提高数据检索的速度。类似于书的目录，索引可以帮助数据库系统快速定位到符合特定条件的行，而无需扫描整个表。但索引会增加插入、更新和删除数据的开销，并占用存储空间。
事务（Transaction）： 一系列被视为单个工作单元的数据库操作。事务要么全部成功提交，要么全部失败回滚，以确保数据的完整性和一致性（符合ACID特性：原子性、一致性、隔离性、持久性）。

掌握这些高级概念和技术，能够让你更高效、更灵活地管理和利用数据库中的数据。

第五部分：为什么你应该学习SQL？

职业机会： SQL是许多技术和非技术职位的核心技能，包括数据分析师、数据科学家、后端工程师、数据库管理员、商业智能分析师、数据工程师等。
数据理解能力： 学习SQL让你能够直接与数据交互，更深入地理解数据的结构、关系和含义。
提高效率： 能够直接从数据库中提取所需数据，无需依赖他人或使用图形界面工具，极大地提高了工作效率。
数据驱动决策： 通过SQL查询和分析数据，可以为决策提供有力的支持。
易于入门： 相比许多编程语言，SQL的语法更接近自然语言，逻辑结构清晰，相对容易入门。

结论

SQL作为数据世界的通用语言，是管理和操作关系型数据库的核心工具。通过理解数据库的核心概念（表、行、列、数据类型、键、关系）并掌握基础的DDL和DML命令（CREATE TABLE, DROP TABLE, SELECT, INSERT, UPDATE, DELETE），你已经迈出了与数据有效交互的第一步。

这仅仅是SQL世界的冰山一角。更高级的JOIN、子查询、函数、索引和事务等功能，将赋予你处理复杂数据任务的强大能力。最好的学习方式是理论结合实践，找一个数据库系统（如MySQL, PostgreSQL, SQLite）并尝试创建自己的数据库、表，插入数据，并编写各种查询来练习和巩固知识。

随着对SQL的深入学习和实践，你将能够自如地驾驭数据，解锁数据蕴含的巨大价值。开始你的SQL之旅吧！