Docker 与 PostgreSQL:从入门到实践 – wiki基地


Docker 与 PostgreSQL:从入门到实践

在现代软件开发中,高效、便捷的开发环境搭建和部署是提升生产力的关键。数据库作为应用的核心组成部分,其环境的管理和迁移常常伴随着诸多挑战。Docker,作为容器化技术的领导者,以其轻量、可移植和自给自足的特性,为数据库环境的管理提供了强大的解决方案。本文将详细探讨如何将流行的开源关系型数据库 PostgreSQL 与 Docker 相结合,从基础概念入手,逐步深入到实际应用、数据持久化、配置管理以及使用 Docker Compose 进行多服务编排,最终提供一些实践建议和常见问题排查方法。

引言:为何选择 Docker 与 PostgreSQL?

PostgreSQL 是一个功能强大、高度可扩展且遵循 SQL 标准的对象关系型数据库系统。它以其稳定性、丰富的功能集(如事务、索引、视图、存储过程、触发器、外键、复杂的查询能力以及对各种数据类型的支持)和活跃的社区而闻名,广泛应用于各种规模的应用中。

然而,传统方式下安装、配置和管理 PostgreSQL 可能会遇到一些问题:

  1. 环境依赖复杂: 需要考虑操作系统版本、依赖库、环境变量等,容易出现“在我机器上可以运行”的问题。
  2. 版本管理困难: 测试不同版本的 PostgreSQL 需要多次安装或使用虚拟机,效率低下。
  3. 环境隔离不足: 在同一台机器上运行多个数据库实例或不同应用的数据库时,可能出现端口冲突、资源争抢等问题。
  4. 部署和迁移繁琐: 将数据库环境从开发迁移到测试、生产环境,需要重复安装和配置过程。

Docker 的出现完美解决了这些痛点。通过将 PostgreSQL 及其所有依赖打包到一个独立的、可移植的容器中,我们可以获得:

  1. 环境一致性: 无论在何处运行 Docker 容器,PostgreSQL 环境都是相同的。
  2. 快速部署与启动: 几秒钟内即可启动一个全新的 PostgreSQL 实例。
  3. 隔离性: 每个容器都是独立的,互不影响。
  4. 便捷的版本管理: 可以轻松拉取和运行不同版本的 PostgreSQL 镜像。
  5. 资源效率高: 相比虚拟机,容器更加轻量级,启动更快,资源占用更少。

将 PostgreSQL 容器化,不仅可以极大地简化开发、测试环境的搭建和管理,也能为生产环境的部署和运维提供新的思路。

本文将带领读者一步步掌握如何在 Docker 中运行和管理 PostgreSQL。

第一部分:Docker 与 PostgreSQL 基础入门

什么是 Docker?

Docker 是一个开源的应用容器化平台。它允许开发者将应用程序及其依赖打包到一个称为容器的标准化单元中。容器是一个轻量级、可执行的软件包,包含运行应用程序所需的一切:代码、运行时、库、环境变量和配置文件。

Docker 的核心概念包括:

  • 镜像 (Image): 一个只读的模板,用于创建容器。它包含了运行特定应用程序所需的文件系统、代码、运行时等。PostgreSQL 镜像就是一个预配置好的 PostgreSQL 模板。
  • 容器 (Container): 镜像的可运行实例。容器是相互隔离的,并且包含了应用程序及其完整的运行时环境。
  • Dockerfile: 用于构建 Docker 镜像的文本文件,包含一系列构建指令。
  • Docker Hub/Registry: 存储和分享 Docker 镜像的仓库服务。

什么是 PostgreSQL?

PostgreSQL 是一款功能丰富的开源对象关系型数据库管理系统(ORDBMS)。它支持 SQL 标准,并提供了许多高级特性,如:

  • 事务(ACID 属性)
  • 丰富的索引类型
  • 视图、规则、存储过程
  • 外键约束
  • 复杂的数据类型(JSONB, 数组, GIS 等)
  • 数据完整性、并发控制
  • 强大的扩展能力

为何在 Docker 中使用 PostgreSQL?

如前所述,在 Docker 中运行 PostgreSQL 带来了诸多优势:

  • 简化安装和配置: 无需在主机操作系统上进行繁琐的安装步骤,直接拉取镜像即可。
  • 快速启动和销毁: 可以在几秒钟内启动一个全新的数据库实例用于开发或测试,用完即删,不留痕迹。
  • 环境隔离: 避免不同项目或服务之间的数据库环境相互干扰。
  • 版本管理: 轻松切换 PostgreSQL 版本进行兼容性测试。
  • 跨平台兼容: Docker 容器可以在任何支持 Docker 的操作系统上运行,保持一致的行为。
  • 持续集成/持续部署 (CI/CD) 友好: 可以在自动化流程中快速启动数据库实例进行测试和部署。

接下来,我们将进入实际操作阶段。

第二部分:从零开始运行 PostgreSQL 容器

在开始之前,请确保你的系统已经安装了 Docker。你可以访问 Docker 官方网站获取针对你操作系统的安装指南。安装完成后,可以通过运行 docker --versiondocker compose --version 命令来验证安装是否成功。

1. 查找 PostgreSQL 镜像

Docker Hub 是一个官方的 Docker 镜像仓库。我们可以直接在 Docker Hub 上搜索 PostgreSQL 镜像。官方维护的 PostgreSQL 镜像通常是最推荐的选择。

访问 Docker Hub 并搜索 “postgres”。你会找到官方的 postgres 镜像。这个页面提供了关于如何使用该镜像的详细说明,包括支持的环境变量、卷挂载等信息。

我们可以通过命令行搜索镜像:

bash
docker search postgres

通常,第一个结果就是官方的 postgres 镜像:

NAME DESCRIPTION STARS OFFICIAL AUTOMATED
postgres PostgreSQL is a powerful, open source object... 10000+ [OK]
...

2. 拉取 PostgreSQL 镜像

在使用镜像之前,需要将其拉取到本地。拉取最新版本的 PostgreSQL 镜像:

bash
docker pull postgres

如果需要特定版本,例如 PostgreSQL 13:

bash
docker pull postgres:13

你可以访问 Docker Hub 的 postgres 页面查看可用的标签(tags),选择你需要的版本。

3. 运行一个基本的 PostgreSQL 容器

现在我们可以使用 docker run 命令启动一个 PostgreSQL 容器。运行数据库容器时,有几个重要的参数需要考虑:

  • -d:以后台(detached)模式运行容器。
  • --name <container_name>:为容器指定一个易于识别的名称。
  • -e <VARIABLE>=<value>:设置容器内的环境变量。PostgreSQL 官方镜像要求必须设置 POSTGRES_PASSWORD 环境变量来指定数据库超级用户的密码。你也可以设置 POSTGRES_USER (默认为 postgres) 和 POSTGRES_DB (默认为 POSTGRES_USER 指定的用户同名数据库) 来创建新的用户和数据库。
  • -p <host_port>:<container_port>:将容器内部的端口映射到主机上的端口,以便从主机访问数据库。PostgreSQL 默认端口是 5432。
  • -v <host_path>:<container_path>-v <volume_name>:<container_path>:挂载卷以实现数据持久化。这对于数据库至关重要,后面会详细讲解。

运行一个简单的容器(数据非持久化):

重要提示: 以下命令 适合生产环境或需要长期保存数据的场景,因为容器停止并移除后,数据将丢失。这仅用于快速测试或一次性任务。

bash
docker run --name some-postgres \
-e POSTGRES_PASSWORD=mysecretpassword \
-p 5432:5432 \
postgres

上面的命令会:

  • 以后台模式 (-d) 启动一个容器。
  • 命名为 some-postgres
  • 设置超级用户 postgres 的密码为 mysecretpassword
  • 将容器内部的 5432 端口映射到主机的 5432 端口。
  • 使用最新版本的 postgres 镜像。

容器启动后,可以使用 docker ps 命令查看运行中的容器:

bash
docker ps

你会看到类似以下的输出:

CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES
<container_id> postgres "docker-entrypoint.s..." About a minute ago Up About a minute 0.0.0.0:5432->5432/tcp some-postgres

4. 连接到 PostgreSQL 容器

有几种方式可以连接到运行中的 PostgreSQL 容器:

a) 从容器内部连接 (使用 psql 客户端):

你可以使用 docker exec 命令在容器内执行命令,包括连接到 PostgreSQL 数据库。官方镜像内置了 psql 命令行客户端。

bash
docker exec -it some-postgres psql -U postgres

  • docker exec: 在运行中的容器中执行命令。
  • -it: 分配一个伪终端 (-t) 并保持标准输入打开 (-i),允许交互式操作。
  • some-postgres: 目标容器的名称。
  • psql: 要执行的命令(PostgreSQL 客户端)。
  • -U postgres: 指定连接的用户为 postgres

执行此命令后,系统会提示输入密码(mysecretpassword)。输入正确密码后,你将进入 PostgreSQL 命令行界面 (psql),可以执行 SQL 命令了。

“`sql
psql (14.5 (Debian 14.5-1.pgdg110+1))
Type “help” for help.

postgres=# SELECT version();
version


PostgreSQL 14.5 (Debian 14.5-1.pgdg110+1) on x86_64-pc-linux-gnu, compiled by gcc (Debian 10.2.1) 20210110, 64-bit
(1 row)

postgres=# \l
List of databases
Name | Owner | Encoding | Collate | Ctype | Access privileges
———–+———-+———-+————-+————-+———————–
postgres | postgres | UTF8 | en_US.utf8 | en_US.utf8 |
template0 | postgres | UTF8 | en_US.utf8 | en_US.utf8 | =c/postgres +
| | | | | postgres=CTc/postgres
template1 | postgres | UTF8 | en_US.utf8 | en_US.utf8 | =c/postgres +
| | | | | postgres=CTc/postgres
(3 rows)

postgres=# \q — 输入 \q 退出 psql
“`

b) 从主机连接 (使用 psql 或 GUI 工具):

由于我们将容器的 5432 端口映射到了主机的 5432 端口,如果你的主机上也安装了 psql 客户端或 DBeaver, pgAdmin 等 GUI 工具,可以直接通过 localhost:5432 连接到容器中的数据库。

使用主机上的 psql 连接:

bash
psql -h localhost -p 5432 -U postgres

系统会提示输入密码 mysecretpassword

使用 GUI 工具连接时,配置连接信息:
* Host/Server: localhost
* Port: 5432
* Database: postgres (或你在环境变量中指定的数据库名)
* User: postgres (或你在环境变量中指定的用户)
* Password: mysecretpassword (或你在环境变量中指定的密码)

5. 停止和移除容器

完成测试后,可以停止并移除容器:

bash
docker stop some-postgres
docker rm some-postgres

请注意,如果你的容器不是用卷挂载的数据,移除容器将导致数据丢失。

第三部分:数据持久化 – 保证数据安全

正如前面提到的,直接运行的容器在被移除后,其内部的所有数据也会随之消失。对于数据库而言,数据是其核心价值,因此必须实现数据持久化。Docker 提供了两种主要方式来实现数据持久化:绑定挂载 (Bind Mounts)卷 (Volumes)。对于大多数 PostgreSQL 容器化场景,特别是需要长期保存数据的,推荐使用卷 (Volumes)

1. 为何需要数据持久化?

PostgreSQL 将其数据存储在容器内部的一个特定目录中(官方镜像默认为 /var/lib/postgresql/data)。如果不进行持久化,当容器被停止并移除时,这个文件系统会被销毁,其中的数据也就不复存在了。

数据持久化意味着将容器内的数据目录映射到 Docker Host 上的某个位置(文件系统路径或 Docker 管理的卷),这样即使容器被删除、更新或迁移,数据依然安全地保存在主机上,并且可以在新的容器中重新挂载。

2. 使用卷 (Volumes)

卷是 Docker 推荐用于持久化数据的方式。它由 Docker 本身管理,与主机的特定文件系统结构解耦。这使得卷更加灵活、易于备份和迁移。Docker 提供了两种卷:匿名卷和命名卷。对于数据库,通常使用命名卷

命名卷的优势:

  • 易于管理: 可以通过名称引用卷,方便管理和备份。
  • 与主机路径解耦: 避免了不同操作系统主机路径差异的问题。
  • Docker 管理: Docker 负责卷的创建、位置和生命周期(除非明确删除)。
  • 性能: 在某些情况下,卷的性能可能优于绑定挂载(尽管对于数据库负载差异可能不大)。

创建命名卷:

你可以手动创建命名卷,也可以在运行容器时让 Docker 自动创建。推荐手动创建,名称更清晰:

bash
docker volume create pgdata

运行容器并使用命名卷挂载数据目录:

我们将之前运行命令中的 -v 参数修改为使用命名卷。PostgreSQL 官方镜像默认的数据目录是 /var/lib/postgresql/data

bash
docker run --name some-postgres \
-e POSTGRES_PASSWORD=mysecretpassword \
-p 5432:5432 \
-v pgdata:/var/lib/postgresql/data \
-d \
postgres

这个命令与之前类似,但增加了 -v pgdata:/var/lib/postgresql/data。这告诉 Docker 将名为 pgdata 的卷挂载到容器内部的 /var/lib/postgresql/data 目录。

  • 如果 pgdata 卷不存在,Docker 会自动创建它。
  • 如果 /var/lib/postgresql/data 目录在容器镜像中包含初始化数据,并且卷是空的,这些初始化数据会被复制到卷中。这是 PostgreSQL 官方镜像在首次运行时自动初始化数据库的关键机制之一。

现在,即使你停止并移除 some-postgres 容器,pgdata 卷及其包含的数据库数据仍然存在于 Docker 主机上。你可以启动一个新的容器,并再次挂载 pgdata 卷,它将加载之前保存的数据。

查看卷:

bash
docker volume ls

你会看到 pgdata 卷。

检查卷信息:

bash
docker volume inspect pgdata

这将显示卷的详细信息,包括它在主机上的实际存储路径 (Mountpoint)。

删除卷:

重要提示: 删除卷将永久删除其中的数据。请谨慎操作!

bash
docker volume rm pgdata

只有当卷未被任何容器使用时,才能成功删除。

3. 使用绑定挂载 (Bind Mounts)

绑定挂载允许你将主机上的一个目录直接挂载到容器内的指定路径。

绑定挂载的优势:

  • 直接访问: 可以直接在主机文件系统上访问容器内的数据(例如,查看日志、修改配置文件)。
  • 控制粒度高: 可以精确控制挂载主机上的哪个目录。

绑定挂载的劣势:

  • 依赖主机路径: 配置路径硬编码在命令或配置文件中,不利于跨平台迁移。
  • 安全性: 容器可以直接访问主机文件系统的敏感部分(如果配置不当)。
  • 权限问题: 容器内的用户(通常是 postgres 用户)可能没有权限写入主机上的目录,需要手动调整权限。
  • Docker 管理能力有限: Docker 不管理绑定挂载的生命周期,备份和管理需要依赖主机的文件系统工具。

运行容器并使用绑定挂载:

首先,在主机上创建一个目录用于存放数据,并确保 Docker 用户有写入权限(通常是 postgres 用户需要写入)。

“`bash

在你的主机上创建一个目录,例如:

mkdir /path/to/your/postgres_data

根据你的Docker用户和主机用户设置权限,例如:

sudo chown -R : /path/to/your/postgres_data

或者更简单粗暴(不推荐生产):sudo chmod -R 777 /path/to/your/postgres_data

“`

然后运行容器,使用 -v 参数指定主机路径和容器路径:

bash
docker run --name some-postgres \
-e POSTGRES_PASSWORD=mysecretpassword \
-p 5432:5432 \
-v /path/to/your/postgres_data:/var/lib/postgresql/data \
-d \
postgres

选择卷还是绑定挂载?

对于 PostgreSQL 数据本身 (/var/lib/postgresql/data) 的持久化,强烈推荐使用命名卷 (-v pgdata:/var/lib/postgresql/data)。它更符合 Docker 的设计哲学,管理更方便,且避免了主机路径和权限问题。

绑定挂载更适合用于挂载配置文件(如 postgresql.conf)或初始化脚本,这些文件你可能希望直接在主机上编辑。

第四部分:配置与高级运行

除了基本的端口映射和数据持久化,还可以通过环境变量、配置文件和初始化脚本等方式对 PostgreSQL 容器进行更精细的配置。

1. 使用环境变量进行配置

PostgreSQL 官方镜像支持多种环境变量来定制容器的行为和数据库配置。除了 POSTGRES_PASSWORDPOSTGRES_USERPOSTGRES_DB 之外,常用的还有:

  • POSTGRES_INITDB_ARGS: 传递给 initdb 命令的额外参数,用于控制数据库集群的初始化。
  • PGDATA: 指定数据存储目录的路径(默认为 /var/lib/postgresql/data)。如果你需要将数据存储在容器内的非默认位置,可以使用此变量,但通常更推荐通过卷挂载 /var/lib/postgresql/data 来实现。
  • POSTGRES_HOST_AUTH_METHOD: 控制首次运行时生成的 pg_hba.conf 中的认证方法。
  • POSTGRES_INITDB_WALDIR: 指定 WAL(Write-Ahead Logging)目录。

示例:创建一个指定用户和数据库的容器

bash
docker run --name myapp-postgres \
-e POSTGRES_USER=myapp_user \
-e POSTGRES_PASSWORD=myapp_password \
-e POSTGRES_DB=myapp_db \
-v myapp_pgdata:/var/lib/postgresql/data \
-p 5432:5432 \
-d \
postgres

这将创建一个名为 myapp_db 的数据库,其所有者为 myapp_user,密码为 myapp_password

2. 挂载自定义配置文件

对于更复杂的 PostgreSQL 配置,例如调整内存参数、连接限制、日志设置等,通常需要修改 postgresql.conf 文件。你可以通过绑定挂载将自定义的 postgresql.conf 文件挂载到容器内的相应位置。

  1. 获取默认配置: 运行一个临时容器来获取默认的 postgresql.conf 文件作为模板。

    bash
    docker run --rm --name temp-postgres postgres cat /usr/local/share/postgresql/postgresql.conf.sample > /path/to/your/custom_config/postgresql.conf

    • --rm: 容器停止后自动移除。
    • cat /usr/local/share/postgresql/postgresql.conf.sample: 在容器内执行 cat 命令,将默认配置样本输出到标准输出。
    • >: 将标准输出重定向到主机上的文件。

    注意: 实际的 postgresql.conf 路径可能因 PostgreSQL 版本或镜像构建方式而异。对于官方镜像,默认配置样本通常在 /usr/local/share/postgresql/ 或类似的路径下。运行时使用的 postgresql.conf 在数据目录 /var/lib/postgresql/data 内。为了避免覆盖数据目录内的文件,通常是将自定义配置挂载到一个不同的位置,然后在数据目录内的 postgresql.conf 中使用 include 指令引用它,或者直接覆盖数据目录内的 postgresql.conf(但要小心)。更稳妥的方式是覆盖数据目录内的 postgresql.conf

  2. 编辑配置文件: 修改 /path/to/your/custom_config/postgresql.conf 文件,根据需要调整参数。

  3. 运行容器并挂载配置文件:

    bash
    docker run --name some-postgres \
    -e POSTGRES_PASSWORD=mysecretpassword \
    -p 5432:5432 \
    -v pgdata:/var/lib/postgresql/data \
    -v /path/to/your/custom_config/postgresql.conf:/var/lib/postgresql/data/postgresql.conf \
    -d \
    postgres

    这将用主机上的自定义 postgresql.conf 文件替换容器数据目录内的同名文件。

    注意: 如果你只需要修改几个参数,并且这些参数可以通过环境变量设置(例如 PGPORT, PGDATA, PGUSER 等),优先使用环境变量更简单。一些运行时参数也可以通过连接后执行 ALTER SYSTEM SET parameter = 'value'; 命令来修改,这些修改会写入到数据目录下的 postgresql.auto.conf 文件中,并在下次重启时加载。

3. 初始化数据库:运行 SQL 脚本

PostgreSQL 官方镜像提供了一个非常有用的特性:在容器首次启动并初始化数据库时,它会查找并执行 /docker-entrypoint-initdb.d/ 目录下的脚本文件。这个目录可以挂载主机上的一个目录,其中包含 .sql.sh.gz 格式的脚本。这些脚本会按照文件名(按字母顺序)依次执行,非常适合用于创建表、插入初始数据、创建用户、设置权限等初始化任务。

  1. 准备初始化脚本: 在主机上创建一个目录,例如 /path/to/your/init_scripts,并在其中放置你的 SQL 脚本文件(例如 01-create-tables.sql, 02-insert-data.sql)。

    01-create-tables.sql:

    “`sql
    CREATE TABLE products (
    id SERIAL PRIMARY KEY,
    name VARCHAR(100) NOT NULL,
    price NUMERIC(10, 2)
    );

    CREATE TABLE orders (
    id SERIAL PRIMARY KEY,
    product_id INTEGER REFERENCES products(id),
    quantity INTEGER,
    order_date TIMESTAMP DEFAULT CURRENT_TIMESTAMP
    );
    “`

  2. 运行容器并挂载脚本目录:

    bash
    docker run --name some-postgres \
    -e POSTGRES_PASSWORD=mysecretpassword \
    -e POSTGRES_DB=myapp_db \
    -v pgdata:/var/lib/postgresql/data \
    -v /path/to/your/init_scripts:/docker-entrypoint-initdb.d \
    -p 5432:5432 \
    -d \
    postgres

    在第一次运行(即 pgdata 卷是空的,需要初始化数据库)时,容器启动脚本会自动执行 /docker-entrypoint-initdb.d/ 目录下的所有脚本。如果 pgdata 卷已经包含一个初始化过的数据库,则这个目录会被忽略。

    注意: 这些脚本以数据库超级用户 (postgresPOSTGRES_USER 指定的用户) 身份执行。

第五部分:使用 Docker Compose 进行编排

在实际应用中,一个项目往往包含多个服务,例如一个后端 API、一个前端应用、一个数据库、一个缓存等。Docker Compose 是一个用于定义和运行多容器 Docker 应用程序的工具。通过一个 YAML 文件 (docker-compose.yml),可以定义多个服务及其之间的关系(网络、卷、依赖等),然后使用一个命令 (docker compose up) 来启动整个应用栈。

使用 Docker Compose 管理 PostgreSQL 容器的优势:

  • 集中配置: 所有服务的配置都集中在一个文件中,清晰易懂。
  • 服务间发现: Compose 会创建一个默认网络,服务可以通过服务名互相访问(例如,后端服务可以通过主机名 db 连接到数据库服务)。
  • 依赖管理: 可以指定服务的启动依赖关系,确保数据库在应用服务启动之前就绪。
  • 简化命令: 只需几个命令即可管理整个应用栈的生命周期。

1. 编写 docker-compose.yml 文件

创建一个名为 docker-compose.yml 的文件,并添加以下内容:

“`yaml
version: ‘3.8’ # 指定 Compose 文件格式版本

services:
# PostgreSQL 数据库服务
db:
image: postgres:latest # 使用最新的 PostgreSQL 镜像
container_name: myapp-postgres-container # 可选,指定容器名称
environment:
POSTGRES_PASSWORD: mysecretpassword # 设置数据库超级用户密码
POSTGRES_USER: myapp_user # 设置数据库用户
POSTGRES_DB: myapp_db # 设置数据库名
ports:
– “5432:5432” # 将主机 5432 端口映射到容器 5432 端口 (可选,如果只有其他容器访问数据库,可以不映射端口到主机)
volumes:
– pgdata:/var/lib/postgresql/data # 挂载命名卷用于数据持久化
– ./init:/docker-entrypoint-initdb.d # 挂载初始化脚本目录 (假设你的脚本在项目根目录的 ./init 文件夹)
healthcheck: # 健康检查,确保数据库服务真正可用
test: [ “CMD-SHELL”, “pg_isready -U ${POSTGRES_USER} -d ${POSTGRES_DB}” ]
interval: 10s
timeout: 5s
retries: 5

# 一个示例的应用服务 (例如,一个 Node.js 或 Python 后端)
# app:
# build: . # 或 image: your_app_image
# ports:
# – “3000:3000”
# environment:
# DATABASE_URL: postgres://myapp_user:myapp_password@db:5432/myapp_db # 使用服务名 ‘db’ 作为主机名连接数据库
# depends_on:
# db: # 依赖于 db 服务,db 服务启动并健康后 app 服务才启动
# condition: service_healthy
# # volumes:
# # – .:/app # 挂载应用代码
# # working_dir: /app

volumes:
pgdata: # 定义命名卷
“`

文件说明:

  • version: 定义 Compose 文件格式版本。
  • services: 定义应用包含的各个服务。
    • db: 定义一个名为 db 的服务(这是服务名,用于服务间通信)。
      • image: 指定使用的 Docker 镜像。
      • environment: 设置环境变量。
      • ports: 端口映射。
      • volumes: 卷挂载,这里挂载了数据卷 pgdata 和初始化脚本目录 ./init
      • healthcheck: 定义健康检查,Compose 可以等待服务通过健康检查后再启动依赖它的服务。pg_isready 是 PostgreSQL 提供的一个用于检查服务状态的工具。
    • app (被注释掉): 示例应用服务,演示如何配置依赖关系 (depends_on) 和使用服务名 (db) 作为数据库连接的主机名。
  • volumes: 定义 Compose 文件中使用的命名卷。

2. 准备初始化脚本 (如果需要)

如果你的 docker-compose.yml 中挂载了 ./init:/docker-entrypoint-initdb.d,请在 docker-compose.yml 同级目录下创建一个名为 init 的文件夹,并在其中放入你的 .sql.sh 脚本。

“`bash
mkdir init

创建 init/01-schema.sql 文件,写入你的建表语句等

创建 init/02-data.sql 文件,写入你的初始数据等

“`

3. 启动应用栈

在包含 docker-compose.yml 文件的目录下,打开终端,运行:

bash
docker compose up -d

  • up: 构建、(重新)创建、启动、附加到服务。
  • -d: 以后台模式运行。

Compose 会执行以下步骤:

  1. 检查并拉取所需的镜像(如果本地没有)。
  2. 创建网络(默认为当前目录名_default)。
  3. 创建卷(如果 pgdata 卷不存在)。
  4. 启动 db 服务容器。如果 pgdata 卷是新的,容器启动时会执行初始化过程和 ./init 目录下的脚本。
  5. (如果定义了 app 服务并取消注释)等待 db 服务通过健康检查后,启动 app 服务。

你可以使用 docker compose ps 查看服务状态:

bash
docker compose ps

你会看到 db 服务的状态,如果健康检查配置正确,状态会显示 (healthy)

4. 连接到数据库

如果你的 docker-compose.yml 文件中映射了端口 ("5432:5432"),你可以像之前一样使用 localhost:5432 从主机连接到数据库。

如果端口未映射到主机,但你有其他容器在同一个 Compose 网络中(例如上面示例中的 app 服务),这些容器可以通过服务名 db 和端口 5432 来连接数据库(例如,连接字符串可以是 postgres://myapp_user:myapp_password@db:5432/myapp_db)。

5. 停止和移除应用栈

要停止 Compose 管理的所有服务并移除容器、网络:

bash
docker compose down

  • down: 停止并移除容器、网络等资源。
  • 默认情况下,down 命令不会移除卷。要同时移除卷(包括 pgdata),使用 -v 参数:

bash
docker compose down -v

重要提示: 使用 docker compose down -v 会永久删除数据库数据,请谨慎操作!

第六部分:实践场景与最佳实践

结合 Docker 和 PostgreSQL 的能力,可以在多种场景下提升效率和简化流程。

1. 开发环境

  • 快速搭建: 新成员加入团队或启动新项目时,只需拉取 Git 仓库并运行 docker compose up,即可获得一个配置好的、包含数据库的环境,无需手动安装和配置 PostgreSQL。
  • 环境隔离: 不同项目可以使用独立的 Compose 文件和数据卷,互相隔离,避免版本冲突和数据污染。
  • 版本切换: 修改 docker-compose.yml 中的镜像标签,即可轻松切换 PostgreSQL 版本进行测试。

2. 测试环境

  • 自动化测试: 在 CI/CD 流水线中,可以使用 Docker Compose 快速启动一个全新的数据库实例,运行自动化测试(包括数据库迁移和集成测试),测试完成后立即销毁环境。
  • 集成测试: 为不同的功能模块或服务提供独立的数据库实例,方便并行测试。

3. 生产环境 (考虑因素)

在生产环境中使用 Docker 运行数据库需要更深入的考虑,特别是关于高可用、备份、监控和安全性:

  • 数据备份与恢复: 需要建立可靠的备份策略。可以使用 docker exec 结合 pg_dump 命令进行逻辑备份,将备份文件保存到主机上的持久化存储或云存储。也可以考虑使用 Docker 卷备份工具或文件系统快照。恢复时,可以将备份文件复制到容器内或卷中,然后使用 pg_restore 进行恢复。
  • 高可用性 (HA): 单个 Docker 容器不能保证高可用。生产环境通常需要更复杂的解决方案,如 PostgreSQL 流复制、Patroni 等,这些可以在 Docker 或 Kubernetes 环境中实现,但配置更为复杂。或者考虑使用云服务提供商提供的托管 PostgreSQL 服务,它们通常内置了高可用和备份方案。
  • 监控: 需要监控容器的资源使用情况(CPU、内存、网络)、数据库性能指标(连接数、查询延迟、慢查询)以及日志。可以使用 Docker 自身的监控工具 (docker stats),更专业的数据库监控工具,或集成到 Prometheus/Grafana 等监控体系中。
  • 安全性:
    • 使用强密码,并避免在公共镜像中硬编码密码(使用环境变量或 Docker Secrets)。
    • 将数据卷存储在安全的、访问受限的位置。
    • 限制网络访问,数据库端口不应暴露在公共网络上,应只允许应用服务访问(在 Compose 网络中,通常不需要将数据库端口映射到主机,只在服务间通过内部网络通信)。
    • 考虑使用非 root 用户运行容器(PostgreSQL 官方镜像已经以非 root 用户运行)。
    • 定期更新 Docker 镜像和 PostgreSQL 版本以获取安全补丁。

总结: Docker 和 Docker Compose 非常适合用于开发和测试环境的 PostgreSQL 管理,可以极大地提高效率。对于生产环境,虽然可行,但需要更复杂的规划和实施来确保高可用、备份和安全性。很多团队在生产环境倾向于使用云服务商提供的托管数据库服务,以省去复杂的运维工作。

4. 备份与恢复示例 (使用 docker execpg_dump)

备份:

假设你的 PostgreSQL 容器名为 myapp-postgres-container,数据库名为 myapp_db

“`bash

导出数据库为 SQL 文件

docker exec myapp-postgres-container pg_dump -U myapp_user myapp_db > /path/to/your/backup/myapp_db_backup.sql

或者导出为自定义格式 (更适合pg_restore)

docker exec myapp-postgres-container pg_dump -U myapp_user -Fc myapp_db > /path/to/your/backup/myapp_db_backup.dump

提示输入 myapp_user 的密码

“`

-U myapp_user 替换为你实际的用户,myapp_db 替换为实际的数据库名,/path/to/your/backup/ 替换为你希望保存备份文件的主机目录。

恢复:

  1. 准备目标数据库: 确保目标 PostgreSQL 实例正在运行,并且目标数据库(例如 myapp_db)已经存在且为空,或者你可以直接恢复到一个新创建的空数据库。如果需要重新创建容器,确保数据卷是新的或空的。

  2. 复制备份文件到容器内:

    bash
    docker cp /path/to/your/backup/myapp_db_backup.sql myapp-postgres-container:/tmp/myapp_db_backup.sql

  3. 在容器内执行恢复命令:

    “`bash
    docker exec -it myapp-postgres-container psql -U myapp_user -d myapp_db -f /tmp/myapp_db_backup.sql

    或者使用自定义格式恢复

    docker exec -it myapp-postgres-container pg_restore -U myapp_user -d myapp_db /tmp/myapp_db_backup.dump

    提示输入 myapp_user 的密码

    “`

    恢复完成后,可以删除容器内的备份文件:

    bash
    docker exec myapp-postgres-container rm /tmp/myapp_db_backup.sql

第七部分:常见问题排查

在使用 Docker 运行 PostgreSQL 容器时,可能会遇到一些问题。以下是一些常见问题及其排查方法:

  1. 容器无法启动:

    • 检查日志: 这是第一步。使用 docker logs <container_name> 查看容器的启动日志。日志中通常会包含启动失败的原因,例如密码错误、端口被占用、数据目录权限问题、环境变量配置错误等。
    • 端口冲突: 如果日志显示端口被占用,检查主机上是否有其他进程正在使用相同的端口。如果使用 Docker Compose,检查 Compose 文件中的端口映射是否有冲突。
    • 数据卷问题: 如果是第一次启动或数据卷有问题,可能会导致初始化失败。检查卷的权限或尝试删除旧卷并重新创建(谨慎操作!)。
    • 环境变量错误: 确保 POSTGRES_PASSWORD 等必需的环境变量已正确设置。
  2. 无法连接到数据库:

    • 检查容器状态: 确保容器正在运行 (docker ps) 并且健康 (docker compose ps)。
    • 检查端口映射: 如果从主机连接,确认 docker rundocker-compose.yml 中的端口映射 (-pports) 是否正确,以及你是否使用了正确的主机端口和地址(通常是 localhost127.0.0.1)。
    • 检查网络: 如果是容器间连接,确保它们在同一个 Docker 网络中(Docker Compose 默认会创建)。检查连接字符串中的主机名和端口是否正确(使用服务名作为主机名)。
    • 检查防火墙: 检查主机或容器所在的网络是否有防火墙阻止了对 PostgreSQL 端口的访问。
    • 检查认证: 确认连接使用的用户名、密码和数据库名是否正确,是否与容器配置的环境变量或初始化脚本中的一致。检查 pg_hba.conf 配置(如果挂载了自定义配置)。
    • 检查数据库是否在监听外部连接: 在容器内连接正常,但从外部无法连接,可能是数据库未配置监听非 localhost 地址。默认的 postgresql.conf 可能只监听 localhost。你可以尝试修改 listen_addresses 参数(通过挂载自定义配置或 ALTER SYSTEM 命令)使其监听所有地址(*)或特定 IP。
  3. 数据丢失:

    • 这通常是因为没有正确配置数据持久化(卷或绑定挂载)。回顾第三部分,确保将 /var/lib/postgresql/data 目录挂载到了一个持久化的卷或主机目录上。
    • 确认删除容器时没有同时删除数据卷 (docker rm 不会删除卷,但 docker volume rm 会,docker compose down 默认不删除卷,但 docker compose down -v 会)。
  4. 初始化脚本未执行:

    • 确保脚本目录挂载正确 (-v /path/to/scripts:/docker-entrypoint-initdb.d)。
    • 确保脚本文件有执行权限(对于 .sh 脚本)。
    • 最常见的原因是,初始化脚本只在 第一次 启动且需要初始化数据库时执行。如果数据卷 (/var/lib/postgresql/data) 已经包含一个初始化过的数据库,即使你挂载了脚本目录,脚本也不会再次执行。要重新运行初始化脚本,你需要删除或清空数据卷,让容器重新初始化。

结论

将 Docker 与 PostgreSQL 结合使用,为数据库环境的管理带来了革命性的便利。从简单的容器启动,到使用卷进行数据持久化,再到通过环境变量、配置文件和初始化脚本进行精细配置,以及最终利用 Docker Compose 优雅地管理多服务应用栈,我们看到了容器化数据库在开发和测试场景中的巨大价值。

通过 Docker,我们可以告别繁琐的安装和配置,实现快速、一致、隔离的数据库环境。它极大地提升了开发效率,简化了环境共享和迁移,并为自动化测试提供了可靠的基础。虽然在生产环境部署 Docker 化的数据库需要考虑更多的因素,但其在非生产环境中的优势已经足以使其成为现代软件开发流程中不可或缺的一部分。

掌握 Docker 与 PostgreSQL 的结合使用,无疑是每位开发者和运维人员提升技能树的重要一步。希望本文能够为你提供一个清晰、全面的指南,帮助你从入门到熟练应用,充分利用这两项强大技术的协同效应。开始你的容器化数据库之旅吧!


发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部