Docker容器的重启与自动恢复策略 – wiki基地

Docker 容器的重启与自动恢复策略：构建弹性应用的基石

在现代软件开发和部署中，容器化技术以其轻量、可移植和一致性等优势，正以前所未有的速度改变着行业格局。Docker 作为容器技术的领导者，已经成为构建、发布和运行应用的行业标准。然而，在生产环境中运行的应用不可能永远一帆风顺，容器可能会因为各种原因停止运行，例如应用程序崩溃、资源耗尽、配置错误，甚至是宿主机重启等。

面对不可避免的故障，如何确保应用的高可用性和持续运行，是构建可靠系统的关键挑战。Docker 提供了强大的内置机制来处理容器的生命周期，其中最重要的能力之一就是容器的自动重启与恢复策略。理解并恰当使用这些策略，是构建弹性、健壮的容器化应用的基础。

本文将深入探讨 Docker 容器的重启与自动恢复策略，从容器为什么会停止讲起，详细介绍 Docker 提供的各种重启策略，如何配置和使用它们，以及在使用这些策略时需要考虑的最佳实践和注意事项。

第一章：理解容器的“生”与“死”——容器停止的原因

在深入探讨如何恢复容器之前，我们首先需要理解容器为什么会停止。容器的停止意味着其内部的主进程已经退出。退出通常伴随着一个退出码（Exit Code），这个退出码能够提供关于停止原因的重要线索：

正常退出 (Exit Code 0)：
- 容器中的主进程执行完毕并成功退出。例如，一个执行特定任务的批处理脚本或一个成功完成数据处理的程序。
- 用户手动执行 docker stop <container_id> 或 docker kill <container_id> 命令停止容器。这是一种预期的停止行为。
异常退出 (Exit Code 非 0，通常是 128+n 或 1~255)：
- 应用程序崩溃： 容器内部运行的应用遇到了未捕获的异常、段错误或其他严重问题，导致自身崩溃并退出。这是生产环境中常见的非预期停止原因。
- 资源耗尽： 容器消耗了过多的 CPU、内存或磁盘 I/O，超出了 Docker 为其设置的资源限制。Docker 守护进程或操作系统（如 OOM Killer 内存溢出杀手）可能会终止该容器进程以保护宿主机和其他容器。
- 配置错误： 容器启动时加载了错误的配置文件、环境变量或命令行参数，导致应用无法正常初始化并退出。
- 依赖缺失或故障： 容器依赖的外部服务（如数据库、消息队列）不可用，导致容器中的应用启动失败或在运行时遇到致命错误。
- 文件系统问题： 容器挂载的卷出现问题，导致容器无法访问必要的数据。
- 宿主机问题： 宿主机操作系统崩溃、断电、网络中断或执行了影响容器的关键操作（如内核升级、驱动加载失败），都可能导致容器异常终止。特别是宿主机重启，会导致其上运行的所有容器停止。
- Docker Daemon 问题： Docker 守护进程本身崩溃或重启，会影响到其管理的容器。

理解这些停止原因有助于我们诊断问题，并选择合适的策略来处理容器的故障。虽然我们希望避免异常停止，但在分布式系统中，故障是常态而非异常。因此，建立有效的恢复机制至关重要。

第二章：手动重启——应急与调试手段

在自动化恢复策略之前，了解如何手动重启容器是基础。手动重启通常用于调试、应用升级后的重新启动，或在自动恢复策略失效时作为一种应急手段。

docker start <container_id_or_name>:
- 这个命令用于启动一个已经创建但当前处于停止状态的容器。它不会重新创建容器，只是让容器内部的主进程重新运行起来。
- 如果容器配置了重启策略，docker start 会覆盖当前的重启策略行为，至少在这次手动启动时是这样。
docker restart <container_id_or_name>:
- 这个命令会先尝试优雅地停止（发送 SIGTERM 信号，等待一段时间后如果未停止则发送 SIGKILL 信号）一个正在运行或已停止的容器，然后再启动它。
- docker restart 默认有一个等待停止的超时时间（默认为 10 秒）。你可以通过 -t 或 --time 参数指定不同的超时时间。
- 它常用于应用配置更新后、代码部署后或简单的故障排除。

手动重启虽然直接有效，但在生产环境中依赖人工干预来处理频繁的容器停止是不可行的。我们需要一种自动化的方式来应对这些情况。

第三章：自动恢复的基石——Docker 重启策略（Restart Policies）

Docker 守护进程（Docker Daemon）是管理容器生命周期的核心组件。当 Docker 守护进程启动一个容器时，你可以为其指定一个重启策略。这个策略会告诉 Docker Daemon 在容器停止后，是否以及何时应该自动重启该容器。这是 Docker 实现容器自动恢复的基础机制。

Docker 提供了四种主要的重启策略，可以通过 docker run 命令的 --restart 标志来设置：

no (默认策略)
- 行为： 容器停止后，Docker Daemon 不会尝试自动重启它。
- 何时使用： 这是 Docker 的默认行为。适用于那些只需要运行一次就结束的任务容器（如批处理作业）、或者你希望完全手动控制其生命周期的容器。如果你不指定 --restart 参数，或者明确指定 --restart=no，容器停止后将保持停止状态，直到手动启动。
on-failure[:max-retries]
- 行为： 只有当容器以非零退出码（表示异常或错误）退出时，Docker Daemon 才会尝试重启它。如果容器以零退出码（表示正常完成）退出，则不会重启。
- max-retries (可选)：可以指定 Docker Daemon 尝试重启的最大次数。如果容器在达到最大尝试次数后仍然以非零退出码退出，Docker 将放弃重启该容器。如果不指定 max-retries，则会无限次尝试重启。
- 何时使用： 适用于大多数应用服务。你希望服务在崩溃时自动恢复，但在正常关闭或完成任务时则不再启动。on-failure 是一个相对保守且健壮的选择，可以防止无限重启那些设计上会正常退出的容器。
- 示例： --restart=on-failure (无限次尝试，非零退出时)；--restart=on-failure:5 (最多尝试 5 次，非零退出时)。
unless-stopped
- 行为： 无论容器以何种退出码停止（包括零），Docker Daemon 都会尝试重启它，除非用户或 Docker 系统明确地停止了它（例如通过 docker stop 命令）。
- 与 always 的主要区别： 如果 Docker Daemon 本身重启了（例如宿主机重启后 Docker Daemon 重新启动），unless-stopped 策略下的容器只有在 Docker Daemon 停止前处于运行状态，Docker Daemon 重启后才会尝试启动它们。而 always 策略下的容器，只要不是手动停止的，Docker Daemon 重启后都会尝试启动它们。换句话说，如果一个 unless-stopped 的容器在你手动停止它之后，Docker Daemon 重启了，这个容器将不会被自动启动。但如果是 always 的容器，即使你手动停止后，Docker Daemon 重启了，它也会被再次启动。
- 何时使用： 适用于需要持续运行的服务，即使因为外部原因（如宿主机重启、资源问题）导致停止，也希望 Docker 自动拉起。它比 always 稍微安全一些，因为它会尊重用户的显式停止意图。
- 示例： --restart=unless-stopped
always
- 行为： 无论容器以何种退出码停止，也无论它是如何停止的（除了 Docker Daemon 内部错误导致其无法启动），Docker Daemon 都会尝试自动重启它。包括宿主机重启导致 Docker Daemon 重启后，之前状态不是“已手动停止”的 always 容器也会被尝试启动。
- 何时使用： 适用于那些必须持续运行且极度重要的服务。它提供了最高级别的自动恢复能力，确保容器在任何非手动停止的情况下都会被尝试拉起。
- 注意事项： 使用 always 策略需要非常谨慎。如果你的容器内部的应用存在启动即失败的 Bug（即所谓的“容器闪退”或“ flapping”），always 策略会导致 Docker Daemon 进入一个无限重启的循环，这会消耗宿主机资源，并可能淹没日志系统。因此，使用 always 的容器必须是设计良好、启动鲁棒的应用。

第四章：如何配置重启策略

配置 Docker 容器的重启策略非常简单，主要通过以下两种方式：

使用 docker run 命令：
在运行容器时，使用 --restart 参数即可指定重启策略。

“`bash

不自动重启 (默认)

docker run –name my_app –restart=no my_image

异常退出时自动重启 (无限次尝试)

docker run –name my_app –restart=on-failure my_image

异常退出时最多尝试重启 3 次

docker run –name my_app –restart=on-failure:3 my_image

除非手动停止，否则无论何种退出都自动重启

docker run –name my_app –restart=unless-stopped my_image

总是自动重启 (最高级别恢复)

docker run –name my_app –restart=always my_image
“`
使用 Docker Compose：
在 Docker Compose 文件中，可以在服务的配置下添加 restart 关键字来指定重启策略。

“`yaml
version: ‘3.8’
services:
web:
image: my_web_app
ports:
– “80:80”
# 不自动重启 (默认)
# restart: “no”
```
# 异常退出时自动重启 (无限次尝试)
restart: on-failure

# 异常退出时最多尝试重启 5 次
# restart:
#   condition: on-failure
#   max_retries: 5

# 除非手动停止，否则无论何种退出都自动重启
# restart: unless-stopped

# 总是自动重启
# restart: always
```
示例使用 on-failure 带 max_retries

services:
worker:
image: my_worker
restart:
condition: on-failure
max_retries: 3
`` 注意：Docker Compose 文件中的restart关键字接受与docker run –restart相同的参数值 (no,on-failure,unless-stopped,always)。对于on-failure带max-retries，Compose 语法略有不同，需要使用一个结构体来指定condition和max_retries`。

配置完成后，Docker Daemon 会根据指定的策略监控容器的退出状态，并在需要时自动执行重启操作。

第五章：选择合适的重启策略——考量与权衡

选择正确的重启策略取决于你的应用特性、业务需求以及对故障的处理方式。以下是一些考量因素和建议：

应用类型：
- 无状态服务 (Web 服务器, API 网关)： 这些服务通常不存储关键数据在容器内部，失败后重新启动一个新实例即可继续提供服务。unless-stopped 或 on-failure 通常是好的选择。always 也可以考虑，但要注意“闪退”问题。
- 有状态服务 (数据库, 缓存)： 对于这类服务，简单地自动重启可能不足以恢复服务，甚至可能导致数据不一致或丢失。它们通常需要更复杂的协调机制（如主从复制、集群管理）以及人工干预来处理故障。在这种情况下，on-failure 配合较少的 max-retries 或者甚至 no，并结合外部监控和报警可能是更稳妥的选择，避免自动化重启加剧问题。
- 一次性任务/批处理作业： 这类任务设计上就会正常退出（Exit Code 0）。应使用 no 或 on-failure。使用 unless-stopped 或 always 会导致任务完成后容器被错误地重启。
故障容忍度与可用性要求：
- 对可用性要求极高的关键服务：倾向于使用 unless-stopped 或 always，确保服务尽可能快地恢复。
- 对可用性要求一般，更关心系统稳定性：倾向于使用 on-failure，只在异常时重启，避免正常退出后的误重启。
调试与故障排除：
- always 策略可能会让快速失败的容器陷入无限重启，给调试带来困难，因为它会不断尝试启动失败的容器。在开发或测试环境中，有时使用 no 或 on-failure (带 max-retries) 可能更有利于捕获失败状态并进行调试。
- unless-stopped 在手动停止后不再自动启动的特性，使得它在调试时更容易“抓住”一个停止的容器进行检查。
与其他系统的集成：
- 编排系统 (Docker Swarm, Kubernetes)： 在使用这些编排工具时，它们通常有自己的更高层次的调度和故障恢复机制（例如 Swarm 的服务副本管理，Kubernetes 的 Deployment 和 StatefulSet 控制器）。这些编排器会负责监测应用的健康状态，并在Pod/Task失败时调度新的实例。虽然底层的容器可能仍然配置了 --restart 策略，但在编排系统中，编排器的行为优先级更高，并且提供了更强大的声明式管理和健康检查功能。在这种情况下，容器层面的 --restart 策略有时会显得不那么关键，或者可以作为编排器之外的最后一层保障（尽管通常推荐依赖编排器的机制）。理解你的编排系统如何与 Docker 重启策略互动非常重要。

常见应用场景下的建议：

Web 服务器、API 服务： unless-stopped 或 on-failure。如果应用启动非常快且稳定，可以考虑 always。
后台工作者 (Worker)： 如果是处理队列任务，正常处理完一批可能就退出，应使用 on-failure。如果是持续监听队列，则应使用 unless-stopped 或 on-failure。
一次性脚本或批处理： no 或 on-failure:0 (虽然 no 更常用)。
数据库、消息队列等基础设施： 通常不推荐依赖简单的 Docker 重启策略进行高可用。应使用其内置的集群功能，并在容器层面使用 on-failure 或 no，配合外部监控。

第六章：理解重启间隔与背压机制

Docker Daemon 在执行重启策略时，并非立即无限次尝试重启。为了防止容器快速闪退导致资源耗尽，Docker Daemon 通常会引入一个延迟间隔并在连续失败时逐渐增加这个间隔（指数退避）。具体的延迟间隔和退避策略是由 Docker Daemon 内部实现的，旨在给宿主机和应用一个喘息的机会，也为用户提供时间来发现和解决问题。

虽然 Docker Daemon 自身的重启策略没有像 Kubernetes 那样提供精细的延迟和背压配置选项给用户，但了解其存在是重要的。如果一个容器配置了 always 或 on-failure 策略并持续失败，你会在 docker logs 或 docker events 中看到它反复启动并快速退出的记录，每次尝试启动之间的时间间隔会越来越长。这是一种自我保护机制，但也强烈提示你需要检查容器内部的应用为什么会持续失败。

“容器闪退”（Flapping）问题：
当容器的应用存在 Bug 导致启动后立即崩溃时，配置了 always 或 on-failure 的重启策略会使得容器不断尝试启动。这种状态被称为“容器闪退”。这不仅消耗资源、产生大量无用日志，还使得调试变得困难。解决“闪退”问题的根本方法是诊断并修复容器内部应用的 Bug，而不是依赖重启策略去无限尝试。

第七章：监控与报警——自动恢复的补充

虽然 Docker 的重启策略可以自动恢复容器，但这只是故障恢复的第一步。我们还需要知道：

容器何时停止了？
容器为什么停止了？
自动重启是否成功？
如果自动重启成功，应用是否真的恢复正常工作了？ (例如，应用虽然启动了，但内部逻辑错误、无法连接数据库等)

这就是监控和报警系统发挥作用的地方。

日志收集与分析： 配置 Docker 的日志驱动（如 json-file, syslog, fluentd, loki 等）将容器的标准输出和标准错误日志发送到集中的日志管理系统。通过分析日志，可以确定容器停止的具体原因（应用程序报错信息）。
Docker Events： Docker Daemon 会产生各种事件，包括容器的 start, stop, die, health_status 等。监控这些事件可以让你实时了解容器的生命周期变化。
容器状态监控： 使用监控工具（如 Prometheus + cAdvisor/Node Exporter）来监控容器的运行状态 (running, exited)、资源使用情况（CPU, 内存）以及 Docker Daemon 本身的状态。
应用健康检查： 虽然 Docker 的 --restart 策略不直接使用 HEALTHCHECK 指令的结果，但 HEALTHCHECK 对于更高级的监控和编排系统至关重要。在 Dockerfile 中定义 HEALTHCHECK 可以让 Docker 知道容器内的应用是否“健康”或“准备就绪”，而不仅仅是进程是否在运行。监控系统或编排器可以利用这个健康状态来触发报警或采取进一步的恢复措施。
业务指标监控： 除了技术状态，还需要监控应用的业务指标（如请求成功率、处理延迟）。即使容器进程在运行且通过了健康检查，如果业务指标异常，说明应用可能处于“不健康”状态，需要人工介入。

自动重启策略是保证容器在单点故障后自动恢复的基础，但它不能替代全面的监控和报警系统。监控系统帮助我们了解故障的本质、评估自动恢复的效果，并在自动恢复失败或应用虽然启动但工作不正常时及时发出报警，以便人工介入解决。

第八章：重启策略的局限性与编排系统的作用

尽管 Docker 的重启策略对于单个容器的恢复非常有效，但在构建大规模、高可用的分布式系统时，它们有其局限性：

单机范围： Docker 的重启策略只在单个 Docker Daemon 宿主机内部有效。如果宿主机本身发生故障（硬件故障、操作系统崩溃），其上的所有容器都会停止，Docker Daemon 也无法执行重启策略。
无法处理应用内部的“不健康”状态： 重启策略只关注容器进程的退出码。如果应用进程虽然在运行，但由于内部错误、依赖服务故障等原因导致无法正常提供服务（即处于“不健康”但未崩溃的状态），重启策略无法感知并触发恢复。
无法处理复杂的应用间依赖： 对于由多个容器组成的复杂应用，简单的独立容器重启可能无法解决问题。例如，一个应用服务器容器可能需要依赖一个数据库容器先启动并可用。简单的重启策略无法协调这些依赖关系。
无法扩展和负载均衡： 重启策略旨在恢复现有容器实例，而不是根据负载或故障动态地创建新的实例或进行负载均衡。

这些局限性正是容器编排系统（如 Docker Swarm, Kubernetes）所要解决的问题。编排系统在更高层次上管理应用服务，它们通常提供：

声明式服务定义： 你声明服务需要运行多少个副本。
跨宿主机调度： 可以在集群中的多台宿主机上调度和运行容器副本。
健康检查： 基于应用层的健康检查（如 HTTP Probe, TCP Probe）来判断容器实例是否真正可用。
自动伸缩与恢复： 当容器实例失败或宿主机故障时，编排器会在健康的宿主机上自动启动新的实例来替代，并维持所需的副本数量。
服务发现与负载均衡： 编排器通常内置服务发现和负载均衡功能，确保客户端请求能够路由到健康的容器实例。
滚动更新与回滚： 支持平滑的应用版本升级和失败时的自动回滚。

在使用编排系统时，你更多地会依赖编排器提供的服务恢复机制，而不是 Docker Daemon 的 --restart 策略。例如，在 Kubernetes 中，Pod 的重启行为由其所在的 Controller (如 Deployment) 管理，而不是 Pod 本身配置的 --restart 策略（尽管 Pod template 可能会包含重启策略的建议，但最终行为由 Controller 决定）。

尽管如此，理解和配置 Docker Daemon 的 --restart 策略仍然有价值，尤其是在以下场景：

在开发或测试环境，不使用完整的编排集群时。
运行少量独立的、非关键容器时。
作为编排系统下的最后一道防线（尽管依赖编排器是更推荐的做法）。

总结：构建弹性的基石

Docker 容器的重启与自动恢复策略是构建弹性应用的基石之一。通过合理利用 no, on-failure, unless-stopped, always 这四种策略，我们可以让 Docker Daemon 在容器因各种原因停止时，自动尝试将其拉起，从而提高应用的可用性。

选择合适的策略需要仔细权衡应用类型、可用性需求和故障排除便利性。对于大多数无状态的服务，on-failure 或 unless-stopped 是比较稳健的选择。对于一次性任务，应避免自动重启。always 策略虽然提供了最高恢复级别，但也要求应用自身高度鲁棒，并且需要配合强有力的监控来应对“闪退”问题。

然而，单一容器的重启策略并不能解决所有问题。在生产环境中，特别是在部署复杂、大规模的应用时，依赖容器编排系统（如 Docker Swarm 或 Kubernetes）提供的更高层次的调度、健康检查和自动恢复能力是必不可少的。

最后，无论使用何种重启策略或编排系统，强大的日志收集、监控和报警机制始终是确保系统稳定运行的关键。它们帮助我们及时发现问题，理解故障根源，并验证自动恢复机制是否真正奏效。

通过深入理解并恰当运用 Docker 的重启策略，结合完善的监控和更高层次的编排系统，我们可以构建出更加健壮、可靠，能够抵御各种故障挑战的现代容器化应用。这是迈向弹性基础设施和持续交付的重要一步。

Docker 容器的重启与自动恢复策略：构建弹性应用的基石

第一章：理解容器的“生”与“死”——容器停止的原因

第二章：手动重启——应急与调试手段

第三章：自动恢复的基石——Docker 重启策略（Restart Policies）

第四章：如何配置重启策略

不自动重启 (默认)

异常退出时自动重启 (无限次尝试)

异常退出时最多尝试重启 3 次

除非手动停止，否则无论何种退出都自动重启

总是自动重启 (最高级别恢复)

示例使用 on-failure 带 max_retries

第五章：选择合适的重启策略——考量与权衡

第六章：理解重启间隔与背压机制

第七章：监控与报警——自动恢复的补充

第八章：重启策略的局限性与编排系统的作用

总结：构建弹性的基石