AWS ECS 容器服务介绍 – wiki基地

AWS ECS 容器服务详解：构建和运行云原生应用的基石

随着云计算和微服务架构的兴起，容器化技术已成为现代应用部署、扩展和管理的核心。Docker 等容器技术的普及，使得应用程序及其依赖被打包成一个轻量级、可移植的单元，极大地简化了开发、测试和部署流程。然而，在生产环境中，如何高效地管理成百上千甚至更多的容器实例，包括它们的调度、部署、扩展、监控和恢复，是企业面临的巨大挑战。这时，容器编排平台应运而生。

Amazon Web Services (AWS) 作为全球领先的云服务提供商，自然也在容器领域提供了强大的解决方案。AWS Elastic Container Service (ECS) 就是 AWS 原生提供的一项高度可扩展、高性能的容器编排服务，用于在 AWS 上运行、停止和管理容器。它与 AWS 生态系统深度集成，提供了一种相对简单且强大的方式来部署和管理容器化应用程序。

本文将深入探讨 AWS ECS 的方方面面，包括它的核心概念、工作原理、两种主要启动类型（EC2 和 Fargate）、与其他 AWS 服务的集成、适用场景以及它为何是构建和运行云原生应用的强大基石。

1. 容器编排的需求：为什么我们需要 ECS？

在没有容器编排平台的情况下，管理大规模容器部署是极其复杂的。考虑以下场景：

调度与部署： 你有多个容器需要运行，但只有有限数量的服务器资源。你需要决定哪个容器运行在哪台服务器上，并确保资源得到有效利用。如果服务器宕机，容器如何自动迁移到其他健康服务器？
弹性伸缩： 应用程序流量波动是常态。当流量增加时，你需要快速启动更多容器实例；当流量减少时，你需要缩减实例以节省成本。手动操作效率低下且容易出错。
服务发现与负载均衡： 你的微服务应用包含多个独立的服务，它们需要相互通信。如何让服务A找到服务B的运行地址？如何将外部流量均匀分配到多个相同服务实例上？
健康检查与自愈： 如果某个容器实例出现故障（进程崩溃、响应缓慢），如何自动检测到并替换掉它，保证服务的持续可用性？
配置管理与密钥安全： 容器需要配置信息（数据库连接串、API密钥）。如何安全地将这些敏感信息注入到容器中，避免硬编码？
滚动更新与回滚： 发布新版本的应用程序时，如何在不中断服务的情况下逐步替换旧版本容器？如果新版本有问题，如何快速回滚到旧版本？
日志与监控： 如何收集分散在不同容器中的日志？如何监控容器和底层资源的性能指标？

手动解决以上任何一个问题都需要大量的脚本编写和运维工作，而且难以保证高可用和自动化。容器编排平台正是为了解决这些复杂性而设计的。它提供了一个统一的控制平面，自动化了容器的部署、管理、扩展和网络配置等任务。AWS ECS 就是这样一种服务，它极大地简化了在 AWS 上运行容器化应用的复杂性。

2. AWS ECS 核心概念和组件

理解 ECS，首先需要掌握它的一些核心概念：

2.1 集群 (Cluster)

ECS 集群是您的容器服务和任务的逻辑分组。它提供了一个资源池，您可以在其中运行任务。一个 ECS 集群可以包含两种类型的容量提供者：

EC2 实例： 由您管理的 EC2 实例组成，这些实例安装并运行 ECS 代理（ECS Agent），用于注册到集群并执行来自 ECS 控制平面的指令（如启动/停止任务）。
AWS Fargate： 无需您管理任何 EC2 实例。集群直接从 AWS Fargate 的计算池中分配资源来运行您的任务。

在一个集群中，您可以混合使用 EC2 实例和 Fargate。集群本身只是一种逻辑组织，它不产生费用，费用产生于您在集群中运行的底层计算资源（EC2 实例或 Fargate 任务）。

2.2 任务定义 (Task Definition)

任务定义就像是您应用程序的蓝图或描述文件。它以 JSON 格式定义了一个或多个相关联的容器、所需的资源（CPU、内存）、启动命令、环境变量、端口映射、存储卷、IAM 角色、网络模式、日志配置等所有运行任务所需的详细信息。

任务定义是 ECS 中非常核心且重要的概念。每一次对应用程序的更新（例如，更新 Docker 镜像版本、修改环境变量），都需要创建一个新的任务定义版本。关键配置项包括：

family： 任务定义的名称，多个版本共享同一个 family。
revision： 任务定义的版本号，每次创建新的任务定义时自动递增。
containerDefinitions： 一个数组，定义了任务中包含的所有容器。每个容器定义包括：
- name：容器名称。
- image：容器镜像的地址，例如 nginx:latest 或来自 Amazon ECR 的镜像地址。
- cpu 和 memory：为容器分配的 CPU 和内存资源（任务定义中通常定义总资源，容器定义中定义分配给单个容器的资源）。
- portMappings：将容器内部端口映射到主机端口或作为 awsvpc 模式下的容器端口暴露。
- command 和 entryPoint：覆盖容器镜像中的默认启动命令或入口点。
- environment：注入环境变量到容器。
- secrets：安全地从 AWS Secrets Manager 或 Parameter Store 中注入敏感信息。
- mountPoints 和 volumes：定义数据卷，用于容器之间共享数据或持久化数据。
- logConfiguration：配置容器日志如何发送到 CloudWatch Logs、Splunk 等服务。
- healthCheck：定义容器的健康检查方式。
- essential：标记容器是否是任务必须的。如果标记为 essential 的容器停止了，整个任务也会停止。
requiresCompatibilities： 指定该任务定义可以使用的启动类型（EC2 或 Fargate）。
networkMode： 指定任务使用的网络模式（awsvpc、bridge、host、none）。
taskRoleArn： 为任务中的容器提供 AWS 权限，例如访问 S3、DynamoDB 等。
executionRoleArn： 为 ECS 代理或 Fargate 基础设施提供执行任务所需的权限，例如从 ECR 拉取镜像、将日志发送到 CloudWatch Logs。

任务定义是无状态的，它只是描述了“应该如何”运行一个任务。

2.3 任务 (Task)

任务是任务定义的一个运行实例。当你在 ECS 中“运行”一个任务定义时，ECS 会根据任务定义中的描述启动一个或多个容器，并将它们放置在集群中的 EC2 实例上（EC2 启动类型）或由 Fargate 管理的基础设施上（Fargate 启动类型）。

一个任务可以只包含一个容器（这是常见模式，例如运行一个独立的微服务），也可以包含多个紧密关联的容器（例如主应用容器和 sidecar 日志收集容器），它们共享网络命名空间和存储卷。

任务是有状态的，它代表了一个正在运行或已经停止的具体容器实例集合。每个任务都有一个唯一的 ID。

2.4 服务 (Service)

ECS 服务允许您同时运行和维护指定数量的任务。换句话说，服务是用来管理任务的生命周期和数量的。如果你需要运行多个相同的任务实例来处理请求并提供高可用性，你就需要创建一个服务。

服务是 ECS 编排能力的核心体现。服务会持续监控其所属任务的健康状况，并在任务失败或停止时自动替换它们，以维持期望的任务数量（desiredCount）。服务的关键配置包括：

taskDefinition： 服务使用哪个任务定义来启动任务实例。
desiredCount： 您希望服务在任何时候都保持运行的任务实例数量。
launchType： 服务将使用 EC2 还是 Fargate 启动类型来运行任务。
placementConstraints 和 placementStrategies： 定义任务在集群中如何分布（仅适用于 EC2 启动类型），例如将任务分散到不同的可用区或实例上。
networkConfiguration： 配置任务的网络（特别是 awsvpc 模式下，需要指定 VPC 子网和安全组）。
loadBalancer： 将服务与 Elastic Load Balancing (ELB) 集成，通常是 Application Load Balancer (ALB)。ECS 会自动注册和取消注册任务到 ALB 目标组，从而实现请求的负载均衡。
serviceRegistries： 将服务与 AWS Cloud Map 集成，实现服务发现。
deploymentConfiguration： 定义服务更新时任务如何替换的策略，包括：
- minimumHealthyPercent：更新过程中最少需要保持运行的任务百分比。
- maximumPercent：更新过程中最多允许同时运行的任务百分比（包含新旧任务）。这决定了更新的速度和对额外资源的需求。
- Deployment Controller: ECS 原生（ECS）、AWS CodeDeploy（CODE_DEPLOY，用于蓝/绿部署）或外部控制器（EXTERNAL）。
autoScalingConfiguration： 配置服务基于 CloudWatch 指标（如 CPU 利用率、内存利用率、ALB 请求数）进行自动伸缩。
healthCheckGracePeriodSeconds： 任务启动后，在多长时间内忽略健康检查失败。

2.5 调度器 (Scheduler)

ECS 提供了几种不同的调度任务的方式：

服务调度器 (Service Scheduler)： 这是最常用的调度器。它用于运行需要长期运行且保持指定数量的任务（由 ECS 服务管理），例如 Web 服务器、API 服务等。它会根据服务的配置（任务定义、期望数量、放置策略、健康检查等）来启动、停止和维护任务。
守护程序调度器 (Daemon Scheduler)： 用于在集群中的每个活动 EC2 实例上运行正好一个任务。这适用于需要执行集群范围维护或日志收集任务的应用，例如日志代理（如 Fluentd、Logstash agent）或监控代理。它只适用于 EC2 启动类型。
独立任务 (Standalone Tasks)： 你可以直接运行一个或一组一次性任务，而不通过服务管理。这适用于运行批处理作业、定时任务或开发/测试目的的任务。你可以使用 RunTask API 或 AWS 管理控制台直接启动一个或多个任务。

3. ECS 启动类型 (Launch Types)：EC2 vs Fargate

ECS 提供了两种主要的启动类型，决定了你的容器运行在什么样的基础设施上，以及你需要管理多少底层资源：

3.1 EC2 启动类型

基础设施管理： 你需要自己管理运行容器的 EC2 实例集群。这包括选择实例类型、配置 Auto Scaling Group、管理安全组、打操作系统补丁、管理 ECS 代理版本等。
工作原理：
1. 你启动 EC2 实例，安装 ECS 代理（ECS-optimized AMIs 已经预装）。
2. ECS 代理将 EC2 实例注册到指定的 ECS 集群。
3. ECS 控制平面接收到运行任务的请求（来自服务或 RunTask）。
4. ECS 调度器根据任务定义的要求（CPU、内存、端口等）和放置策略，在集群中找到合适的可用 EC2 实例。
5. ECS 控制平面通过 ECS 代理向选定的 EC2 实例发送指令。
6. ECS 代理在 EC2 实例上启动 Docker 容器，创建任务。
优点：
- 更细粒度的控制： 你可以完全控制底层 EC2 实例，包括操作系统、实例类型、购买选项（On-Demand、Spot、Reserved Instances）。
- 潜在的成本优势： 如果你能高效地利用 EC2 实例资源（高密度部署），或者使用 Spot 实例等，成本可能比 Fargate 更低。
- 支持更广泛的用例： 可以运行需要特定 EC2 实例特性（如 GPU 实例）或需要对底层 OS 进行定制的任务。支持 Daemon 调度器。
缺点：
- 更高的运维开销： 你需要负责 EC2 实例的维护、补丁更新、扩展和健康管理。
- 资源利用率挑战： 需要自己规划资源，避免实例资源碎片化，确保任务能够被调度。
- 扩展速度： 当需要扩展时，如果当前实例资源不足，需要等待新的 EC2 实例启动并加入集群，这可能比 Fargate 慢。

3.2 AWS Fargate 启动类型

基础设施管理： 完全由 AWS 管理底层基础设施。你无需预置、配置或管理任何 EC2 实例。你只需要定义你的任务需要多少 CPU 和内存。
工作原理：
1. ECS 控制平面接收到运行任务的请求（来自服务或 RunTask），指定使用 Fargate 启动类型。
2. 你已经在任务定义或服务中指定了任务所需的 CPU 和内存资源。
3. AWS Fargate 从其巨大的计算资源池中找到满足资源需求的资源。
4. AWS Fargate 直接在该资源上启动你的任务（运行你的容器）。
优点：
- 极简的运维： 无需管理服务器，大幅降低运维负担，可以更专注于应用程序本身。
- 按需付费： 只为你任务运行时实际消耗的 CPU 和内存付费，按秒计费。
- 更快的扩展： Fargate 资源池庞大，通常可以更快地启动新任务来响应流量增长。
- 更高的安全性： 任务运行在相互隔离的、由 AWS 管理的基础设施上，减少了由于共享 EC2 实例而可能带来的安全风险。
缺点：
- 控制受限： 你无法选择特定的 EC2 实例类型，无法访问底层操作系统。
- 成本可能更高： 对于长期运行且能够高密度利用 EC2 实例资源的工作负载，Fargate 可能比 EC2 模式更昂贵。
- 启动时间： 单个 Fargate 任务的启动时间有时可能比在已运行的 EC2 实例上启动容器稍长（尽管扩展整体通常更快）。
- 不支持 Daemon 调度器。

选择哪种类型？

Fargate： 适用于大多数现代无状态微服务、Web 应用、API 等，特别是当您希望最大限度地减少运维开销、快速迭代、按需付费时。它是 AWS 推荐的默认选择，因为它提供了服务器less 的体验。
EC2： 适用于需要特定 EC2 实例类型（如 GPU、大内存）、需要对底层 OS 进行定制、已有大量 EC2 投资、或者通过高密度部署或 Spot 实例能显著降低成本的场景。

4. ECS 网络模式 (Network Modes)

任务定义中的 networkMode 参数决定了任务中容器的网络配置。ECS 支持以下几种网络模式，但 awsvpc 是 Fargate 唯一支持的模式，也是 EC2 启动类型下最推荐的现代网络模式：

awsvpc：
- 原理： 每个任务分配一个独立的弹性网络接口 (ENI)，该 ENI 直接关联到你指定的 VPC 子网中。任务内的所有容器共享这个 ENI 和其私有 IP 地址。
- 优点：
  - 每个任务都有自己的独立 IP，可以直接将安全组应用到任务级别，提供更细粒度的网络隔离和安全控制。
  - 简化了与其他 AWS 服务的集成，例如 ALB 直接将流量转发到任务的私有 IP 和容器端口。
  - 支持将私有 DNS 名称注册到 AWS Cloud Map 进行服务发现。
  - Fargate 唯一支持的模式。
- 使用场景： 绝大多数 ECS 工作负载，特别是使用 Fargate 或需要细粒度网络控制和 ALB 集成的场景。
bridge (仅 EC2)：
- 原理： 任务内的容器通过 Docker 默认的桥接网络与 EC2 实例网络通信。任务中的容器端口需要映射到主机 EC2 实例上的一个可用端口。
- 优点： 简单，与传统 Docker 网络模式一致。
- 缺点：
  - 端口冲突问题：同一 EC2 实例上不能运行两个映射到相同主机端口的任务。限制了单个实例上运行的任务数量。
  - 安全组只能应用到 EC2 实例级别，无法直接控制单个任务的网络流量。
  - 与 ALB 集成需要动态端口映射，配置相对复杂。
host (仅 EC2)：
- 原理： 任务内的容器共享其运行所在的 EC2 实例的网络命名空间。容器端口直接暴露在 EC2 实例的网络接口上。
- 优点： 性能最好（没有网络虚拟化开销）。
- 缺点：
  - 严重的端口冲突问题：同一 EC2 实例上只能运行一个使用特定端口的任务。
  - 安全性低：容器直接暴露在主机网络上。
none (仅 EC2)：
- 原理： 容器没有网络接口，完全隔离。
- 使用场景： 很少使用，可能用于不需要网络的计算任务。

推荐： 对于大多数新应用，特别是 Fargate，始终使用 awsvpc 网络模式。它提供了最佳的集成、安全性和灵活性。

5. 与其他 AWS 服务的集成

ECS 并非孤立存在，它与 AWS 生态系统中的众多服务深度集成，这是其强大之处：

Amazon VPC： ECS 任务和 EC2 容器实例都在您的 VPC 中运行，可以利用 VPC 的网络隔离、子网、路由表、网络 ACLs 和安全组。awsvpc 网络模式下，任务直接获得 VPC IP 并应用安全组。
AWS Identity and Access Management (IAM)： 通过 IAM 角色精细控制谁可以访问和管理 ECS 资源，以及 ECS 任务和 EC2 容器实例访问其他 AWS 服务的权限（任务 IAM 角色和任务执行 IAM 角色）。
Elastic Load Balancing (ELB)：
- Application Load Balancer (ALB)： 最常用的集成方式。ECS 服务可以配置 ALB 监听器规则，将流量转发到服务的任务组。ECS 会自动将新启动的任务注册到 ALB 目标组，并在任务停止时取消注册，实现无缝的服务负载均衡和更新。ALB 支持基于路径、主机头等多种路由方式，非常适合微服务架构。
- Network Load Balancer (NLB)： 适用于需要高性能、静态 IP 地址或处理 TCP/UDP 流量的场景。也可以与 ECS 服务集成。
- Classic Load Balancer (CLB)： 传统负载均衡器，仍然支持但通常推荐使用 ALB/NLB。
Amazon CloudWatch： ECS 集成 CloudWatch Logs 和 CloudWatch Metrics。
- CloudWatch Logs： 通过任务定义中的日志配置，可以将容器的标准输出和标准错误直接发送到 CloudWatch Logs，便于集中收集、存储和分析日志。
- CloudWatch Metrics： ECS 和 Fargate 自动发送 CPU 和内存利用率等指标到 CloudWatch。ALB/NLB 也提供请求数、延迟等指标。这些指标可以用于监控、报警和触发自动伸缩。
Amazon Elastic Container Registry (ECR)： ECR 是 AWS 管理的 Docker 容器镜像仓库。ECS 可以轻松地从 ECR 拉取您的容器镜像来运行任务，无需配置额外的认证。
AWS Auto Scaling：
- Service Auto Scaling： 基于 CloudWatch 指标自动调整 ECS 服务中运行的任务数量（水平伸缩）。
- EC2 Auto Scaling Group (ASG)： 如果使用 EC2 启动类型，您可以将容器实例放置在 ASG 中，基于 CPU 利用率等指标自动增加或减少 EC2 实例数量。ECS 集群容量提供者 (Capacity Provider) 可以与 ASG 深度集成，实现 ECS 任务需求驱动的 EC2 实例伸缩。
AWS Cloud Map： 提供服务发现功能。ECS 服务可以配置在启动时自动注册到 Cloud Map，其他服务可以通过 Cloud Map 的 API 或 DNS 查询找到服务实例的地址，实现微服务之间的动态通信。
AWS Systems Manager Parameter Store & Secrets Manager： 可以通过任务定义直接从 Parameter Store 或 Secrets Manager 安全地注入配置参数或敏感信息到容器中，避免将敏感信息硬编码到镜像或任务定义中。
AWS CloudFormation / AWS CDK / Terraform： 可以使用 Infrastructure as Code (IaC) 工具定义和部署 ECS 集群、任务定义和服务等资源，实现部署的自动化和版本控制。
AWS CodePipeline / CodeBuild / CodeDeploy： 构建 CI/CD 管道来自动化容器镜像的构建、推送到 ECR、更新 ECS 任务定义，并通过 ECS 原生或 CodeDeploy 实现服务的自动化部署（包括蓝/绿部署）。

这些集成使得 ECS 成为一个强大且全面的容器管理平台，能够与您现有的 AWS 环境无缝协作。

6. ECS 的适用场景

ECS 适用于多种容器化工作负载：

微服务架构： 运行和管理大量独立的微服务，利用服务发现、负载均衡和自动伸缩。
Web 应用程序和 API 服务： 轻松部署、扩展和管理有状态或无状态的 Web 应用和后端 API。
批量处理任务： 运行一次性或定期的容器化批处理作业，可以利用 Fargate Spot 或 EC2 Spot 实例降低成本。
机器学习推理： 部署容器化的 ML 模型进行实时或批量推理。
CI/CD 工作流： 在容器中运行构建、测试和部署代理。
遗留应用容器化： 将现有应用打包成容器并在 ECS 上运行，现代化部署方式。

7. ECS 的优势

完全托管的服务： AWS 管理控制平面，降低运维复杂性，无需管理容器编排软件本身（如 etcd 集群、API Server 等）。
深度集成 AWS 生态系统： 与 VPC、IAM、ELB、CloudWatch、ECR 等服务无缝协作，提供了统一的管理体验和强大的功能组合。
灵活性： 提供 EC2 和 Fargate 两种启动类型，满足不同需求和成本考虑。
高性能和可扩展性： 基于 AWS 成熟的基础设施，能够轻松扩展以应对高流量。
安全性： 通过 IAM 角色、VPC 网络隔离、安全组以及 Fargate 的任务隔离，提供强大的安全能力。
相对简单： 相较于自建 Kubernetes 或 EKS，ECS 在概念和管理上更为简单，学习曲线更平缓。
成本优化： Fargate 的按需付费模式和 EC2 模式结合 Spot 实例等，提供了多种成本优化选项。

8. ECS vs EKS (简要对比)

AWS 还提供了另一个容器编排服务：Amazon Elastic Kubernetes Service (EKS)。EKS 是 AWS 上托管的 Kubernetes 服务。两者都是强大的容器编排平台，但目标用户和设计理念略有不同：

ECS： AWS 原生服务，与 AWS 生态系统深度集成，概念相对简单，运维负担轻（尤其 Fargate）。更适合已经在使用大量 AWS 服务，希望利用 AWS 原生能力，并且对 Kubernetes 没有特定需求或经验的用户。
EKS： 托管的 Kubernetes 服务，遵循 Kubernetes 开放标准。提供了更强的灵活性和可移植性（如果未来需要迁移到其他云或自建 K8s）。社区庞大，生态丰富。更适合已有 Kubernetes 经验，需要高度可定制性，希望利用 Kubernetes 广泛的工具和生态，或者有跨云/混合云部署需求的用户。

选择 ECS 还是 EKS 取决于您的团队经验、现有技术栈、对标准开放性的需求以及运维偏好。对于许多用户而言，特别是在追求极致简化运维和深度 AWS 集成时，ECS 是一个非常优秀且功能完备的选择。

9. 如何开始使用 ECS (高层步骤)

准备容器镜像： 将您的应用程序打包成 Docker 镜像，并将其推送到 Amazon ECR 或其他可访问的容器注册表。
创建任务定义： 定义您的应用程序容器、资源需求、端口、环境变量、存储卷、网络模式和 IAM 角色等。
创建集群： 创建一个 ECS 集群（逻辑分组）。
配置容量提供者 (如果使用 EC2)： 创建 Auto Scaling Group 并将其配置为 ECS 容量提供者，或手动启动并注册 EC2 实例到集群。如果使用 Fargate 则跳过此步骤。
创建服务： 创建一个 ECS 服务，指定要运行的任务定义、期望的任务数量、启动类型（EC2 或 Fargate）、VPC 配置、负载均衡器集成和自动伸缩策略等。
部署： ECS 服务会自动根据配置启动任务。
监控和日志： 配置 CloudWatch Logs 收集容器日志，使用 CloudWatch Metrics 监控服务和任务的性能。
设置 CI/CD： 集成 CodePipeline/CodeBuild/CodeDeploy 或其他 CI/CD 工具，自动化后续的更新和部署流程。

10. 总结

AWS ECS 是一个强大、灵活且高度集成的容器编排服务，使得在 AWS 上运行、管理和扩展容器化应用程序变得前所未有的简单。通过核心概念如任务定义、任务和服务，以及 EC2 和 Fargate 两种启动类型的选择，ECS 能够满足从简单的 Web 应用到复杂的微服务架构的各种需求。其与 AWS 生态系统的深度集成，进一步增强了其功能性、安全性和可管理性。对于希望利用容器技术提高开发效率、简化运维、实现高可用和弹性伸缩的 AWS 用户而言，ECS 是一个值得深入学习和广泛应用的重要服务。选择 Fargate 更能体现云原生 serverless 容器的优势，让您专注于业务逻辑而非底层基础设施的管理。无论是刚刚接触容器还是已经有丰富经验的团队，ECS 都提供了一条高效且可靠的路径来构建和运行现代云原生应用。