FPGA 基础知识：它是干什么的？ – wiki基地

FPGA 基础知识：它是干什么的？深入解析现场可编程门阵列

在当今高速发展的数字世界中，我们赖以生存的各种智能设备、通信系统、计算架构乃至工业自动化，都离不开核心的电子元件——集成电路（IC）。这些IC，或者我们常说的“芯片”，是实现特定功能的硬件载体。它们根据其设计和制造方式，可以大致分为几类：通用处理器（如CPU）、微控制器（MCU）、专用集成电路（ASIC）以及我们今天要深入探讨的主角——现场可编程门阵列（FPGA）。

FPGA，这个听起来有些专业和陌生的词汇，实则在幕后扮演着越来越重要的角色。它不像CPU那样运行软件指令，也不像ASIC那样功能固化，而是提供了一种独特的灵活性和硬件级别的并行处理能力。那么，FPGA 究竟是什么？它是如何工作的？以及它能做些什么呢？本文将为您详细解析FPGA的基础知识。

一、初识 FPGA：定义与核心理念

FPGA 是 Field-Programmable Gate Array 的缩写，直译为“现场可编程门阵列”。这三个词语构成了理解FPGA核心特征的关键：

Field-Programmable（现场可编程）： 这是FPGA与ASIC最大的区别。ASIC在制造出厂后，其内部电路功能是永久固定的，无法更改。而FPGA则允许用户在芯片制造完成后，根据自己的需求对其内部的数字逻辑电路进行编程配置，从而实现特定的功能。这个“现场”指的是在实验室、在工厂、甚至在最终的应用现场，都可以对芯片进行编程。
Gate Array（门阵列）： 门阵列是一种集成电路的结构形式，它由大量预先制造好的、基本的逻辑门（如与门、或门、非门等）以及触发器等数字电路单元组成，这些单元以矩阵的形式排列在芯片上。虽然现代FPGA的基础单元更为复杂（如查找表LUT），但“门阵列”这个词保留了其由基本逻辑单元构成并可互连的原始概念。

因此，FPGA 的核心理念可以概括为：一片内部包含大量可配置逻辑单元和可编程互连资源的半导体芯片，其内部电路功能可以通过用户下载的配置文件（比特流 Bitstream）来定义和改变。 简单来说，它就像一块“空白”的数字积木板，你可以通过编程来决定这些积木（逻辑单元）是什么功能（是与门、或门、加法器还是更复杂的模块），以及它们之间如何连接，最终构建出你想要的任何数字电路。

二、 FPGA 的定位：为何存在？与 ASIC 和 CPU/MCU 的比较

理解FPGA为何存在以及它能做什么，最好的方式是将其与另外两种常见的芯片类型进行比较：专用集成电路（ASIC）和通用处理器（CPU）/微控制器（MCU）。

1. FPGA vs. ASIC (专用集成电路):

ASIC： 全称 Application-Specific Integrated Circuit。ASIC是为特定应用而设计和制造的芯片，其内部电路在设计阶段就已经完全确定，制造完成后功能固定不变。
- 优点： 性能最高（针对特定任务优化）、功耗最低、单位成本最低（在大批量生产时）。
- 缺点： 开发周期长、前期投入巨大（NRE – Non-Recurring Engineering cost，包括设计、掩膜版制作、流片等费用极高）、灵活性为零（一旦流片完成，设计中的任何错误都无法修改，也无法升级功能）。
FPGA：
- 优点： 灵活性极高（可反复编程修改功能）、开发周期相对较短、前期投入成本低（无需昂贵的掩膜版费用）、风险较低（设计错误可以在编程阶段修改）。
- 缺点： 性能和功耗通常不如同等工艺下的ASIC、单位成本在高批量生产时通常高于ASIC。

比较总结： FPGA 是在性能、功耗、成本与灵活性之间的一种权衡。对于需要极高性能、极低功耗且出货量巨大、功能确定不变的应用，ASIC是最佳选择。而对于需要快速原型验证、功能可能需要迭代更新、市场需求不确定、或出货量较小但需要一定硬件加速能力的场景，FPGA则具有明显的优势。FPGA常被用于ASIC的设计验证和原型开发阶段。

2. FPGA vs. CPU/MCU (通用处理器/微控制器):

CPU/MCU： 核心是执行软件指令的冯·诺依曼架构或哈佛架构处理器。它们通过顺序或并行执行存储在内存中的指令来完成任务。
- 优点： 极高的灵活性（通过软件即可改变功能）、开发门槛相对较低（软件编程）、生态系统成熟、适用于各种通用计算任务。
- 缺点： 本质上是串行处理（即使多核也是在时间上分时或在少数几个核心上并行），硬件资源是固定的，受限于指令集和架构，对于需要大规模并行计算、低延迟、实时响应或特定硬件接口的任务性能有限。
FPGA：
- 优点： 真正的硬件并行性（不同部分的电路可以同时独立工作）、极高的计算吞吐量（尤其对于并行度高的任务）、低延迟（数据流直接通过逻辑电路，没有指令解释开销）、可实现定制硬件接口、对时序控制精确。
- 缺点： 开发门槛较高（需要进行硬件设计思维，使用硬件描述语言HDL）、不擅长通用复杂控制和决策任务（这些是CPU的强项）、生态系统相对较小（相比软件开发）。

比较总结： CPU/MCU是软件驱动的，擅长通用、复杂的控制和决策任务。FPGA是硬件驱动的，擅长大规模并行计算、实时信号处理、定制接口等任务。它们不是竞争关系，而是互补关系。在许多系统中，FPGA常作为协处理器或硬件加速器与CPU/MCU配合使用，CPU负责控制和通用任务，FPGA负责高性能、并行计算的特定功能。

综上所述，FPGA 存在于 ASIC 的固化与 CPU/MCU 的通用性之间，它提供了硬件级别的性能和并行性，同时保留了制造后的可编程灵活性。它是实现高性能定制数字逻辑的强大工具。

三、 FPGA 的内部结构：它是如何实现“可编程”的？

了解FPGA如何工作，需要深入其内部结构。虽然不同厂商（如赛灵思Xilinx，现在AMD旗下；英特尔Altera；Lattice；Microchip/Microsemi等）的FPGA架构有所不同，但核心组成部分是相似的：

可配置逻辑块 (Configurable Logic Blocks, CLBs) 或逻辑阵列块 (Logic Array Blocks, LABs): 这是FPGA的核心计算单元。一个CLB/LAB内部包含：
- 查找表 (Lookup Tables, LUTs): LUT是实现组合逻辑的关键。一个N输入的LUT本质上是一个2^N x 1位的SRAM（静态随机存取存储器）。它的输入作为SRAM的地址线，SRAM中存储的数据是该输入组合对应的输出值。通过编程配置LUT内部的SRAM内容，一个N输入的LUT可以实现任何N个输入变量的布尔逻辑函数。例如，一个4输入的LUT可以实现任何具有4个输入变量的组合逻辑函数。现代FPGA通常使用4输入、6输入甚至更复杂的LUT。
- 触发器 (Flip-Flops, FFs): 触发器用于存储状态，是实现时序逻辑（带有记忆功能的逻辑）的基础。它们通常是D触发器，在时钟沿到来时捕获输入信号的值并保持到下一个时钟沿。CLB/LAB中的触发器用于构建寄存器、计数器、状态机等时序电路。
- 多路选择器 (Multiplexers, MUXs): 用于在LUT和触发器之间，以及在逻辑块内部或逻辑块之间进行信号选择和路由。
- 进位链 (Carry Chains): 专用的高速通路，用于连接CLBs中的加法器逻辑，从而实现高性能的算术运算（加法、减法）。
通过配置CLB/LAB中LUT的功能、触发器的连接方式以及内部的多路选择器，可以构建出各种基本的数字逻辑电路，从简单的逻辑门到复杂的加法器、多路选择器、解码器等。
可编程互连资源 (Programmable Routing Resources): 如果说CLBs是积木块，那么可编程互连资源就是连接这些积木块的连接线。FPGA芯片的大部分面积（有时甚至超过80%）都被这些互连资源占据。它们包括：
- 导线段 (Wire Segments): 不同长度的金属导线，分布在芯片的不同层。
- 可编程开关矩阵 (Programmable Switch Matrices) 或开关盒 (Switch Boxes): 这些是位于导线段交叉点上的可编程开关。通过编程配置这些开关的开合状态，可以连接不同导线段，从而将一个CLB的输出连接到另一个CLB的输入、连接到I/O块、连接到全局时钟网络等。
互连资源的丰富度和效率是衡量FPGA性能的关键因素之一。复杂的布线（Routing）过程就是确定如何配置这些开关，以正确连接设计中的所有逻辑单元，并且满足时序要求。
块存储器 (Block RAM, BRAM): 除了使用CLB中的触发器构建小型存储单元外，现代FPGA还集成了大容量的专用SRAM块，称为Block RAM。这些BRAM是硬核宏单元，比用CLB中的LUT和触发器构建的存储器更密集、更快、更省电。它们常用于存储查找表、数据缓存、FIFO（先入先出队列）等。
数字信号处理块 (Digital Signal Processing Blocks, DSP Slices): 为了高效地执行数字信号处理（DSP）任务中常见的乘法、累加等运算，FPGA中集成了专用的DSP硬件单元。这些DSP Slices包含高性能的乘法器、加法器、累加器等电路，它们的速度和效率远高于使用CLB构建的等效逻辑。这使得FPGA在音频、视频处理、通信、雷达等领域具有强大能力。
输入/输出块 (Input/Output Blocks, IOBs): IOBs是FPGA芯片与外部世界通信的接口。它们位于芯片的边缘，负责处理输入信号的缓冲、电平转换，以及输出信号的驱动、阻抗匹配等。IOBs通常支持多种不同的I/O电压标准和接口协议（如LVCMOS, LVTTL, LVDS, DDR等），并且可以配置为输入、输出或双向模式，以及设置驱动强度、上下拉电阻等。
时钟管理单元 (Clock Management Tiles, CMTs) / 锁相环 (PLLs) / 数字时钟管理器 (DCMs): 精确的时钟是任何同步数字电路的“心脏”。FPGA包含专门的时钟管理硬件，如PLL（Phase-Locked Loop）和DCM（Digital Clock Manager）。它们可以接收外部输入的时钟信号，并对其进行频率倍乘、分频、相移等操作，生成设计所需的各种内部时钟信号，并确保时钟信号在芯片内部的扇出和分布尽可能平衡，以满足严格的时序要求。
其他硬核资源 (Hard Processors, Transceivers, PCIe etc.): 高端FPGA为了提供更高的性能和集成度，还会集成一些硬核（即非可编程的固定功能硬件），例如：
- 硬核处理器 (Hard Processor Cores): 有些FPGA（称为 SoC FPGA – System on Chip FPGA）集成了硬核的ARM处理器（如Cortex-A系列）。这样可以在同一芯片上结合软件的灵活性（在处理器上运行操作系统和应用程序）和硬件的并行性（在可编程逻辑上实现加速功能）。
- 高速收发器 (High-Speed Transceivers): 支持千兆以太网、PCIe、SATA等高速串行通信协议的硬核接口，用于连接高速外部设备。
- PCIe 控制器: 硬核的PCI Express接口，方便FPGA与主机PC或其他设备进行高速数据传输。
- 以太网MAC: 硬核的以太网介质访问控制器。

这些硬核资源提高了FPGA在特定应用中的性能和易用性，但它们的功能是固定的，不可通过编程改变（硬核处理器核本身可以运行不同软件，但其作为硬件核的功能是固定的）。

配置原理： 当用户完成硬件设计并在开发工具中生成比特流文件后，这个文件就包含了配置上述所有可编程单元的信息：LUT内部SRAM的内容、触发器的使能和连接方式、互连开关的开合状态、IOB的模式、PLL/DCM的参数等。上电或复位后，FPGA会从外部非易失性存储器（如配置闪存）或通过特定的接口加载这个比特流，将其写入芯片内部的SRAM配置存储单元中。这些SRAM单元控制着FPGA逻辑和互连资源的配置。配置完成后，FPGA内部的电路结构就按照比特流所描述的方式固定下来，开始执行设计的功能。需要注意的是，大多数现代FPGA的配置SRAM是易失性的，断电后配置信息丢失，因此每次上电都需要重新加载比特流。

四、 FPGA 能干什么？核心功能与应用场景

基于其独特的结构和可编程性，FPGA能够实现广泛的功能，特别擅长需要高性能、并行计算、低延迟或定制硬件接口的应用。以下是FPGA能干的主要事情：

实现任意数字逻辑电路： 这是FPGA最基本的功能。你可以使用硬件描述语言（如Verilog或VHDL）描述任何组合逻辑或时序逻辑电路，然后将它“下载”到FPGA中运行。这包括但不限于：
- 各种算术单元（加法器、乘法器、除法器）
- 各种存储单元（寄存器、移位寄存器、RAM、FIFO）
- 各种控制逻辑（状态机、仲裁器、控制器）
- 各种接口协议（SPI、I2C、UART、以太网MAC、PCIe控制器等）
- 复杂的数字信号处理算法（FFT、FIR/IIR滤波器、调制解调器）
- 图像/视频处理流水线
- 甚至是一个简化的CPU或协处理器核
提供硬件级别的并行处理： 这是FPGA与CPU最根本的区别和优势。在CPU中，多个任务是分时共享处理器的计算资源的，即使是多核处理器，核心数量也有限。而在FPGA中，不同的逻辑电路是物理上独立存在且同时运行的。你可以设计数百甚至数千个独立的并行处理单元，每个单元都在处理不同的数据流或执行不同的子任务。这使得FPGA在处理大规模并行数据时具有惊人的吞吐量，例如图像像素处理、网络数据包处理、加密/解密、分子动力学模拟等。
定制硬件加速器： 对于CPU不擅长的、计算密集型的特定算法，可以将这些算法用HDL实现并烧录到FPGA中，让FPGA作为CPU的硬件加速器。CPU将需要处理的数据发送给FPGA，FPGA利用其并行计算能力快速完成计算，然后将结果返回给CPU。这种方式可以将特定任务的执行速度提升几个数量级。例如，数据库查询加速、基因序列比对、机器学习推理（神经网络计算）等。
实现高性能、低延迟的接口： 如果你需要与某个不常见的、高速的或对时序要求极高的外部设备通信，而标准的CPU接口无法满足需求，FPGA可以用来实现高度定制化的硬件接口协议。它可以精确控制每一个信号的时序，达到纳秒甚至皮秒级别的精度。
快速原型验证和仿真： 在开发ASIC之前，由于ASIC流片成本极高，通常会先在FPGA上实现和验证整个设计。FPGA原型系统可以以接近实际工作速度（或略慢）运行复杂的ASIC设计，发现和调试设计中的错误，大大降低ASIC开发的风险。
软件定义硬件： 随着FPGA技术的成熟和开发工具的改进，出现了一些高层次综合（HLS）工具，允许开发者使用C/C++或SystemC等高级语言描述算法，然后由工具自动综合成可以在FPGA上实现的硬件逻辑。这降低了FPGA开发的门槛，使得更多软件工程师也能利用FPGA进行硬件加速开发。
实现灵活的系统架构： FPGA的可编程性使得系统架构能够根据需求进行灵活调整。例如，一个通信基站的硬件平台可以使用FPGA，通过加载不同的比特流来支持不同的通信标准（如4G、5G）或升级算法，而无需更换硬件。

典型应用领域：

数据中心： 网络功能虚拟化（NFV）、软件定义网络（SDN）中的网络数据包处理和过滤；搜索引擎加速；数据库加速；机器学习推理加速。
通信： 无线基站（基带处理）、网络路由器和交换机（高速数据转发）、卫星通信、雷达信号处理。
工业自动化与控制： 实时控制系统、机器人控制、机器视觉、运动控制、可编程逻辑控制器（PLC）的硬件加速。
航空航天与国防： 雷达、电子战、图像处理、飞行控制系统、卫星载荷处理（对可靠性和并行性要求极高）。
汽车： 高级驾驶辅助系统（ADAS）中的传感器数据融合、图像处理、雷DAR/liDAR数据处理、车载信息娱乐系统。
医疗： 医学影像设备（CT、MRI、超声）的数据采集和处理、基因测序加速。
测试与测量： 高速数据采集、信号发生器、协议分析仪。
音视频处理： 高清视频编码/解码、图像缩放、色彩空间转换、音频处理。

五、如何开发 FPGA 应用：基础流程

开发FPGA应用与软件开发有很大不同，它是一个硬件设计流程：

需求分析与架构设计： 明确功能需求、性能指标（如工作频率、延迟）、接口要求等，设计系统的整体架构，确定哪些功能在FPGA中实现，哪些可能由外部处理器处理。
硬件描述语言 (HDL) 编码： 使用Verilog、VHDL或SystemVerilog等HDL来描述数字电路的行为和结构。这不是像C/C++那样编写顺序执行的指令，而是描述硬件的连接和并行行为。
仿真与验证 (Simulation): 使用HDL仿真器对编写的代码进行功能验证。通过编写测试平台（Testbench），输入激励信号，检查输出是否符合预期。这是最主要的调试阶段，可以在硬件上电之前发现大部分逻辑错误。
综合 (Synthesis): 使用综合工具将HDL代码翻译成由特定FPGA厂商提供的基本逻辑单元（如LUT、触发器、BRAM、DSP等）组成的网表（Netlist）。这个过程会优化逻辑，使其更高效地映射到目标FPGA资源上。
布局与布线 (Place and Route / Implementation): 这是将综合后的网表真正“实现”到FPGA芯片上的过程。布局（Place）决定了网表中的逻辑单元被放置在FPGA芯片上的哪个具体位置（哪个CLB，哪个BRAM等）。布线（Route）则决定了如何利用可编程互连资源连接这些被放置好的逻辑单元。这个过程由复杂的算法完成，并且需要考虑时序约束。
时序分析 (Timing Analysis): 布线完成后，工具会分析所有信号路径的延迟，检查电路是否能在目标时钟频率下稳定工作，即是否满足建立时间（Setup Time）和保持时间（Hold Time）等时序要求。如果时序不满足（不“收敛”），就需要修改设计、调整约束或优化布局布线。这是FPGA设计中最具挑战性的环节之一。
生成比特流 (Generate Bitstream): 如果时序分析通过，就可以生成用于配置FPGA的二进制文件——比特流（Bitstream）。
硬件下载与调试 (Hardware Download and Debugging): 将比特流下载到目标FPGA开发板或系统中，上电运行。如果在硬件上发现问题，可以使用FPGA厂商提供的片上逻辑分析仪（如Xilinx的ChipScope或Intel的SignalTap）来抓取内部信号波形进行调试。

这个流程是迭代的，可能需要在仿真实阶段、布局布线阶段甚至硬件调试阶段回到HDL编码阶段修改设计。

六、总结

FPGA 作为一种独特的集成电路，通过其内部大量的可配置逻辑单元和可编程互连资源，提供了“现场可编程”的能力。它能够实现高度定制化、并行度极高的数字逻辑电路，在性能、功耗、成本和灵活性之间找到了平衡点。

与功能固定的ASIC相比，FPGA提供了极大的设计灵活性和更短的开发周期。与顺序执行指令的CPU/MCU相比，FPGA提供了真正的硬件并行计算能力和更低的延迟。

FPGA是实现定制硬件加速、高性能信号处理、复杂控制逻辑和快速系统原型验证的强大工具。从数据中心到通信、从工业自动化到航空航天，FPGA正在越来越多的领域发挥着不可替代的作用，是现代高性能数字系统中重要的组成部分。理解FPGA的基础知识，对于深入了解数字硬件设计和高性能计算具有重要意义。