llama.cpp 介绍：本地运行大模型入门 – wiki基地

llama.cpp：本地运行大模型的革命性工具 – 入门指南

在人工智能飞速发展的今天，大型语言模型（LLM）展现出了惊人的能力，从文本生成、代码编写到创意构思，无所不能。然而，这些强大的模型通常需要在高性能服务器或云平台上运行，这不仅成本高昂，而且可能引发数据隐私和离线使用的限制。有没有一种方法，能让我们在自己的笔记本电脑、台式机，甚至是单板计算机上也能体验到大模型的魅力？

答案是肯定的，而 llama.cpp 就是实现这一目标的明星项目。

一、 llama.cpp 是什么？

llama.cpp 是一个用 C/C++ 编写的、针对大型语言模型的高性能推理库。它的核心目标是：在消费级硬件上，以尽可能低的延迟和最高的效率运行大型语言模型。

这个项目最初由 Georgi Gerganov 创建，旨在用纯 C/C++ 实现 Facebook (Meta) 的 LLaMA 模型推理，不依赖于大型深度学习框架（如 PyTorch、TensorFlow）。这一设计选择带来了许多优势：

极高的可移植性： C/C++ 语言具有跨平台特性，llama.cpp 可以在 Windows、macOS、Linux 等多种操作系统上编译和运行，甚至支持 Raspberry Pi、Android、iOS 等设备。
优秀的性能： 通过底层的 C/C++ 实现和大量的优化（如内存管理、指令集利用、并行计算），llama.cpp 在 CPU 上也能实现令人惊讶的推理速度。
低资源占用： 相比于依赖庞大框架的实现，llama.cpp 自身的代码库精简，内存占用较低。
硬件多样性支持： 虽然最初专注于 CPU 推理，但 llama.cpp 已经集成了对多种硬件加速的支持，包括 GPU（NVIDIA CUDA/cuBLAS, AMD ROCm/CLBlast, Apple Metal）、BLAS 库等，能够进一步提升性能。
活跃的社区： llama.cpp 拥有一个庞大且活跃的社区，不断有新的模型支持、性能优化和实用功能被贡献进来。

正是凭借这些特性，llama.cpp 不仅成功地让 LLaMA 模型在本地运行成为可能，还迅速扩展支持了 LLaMA 系列之外的众多主流大型语言模型，如 Mistral、Gemma、Yi、Qwen、Phi-2 等，成为了本地运行大模型事实上的标准之一。

二、为什么选择 llama.cpp 进行本地推理？

本地运行大模型并非只有 llama.cpp 一种方式，一些深度学习框架也提供了推理功能。但 llama.cpp 之所以脱颖而出，有其独特的吸引力：

隐私与安全： 将敏感数据发送到云端 API 存在数据泄露的风险。在本地运行模型意味着你的数据完全掌握在自己手中，特别适合处理包含个人信息或机密信息的内容。
成本效益： 云服务按使用量收费，持续或大规模使用成本可能很高。本地运行则无需支付推理费用（除了硬件和电力成本），对于开发者、研究者或重度用户来说，长期来看更经济。
离线可用性： 一旦模型文件下载到本地，你就可以在没有网络连接的环境下随时使用它。
低延迟： 避免了网络传输的延迟，推理速度很大程度上取决于你的本地硬件性能。在高性能本地设备上，交互体验可能比云端更好。
灵活性： 可以自由选择和切换不同的模型、不同的模型大小和不同的量化级别，以适应你的硬件条件和使用需求。
实验与开发： 对于想要深入研究模型、尝试不同参数设置或进行模型微调后测试的用户，本地环境提供了极大的便利和控制力。

总而言之，llama.cpp 为普通用户打开了通往本地大模型世界的大门，让个人电脑也能成为强大的AI助手。

三、 llama.cpp 如何实现高效推理：量化与 GGUF 格式

大型语言模型通常拥有数十亿甚至数千亿个参数，这些参数以浮点数（如 FP32 或 FP16）存储，导致模型文件巨大（数十 GB 甚至上百 GB），并且需要大量的计算能力和内存来运行。llama.cpp 解决这一问题的重要手段是量化（Quantization）。

量化是一种降低模型精度的方法，它将模型参数从高精度浮点数（如 32 位浮点 FP32 或 16 位浮点 FP16）转换为低精度整数（如 8 位整数 INT8 或 4 位整数 INT4）。

FP32: 每个参数占用 4 字节。
FP16: 每个参数占用 2 字节。
INT8: 每个参数占用 1 字节。
INT4: 每个参数占用 0.5 字节。

通过量化，模型文件大小可以大幅减小，例如从 70B (700亿参数) FP16 的 140GB 缩小到 4-bit 量化的十几 GB，甚至更小。同时，低精度计算通常比浮点计算更快，且对硬件资源（尤其是内存带宽）的要求更低。

量化会损失一定的精度，可能导致模型性能略有下降。llama.cpp 及其社区开发了多种先进的量化技术（如 Q4_0, Q4_1, Q5_0, Q5_1, Q4_K, Q5_K, Q8_0 等），在减小模型大小和提升速度的同时，尽可能地保持模型的性能。这些量化级别提供了不同的权衡：

数字越大（Q5 > Q4），精度通常越高，模型质量越好，但文件越大，计算量也越大。
带 _K 的量化方法（如 Q4_K_M, Q5_K_M）通常是比较现代和推荐的选择，它们在精度和性能之间取得了很好的平衡。_M 后缀可能代表特定的层采用了不同的量化策略以优化性能。
Q8_0 是最高精度的整数向量量化，模型较大，但基本无损精度。

GGUF 格式：

为了标准地存储量化后的模型以及相关的元数据（如模型结构、tokenizer信息、上下文长度、RoPE基频等），llama.cpp 社区引入了 GGUF (GPT-Generated Unified Format) 格式。

GGUF 格式是 GGML（llama.cpp 项目早期使用的低级张量库）格式的继任者，它是一个自包含、 extensible（可扩展）、versioned（带版本号）的文件格式。所有的 llama.cpp 兼容模型现在都以 .gguf 为文件扩展名。

使用 GGUF 格式的好处包括：

单一文件： 一个 .gguf 文件包含了运行模型所需的所有信息。
跨平台兼容： GGUF 文件可以在任何支持 llama.cpp 的平台上使用，无需担心字节序或操作系统差异。
丰富的元数据： 文件中可以存储模型的各种信息，方便推理引擎识别和使用。
面向未来的设计： GGUF 格式易于扩展，可以方便地支持新的模型架构和特性。

因此，当你想要在 llama.cpp 中运行一个模型时，你需要找到该模型的 GGUF 格式文件，并根据你的硬件选择合适的量化级别。

四、入门实践：安装、寻找模型与运行

现在，让我们一步步来实操，如何在你的本地电脑上安装 llama.cpp 并运行第一个大模型。

步骤 1：准备你的环境

你需要一台电脑，运行 Windows、macOS 或 Linux 操作系统。硬件要求主要取决于你想运行的模型大小和量化级别：

内存 (RAM): 这是最重要的资源。运行一个模型所需的 RAM 大致等于模型文件的大小加上一定的运行时开销和上下文缓冲。例如，一个 7B 参数的 Q4 量化模型可能需要约 4-5GB 的 RAM，而一个 13B 的 Q5 模型可能需要约 8-10GB。如果你想运行更大的模型或更大的上下文长度，你需要更多的内存。建议至少 8GB RAM，16GB 或更多更佳。
存储空间： 下载模型文件需要足够的硬盘空间。GGUF 文件大小因模型和量化级别而异，从几 GB 到几十 GB 不等。
CPU： 现代多核 CPU 都能很好地运行 llama.cpp，核心数越多通常推理速度越快。
GPU（可选但推荐）： 如果你的电脑有 NVIDIA、AMD 或 Apple Silicon (M系列芯片) GPU，并且有足够的显存 (VRAM)，开启 GPU 加速可以显著提升推理速度。所需的 VRAM 量取决于你想将模型多少层 offload（卸载）到 GPU 上。一个 7B Q4 模型可能只需要 4-6GB VRAM 就能 offload 大部分层。

软件准备：

Git： 用于克隆 llama.cpp 代码仓库。如果你没有安装，请根据你的操作系统搜索安装教程（如 Windows 安装 Git）。
CMake： 一个跨平台的构建工具，llama.cpp 使用它来生成编译文件。同样，如果未安装，请搜索安装教程。
C++ 编译器： 在 Linux 上通常是 GCC 或 Clang；在 macOS 上是 Clang (Xcode Command Line Tools)；在 Windows 上推荐使用 Visual Studio (MSVC) 或 MinGW/MSYS2。确保你的编译环境是完整的。
（可选）GPU 相关的开发工具包： 如果你想启用 GPU 加速：
- NVIDIA GPU: 需要安装 CUDA Toolkit。
- AMD GPU: 需要安装 ROCm (Linux) 或支持 OpenCL 的驱动。
- Apple Silicon: macOS 系统自带 Metal 支持。

步骤 2：获取 llama.cpp 代码

打开终端（Linux/macOS）或命令提示符/PowerShell (Windows)，导航到你想要存放代码的目录，然后执行以下命令克隆仓库：

bash git clone https://github.com/ggerganov/llama.cpp cd llama.cpp

步骤 3：编译 llama.cpp

进入 llama.cpp 目录后，你需要编译项目。最基本的编译命令是：

bash make

这个命令会检测你的系统并尝试进行编译。如果你的环境配置正确，编译过程应该能顺利完成。编译成功后，你会看到一些可执行文件生成在 llama.cpp 目录下，其中最常用的是 main（用于文本补全）和 server（用于提供 OpenAI 兼容 API）。

GPU 加速编译（可选）：

如果你有支持的 GPU 并想启用加速，编译命令会略有不同，需要加上相应的编译标志。

NVIDIA (cuBLAS):
bash make clean # 如果之前编译过，先清理 make LLAMA_CUBLAS=1
或者使用 CMake (更灵活):
bash mkdir build cd build cmake .. -DLLAMA_CUBLAS=ON make -j # -j 参数可以利用多核加速编译
AMD (CLBlast):
bash make clean make LLAMA_CLBLAST=1
或者使用 CMake:
bash mkdir build cd build cmake .. -DLLAMA_CLBLAST=ON make -j
Apple Silicon (Metal):
bash make clean make LLAMA_METAL=1
或者使用 CMake:
bash mkdir build cd build cmake .. -DLLAMA_METAL=ON make -j

选择对应你硬件的编译命令。如果编译过程中遇到问题，请仔细阅读终端输出的错误信息，通常是缺少依赖库或编译器环境配置问题。可以参考 llama.cpp 仓库的 README 文件获取更详细的编译指南。

步骤 4：寻找并下载模型

现在你需要找到一个你想运行的模型文件。如前所述，你需要 GGUF 格式的文件。最方便的地方是 Hugging Face 模型社区。

在 Hugging Face 搜索你感兴趣的模型名称（如 “Mistral-7B-Instruct-v0.2″），然后进入该模型的页面。在页面左侧找到 “Files and versions” (文件和版本) 标签页。

在这里，你可以搜索或过滤文件。常用的搜索关键词是 gguf。你会看到许多 .gguf 文件，它们通常由社区成员上传和维护，其中 TheBloke 是一个非常著名的贡献者，提供了大量主流模型的 GGUF 版本。

文件名通常包含了模型信息和量化级别，例如：

mistral-7b-instruct-v0.2.Q4_K_M.gguf： Mistral 7B 指令模型的 Q4_K_M 量化版本。
llama-2-13b-chat.Q5_K_S.gguf： Llama 2 13B 对话模型的 Q5_K_S 量化版本。

选择一个适合你硬件内存大小和权衡精度/速度的模型文件，然后点击下载按钮将其下载到你的电脑上。建议将模型文件存放在 llama.cpp/models 目录下（你需要手动创建这个目录，或者放在任何你方便的位置，只是运行命令时需要指定完整路径）。

如何选择量化级别？

内存有限（8GB RAM 或更少，或 VRAM 很少）： 尝试 Q2_K, Q3_K, Q4_K_S 等低量化级别。
中等内存（16GB+ RAM，或 6-8GB VRAM）： 尝试 Q4_K_M, Q5_K_S。这是许多 7B/13B 模型常用的选择。
内存充足（32GB+ RAM，或 10GB+ VRAM）： 可以尝试 Q5_K_M, Q6_K, Q8_0，以获得更好的精度，甚至更大的模型（如 70B 的 Q4/Q5 量化版本）。

请注意，量化级别越高（例如 Q8_0 > Q4_K_M），模型文件越大，运行时需要的 RAM/VRAM 也越多。下载前请检查文件大小，并确保你的硬件能支持。

步骤 5：运行你的第一个模型

现在，你已经编译了 llama.cpp，并下载了 GGUF 格式的模型文件。打开终端，导航回 llama.cpp 目录（如果之前进入了 build 目录）。

最基本的运行命令格式是使用 main 可执行文件：

bash ./main -m <模型文件路径> -p "<你的提示词>"

将 <模型文件路径> 替换为你下载的 .gguf 文件的实际路径，将 "<你的提示词>" 替换为你想输入给模型的文本。

示例：

假设你下载了 mistral-7b-instruct-v0.2.Q4_K_M.gguf 并将其放在 llama.cpp/models 目录下，你想问模型“讲述一个关于太空旅行的短故事”。命令如下：

bash ./main -m ./models/mistral-7b-instruct-v0.2.Q4_K_M.gguf -p "讲述一个关于太空旅行的短故事" -n 512

-m ./models/mistral-7b-instruct-v0.2.Q4_K_M.gguf: 指定模型文件路径。
-p "讲述一个关于太空旅行的短故事": 指定输入提示词。注意如果提示词包含空格或特殊字符，最好用双引号括起来。
-n 512: 指定模型生成文本的最大长度（最多生成 512 个 token）。

运行命令后，llama.cpp 会加载模型，然后根据你的提示词生成文本并输出到终端。

常用运行参数解释：

-m <path>: 必须指定模型文件路径。
-p <prompt>: 必须指定初始提示词。
-n <tokens>: 生成的最大 token 数量（默认 128）。设置为 -1 表示无限生成直到遇到结束标记。
-c <context>: 上下文窗口大小（默认 512）。更大的上下文可以处理更长的文本，但需要更多内存，也可能影响速度。模型通常有固定的最大上下文，不能超过模型的限制。
-t <threads>: 使用的 CPU 线程数（默认是系统核心数）。可以根据需要调整。
--temp <temperature>: 控制生成文本的随机性。0.0 表示确定性输出（重复运行相同提示词结果一样），1.0 是标准随机性，值越高越随机、越有创意（可能更离谱）。（默认 0.8）
--top-k <k>: 采样时只考虑概率最高的 k 个 token。（默认 40）
--top-p <p>: 采样时只考虑累积概率达到 p 的 token 集合。（默认 0.95）
--repeat_penalty <penalty>: 对重复的 token 进行惩罚，避免模型生成重复的短语或句子。（默认 1.1）
-i 或 --interactive: 进入交互模式。模型生成一段文本后，等待用户输入继续对话。
--instruct: 启用 Instruct 模式。llama.cpp 会根据模型类型自动添加指令提示词格式（如 Alpaca 格式）。适合运行 SFT (Supervised Fine-Tuning) 后的指令模型。
--chatml: 启用 ChatML 模式。适合运行使用 ChatML 格式训练的模型（如 Mistral Instruct, Gemma）。
-gqa <n_gqa>: 指定 Grouped-query attention 的头数量。llama.cpp 会尝试从 GGUF 元数据中读取，通常不需要手动设置。
-b <batch_size>: 推理时的批处理大小。影响性能。
-ngl <layers> 或 --n-gpu-layers <layers>: 指定要 offload（卸载）到 GPU 的模型层数。-1 表示所有层，0 表示不使用 GPU（纯 CPU），大于 0 表示指定层数。如果你的 VRAM 不足 offload 所有层，可以尝试减少这个值。

示例：交互式聊天

运行一个指令模型并进入交互模式，例如 Mistral Instruct：

bash ./main -m ./models/mistral-7b-instruct-v0.2.Q4_K_M.gguf -c 4096 -n -1 --temp 0.7 --repeat_penalty 1.1 -i --chatml

-c 4096: 设置上下文为 4096，因为 Mistral 7B 支持更长的上下文。
-n -1: 允许无限生成。
--temp 0.7: 温度稍低，让输出更稳定。
--repeat_penalty 1.1: 启用重复惩罚。
-i: 进入交互模式。
--chatml: 启用 ChatML 提示词格式，这对于 Mistral Instruct 模型是必需的，否则模型可能无法正确理解指令。

进入交互模式后，你会看到一个提示符（通常是 > 或 >>）。输入你的指令或问题，按回车，模型就会生成回应。输入 /bye 或 /exit 退出交互模式。

提示词格式的重要性：

许多模型（特别是指令模型和对话模型）在训练时使用了特定的提示词格式。如果你使用了错误的格式，模型可能无法理解你的意图，导致输出不佳。常见的格式有：

Alpaca: ### Instruction:\n<指令>\n\n### Response:\n
Llama 2 Chat: [INST] <用户指令> [/INST] 或 [INST] <<SYS>>\n<系统提示>\n<</SYS>>\n\n<用户指令> [/INST]
ChatML: <|im_start|>system\n<系统提示><|im_end|>\n<|im_start|>user\n<用户指令><|im_end|>\n<|im_start|>assistant\n
Vicuna: A chat between a curious user and an AI assistant.\nThe assistant gives helpful, detailed, and polite answers to the user's questions.\n\nUSER: <用户指令>\nASSISTANT:

对于支持的模型，使用 --instruct 或 --chatml 参数可以让 llama.cpp 自动处理这些格式。如果 llama.cpp 不支持特定模型的格式，你需要手动将提示词按照模型的训练格式组织好再传递给 -p 参数。查看模型在 Hugging Face 页面的描述或 Model Card 是了解其提示词格式的最佳途径。

五、进阶使用与扩展

llama.cpp 的功能远不止基本的文本生成。

server 模式： llama.cpp 包含一个 server 可执行文件，可以启动一个本地 HTTP 服务器，提供一个与 OpenAI API 兼容的接口。这使得许多支持 OpenAI API 的第三方应用和库（如 LangChain, LlamaIndex）可以直接与你的本地 llama.cpp 模型交互，极大地扩展了其应用场景。

bash ./server -m ./models/mistral-7b-instruct-v0.2.Q4_K_M.gguf -c 4096 --port 8080 --n-gpu-layers 30 # 示例命令
运行后，你可以通过 http://localhost:8080 访问 API。
Python 绑定： llama-cpp-python 是一个非常流行的 Python 库，提供了 llama.cpp 的 Python 接口。使用它可以方便地在 Python 代码中加载和运行 llama.cpp 模型，无需直接调用命令行。这个库也是 LangChain 等项目集成 llama.cpp 的基础。

bash pip install llama-cpp-python
然后就可以在 Python 代码中这样使用：
python from llama_cpp import Llama llm = Llama(model_path="./models/mistral-7b-instruct-v0.2.Q4_K_M.gguf", n_ctx=4096, n_gpu_layers=30) output = llm("讲述一个关于太空旅行的短故事", max_tokens=512, stop=["\n", "USER:"]) print(output["choices"][0]["text"])
图形用户界面 (GUI): 社区也开发了一些基于 llama.cpp 的图形界面工具，让不习惯命令行的用户也能轻松运行模型，例如 LM Studio、Text Generation WebUI (oobabooga) 支持 llama.cpp 后端。这些工具通常提供更友好的界面来管理模型、调整参数和进行对话。
其他功能： llama.cpp 还支持 embedding 计算、finetuning (LoRA 适配器) 等更高级的功能，不过对于入门用户来说，文本生成和聊天是主要的应用。

六、常见问题与故障排除

编译失败：
- 检查是否安装了 Git, CMake 和 C++ 编译器。
- 检查是否缺少特定的依赖库（如 OpenBLAS, CUDA toolkit 等，如果启用了相应功能）。
- 如果使用 Windows 的 MSVC，确保在正确的开发者命令提示符中运行 make。
- 查看错误信息，搜索错误关键词通常能找到解决方案。
运行模型时“Out of Memory”（内存不足）：
- 模型文件太大，你的 RAM 不够。尝试下载更低量化级别或更小参数量的模型。
- --n-gpu-layers 设置太高，你的 VRAM 不够。尝试减少 offload 到 GPU 的层数，或者纯 CPU 运行 (-ngl 0)。
- -c (context) 参数设置太大。减少上下文大小会降低内存需求。
运行速度慢：
- 纯 CPU 运行时，速度很大程度上取决于 CPU 性能和使用的线程数 (-t)。
- 如果你的硬件支持 GPU，但没有启用 GPU 加速编译 (LLAMA_CUBLAS=1 等)，或者 --n-gpu-layers 设置为 0。请重新编译并设置正确的 n-gpu-layers。
- 硬盘读写速度慢，尤其是在模型加载阶段。
- 尝试调整 -b (batch size) 参数。
模型输出不佳或乱码：
- 使用了错误的提示词格式 (-p 参数的内容没有遵循模型的训练格式)，特别是对于指令模型和对话模型。尝试使用 --instruct 或 --chatml，或者手动构造正确的格式。
- 使用了不兼容的模型文件或 llama.cpp 版本。确保你下载的是 GGUF 格式文件，并且 llama.cpp 版本不是非常老。
- 量化级别太低可能导致模型质量下降。如果可能，尝试更高精度的量化版本（如 Q5_K_M 而不是 Q4_K_M），但这会增加内存需求。

七、总结

llama.cpp 是一个令人瞩目的开源项目，它极大地降低了在本地运行大型语言模型的门槛。通过高效的 C/C++ 实现、先进的量化技术和对多种硬件的支持，它让许多过去只能在昂贵服务器上运行的模型，现在能够在普通的个人电脑上流畅运行。

从安装编译、寻找 GGUF 模型，到使用命令行运行和调整参数，掌握 llama.cpp 的基础操作，你就能解锁一个全新的 AI 使用方式：隐私安全、成本可控、离线可用，并且完全由你掌控。

随着 llama.cpp 项目的不断发展和社区的持续贡献，未来本地运行大模型的体验只会越来越好。现在就开始你的 llama.cpp 之旅，探索本地 AI 的无限可能吧！

llama.cpp：本地运行大模型的革命性工具 – 入门指南

一、 llama.cpp 是什么？

二、 为什么选择 llama.cpp 进行本地推理？

三、 llama.cpp 如何实现高效推理：量化与 GGUF 格式

四、 入门实践：安装、寻找模型与运行

步骤 1：准备你的环境

步骤 2：获取 llama.cpp 代码

步骤 3：编译 llama.cpp

步骤 4：寻找并下载模型

步骤 5：运行你的第一个模型

五、 进阶使用与扩展

六、 常见问题与故障排除

七、 总结

发表评论 取消回复

二、为什么选择 llama.cpp 进行本地推理？

四、入门实践：安装、寻找模型与运行

五、进阶使用与扩展

六、常见问题与故障排除

七、总结

发表评论取消回复