深入探索 llama.cpp：原理、安装与使用详解

引言：大语言模型时代的普惠革命

近年来，大型语言模型（LLMs）如 GPT-3、PaLM、Llama 等以其惊人的自然语言理解和生成能力，席卷了人工智能领域，并在各行各业展现出巨大的应用潜力。然而，这些强大的模型通常伴随着巨大的计算资源需求，动辄需要数十甚至数百 GB 的显存和强大的 GPU 集群才能运行，这使得普通开发者、研究人员和爱好者难以在本地设备上部署和体验。

在这样的背景下，一个名为 llama.cpp 的项目横空出世，如同一股清流，迅速吸引了全球开发者的目光。它是一个用 C/C++ 编写的 Llama 模型推理引擎，其核心目标是 让大型语言模型能够在消费级硬件（尤其是 CPU）上高效运行。llama.cpp 的出现极大地降低了 LLM 的使用门槛，使得在个人电脑、笔记本甚至树莓派等资源受限设备上运行复杂的语言模型成为可能，掀起了一场 LLM 技术的普惠革命。

本文将深入探索 llama.cpp 的世界，从其核心原理、关键技术，到详细的安装步骤、多样的使用方法，再到性能优化技巧和注意事项，为您全方位地解析这个强大的工具。无论您是希望在本地运行 LLM 的开发者，还是对 LLM 底层技术感兴趣的研究者，亦或是仅仅想体验前沿 AI 的爱好者，相信本文都能为您提供有价值的参考。

第一部分：深入理解 llama.cpp 的核心原理

llama.cpp 的成功并非偶然，它巧妙地结合了多种优化技术，才得以在资源有限的环境下实现高效的 LLM 推理。其核心原理主要围绕以下几个方面：

1. 起源与目标：CPU 推理的初心

llama.cpp 最初由 Georgi Gerganov 发起，旨在为 Meta 开源的 Llama 模型提供一个纯 C/C++ 的推理实现。与主流的 Python + PyTorch/TensorFlow 框架不同，C/C++ 具有更接近底层的控制能力、更小的运行时开销和更好的跨平台兼容性，这为极致的性能优化奠定了基础。项目的核心目标始终是 优先保证在 CPU 上的高效运行，同时兼顾内存效率和可移植性。

2. 核心技术：GGML 库

GGML (Georgi Gerganov Machine Learning) 是 llama.cpp 的基石，也是 Gerganov 开发的一个用于机器学习的张量库 (Tensor Library)。GGML 具有以下特点：

C 语言实现： 保持轻量级和高可移植性。
CPU 优先优化： 针对 CPU 架构进行深度优化，利用 SIMD 指令集（如 AVX, AVX2, AVX512, NEON）加速计算。
内存优化： 采用积极的内存管理策略，例如内存映射 (memory mapping) 和计算图优化，以减少内存占用和拷贝开销。
量化支持： 内建对模型量化的支持，这是实现低资源运行的关键。
自动微分 (有限)： 支持部分自动微分功能，但主要聚焦于推理。
文件格式： 定义了自己的模型文件格式（早期为 .bin/.ggml，后演进为 .gguf），用于存储量化后的模型权重和元数据。

3. 模型量化 (Quantization)：压缩模型的魔法

量化是 llama.cpp 实现低资源运行的 核心魔法。原始的 LLM 通常使用 32 位浮点数 (FP32) 或 16 位浮点数 (FP16/BF16) 存储权重。量化技术通过降低权重的数值精度（例如，从 FP16 降低到 8 位整数 INT8，甚至 4 位整数 INT4）来显著减小模型文件的体积和运行时内存占用。

原理： 将连续的浮点数值范围映射到离散的、位数更少的整数值范围。这会损失一部分精度，但设计良好的量化方案可以在精度损失可接受的范围内，大幅提升效率。
优势：
- 减小模型体积： INT4 量化模型体积通常只有 FP16 模型的 1/4 左右。
- 降低内存带宽需求： 读取更小的数据类型意味着更少的内存访问，这在内存带宽受限的 CPU 推理中尤为重要。
- 加速计算： 整数运算通常比浮点运算更快，尤其是在支持特定整数指令的 CPU 上。
llama.cpp 支持的量化方法： 支持多种量化策略，常见的有：
- q4_0, q4_1: 基础的 4 位量化。
- q5_0, q5_1: 5 位量化。
- q8_0: 8 位量化，精度较高，但压缩率不如 4/5 位。
- q2_K, q3_K, q4_K, q5_K, q6_K: K-Quants 系列，更复杂的量化方法，试图在极低比特下保持更好的性能，_S 和 _M 后缀代表不同大小的块。q4_K_M 通常被认为是速度和质量之间较好的平衡点。
GGUF 格式： 新一代的 GGML 模型文件格式 (Georgi Gerganov Universal Format)，旨在取代旧格式。GGUF 是一个可扩展的、自包含的格式，将模型权重、量化信息、分词器配置、模型架构元数据等都打包在一个文件中，极大地方便了模型的分享和使用。

4. CPU 优化：榨干硬件性能

llama.cpp 在 CPU 优化方面不遗余力：

SIMD (Single Instruction, Multiple Data) 指令集： 利用 CPU 提供的向量指令（如 x86 架构的 AVX, AVX2, AVX512；ARM 架构的 NEON）并行处理多个数据元素，大幅加速矩阵乘法等计算密集型操作。编译时可以指定启用特定的指令集以获得最佳性能。
多线程并行： 使用 OpenMP 或其他线程库将计算任务分配到多个 CPU 核心上并行执行，充分利用多核处理器的能力。
缓存优化： 考虑 CPU 缓存的层级结构和特性，优化内存访问模式，减少缓存未命中。

5. 内存管理：应对大模型挑战

运行数十亿参数的模型对内存是巨大的挑战。llama.cpp 采用：

内存映射 (mmap)： 对于大型模型文件，可以使用 mmap 将文件内容直接映射到进程的虚拟地址空间，而不是一次性读入内存。操作系统会根据需要惰性加载文件的部分内容到物理内存，有效降低了启动时的内存峰值，并允许多个进程共享同一份模型数据。
高效的内存分配： GGML 库内部有专门的内存管理机制，避免频繁的小块内存分配和释放带来的开销和碎片。

6. 跨平台与可移植性

基于 C/C++ 和 CMake/Make 构建系统，llama.cpp 具有良好的跨平台特性，可以在 Linux, macOS, Windows 等主流操作系统以及 x86 和 ARM (包括 Apple Silicon) 等不同架构上编译和运行。

7. GPU 加速支持 (可选)

虽然以 CPU 优化著称，llama.cpp 也逐步加入了对 GPU 加速的支持，以进一步提升性能：

后端支持： 支持多种 GPU 后端，包括：
- NVIDIA CUDA (cuBLAS): 利用 NVIDIA GPU 的 cuBLAS 库加速矩阵运算。
- Apple Metal: 针对 Apple Silicon (M1/M2/M3) 的 GPU 进行优化。
- OpenCL: 一个跨平台的并行计算框架，理论上支持 AMD、Intel 等多种 GPU，但支持程度和性能可能不如 CUDA/Metal。
- Vulkan: 图形和计算 API，也可用于加速。
层卸载 (Layer Offloading): 用户可以指定将模型的一部分（通常是计算量最大的 Transformer 层）计算任务卸载 (offload) 到 GPU 上执行，而其余部分仍在 CPU 上运行。通过 -ngl 或 --n-gpu-layers 参数控制卸载的层数。这是一种混合计算模式，可以在显存有限的情况下，利用 GPU 加速最耗时的部分。

第二部分：llama.cpp 的安装与环境配置

安装 llama.cpp 主要涉及获取源码、编译和准备模型文件三个步骤。

1. 准备工作 (Prerequisites)

在开始之前，确保你的系统安装了以下基本工具：

Git: 用于克隆源码仓库。
C/C++ 编译器: 如 GCC (Linux) 或 Clang (macOS, Linux)。Windows 下可以使用 MinGW 或 MSVC (Visual Studio)。
Make: 用于执行编译指令（或 CMake，作为另一种构建选项）。
Python (推荐): 许多辅助脚本（如下载、转换模型）需要 Python 环境 (通常 Python 3.6+)。

2. 获取源码

打开终端或命令行，使用 Git 克隆 llama.cpp 的官方仓库：

bash git clone https://github.com/ggerganov/llama.cpp.git cd llama.cpp

3. 编译

llama.cpp 的编译过程非常灵活，可以根据你的硬件和需求进行定制。

基本编译 (纯 CPU):
最简单的编译方式，不带任何特定的硬件加速。

bash make
这将生成 main (用于命令行推理) 和 server (用于启动 HTTP 服务) 等可执行文件。
编译 CPU 优化:
如果你的 CPU 支持特定的 SIMD 指令集，启用它们可以获得显著的性能提升。例如，如果你的 CPU 支持 AVX2：

“`bash

清理旧的编译结果 (如果之前编译过)

make clean

编译并启用 AVX2

make LLAMA_AVX2=1
`` 其他常见的优化标志包括LLAMA_AVX=1,LLAMA_AVX512=1(适用于支持 AVX512 的 CPU),LLAMA_FMA=1,LLAMA_F16C=1等。你可以根据lscpu(Linux) 或sysctl -a | grep machdep.cpu.features` (macOS) 的输出来判断你的 CPU 支持哪些指令集。
编译 GPU 加速支持:
- NVIDIA GPU (cuBLAS):
  需要先安装 NVIDIA 驱动和 CUDA Toolkit。
  
  “`bash
  
  清理
  
  make clean
  
  编译并启用 cuBLAS 支持
  
  make LLAMA_CUBLAS=1
  `` 环境变量CUDA_PATH` 可能需要指向你的 CUDA Toolkit 安装路径。
- Apple Silicon GPU (Metal):
  通常需要 Xcode 和 Command Line Tools。Metal 支持通常是默认启用的（尤其是在较新版本的 llama.cpp 中），但也可以显式指定：
  
  “`bash
  
  清理
  
  make clean
  
  编译并启用 Metal 支持 (如果需要明确指定)
  
  make LLAMA_METAL=1
  `` 有时需要设置LLAMA_METAL_EMBED_LIBRARY=1` 来将 Metal 库嵌入可执行文件中。
- OpenCL:
  需要 OpenCL SDK 和相应的驱动程序。
  
  “`bash
  
  清理
  
  make clean
  
  编译并启用 OpenCL 支持
  
  make LLAMA_CLBLAST=1 # 使用 CLBlast 作为 OpenCL BLAS 库
  “`
使用 CMake (替代方案):
llama.cpp 也支持 CMake 构建系统，这在某些环境（尤其是 Windows 或需要更复杂配置时）可能更方便。

bash mkdir build cd build cmake .. [-DLLAMA_CUBLAS=ON | -DLLAMA_METAL=ON | -DLLAMA_CLBLAST=ON | -DLLAMA_AVX2=ON ...] cmake --build . --config Release

编译成功后，你会在项目根目录（使用 make）或 build 目录（使用 CMake）下找到 main, server, quantize 等可执行文件。

4. 模型下载与转换 (关键步骤)

llama.cpp 需要使用特定格式的模型文件（主要是 GGUF 格式）。

获取 GGUF 模型:
最简单的方式是直接下载已经转换和量化好的 GGUF 格式模型。Hugging Face Hub (huggingface.co) 是寻找 GGUF 模型的主要社区资源。搜索你感兴趣的模型（如 Llama 2, Mistral, Mixtral 等），并查找带有 “GGUF” 标签的文件。
- 推荐的模型提供者: TheBloke 是 Hugging Face 上非常活跃和知名的 GGUF 模型提供者，他提供了大量流行模型的各种量化版本。
- 选择量化版本: 根据你的硬件资源（主要是 RAM）和对性能/质量的要求选择合适的量化版本。例如：
  - Q4_K_M: 通常是性能和质量的良好平衡点，适用于大多数中端设备。
  - Q5_K_M: 质量稍好，体积稍大。
  - Q8_0: 质量接近 FP16，但体积和内存占用较大。
  - Q3_K_M 或 Q2_K: 适用于内存极度受限的设备，但质量损失可能较明显。
- 下载工具: 可以直接通过网页下载，或者使用 wget, curl, 或 huggingface-hub Python 库进行下载。
手动转换 (如果只有原始模型):
如果你只有 PyTorch (.pth) 或 SafeTensors 格式的原始模型，你需要手动将其转换为 GGUF 格式。llama.cpp 仓库中提供了转换脚本（通常是 convert.py 或更新的脚本）。这个过程通常需要安装 Python 和一些依赖库（如 torch, sentencepiece, transformers, huggingface-hub）。
“`bash
# 1. 安装依赖
pip install -r requirements.txt

2. 运行转换脚本 (示例)

python convert.py path/to/original/model –outfile models/converted_model.gguf –outtype q4_K_M
“`
具体的转换命令和参数可能会因模型类型和脚本版本而异，请参考 llama.cpp 官方文档或脚本自身的帮助信息。注意： 手动转换可能需要较多的内存和时间。

将下载或转换好的 .gguf 文件放置在一个方便访问的目录（例如 llama.cpp/models/）。

第三部分：llama.cpp 的核心使用方法

准备好编译后的可执行文件和 GGUF 模型文件后，就可以开始使用 llama.cpp 了。主要有两种使用方式：命令行直接推理和启动 HTTP 服务。

1. 基本命令行推理 (./main)

main 程序是进行文本生成和交互的核心工具。其基本用法如下：

bash ./main -m <path_to_your_model.gguf> [options]

常用选项 (Options):

-m <model_path>: (必需) 指定要加载的 GGUF 模型文件路径。
-p <prompt>: 指定初始提示语 (prompt)。
-n <number>: 指定要生成的最大 token 数量 (默认为 128)。
-c <number>: 设置上下文窗口大小 (context size)。这决定了模型能“记住”多少之前的对话或文本。需要根据模型本身支持的最大上下文长度和你的内存大小来设置（通常 512, 1024, 2048, 4096 等）。非常重要！
-ngl <number> 或 --n-gpu-layers <number>: (GPU 加速关键) 指定要卸载到 GPU 的层数。设置为 0 表示纯 CPU 运行。设置一个正数会将模型的前 N 层放到 GPU 上。需要根据你的显存大小调整，设置过高会导致显存不足错误。
-t <number> 或 --threads <number>: 指定使用的 CPU 线程数。通常设置为物理核心数效果较好。
-b <number> 或 --batch-size <number>: 处理提示时的批处理大小（默认为 512）。
--color: 在终端输出中使用颜色高亮显示提示和生成内容。
--temp <float>: 设置温度 (temperature)，控制生成文本的随机性。较低的值（如 0.7）使输出更确定、更集中；较高的值（如 1.0 或更高）使输出更多样、更具创造性（但也可能更离谱）。(默认为 0.8)。
--top_k <number>: Top-K 采样。只从概率最高的 K 个词中选择下一个词 (默认为 40)。
--top_p <float>: Top-P (Nucleus) 采样。只从概率累积和达到 P 的最小词集中选择下一个词 (默认为 0.95)。
--repeat_penalty <float>: 重复惩罚。对近期已生成的词施加惩罚，降低重复生成相同内容的概率 (默认为 1.1)。
-i 或 --interactive: 进入交互模式，可以在生成后继续输入新的提示。
--interactive-first: 启动时立即进入交互模式，等待用户输入第一个提示。
--in-prefix <string>: (交互模式) 在你的输入前添加的前缀字符串。
--in-suffix <string>: (交互模式) 在你的输入后添加的后缀字符串（例如，用于模拟特定的聊天格式，如在用户输入后添加 “Assistant:”）。
-f <file_path>: 从文件中加载提示。

示例：

简单生成:
bash ./main -m ./models/llama-2-7b-chat.Q4_K_M.gguf -p "Building a website can be done in many ways. One popular way is" -n 200 -c 2048
使用 GPU 加速 (卸载 30 层到 GPU):
bash ./main -m ./models/mistral-7b-instruct-v0.1.Q5_K_M.gguf -p "Explain the concept of quantum entanglement simply:" -n 512 -c 4096 -ngl 30 -t 8
交互式聊天 (CPU):
bash ./main -m ./models/llama-2-7b-chat.Q4_K_M.gguf -n -1 -c 2048 --interactive-first --color --repeat_penalty 1.1 -t 8
(-n -1 表示无限生成，直到上下文满或手动停止)

2. 服务端模式 (./server)

server 程序可以将加载的 LLM 封装成一个 HTTP Web 服务，允许其他应用程序通过 API 调用进行交互。这对于构建聊天机器人、集成到 Web 应用或提供远程访问非常有用。

启动服务:
bash ./server -m <path_to_your_model.gguf> -c <context_size> [options]
常用选项与 main 类似，例如 -ngl 用于 GPU 加速，-t 用于线程数。
主要选项:
- --host <ip_address>: 指定监听的 IP 地址 (默认为 127.0.0.1)。设置为 0.0.0.0 可允许外部访问。
- --port <port_number>: 指定监听的端口 (默认为 8080)。
- --api-key <key>: 设置 API 密钥以进行访问控制。
访问服务:
启动后，可以通过浏览器访问 http://<host>:<port> 通常会看到一个简单的 Web UI (如果编译时包含)。
更常用的是通过 API 请求，例如使用 curl：
bash curl --request POST \ --url http://127.0.0.1:8080/completion \ --header "Content-Type: application/json" \ --data '{"prompt": "What is the capital of France?", "n_predict": 50}'
它通常提供与 OpenAI API 类似的 /v1/chat/completions 和 /v1/completions 端点，方便现有应用迁移。

3. 常见应用场景

本地文本生成/续写: 直接使用 main 程序进行创作、编程辅助、内容生成等。
本地聊天机器人: 使用 main 的交互模式或 server 配合前端界面搭建私人聊天助手。
问答系统: 向模型提问并获取答案。
文本摘要/翻译: 输入长文本，让模型生成摘要或翻译。
教育与研究: 在本地探索和实验不同的 LLM 模型和参数。
离线应用集成: 将 LLM 能力集成到无法访问云服务的应用中。

4. 与其他工具/库集成

Python 绑定 (llama-cpp-python): 社区维护了一个非常流行的 Python 绑定库 llama-cpp-python。它允许 Python 开发者方便地加载和使用 llama.cpp 的 GGUF 模型，提供了与 transformers 库类似的接口，并且支持 LangChain、LlamaIndex 等框架。这是在 Python 项目中使用 llama.cpp 的首选方式。
“`python
# 安装: pip install llama-cpp-python
from llama_cpp import Llama

加载模型 (使用 GPU 加速)

llm = Llama(
model_path=”./models/your_model.gguf”,
n_gpu_layers=30, # -1 表示全部卸载 (如果显存够)
n_ctx=2048
)

生成文本

output = llm(“Q: Name the planets in the solar system? A: “, max_tokens=50, stop=[“Q:”, “\n”], echo=True)
print(output)

聊天

output = llm.create_chat_completion(…)

“`

第四部分：性能优化与注意事项

要在特定硬件上获得 llama.cpp 的最佳性能，需要考虑以下几点：

1. 选择合适的量化模型

权衡: 量化程度越高 (位数越低)，模型越小，速度越快，内存占用越低，但通常精度损失也越大。
推荐: Q4_K_M 是一个广泛使用的平衡点。如果内存充足且追求更高质量，可以尝试 Q5_K_M 或 Q8_0。如果内存极度受限，Q3_K_M 或 Q2_K 是备选项。建议实际测试不同量化版本在你的任务上的表现。

2. 调整线程数 (-t)

经验法则: 通常设置为物理核心数（而非逻辑核心数/超线程数）附近效果最佳。过多的线程可能导致线程切换开销增大，反而降低性能。
实验: 实际运行测试，尝试不同的线程数（例如，物理核心数、物理核心数/2、物理核心数*2）找到最优值。

3. 利用 GPU 加速 (-ngl)

关键: 这是提升性能最有效的方法之一（如果你有受支持的 GPU）。
显存限制: GPU 加速的主要瓶颈是显存 (VRAM)。你需要根据模型的层数、大小和你的显存容量来确定可以卸载多少层 (-ngl 的值)。
查找最佳值: 从一个较小的值开始（如 10），逐步增加 -ngl，观察推理速度和显存占用（可以使用 nvidia-smi 或类似工具监控）。当显存接近饱和或速度不再显著提升时，就找到了一个较好的值。设置过高会导致 “out of memory” 错误。将所有层卸载到 GPU (-ngl -1 或一个非常大的数) 只有在显存足够容纳整个模型时才可行。
混合精度: 部分层在 GPU (可能用 FP16)，部分在 CPU (量化格式)，llama.cpp 会自动处理。

4. 上下文窗口大小 (-c)

内存影响: 上下文窗口越大，模型能处理的输入/历史越长，但内存占用也越高（KV 缓存会增大）。
性能影响: 处理更长的上下文通常需要更多时间。
选择: 根据你的任务需求和内存限制选择合适的大小。不要设置超过模型本身训练时支持的最大上下文长度。

5. 批处理大小 (-b)

主要影响初始提示的处理速度。较大的批处理大小可以提高吞吐量（并行处理更多 token），但也增加内存使用。对于交互式应用，默认值通常足够。

6. 硬件选择

CPU: 具有较新 SIMD 指令集 (AVX2, AVX512) 和较高核心数的 CPU 性能更好。
RAM: 至关重要！ 你需要足够的 RAM 来加载模型权重（即使是量化后）和存储 KV 缓存。RAM 的大小直接决定了你能运行多大的模型和多长的上下文。对于 7B 模型，推荐至少 8GB RAM (取决于量化)；对于 13B 模型，推荐 16GB+；对于更大的模型，需要更多。
GPU: 如果使用 GPU 加速，显存 (VRAM) 是最重要的因素。显存大小决定了你能卸载多少层，直接影响加速效果。其次是 GPU 的计算能力 (CUDA 核心数/流处理器数) 和内存带宽。

7. 模型选择

大小与能力: 更大的模型（参数更多）通常能力更强，但也更慢，需要更多资源。根据你的任务需求和硬件限制选择合适的模型大小 (如 7B, 13B, 30B, 70B)。
指令微调/聊天优化: 针对特定任务（如聊天、指令跟随），选择经过相应微调的模型（如 Llama-2-Chat, Mistral-Instruct）通常效果更好。

8. 保持更新

llama.cpp 是一个非常活跃的项目，持续进行优化、添加新功能和支持新模型。定期 git pull 更新源码并重新编译，可以获得最新的性能改进和 bug 修复。同时关注 GGUF 格式和量化方法的变化。

总结与展望

llama.cpp 无疑是大型语言模型领域的一项突破性进展。它通过精巧的 C/C++ 实现、高效的 GGML 库、关键的量化技术以及对 CPU 和可选 GPU 的深度优化，成功地将原本高高在上的 LLM 带到了普通用户的桌面甚至移动设备上。其易于安装、使用灵活、性能优异、跨平台兼容的特点，使其成为开发者、研究者和 AI 爱好者探索 LLM 世界的强大武器。

从命令行交互到 API 服务，从纯 CPU 运行到 GPU 加速，llama.cpp 提供了多样化的使用方式，满足不同场景的需求。理解其核心原理，掌握正确的安装和配置方法，并结合性能优化技巧，用户可以最大限度地发挥其潜力。

展望未来，随着 LLM 技术的不断演进和硬件性能的提升，我们可以期待 llama.cpp 继续发展：

更优的量化算法: 探索在更低比特下保持更高模型质量的新方法。
更广泛的硬件支持: 持续优化对不同 CPU 架构和 GPU 后端（如 Vulkan, SYCL）的支持。
模型兼容性: 快速跟进并支持社区涌现的新型开源 LLM 架构。
GGUF 格式的演进: 可能增加更多元数据支持和功能。
易用性提升: 社区可能会开发更多友好的图形界面或集成工具。

深入探索 llama.cpp 不仅仅是学习一个工具，更是理解 LLM 高效推理底层机制、拥抱 AI 技术民主化浪潮的绝佳途径。希望本文能为您开启这段激动人心的探索之旅提供坚实的起点。现在，就动手安装、下载模型，在自己的设备上体验大型语言模型的魅力吧！

深入探索 llama.cpp：原理、安装与使用详解 – wiki基地

深入探索 llama.cpp：原理、安装与使用详解

引言：大语言模型时代的普惠革命

第一部分：深入理解 llama.cpp 的核心原理

第二部分：llama.cpp 的安装与环境配置

清理旧的编译结果 (如果之前编译过)

make clean

编译并启用 AVX2

清理

make clean

编译并启用 cuBLAS 支持

清理

make clean

编译并启用 Metal 支持 (如果需要明确指定)

清理

make clean

编译并启用 OpenCL 支持

2. 运行转换脚本 (示例)

第三部分：llama.cpp 的核心使用方法

加载模型 (使用 GPU 加速)

生成文本

聊天

output = llm.create_chat_completion(…)

第四部分：性能优化与注意事项

总结与展望

发表评论取消回复

深入探索 llama.cpp：原理、安装与使用详解

引言：大语言模型时代的普惠革命

第一部分：深入理解 llama.cpp 的核心原理

第二部分：llama.cpp 的安装与环境配置

清理旧的编译结果 (如果之前编译过)

make clean

编译并启用 AVX2

清理

make clean

编译并启用 cuBLAS 支持

清理

make clean

编译并启用 Metal 支持 (如果需要明确指定)

清理

make clean

编译并启用 OpenCL 支持

2. 运行转换脚本 (示例)

第三部分：llama.cpp 的核心使用方法

加载模型 (使用 GPU 加速)

生成文本

聊天

output = llm.create_chat_completion(…)

第四部分：性能优化与注意事项

总结与展望

发表评论 取消回复

发表评论取消回复