AI 本地化利器：llama.cpp 深度解析与实战指南

引言：拥抱本地AI，打破云端依赖

在人工智能，特别是大型语言模型（LLM）浪潮席卷全球的今天，大多数用户习惯于通过云服务商提供的API或在线平台来体验AI的能力。从最初的问答、文本生成到代码辅助，云端AI无疑提供了便捷和强大的能力。然而，这种模式也带来了显而易见的局限性：对互联网连接的依赖、潜在的隐私泄露风险、持续的API调用成本、以及服务中断的可能性。

有没有一种方式，能让我们将AI模型“请回家”，在自己的电脑上运行，既能保护数据隐私，又能随时随地使用，甚至无需网络？

答案是肯定的。开源社区的蓬勃发展，特别是以 llama.cpp 为代表的一系列项目的涌现，正将AI本地化从理论变为现实，并使其变得触手可及。llama.cpp，这个看似简单的名字，背后蕴含着让大型语言模型在消费级硬件上高效运行的关键技术，堪称AI本地化的“瑞士军刀”。

本文将深入探讨 llama.cpp 是什么，它为何能够成为AI本地化的利器，以及如何从零开始使用它，让强大的AI能力在你的电脑上触手可及。

第一部分：llama.cpp 是什么？为何它如此重要？

llama.cpp 是一个由 Georgi Gerganov（@ggerganov）主导开发的开源项目，旨在利用纯 C/C++ 实现大型语言模型的高效推理。项目的初衷是为了能在 Apple Silicon Mac 上运行 Meta 开源的 LLaMA 模型，但随着社区的贡献和发展，它已演变成一个高度优化、跨平台、支持多种模型架构和硬件加速后端的通用LLM推理引擎。

1. 为什么选择 C/C++？

与其他依赖复杂框架（如 PyTorch、TensorFlow）的项目不同，llama.cpp 使用纯 C/C++ 编写。这带来了几个关键优势：

极高的性能和效率： C/C++ 允许开发者对内存、计算资源进行底层控制，从而实现极致的性能优化。这对于资源有限的本地环境至关重要。
最小的依赖： 纯 C/C++ 代码意味着 llama.cpp 几乎不依赖外部库（除了某些硬件加速后端可能需要特定的驱动或SDK），这使得它非常易于编译和部署在各种不同的操作系统和硬件上。
跨平台兼容性： C/C++ 的通用性使得 llama.cpp 可以轻松编译并在 Windows、macOS、Linux 甚至 Android、iOS 等平台运行。
对硬件的良好支持： 通过直接的系统调用或底层库，llama.cpp 能有效地利用 CPU 的多种指令集（如 AVX、AVX2、AVX512）以及 GPU 的并行计算能力（通过 CUDA、Metal、Vulkan、OpenCL等后端）。

2. 核心技术：模型的量化 (Quantization)

llama.cpp 能够让原本需要数十甚至上百GB显存的庞大模型在消费级电脑上运行，其秘密武器之一就是模型量化 (Model Quantization)。

什么是量化？
大型语言模型的参数通常以全精度浮点数（如 FP32，32位浮点数）存储和计算。FP32 提供了很高的精度，但也占用大量存储空间和计算资源。量化就是将这些高精度参数（通常是权重）转换成低精度格式，例如 16位浮点数 (FP16)、8位整数 (INT8) 甚至是 4位整数 (INT4) 或更低。
量化的好处：
- 显著减小模型文件大小： 量化后的模型文件体积可以缩小到原始模型的 1/2 到 1/8 甚至更小。例如，一个原本需要 60GB 空间的 70B 模型，量化到 4bit 后可能只需要 40GB 左右，而一个 7B 模型量化到 4bit 甚至只需 4GB 左右。
- 大幅降低内存（RAM/VRAM）需求： 更小的模型体积直接转化为更低的内存占用，使得模型可以在内存较少的设备上加载和运行。
- 提高计算速度： 低精度计算通常比高精度计算更快，尤其是在某些硬件上（如支持 INT4 计算的现代CPU或GPU）。
量化的权衡：
量化是一个有损过程，将高精度信息压缩到低精度格式可能会导致模型精度略有下降。然而，经过优化的量化方法（如 llama.cpp 中采用的各种 GGML/GGUF 量化技术）能最大程度地减小精度损失，使其在许多任务中几乎不影响实际使用效果。
GGUF 格式：
llama.cpp 及其生态系统广泛采用 GGUF (GGML Unified Format) 格式作为模型的标准格式。GGUF 是 GGML（Georgi Gerganov Machine Learning library，llama.cpp 的底层张量库）的升级版，它是一个针对LLM推理优化的二进制文件格式。GGUF 不仅存储量化后的模型权重，还包含了模型的架构信息、分词器信息、模型元数据等，使得模型更加自给自足，易于加载和使用。几乎所有你想在 llama.cpp 中使用的模型都需要是或被转换成 GGUF 格式。

3. 为何称其为“AI 本地化利器”？

结合纯 C/C++ 的效率、量化技术以及跨平台支持，llama.cpp 为AI本地化提供了核心能力：

可达性： 使得普通用户使用消费级电脑（甚至树莓派等低功耗设备）也能运行先进的LLM，极大地降低了使用门槛。
隐私性： 数据完全在本地处理，无需上传到第三方服务器，有效保护了个人或敏感信息的隐私。
自主性： 不依赖外部服务，随时随地可用，不受网络状况或服务商政策变化的影响。
经济性： 一旦模型下载到本地，后续使用不再产生API调用费用。
灵活性： 可以在本地进行模型的微调（尽管这通常需要更多资源，但 llama.cpp 的生态正在向这方面发展）或与其他本地应用集成。

总之，llama.cpp 通过创新的技术，将原本“高高在上”的大型语言模型拉下了“云端”，放到了用户的个人设备上，让AI能力真正地普惠化和本地化。

第二部分：如何使用 llama.cpp？从编译到运行

使用 llama.cpp 主要分为几个步骤：获取代码、编译、获取模型、运行推理。我们将详细介绍如何在不同环境下完成这些步骤。

1. 获取 llama.cpp 代码

llama.cpp 是一个开源项目，托管在 GitHub 上。你需要使用 Git 来克隆代码仓库。

首先，确保你的系统安装了 Git。如果未安装，请自行搜索安装方法（通常包管理器如 apt、yum、brew 或下载安装包即可）。

打开终端或命令行工具，执行以下命令：

bash git clone https://github.com/ggerganov/llama.cpp cd llama.cpp

这就将 llama.cpp 的最新代码下载到了你当前的目录下的 llama.cpp 文件夹中。

2. 编译 llama.cpp

llama.cpp 的编译过程相对简单，主要依赖于 make 工具。如果需要启用特定的硬件加速，则需要在编译时指定相应的参数。

通用编译（仅CPU）：

确保你的系统安装了 C++ 编译器（如 GCC、Clang）。在 llama.cpp 目录下执行：

bash make

这将编译出主要的命令行工具，如 main、quantize 等。

启用GPU加速编译：

启用GPU加速能显著提高推理速度。llama.cpp 支持多种GPU后端：

NVIDIA CUDA (Linux, Windows): 需要安装 NVIDIA 驱动和 CUDA Toolkit。
“`bash
# Linux
make clean # 首次编译或切换参数前建议清理
LLAMA_CUBLAS=1 make

Windows (使用 CMake)

假设你已经安装了 CMake 和 Visual Studio (包含 C++ 开发环境) 或 MinGW-w64

创建 build 目录并进入

mkdir build && cd build

配置 CMake，启用 CUDA (确保 CUDA 安装路径在 PATH 或由 CMake 找到)

cmake .. -DLLAMA_CUBLAS=ON

构建项目

cmake –build . –config Release # Visual Studio

或者对于 MinGW-w64

mingw32-make # 或 mingw64-make

* **Apple Metal (macOS):** macOS 自带 Metal 支持。bash
make clean
LLAMA_METAL=1 make
* **Vulkan (跨平台，包括部分集成显卡):** 需要安装 Vulkan SDK 和驱动。bash
make clean
LLAMA_VULKAN=1 make
* **OpenCL (跨平台，兼容性较广):** 需要安装 OpenCL SDK 和驱动。bash
make clean
LLAMA_CLBLAST=1 make
“`

混合CPU/GPU计算：

即使启用GPU加速，有时模型的某些部分或层仍然会在CPU上运行。llama.cpp 允许你指定将多少层卸载到GPU上运行（通过运行时参数 -ngl）。这对于显存不足以容纳整个模型的情况非常有用。

编译成功后，你会在 llama.cpp 目录下看到编译好的可执行文件（如 Linux/macOS 下的 main，Windows 下的 main.exe）。

3. 获取 GGUF 格式的模型文件

如前所述，你需要 GGUF 格式的模型文件才能在 llama.cpp 中运行。

从社区下载：
Hugging Face 是查找 GGUF 模型最常见的平台。许多社区成员（如 TheBloke）会将流行的模型转换成各种量化程度的 GGUF 格式并分享。
在 Hugging Face 上搜索你感兴趣的模型名称 + “GGUF”，例如 “Llama-2-7B-Chat GGUF” 或 “Qwen1.5-7B-Chat GGUF”。
找到仓库后，通常在 “Files and versions” (文件与版本) 标签页下可以找到 .gguf 结尾的文件。选择一个适合你硬件的量化版本进行下载（例如 Q4_K_M 或 Q5_K_S 是比较常用的平衡性能和质量的版本）。
下载模型文件到你方便的位置，例如 llama.cpp/models/ 目录下。
自己量化模型：
如果你有一个非 GGUF 格式（如 PyTorch .pth 或 .safetensors）的模型，并且 llama.cpp 支持其原始架构，理论上你可以先将其转换成 FP16 的 GGUF 格式，然后再使用 llama.cpp 自带的 quantize 工具进行量化。但这通常需要原始模型加载到显存或内存中，对硬件要求较高。对于大多数用户而言，直接下载社区提供的 GGUF 模型是更简单的方式。

使用 quantize 工具（示例）：
假设你有一个 FP16 的 GGUF 模型 model.gguf，你想将其量化为 Q4_K_M 格式：
bash ./quantize ./models/model.gguf ./models/model.Q4_K_M.gguf Q4_K_M
这将生成一个新的量化模型文件 model.Q4_K_M.gguf。不同的量化方法（如 Q4_0, Q4_1, Q4_K_S, Q4_K_M, Q5_0, Q5_1, Q5_K_S, Q5_K_M, Q8_0, F16, F32）在文件大小、速度和精度之间有不同的权衡。

4. 运行模型进行推理

编译好 llama.cpp 并获取了 GGUF 模型文件后，就可以使用 main 可执行文件来运行模型进行推理了。

进入 llama.cpp 目录，使用以下基本命令格式：

bash ./main -m <模型文件路径> [参数...]

核心参数说明：

-m <模型文件路径>: 必需，指定你要加载的 GGUF 模型文件。
-p "<你的提示词>": 指定一个提示词，模型将基于此生成文本。请注意使用双引号括起来，特别是当提示词包含空格或特殊字符时。
-n <生成长度>: 指定模型生成文本的最大长度（token 数量）。默认通常是 32 或 128。
-ngl <层数> 或 --n-gpu-layers <层数>: 指定要卸载到 GPU 上运行的模型层数。设置为 0 表示所有层都在 CPU 上运行。设置为一个较大的值（例如 999）表示尽可能将所有层卸载到 GPU（前提是显存足够）。根据你的GPU显存大小调整此值。
-c <上下文长度> 或 --ctx-size <上下文长度>: 指定模型处理的上下文长度（token 数量）。更大的上下文长度允许模型处理更长的输入或生成更长的连贯文本，但也需要更多内存。默认值通常是 512 或 2048。
-b <批量大小> 或 --batch-size <批量大小>: 指定每次处理的序列批量大小。更大的批量大小可能提高 GPU 利用率，但也增加显存需求。默认值通常是 512。
--temp <温度>: 控制生成文本的随机性。值越高越随机（更具创造性），值越低越确定（更保守）。范围通常在 0.0 到 1.0 或更高。
--top-k <K值>: 采样策略，限制模型只从概率最高的 K 个 token 中进行采样。
--top-p <P值>: 采样策略，限制模型从概率累积和达到 P 的最小 token 集合中采样。
--repeat-penalty <惩罚值>: 用于惩罚重复的 token，以避免模型陷入循环。值大于 1 会惩罚重复。
--seed <种子值>: 设置随机种子，使得在相同参数和提示词下，模型生成结果具有确定性（方便复现）。
-i 或 --interactive: 启用交互模式。模型会在每次生成后等待你输入新的提示词，形成对话。
--instruct: 启用指令模式（仅适用于经过指令微调的模型，如 Chat 模型）。在这种模式下，你需要按照特定的格式输入指令，main 程序会帮你构建适合模型的输入格式。
--chatml / --llama-2 / --vicuna / 等：指定聊天模板格式，与 --instruct 结合使用，确保输入符合特定模型的要求。

运行示例：

基本问答：

bash ./main -m ./models/your_model.gguf -p "中国的首都是哪里？" -n 128

使用GPU加速（假设你的GPU有足够显存卸载所有层）：

bash ./main -m ./models/your_model.gguf -p "请写一首关于春天的五言绝句。" -n 200 -ngl 999 --temp 0.7

交互式对话：

bash ./main -m ./models/your_chat_model.gguf -i --instruct --chatml -ngl 999
运行此命令后，程序会进入一个交互界面，你可以输入你的问题或指令，按回车发送，模型会生成回复。输入 /bye 或 /exit 退出。

指定上下文长度和批量大小：

bash ./main -m ./models/your_model.gguf -p "请总结以下长文本的主要内容：[粘贴一段很长的文本]" -n 500 -c 4096 -b 1024 -ngl 999
注意：增大 -c 和 -b 会显著增加内存和显存需求。

5. 运行作为服务器

llama.cpp 还提供了一个内置的 HTTP 服务器，可以模拟 OpenAI API 的接口（/v1/completions 和 /v1/chat/completions），这使得它能够与许多支持OpenAI API 的应用或前端界面无缝集成。

编译服务器：

在 llama.cpp 目录下执行：

bash make server
或对于 Windows CMake:
“`bash

在 build 目录下

cmake .. -DLLAMA_CUBLAS=ON -DLLAMA_BUILD_SERVER=ON # 或其他后端
cmake –build . –config Release
`` 成功后会生成server可执行文件（或server.exe`）。

启动服务器：

bash ./server -m ./models/your_chat_model.gguf -c 4096 -ngl 999 --host 0.0.0.0 --port 8080
* -m: 指定模型。
* -c: 上下文长度。
* -ngl: GPU层数。
* --host 0.0.0.0: 服务器监听所有网络接口，允许其他设备访问。如果只想本地访问，可以使用 127.0.0.1 或 localhost。
* --port 8080: 指定服务器端口。

服务器启动后，会显示监听的地址和端口信息。你就可以通过 HTTP 请求与模型交互了。例如，可以使用 curl 或 Python 的 requests 库向 http://localhost:8080/v1/chat/completions 发送 POST 请求进行对话。

与前端界面集成：

许多开源的本地AI聊天界面（如 text-generation-webui, SillyTavern 等）都支持连接 llama.cpp 服务器或直接使用 llama-cpp-python 库作为后端。通过运行 llama.cpp 服务器，你就可以将你的本地模型接入这些功能更丰富、用户界面更友好的应用。

6. 使用 Python 绑定 (llama-cpp-python)

对于希望在 Python 代码中集成 llama.cpp 的开发者或用户，社区提供了 llama-cpp-python 这个非常方便的 Python 库。它提供了 llama.cpp 的功能封装，让你能用熟悉的 Python 语法加载模型、进行推理。

安装：

使用 pip 进行安装。安装时可以指定是否启用 GPU 加速：

“`bash

安装基础版本 (CPU only)

pip install llama-cpp-python

安装带 cuBLAS (NVIDIA GPU) 支持的版本

需要安装对应的 CUDA Toolkit

访问 https://jllllll.github.io/llama-cpp-python-bindings/wheels/ 获取最新的 wheels 链接

例如 (根据你的 CUDA 版本选择):

pip install llama-cpp-python[server] –extra-index-url https://jllllll.github.io/llama-cpp-python-bindings/wheels/cuBLAS_12_1

安装带 Metal (macOS) 支持的版本

pip install llama-cpp-python[server] –extra-index-url https://jllllll.github.io/llama-cpp-python-bindings/wheels/Metal

其他后端类似…

`` 请查阅llama-cpp-python` 的官方文档以获取最新的安装指南和支持的后端列表。

基本使用示例 (Python):

“`python
from llama_cpp import Llama

指定你的 GGUF 模型路径

model_path = “./models/your_chat_model.gguf”

加载模型

n_gpu_layers=-1 表示尽可能将所有层卸载到 GPU (如果支持且安装了对应版本)

n_ctx 指定上下文长度

llm = Llama(model_path=model_path, n_gpu_layers=-1, n_ctx=4096)

进行文本补全

prompt = “请给我讲一个关于人工智能的小故事。”
output = llm(
prompt,
max_tokens=500,
temperature=0.7,
top_k=50,
top_p=0.95,
repeat_penalty=1.1
)

print(output[“choices”][0][“text”])

进行聊天补全 (如果你使用的是聊天模型)

使用 OpenAI 格式的 messages 列表

messages = [
{“role”: “system”, “content”: “你是一个乐于助人的AI助手。”},
{“role”: “user”, “content”: “请问，地球的周长是多少？”}
]

chat_output = llm.create_chat_completion(
messages=messages,
max_tokens=200,
temperature=0.7
)

print(chat_output[“choices”][0][“message”][“content”])
“`

llama-cpp-python 极大地简化了在 Python 环境中使用 llama.cpp 的过程，是构建本地 AI 应用或进行实验的强大工具。

第三部分：硬件选择与性能调优

运行大型语言模型对硬件有一定的要求，了解这些有助于你做出更明智的硬件选择和进行性能调优。

1. CPU vs GPU

CPU： llama.cpp 的核心设计就是为了在 CPU 上高效运行，通过利用现代 CPU 的向量指令集（AVX、AVX2、AVX512 等）实现加速。即使没有强大的独立显卡，很多量化到 4-bit 或 5-bit 的 7B 模型也能在不错的 CPU 上以可接受的速度运行。CPU 的优势在于通用性和较大的内存容量（相对于显存）。
GPU： GPU 在并行计算方面具有天然优势，对于LLM的矩阵乘法等计算非常高效。通过将模型层卸载到 GPU 运行（-ngl 参数），可以大幅提升推理速度，尤其对于较大的模型。GPU 的性能主要取决于其计算能力（TFLOPS）和显存容量（VRAM）。

结论： 独立显卡（尤其是 NVIDIA RTX 系列、AMD RX 系列、Apple Silicon 集成显卡）能显著加速推理过程。显存容量是关键瓶颈，它决定了你能卸载多少层到GPU上，进而影响能流畅运行的模型大小和量化程度。CPU 性能也很重要，特别是对于需要在 CPU 上运行的模型部分或当没有 GPU 可用时。

2. 内存 (RAM) 和显存 (VRAM)

RAM： 用于加载模型文件、存储 KV Cache（保存之前计算的中间状态以提高后续 token 生成速度）以及运行操作系统和其他程序。模型文件越大（取决于模型大小和量化程度），所需的 RAM 也越多。一个 7B 模型（Q4）大约需要 4-5GB RAM，13B 需要 8-10GB，30B 可能需要 20GB+。上下文长度（-c）越大，KV Cache 占用也越多。推荐至少 16GB RAM，最好是 32GB 或更多。
VRAM： 用于在 GPU 上存储模型层和 KV Cache。显存容量直接决定了 -ngl 参数能设置多大。例如，一个 7B Q4 模型完全放入 GPU 可能需要 6-8GB VRAM，13B Q4 可能需要 10-12GB VRAM，更大的模型或更高精度的量化需要更多。如果 VRAM 不足，llama.cpp 会自动将剩余层留在 CPU 上运行。

3. 性能调优技巧：

选择合适的量化模型： 根据你的硬件（特别是显存）选择合适的量化版本（如 Q4_K_M, Q5_K_S）。通常，Q4 或 Q5 量化是速度、大小和精度之间的良好平衡。
调整 -ngl 参数： 尝试不同的 -ngl 值，找到能在你的 GPU 显存下运行且速度最快的配置。可以从 0 开始，逐渐增加，直到报错（显存不足）为止，然后稍微调低一点。对于 Apple Silicon，通常可以设置为一个很大的值（如 999）让 Metal 后端自动管理。
优化 -c 和 -b： 在内存/显存允许的情况下，适当增加上下文长度（-c）以处理更长的文本。批量大小（-b）主要影响 GPU 利用率，可以尝试调整以找到最佳吞吐量。
使用最新代码和驱动： llama.cpp 项目更新非常活跃，性能优化不断进行。定期 git pull 更新代码并重新编译。确保你的显卡驱动也是最新的。
关闭不必要的程序： 释放更多的 RAM 和 VRAM 给模型使用。
考虑硬件升级： 如果现有硬件性能不足，提升 CPU、增加 RAM 或升级显卡（特别是显存容量大的显卡）是提升本地 AI 体验最直接的方式。

第四部分： llama.cpp 的生态与未来

llama.cpp 的成功不仅在于其自身出色的技术实现，更在于其围绕 GGUF 格式构建起来的庞大社区和生态系统。

模型兼容性： 虽然项目起源于 LLaMA，但由于其对 GGUF 格式的通用支持，现在 llama.cpp 已经能够运行绝大多数基于 Transformer 架构的开源模型，包括但不限于 LLaMA、Mistral、Mixtral、Qwen、Yi、Gemma 等，极大地丰富了用户的选择。
上层应用： 许多第三方应用和库都选择 llama.cpp 或 llama-cpp-python 作为其本地推理后端，例如各种 Web UI、桌面聊天应用、甚至是移动端应用，进一步降低了普通用户使用本地AI的门槛。
持续的优化和新特性： 项目维护者和社区成员持续投入精力，不断优化计算核心、增加对新硬件（如新的指令集、新的 GPU 架构）的支持、实现更高级的推理技术（如并行解码、多模型推理）以及向模型的微调等方向发展。

可以说，llama.cpp 已经成为了本地运行大型语言模型的标准之一，并在持续进化，为AI的普惠化和本地化贡献着核心力量。

结论：掌握 llama.cpp，解锁本地AI无限可能

llama.cpp 作为一款杰出的 AI 本地化利器，通过其高效的 C/C++ 实现、创新的量化技术以及强大的跨平台兼容性，打破了大型语言模型对高端硬件和云服务的传统依赖。它让普通用户也能在自己的电脑上运行先进的 LLM，享受隐私保护、随时可用、无需成本的AI体验。

掌握 llama.cpp 的使用，意味着你不仅能体验到本地 AI 的便捷，更能深入了解其工作原理，探索更多定制化和集成的可能性。从基本的命令行推理，到搭建本地 AI 服务器，再到在 Python 项目中集成模型能力，llama.cpp 为你的本地 AI 之旅提供了坚实的基础和无限的可能。

随着技术的不断进步和社区的持续贡献，AI 本地化的未来将更加光明。现在就开始你的 llama.cpp 之旅吧，让 AI 真正为你所用，触手可及！

AI本地化利器：llama.cpp 是什么？如何使用？ – wiki基地

AI 本地化利器：llama.cpp 深度解析与实战指南

Windows (使用 CMake)

假设你已经安装了 CMake 和 Visual Studio (包含 C++ 开发环境) 或 MinGW-w64

创建 build 目录并进入

配置 CMake，启用 CUDA (确保 CUDA 安装路径在 PATH 或由 CMake 找到)

构建项目

或者对于 MinGW-w64

mingw32-make # 或 mingw64-make

在 build 目录下

安装基础版本 (CPU only)

安装带 cuBLAS (NVIDIA GPU) 支持的版本

需要安装对应的 CUDA Toolkit

访问 https://jllllll.github.io/llama-cpp-python-bindings/wheels/ 获取最新的 wheels 链接

例如 (根据你的 CUDA 版本选择):

安装带 Metal (macOS) 支持的版本

其他后端类似…

指定你的 GGUF 模型路径

加载模型

n_gpu_layers=-1 表示尽可能将所有层卸载到 GPU (如果支持且安装了对应版本)

n_ctx 指定上下文长度

进行文本补全

进行聊天补全 (如果你使用的是聊天模型)

使用 OpenAI 格式的 messages 列表

发表评论取消回复

AI 本地化利器：llama.cpp 深度解析与实战指南

Windows (使用 CMake)

假设你已经安装了 CMake 和 Visual Studio (包含 C++ 开发环境) 或 MinGW-w64

创建 build 目录并进入

配置 CMake，启用 CUDA (确保 CUDA 安装路径在 PATH 或由 CMake 找到)

构建项目

或者对于 MinGW-w64

mingw32-make # 或 mingw64-make

在 build 目录下

安装基础版本 (CPU only)

安装带 cuBLAS (NVIDIA GPU) 支持的版本

需要安装对应的 CUDA Toolkit

访问 https://jllllll.github.io/llama-cpp-python-bindings/wheels/ 获取最新的 wheels 链接

例如 (根据你的 CUDA 版本选择):

安装带 Metal (macOS) 支持的版本

其他后端类似…

指定你的 GGUF 模型路径

加载模型

n_gpu_layers=-1 表示尽可能将所有层卸载到 GPU (如果支持且安装了对应版本)

n_ctx 指定上下文长度

进行文本补全

进行聊天补全 (如果你使用的是聊天模型)

使用 OpenAI 格式的 messages 列表

发表评论 取消回复

发表评论取消回复