踏上本地智能之路：DeepSeek R1 完整本地运行深度教程

随着大型语言模型（LLMs）技术的飞速发展，越来越多强大的模型被开源，为个人和企业提供了在本地部署人工智能能力的可能性。DeepSeek AI 推出的 DeepSeek R1 系列模型，以其出色的性能和开放性，成为了社区关注的焦点。在本地运行 LLM 不仅可以保护数据隐私，降低对云服务的依赖和成本，还能根据个人需求进行定制和优化。

本文将为您提供一个详尽的 DeepSeek R1 本地运行教程，从基础概念到硬件要求，从模型选择到多种运行方式的详细步骤，旨在帮助您成功地在自己的机器上启动并运行 DeepSeek R1 模型。

第一章：认识 DeepSeek R1 与本地运行的意义

1.1 什么是 DeepSeek R1？

DeepSeek R1 是由 DeepSeek AI 开发的一系列大型语言模型。它包含了不同规模的模型，例如 DeepSeek-R1-7B 和 DeepSeek-R1-67B，以及它们的指令微调版本（Chat）。这些模型在代码、数学、逻辑推理等多个领域展现出强大的能力。DeepSeek R1 的开源特性，使得研究者、开发者和爱好者可以自由地下载、研究并在本地部署和使用它，极大地推动了相关技术的普及和应用。

1.2 为什么选择在本地运行？

在本地运行 DeepSeek R1 提供了诸多优势：

数据隐私与安全： 您的数据无需上传到第三方云服务，所有处理都在本地完成，最大程度地保护了敏感信息的隐私。
成本效益： 一旦模型部署完成，后续的使用几乎不产生额外的推理费用（除了电费和硬件折旧）。这对于需要频繁使用模型的场景非常有吸引力。
离线可用： 即使没有互联网连接，您也可以随时随地使用模型进行推理和生成。
低延迟： 数据无需在本地和远程服务器之间传输，推理过程通常具有更低的延迟，响应速度更快。
高度定制化与控制： 您可以完全控制模型的运行环境、推理参数，甚至可以对模型进行进一步的微调，以适应特定的任务或领域。

当然，本地运行也有其挑战，最主要的是对硬件的要求，特别是显卡（GPU）及其显存（VRAM）。高性能的模型需要大量的计算资源。

第二章：准备工作——硬件与软件环境

成功在本地运行 DeepSeek R1，充分的准备是关键。

2.1 硬件要求：显卡是核心

大型语言模型的计算主要依赖于矩阵乘法，这正是 GPU 的强项。显存（VRAM）则是决定您能加载多大模型以及何种精度模型的关键因素。

GPU (图形处理器): 强烈建议使用 NVIDIA GPU，因为 CUDA 生态系统是目前 AI 计算领域最成熟、支持最好的平台。AMD 和 Intel 的 GPU 正在迎头赶上，但兼容性和性能可能不如 NVIDIA。
VRAM (显存): 这是最重要的指标。
- DeepSeek-R1-7B (BF16/FP16): 需要约 14-16GB VRAM。
- DeepSeek-R1-7B (INT8 量化): 需要约 7-8GB VRAM。
- DeepSeek-R1-7B (INT4 量化): 需要约 4-5GB VRAM。
- DeepSeek-R1-67B (BF16/FP16): 需要约 130-140GB VRAM。这通常需要专业级显卡（如 A100, H100）或多张消费级高端显卡通过 NVLink 连接。
- DeepSeek-R1-67B (INT8 量化): 需要约 65-70GB VRAM。
- DeepSeek-R1-67B (INT4 量化): 需要约 33-35GB VRAM。
- 注意： 上述 VRAM 需求是大致估计，实际需求可能因具体的实现框架、优化技术和批量大小略有不同。对于大部分个人用户而言，运行完整的 67B 模型挑战巨大，7B 模型及其量化版本是更现实的选择。
RAM (内存): 建议至少 16GB，如果需要加载大模型或者同时运行其他程序，32GB 或更多会更好。特别是在使用 GGUF 等格式，部分模型层可能 offload（卸载）到 CPU 内存时，充足的 RAM 尤为重要。
存储空间: 模型文件体积较大。DeepSeek-R1-7B 的原始 FP16 模型约 14GB，67B 模型更是高达 130GB+。量化版本会小很多，但仍需要数十 GB 到几百 GB 不等的空间。确保您有足够的硬盘空间（推荐 SSD 以加快加载速度）。
CPU: 相对于 GPU 和 VRAM，CPU 的要求不是特别苛刻，但一个现代的多核 CPU 可以提高数据预处理、后处理以及在某些情况下（如 GGUF 的 CPU offload）的性能。

2.2 软件环境：操作系统与基础库

操作系统: Windows 10/11, macOS (Apple Silicon M系列芯片有特定支持), Linux (Ubuntu, CentOS 等) 均可。Linux 通常在驱动和软件兼容性方面对 AI 开发更友好。
NVIDIA 驱动: 如果使用 NVIDIA GPU，请确保安装了最新稳定版本的驱动程序。这是使用 CUDA 的前提。
CUDA Toolkit: 需要安装与您的驱动版本兼容的 CUDA Toolkit。这是 NVIDIA 用于 GPU 加速计算的平台和 API。
cuDNN: CUDA 深度神经网络库，用于加速深度学习原语。通常与 CUDA Toolkit 一起安装或作为其一部分。
Python: 推荐使用 Python 3.8 或更高版本。建议使用虚拟环境（如 venv 或 conda）来管理项目依赖，避免冲突。
Git: 用于克隆代码仓库。
必要 Python 库: 核心库包括 torch (PyTorch) 或 tensorflow，以及 Hugging Face 的 transformers, accelerate, sentencepiece 等。对于不同的运行方法，可能还需要其他库（如 bitsandbytes, llama-cpp-python）。

第三章：模型选择与下载

DeepSeek R1 系列提供了多种模型：

deepseek-ai/DeepSeek-R1-7B (基础模型)
deepseek-ai/DeepSeek-R1-7B-Chat (聊天模型)
deepseek-ai/DeepSeek-R1-67B (基础模型)
deepseek-ai/DeepSeek-R1-67B-Chat (聊天模型)

根据您的硬件条件（特别是 VRAM），您需要选择合适的模型版本和精度。对于大多数个人用户，DeepSeek-R1-7B 是更现实的选择。

3.1 理解模型精度与量化

FP16/BF16: 全精度或半精度浮点数。这是模型原始训练的精度，通常提供最佳性能，但占用显存最多。
INT8/INT4 等量化版本: 将模型的权重和/或激活值从浮点数转换为整数。这会显著减少模型大小和显存占用，同时尽量保持性能。量化是个人用户在消费级硬件上运行大模型的关键技术。

3.2 下载模型文件

最常用的模型下载方式是通过 Hugging Face Hub。Hugging Face 的 transformers 库会自动处理模型的下载和缓存。

使用 transformers 库（推荐）：

当您使用 AutoModelForCausalLM.from_pretrained() 或 AutoTokenizer.from_pretrained() 方法加载模型时，如果本地缓存中没有对应的文件，库会自动从 Hugging Face Hub 下载。

例如，加载 DeepSeek-R1-7B-Chat 模型：

“`python
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = “deepseek-ai/DeepSeek-R1-7B-Chat”

加载 tokenizer

tokenizer = AutoTokenizer.from_pretrained(model_name)

加载模型 (会自动下载如果不存在)

device_map=”auto” 会自动将模型层分配到可用的设备 (GPU/CPU)

torch_dtype=torch.bfloat16 或 torch.float16 可以指定加载精度，取决于你的硬件是否支持 BF16

对于 VRAM 不足的情况，可以尝试加载量化版本（见后文）

import torch
model = AutoModelForCausalLM.from_pretrained(model_name, device_map=”auto”, torch_dtype=torch.bfloat16)

模型文件将下载到 Hugging Face 缓存目录 (通常在 ~/.cache/huggingface/transformers)

“`

首次运行时，这一步会进行下载。您可以监控下载进度。

下载 GGUF 格式模型（适用于 Llama.cpp 等框架）：

GGUF 是一种为 Llama.cpp 及其衍生项目设计的模型格式，专门针对 CPU 推理和高效 GPU Offloading 进行了优化。许多社区成员会将流行的模型转换为 GGUF 格式并发布到 Hugging Face Hub。

您可以在 Hugging Face Hub 上搜索 deepseek R1 gguf，通常会找到社区贡献的版本（例如由 TheBloke 等用户转换的模型）。直接下载 .gguf 格式的文件即可。

例如，搜索到 TheBloke/DeepSeek-R1-7B-Chat-GGUF 这样的仓库，在其 “Files and versions” 页面下载适合您硬件的 .gguf 文件（不同的 q_k_m.gguf 文件代表不同的量化级别）。

第四章：本地运行 DeepSeek R1 的方法

有多种方法可以在本地运行 DeepSeek R1 模型，每种方法都有其特点和适用场景。

4.1 方法一：使用 Hugging Face `transformers` 库 (推荐入门)

这是最直接、最灵活的方法，充分利用了 Hugging Face 生态系统的便利性。

前提:

已安装 Python, pip, torch, transformers, accelerate, sentencepiece。
已安装 CUDA Toolkit (如果使用 NVIDIA GPU)。
足够的 VRAM。

安装必要的库:

“`bash
pip install torch transformers accelerate sentencepiece

对于更高效的量化加载 (如 INT8), 可能还需要 bitsandbytes

pip install bitsandbytes

如果需要支持 bfloat16 但硬件不支持，transformers 会自动回退或报错。

检查你的 NVIDIA GPU 是否支持 BF16 (通常是 Turing 架构及以后，RTX 30系列，A系列等)

“`

编写 Python 代码进行文本生成：

“`python
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

1. 定义模型名称

model_name = “deepseek-ai/DeepSeek-R1-7B”

model_name = “deepseek-ai/DeepSeek-R1-7B-Chat” # 使用聊天模型更常见

2. 加载 Tokenizer

print(f”Loading tokenizer for {model_name}…”)
tokenizer = AutoTokenizer.from_pretrained(model_name)
print(“Tokenizer loaded.”)

3. 加载模型

device_map=”auto” 会智能地将模型层分配到 GPU 和 CPU。

torch_dtype 可以根据你的 GPU 支持和 VRAM 选择 torch.float16 或 torch.bfloat16。

如果 VRAM 不足，可以尝试加载量化模型 (见下文)

print(f”Loading model {model_name}…”)
try:
model = AutoModelForCausalLM.from_pretrained(
model_name,
device_map=”auto”, # 自动分配设备
torch_dtype=torch.bfloat16 if torch.cuda.is_available() and torch.cuda.get_device_capability()[0] >= 8 else torch.float16 # 优先 BF16
# 如果 VRAM 不足且想尝试 INT8 量化，可以添加:
# load_in_8bit=True
# 如果 VRAM 更不足且想尝试 INT4 量化，可以添加:
# load_in_4bit=True
# 注意：使用 load_in_8bit/4bit 需要 bitsandbytes 库且通常只支持 PyTorch
)
print(“Model loaded.”)
except Exception as e:
print(f”Error loading model: {e}”)
print(“Please check your VRAM, CUDA setup, and try a smaller model or different precision/quantization.”)
exit()

4. 定义输入 Prompt

对于 Chat 模型，通常需要按照特定的对话模板构建输入。

DeepSeek 的聊天模板通常是 <｜begin of sentence｜>user\n{prompt}<｜end of sentence｜>\nassistant\n

您可以通过 tokenizer.apply_chat_template 自动构建

if “Chat” in model_name:
messages = [
{“role”: “user”, “content”: “介绍一下大型语言模型。”}
]
input_text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
else:
# 对于基础模型，直接使用文本 prompt
input_text = “大型语言模型是指”

print(“\n— Generating Text —“)
print(f”Input Prompt:\n{input_text}”)

5. 对输入进行编码

input_ids = tokenizer(input_text, return_tensors=”pt”).input_ids

确保 input_ids 在正确的设备上 (与模型设备一致)

if model.device.type == ‘cuda’:
input_ids = input_ids.to(‘cuda’)

6. 生成文本

这里有很多参数可以控制生成行为

max_new_tokens: 最多生成多少个 token

num_beams: 使用 Beam Search (大于1), 增加生成质量但消耗更多计算

do_sample: 是否使用采样 (True) 或确定性生成 (False)

temperature: 控制采样随机性 (越高越随机，越低越确定)

top_k, top_p: 控制采样范围

repetition_penalty: 惩罚重复的 token

generation_output = model.generate(
input_ids,
max_new_tokens=200, # 生成的最大 token 数
num_beams=1, # 使用贪婪搜索或采样 (这里是1，通常配合do_sample)
do_sample=True, # 开启采样
temperature=0.7, # 采样温度
top_k=50, # Top-K 采样
top_p=0.95, # Top-P 采样
repetition_penalty=1.1 # 重复惩罚
# 对于聊天模型，可能需要设置 eos_token_id 停止生成
# eos_token_id=tokenizer.eos_token_id # 或者模型特定的停止 token ID
# pad_token_id=tokenizer.pad_token_id if tokenizer.pad_token_id is not None else tokenizer.eos_token_id # 避免警告
)

7. 解码生成的 token

generated_text = tokenizer.decode(generation_output[0][input_ids.shape[-1]:], skip_special_tokens=True)

print(“\n— Generated Output —“)
print(generated_text)

“`

使用量化模型加载：

如果 VRAM 不足，您可以尝试加载社区提供的量化模型或使用 bitsandbytes 库在加载时进行量化。

加载社区量化模型: 搜索 Hugging Face Hub，找到已经量化好的 DeepSeek R1 版本 (例如，由 TheBloke 等用户发布的 AWQ, GPTQ 或 INT8 版本)。这些模型仓库通常会说明如何加载。加载方式类似原始模型，但 from_pretrained 可能需要额外的参数或安装特定的量化库 (如 auto-gptq, autoawq)。

“`python

示例：加载 GPTQ 量化模型 (需要安装 auto-gptq)

pip install auto-gptq optimum

from transformers import AutoModelForCausalLM, AutoTokenizer, GPTQConfig

model_name_quantized = “TheBloke/DeepSeek-Coder-V2-Lite-7B-Chat-GPTQ” # 示例模型名

DeepSeek R1 7B GPTQ 模型可能在其他仓库，请自行搜索

quantization_config = GPTQConfig(bits=4, disable_exllama=True) # 根据模型说明调整参数

tokenizer = AutoTokenizer.from_pretrained(model_name_quantized)
model = AutoModelForCausalLM.from_pretrained(
model_name_quantized,
quantization_config=quantization_config,
device_map=”auto”
)

然后像之前一样使用模型进行生成

“`
使用 bitsandbytes 进行动态量化加载 (INT8 或 NF4): 这是 transformers 库支持的一种方便的量化方式。

“`python

需要安装 bitsandbytes, accelerate, transformers, torch

pip install bitsandbytes accelerate transformers torch

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = “deepseek-ai/DeepSeek-R1-7B-Chat” # 或其他 DeepSeek R1 模型

tokenizer = AutoTokenizer.from_pretrained(model_name)

使用 load_in_8bit=True 或 load_in_4bit=True 进行动态量化

对于 4bit，load_in_4bit=True 会默认使用 NF4 量化，也可以通过 quantization_config 指定其他类型

print(f”Loading model {model_name} with 4-bit quantization…”)
try:
model = AutoModelForCausalLM.from_pretrained(
model_name,
device_map=”auto”,
load_in_4bit=True # 或 load_in_8bit=True
)
print(“Model loaded with quantization.”)
except Exception as e:
print(f”Error loading quantized model: {e}”)
print(“Ensure bitsandbytes is correctly installed and compatible with your CUDA setup.”)
exit()

后续的编码和生成过程与之前相同

… (参考上面的代码)

“`

优点:

易于上手，代码简洁。
高度灵活，支持多种模型、精度和生成参数。
与 Hugging Face 生态系统无缝集成。
支持多种优化技术 (如 accelerate, bitsandbytes)。

缺点:

对 VRAM 需求相对较高，即使是量化加载，也可能不如专门的 CPU/GPU 混合框架高效。
纯 CPU 推理性能不高。

4.2 方法二：使用 Llama.cpp 及其 GGUF 格式

Llama.cpp 是一个针对 Llama 及其衍生模型（包括许多兼容模型，如 DeepSeek R1）的高性能 C/C++ 实现，特别优化了在 CPU 上的推理性能，并支持利用 GPU 进行部分或全部计算（称为 Offloading）。它使用 GGUF 格式的模型文件，这种格式比原始模型文件更小，加载更高效。

前提:

已安装 Git, CMake (构建 C++ 项目), C++ 编译器 (如 GCC, Clang)。
已安装 CUDA Toolkit (如果使用 NVIDIA GPU 并希望开启 GPU 加速)。
已下载 DeepSeek R1 的 GGUF 格式模型文件。

步骤：

克隆 Llama.cpp 仓库:

bash git clone https://github.com/ggerganov/llama.cpp.git cd llama.cpp
编译 Llama.cpp:
- 纯 CPU 模式 (最简单):
  bash make
- 带 CUDA 加速 (推荐使用 NVIDIA GPU):
  bash # 对于 Linux/macOS make LLAMA_CUBLAS=1 # 对于 Windows (使用 Visual Studio) # 需要先打开x64 Native Tools Command Prompt for VS 20XX # cmake -G "Visual Studio 17 2022" .. -DLLAMA_CUBLAS=on # cmake --build . --config Release
- 带其他后端加速 (如 CLBlast for OpenCL, HipBLAS for AMD): 参考 Llama.cpp 仓库的 README.md 文件。
下载 GGUF 模型: 前往 Hugging Face Hub，搜索 DeepSeek R1 的 GGUF 版本（例如 TheBloke/DeepSeek-R1-7B-Chat-GGUF），下载适合您硬件的 .gguf 文件到 llama.cpp 目录下（或者其他你方便的位置，后续指定路径）。例如，下载 deepseek-r1-7b-chat.Q4_K_M.gguf。
运行模型 (命令行):
编译成功后，会在 llama.cpp 目录下生成可执行文件 main (Linux/macOS) 或 main.exe (Windows)。使用 main 程序和下载的 GGUF 模型文件进行推理。

“`bash

示例命令：运行 DeepSeek-R1-7B-Chat 的 Q4_K_M 量化版本

请将 /path/to/your/model.gguf 替换为你下载的 GGUF 文件路径

-m: 指定模型文件

-p: 指定 prompt

-n: 指定生成 token 数

–chatml: 如果是 Chat 模型，使用 ChatML 模板（DeepSeek R1 Chat 使用类似模板）

-ngl: 指定 offload 到 GPU 的层数 (只在编译时开启 GPU 加速后可用，-1 表示全部层)

./main -m /path/to/your/deepseek-r1-7b-chat.Q4_K_M.gguf –chatml -p “介绍一下大型语言模型。” -n 256 –temp 0.7 -ngl 35 # 示例 -ngl 35，根据你的显卡 VRAM 调整
“`
- -ngl <layers> (Number of GPU layers): 这个参数非常重要，它决定了模型有多少层被加载到 GPU 上运行。设置 -ngl -1 尝试将所有层 offload 到 GPU。如果 VRAM 不足，可以尝试减小这个数字（例如 -ngl 20, -ngl 10），剩余的层会在 CPU 上运行。这是一种混合运行模式，可以显著降低 VRAM 需求，但会增加 RAM 需求并可能降低速度（取决于 CPU 性能和 offload 的层数）。你需要根据你的显卡 VRAM 进行实验来找到最佳值。
- --chatml: 告诉程序使用 ChatML 格式处理输入 prompt，这与 DeepSeek R1 Chat 的对话模板兼容。

使用 llama-cpp-python (Python 绑定):

如果您想在 Python 代码中使用 Llama.cpp 的高效推理能力，可以使用 llama-cpp-python 库。

安装 llama-cpp-python:

安装时可以指定是否开启 GPU 加速。

“`bash

纯 CPU 版本

pip install llama-cpp-python

带 CUDA 加速 (需要正确安装 CUDA Toolkit)

查找你的 CUDA 版本，例如 CUDA 11.8

pip install llama-cpp-python –force-reinstall –no-cache-dir –verbose –config-settings “cmake.define.LLAMA_CUBLAS=on”

对于 CUDA 12.x

pip install llama-cpp-python –force-reinstall –no-cache-dir –verbose –config-settings “cmake.define.LLAMA_CUBLAS=on” –config-settings “CMAKE_ARGS=-DLLAMA_CUBLAS=on -DLLAMA_CUDA_DOCKER=off”

根据你的具体环境和 CUDA 版本，安装命令可能有所不同，请参考 llama-cpp-python 的官方文档。

“`

编写 Python 代码进行文本生成：

“`python
from llama_cpp import Llama

1. 指定 GGUF 模型文件路径

model_path = “/path/to/your/deepseek-r1-7b-chat.Q4_K_M.gguf” # 替换为你的文件路径

2. 初始化 Llama 模型

n_gpu_layers: 指定 offload 到 GPU 的层数 (-1 表示全部，0 表示不使用 GPU)

n_ctx: 上下文长度，根据需要调整

chat_format: 指定聊天模板格式

print(f”Loading model from {model_path}…”)
try:
llm = Llama(
model_path=model_path,
n_gpu_layers=35, # 示例值，根据你的显卡 VRAM 调整
n_ctx=2048, # 上下文长度
chat_format=”chatml” # 使用 chatml 格式，与 DeepSeek R1 Chat 兼容
)
print(“Model loaded with llama-cpp-python.”)
except Exception as e:
print(f”Error loading model: {e}”)
print(“Please check the model path, GGUF file integrity, and n_gpu_layers setting.”)
exit()

3. 定义输入 Prompt (使用 ChatML 格式)

messages = [
{“role”: “user”, “content”: “介绍一下大型语言模型。”}
]

4. 进行聊天补全

print(“\n— Generating Text —“)
print(f”Input Prompt (messages): {messages}”)

try:
output = llm.create_chat_completion(
messages=messages,
max_tokens=200,
temperature=0.7,
top_k=50,
top_p=0.95,
repeat_penalty=1.1
)

# 解析输出
generated_text = output['choices'][0]['message']['content']
print("\n--- Generated Output ---")
print(generated_text)

except Exception as e:
print(f”Error during generation: {e}”)

“`

优点:

高效: 特别优化了 CPU 推理，GGUF 格式加载快。
VRAM 友好: 支持灵活的 GPU Offloading，可以在 VRAM 有限的设备上运行更大的模型。
跨平台: 支持多种操作系统和硬件后端。
社区活跃: GGUF 模型资源丰富。

缺点:

初始设置（编译）可能比纯 Python 库略复杂。
对模型格式有限制（必须是 GGUF）。
生成参数的控制可能不如 Hugging Face transformers 库那么全面或直观（但核心参数都支持）。

4.3 方法三：使用 Oobabooga Text Generation WebUI (用户友好 GUI)

Oobabooga 的 WebUI 是一个功能丰富的、基于浏览器的界面，支持加载和运行多种大型语言模型，包括 DeepSeek R1。它底层集成了 Hugging Face transformers、Llama.cpp 等多种加载后端，提供了便捷的图形界面进行模型管理、参数调整、聊天等操作。

前提:

已安装 Git, Python 3.10 或 3.11 (推荐)。
足够的硬件资源。
（推荐）安装了 CUDA Toolkit (如果使用 NVIDIA GPU)。

安装步骤 (通常非常简单):

克隆 WebUI 仓库:
bash git clone https://github.com/oobabooga/text-generation-webui.git cd text-generation-webui
运行安装脚本: WebUI 提供了一个安装脚本，会自动检测你的系统和硬件，并安装所有必要的依赖。
- Linux/macOS: ./start_linux.sh 或 ./start_macos.sh
- Windows: start_windows.bat
运行脚本后，它会询问你要安装哪些后端（如 transformers, llama.cpp），以及是否开启 GPU 加速。根据你的需求和硬件选择。安装过程可能需要下载大量依赖，耗时较长。
下载模型 (通过 WebUI): 安装完成后，运行启动脚本 (start_linux.sh, start_windows.bat 等) 来启动 WebUI。在浏览器中打开显示的地址 (通常是 http://127.0.0.1:7860)。
- 在 “Model” 标签页，输入 DeepSeek R1 的模型名称 (如 deepseek-ai/DeepSeek-R1-7B-Chat) 或 GGUF 模型的 Hugging Face 仓库名 (如 TheBloke/DeepSeek-R1-7B-Chat-GGUF)。
- 选择加载方式 (Load in 8bit, 4bit, GPTQ, AWQ for transformers backend; 或者选择 llama.cpp 并指定 -ngl 参数)。
- 点击 “Download” 下载模型文件。下载完成后，点击 “Load” 加载模型。
使用 WebUI: 模型加载成功后，切换到 “Chat” 或 “Generate” 标签页，就可以通过图形界面与模型进行交互、调整生成参数了。

优点:

用户友好: 提供直观的图形界面，无需编写代码。
功能丰富: 集成多种后端、支持多种模型格式和量化方法。
易于实验: 可以方便地切换模型、调整参数。
插件生态: 支持多种扩展功能。

缺点:

安装过程有时会遇到依赖问题。
相比纯代码方式，自动化和集成到其他应用的灵活性较低（尽管提供了 API）。
可能不如纯 Llama.cpp 在极低 VRAM 情况下的性能表现好（取决于其集成和优化程度）。

第五章：性能优化与常见问题

5.1 性能优化技巧

选择合适的量化级别: 在 VRAM 允许的情况下，尽量选择精度较高的量化 (如 INT8 > INT4)，以在性能和模型大小之间取得平衡。
GPU Offloading (Llama.cpp): 利用 -ngl 参数将尽可能多的层 offload 到 GPU，但要确保不超过 VRAM 容量。监控 GPU 使用率和 VRAM 占用 (nvidia-smi) 来找到最佳值。
使用 FlashAttention: 对于支持的模型和硬件，安装 FlashAttention 库可以显著加速注意力机制的计算，降低显存占用。但这需要特定的硬件 (如支持 BF16 的 GPU) 和编译环境。
调整生成参数:
- 减小 max_new_tokens 可以让生成更快，但输出会变短。
- num_beams > 1 会提高生成质量，但计算量会显著增加，降低速度。对于实时交互，通常设置为 1 或配合采样使用。
- 批量推理 (Batching): 如果需要一次处理多个 prompt，使用批量推理可以更充分地利用 GPU 资源，提高总吞吐量（但单个 prompt 的延迟可能不变）。

5.2 常见问题与故障排除

VRAM 不足 (CUDA out of memory):
- 原因: 尝试加载的模型或 offload 的层数超过了显卡的 VRAM 容量。
- 解决方案:
  - 使用更高强度的量化模型 (如 Q4_K_M 替代 Q5_K_M, INT4 替代 INT8)。
  - 使用 Llama.cpp 并减少 -ngl 参数的值，将更多层保留在 CPU。
  - 更换 VRAM 更大的显卡。
  - 尝试更小的模型 (如 DeepSeek-R1-7B 替代 67B)。
CUDA 驱动或 Toolkit 问题:
- 原因: 驱动版本与 CUDA Toolkit 不兼容，或 CUDA Toolkit 安装有问题。
- 解决方案:
  - 确保安装了与您的驱动版本兼容的 CUDA Toolkit。
  - 检查 nvcc --version 和 nvidia-smi 的输出，确认它们是否正常工作并显示正确的版本信息。
  - 重新安装驱动和 CUDA Toolkit。
  - 确保 PyTorch 或 TensorFlow 版本支持您安装的 CUDA 版本。
模型加载错误:
- 原因: 模型文件损坏、路径错误、缺少必要的库（如 bitsandbytes、auto-gptq 等），或者模型格式不兼容。
- 解决方案:
  - 重新下载模型文件。
  - 检查模型路径是否正确。
  - 确保安装了加载特定量化格式所需的库。
  - 确认使用的加载方法与模型格式兼容 (例如，.gguf 文件应该用 Llama.cpp 或其封装加载)。
生成输出不符合预期:
- 原因: prompt 设计不清晰，生成参数设置不当 (如 temperature 过高导致输出随机，repetition_penalty 过低导致重复)。
- 解决方案:
  - 优化 prompt 的措辞，使其更明确。
  - 调整生成参数 (如降低 temperature, 增加 repetition_penalty, 调整 top_k/top_p)。
  - 如果是聊天模型，确保输入遵循了正确的对话模板。
Python 依赖冲突:
- 原因: 不同库需要不同版本的同一个依赖。
- 解决方案: 使用虚拟环境 (venv 或 conda) 来隔离项目依赖。在干净的虚拟环境中重新安装所需库。

第六章：总结与展望

恭喜您！通过本文的详细教程，您应该已经对如何在本地运行 DeepSeek R1 模型有了全面的了解，并掌握了使用 Hugging Face transformers 和 Llama.cpp 两种主流方法的具体步骤。无论是追求灵活性和易用性，还是极致的效率和低 VRAM 需求，您都可以选择适合自己的方式。

本地运行大型语言模型不仅仅是简单的部署，它打开了通往个性化 AI 应用的大门。您可以基于 DeepSeek R1 构建本地的知识问答系统、智能助手、创意写作工具，甚至将其集成到更复杂的自动化流程中。

请记住，AI 技术发展日新月异，新的模型、优化技术和工具层出不穷。保持学习和探索的热情，参考 DeepSeek AI 官方文档、Hugging Face 文档以及开源社区的讨论，您将能够更好地驾驭 DeepSeek R1 以及未来的更多强大的开源模型。

祝您在本地部署 DeepSeek R1 的旅程顺利，尽情享受本地 AI 带来的便利与乐趣！

踏上本地智能之路：DeepSeek R1 完整本地运行深度教程

第一章：认识 DeepSeek R1 与本地运行的意义

1.1 什么是 DeepSeek R1？

1.2 为什么选择在本地运行？

第二章：准备工作——硬件与软件环境

2.1 硬件要求：显卡是核心

2.2 软件环境：操作系统与基础库

第三章：模型选择与下载

3.1 理解模型精度与量化

3.2 下载模型文件

加载 tokenizer

加载模型 (会自动下载如果不存在)

device_map=”auto” 会自动将模型层分配到可用的设备 (GPU/CPU)

torch_dtype=torch.bfloat16 或 torch.float16 可以指定加载精度，取决于你的硬件是否支持 BF16

对于 VRAM 不足的情况，可以尝试加载量化版本（见后文）

模型文件将下载到 Hugging Face 缓存目录 (通常在 ~/.cache/huggingface/transformers)

第四章：本地运行 DeepSeek R1 的方法

4.1 方法一：使用 Hugging Face transformers 库 (推荐入门)

对于更高效的量化加载 (如 INT8), 可能还需要 bitsandbytes

如果需要支持 bfloat16 但硬件不支持，transformers 会自动回退或报错。

检查你的 NVIDIA GPU 是否支持 BF16 (通常是 Turing 架构及以后，RTX 30系列，A系列等)

1. 定义模型名称

model_name = “deepseek-ai/DeepSeek-R1-7B”

2. 加载 Tokenizer

3. 加载模型

device_map=”auto” 会智能地将模型层分配到 GPU 和 CPU。

torch_dtype 可以根据你的 GPU 支持和 VRAM 选择 torch.float16 或 torch.bfloat16。

如果 VRAM 不足，可以尝试加载量化模型 (见下文)

4. 定义输入 Prompt

对于 Chat 模型，通常需要按照特定的对话模板构建输入。

DeepSeek 的聊天模板通常是 <｜begin of sentence｜>user\n{prompt}<｜end of sentence｜>\nassistant\n

您可以通过 tokenizer.apply_chat_template 自动构建

5. 对输入进行编码

确保 input_ids 在正确的设备上 (与模型设备一致)

6. 生成文本

这里有很多参数可以控制生成行为

max_new_tokens: 最多生成多少个 token

num_beams: 使用 Beam Search (大于1), 增加生成质量但消耗更多计算

do_sample: 是否使用采样 (True) 或确定性生成 (False)

temperature: 控制采样随机性 (越高越随机，越低越确定)

top_k, top_p: 控制采样范围

repetition_penalty: 惩罚重复的 token

7. 解码生成的 token

示例：加载 GPTQ 量化模型 (需要安装 auto-gptq)

pip install auto-gptq optimum

DeepSeek R1 7B GPTQ 模型可能在其他仓库，请自行搜索

然后像之前一样使用模型进行生成

需要安装 bitsandbytes, accelerate, transformers, torch

pip install bitsandbytes accelerate transformers torch

使用 load_in_8bit=True 或 load_in_4bit=True 进行动态量化

对于 4bit，load_in_4bit=True 会默认使用 NF4 量化，也可以通过 quantization_config 指定其他类型

后续的编码和生成过程与之前相同

… (参考上面的代码)

4.2 方法二：使用 Llama.cpp 及其 GGUF 格式

示例命令：运行 DeepSeek-R1-7B-Chat 的 Q4_K_M 量化版本

请将 /path/to/your/model.gguf 替换为你下载的 GGUF 文件路径

-m: 指定模型文件

-p: 指定 prompt

-n: 指定生成 token 数

–chatml: 如果是 Chat 模型，使用 ChatML 模板（DeepSeek R1 Chat 使用类似模板）

-ngl: 指定 offload 到 GPU 的层数 (只在编译时开启 GPU 加速后可用，-1 表示全部层)

纯 CPU 版本

带 CUDA 加速 (需要正确安装 CUDA Toolkit)

查找你的 CUDA 版本，例如 CUDA 11.8

pip install llama-cpp-python –force-reinstall –no-cache-dir –verbose –config-settings “cmake.define.LLAMA_CUBLAS=on”

对于 CUDA 12.x

根据你的具体环境和 CUDA 版本，安装命令可能有所不同，请参考 llama-cpp-python 的官方文档。

1. 指定 GGUF 模型文件路径

2. 初始化 Llama 模型

n_gpu_layers: 指定 offload 到 GPU 的层数 (-1 表示全部，0 表示不使用 GPU)

n_ctx: 上下文长度，根据需要调整

chat_format: 指定聊天模板格式

3. 定义输入 Prompt (使用 ChatML 格式)

4. 进行聊天补全

4.3 方法三：使用 Oobabooga Text Generation WebUI (用户友好 GUI)

第五章：性能优化与常见问题

5.1 性能优化技巧

5.2 常见问题与故障排除

第六章：总结与展望

发表评论 取消回复

4.1 方法一：使用 Hugging Face `transformers` 库 (推荐入门)

发表评论取消回复