Ollama 本地运行大模型指南：释放个人计算能力

近年来，大型语言模型（LLMs）以其惊人的文本生成、问答、翻译和创意写作能力，彻底改变了我们与人工智能互动的方式。然而，大多数功能强大的 LLMs 都运行在云端服务器上，这带来了数据隐私、高昂的 API 调用费用以及离线使用限制等问题。对于许多用户和开发者而言，能够在本地计算机上运行这些模型具有巨大的吸引力。

过去，在本地设置和运行大模型是一个复杂且耗时的过程，需要处理模型权重、依赖库、框架兼容性等诸多技术细节。幸运的是，Ollama 的出现极大地简化了这一过程。Ollama 是一个开源工具，它将大模型的打包、分发和运行本地化、简单化，让普通用户和开发者都能轻松在自己的设备上体验 LLMs 的强大。

本文将为您提供一份详细的 Ollama 本地运行大模型指南，涵盖从安装、模型下载到基本使用和高级配置的全过程，帮助您充分利用个人计算资源，玩转本地大模型。

一、为何选择 Ollama 在本地运行大模型？

在深入了解如何使用 Ollama 之前，我们先来探讨一下为什么它是本地运行大模型的优秀选择：

极致的易用性： Ollama 提供了一键式安装程序（macOS, Windows）或简单的脚本（Linux），安装完成后，只需一个命令即可下载和运行模型。
丰富的模型库： Ollama 仓库中包含了众多主流的开源大模型，如 Llama 2、Mistral、Gemma、Yi、Qwen 等，并且社区不断贡献新的模型变体。
跨平台支持： Ollama 支持 macOS（Apple Silicon 和 Intel）、Windows 和 Linux，覆盖了绝大多数个人电脑用户。
优化的性能： Ollama 利用了现代计算机的硬件加速能力，特别是 GPU（图形处理器），以实现更快的推理速度。它支持 NVIDIA CUDA、AMD ROCm（部分Linux）和 Apple Metal。
强大的 API 接口： 除了命令行交互，Ollama 还提供了一套 REST API，方便开发者将其集成到自己的应用程序中，进行文本生成、聊天、嵌入等操作。
模型定制能力： 通过 Modelfile 文件，用户可以轻松地基于现有模型进行定制，修改系统提示、参数设置，甚至合并多个模型。
活跃的社区： Ollama 拥有一个活跃的社区，不断更新模型，提供支持，并开发新的功能。

总而言之，Ollama 极大地降低了本地运行大模型的门槛，让这项技术变得触手可及。

二、开始之前：硬件和系统要求

虽然 Ollama 简化了软件层面的复杂性，但运行大模型对硬件依然有一定的要求。模型的规模越大，需要的计算资源就越多。

操作系统：
- macOS (Silicon 或 Intel)
- Windows 10 或更高版本 (建议 Windows 11)
- Linux (支持 systemd 的主流发行版，如 Ubuntu、Fedora、Debian 等)
内存 (RAM)：
- 至少 8GB RAM：可以运行较小的模型（如 3B 参数量或更小的量化模型）。
- 推荐 16GB RAM：可以运行中等大小的模型（如 7B 参数量）。
- 建议 32GB+ RAM：适合运行更大的模型（如 13B 参数量）或同时运行多个模型。
- 注意：模型的参数量越大，以及非量化模型，对内存的需求越高。
存储空间 (Disk Space)：
- 您需要足够的硬盘空间来存储下载的模型文件。一个 7B 参数量的量化模型可能占用 4GB 左右的空间，而 70B 参数量的模型可能需要 40GB 或更多。请根据您计划使用的模型大小预留空间。
图形处理器 (GPU) – 强烈推荐：
- GPU 是加速大模型推理的关键硬件。虽然 Ollama 可以在只有 CPU 的情况下运行模型，但速度会非常慢。
- NVIDIA GPU： 需要支持 CUDA 的较新显卡。显存 (VRAM) 是最重要的指标。
  - 至少 6GB VRAM：可以勉强运行一些小的量化模型。
  - 推荐 8GB+ VRAM：可以更好地运行 7B 参数量模型。
  - 建议 12GB+ VRAM：适合运行 13B 参数量模型。
  - 16GB+ VRAM：可以尝试运行 30B 参数量模型。
  - 40GB+ VRAM：可以尝试运行 70B 参数量模型。
- AMD GPU： 在 Linux 上通过 ROCm 支持。Windows 支持正在改进中。需要较新的硬件和驱动。
- Apple Silicon (M系列芯片)： 具有优秀的 Metal 加速支持，性能很高且能效比好。VRAM 与系统内存共享，内存越大，可用的“显存”就越多。

在选择模型时，请务必参考模型的参数量和所需的硬件资源，特别是 GPU 显存。选择适合您硬件配置的模型，才能获得流畅的使用体验。

三、安装 Ollama

Ollama 的安装过程非常简单，根据您的操作系统选择对应的方法：

macOS：
- 访问 Ollama 官方网站 (https://ollama.com/)。
- 点击下载按钮，选择 macOS 版本。
- 下载 .dmg 文件。
- 打开 .dmg 文件，将 Ollama 应用拖动到 “Applications” 文件夹。
- 运行 Ollama 应用。它会在后台启动一个服务，并在菜单栏显示图标。
Windows：
- 访问 Ollama 官方网站 (https://ollama.com/)。
- 点击下载按钮，选择 Windows 版本。
- 下载 .exe 安装程序。
- 运行 .exe 文件，按照安装向导的提示进行安装。选择安装路径，并同意许可协议。
- 安装完成后，Ollama 服务会自动启动。
Linux：
- 打开终端。
- 运行官方提供的一键安装脚本：
  bash curl -fsSL https://ollama.com/install.sh | sh
- 这个脚本会检测您的系统，下载并安装 Ollama 二进制文件和服务。
- 安装完成后，Ollama 服务会自动启动并注册为 systemd 服务。

验证安装：

安装完成后，打开终端（macOS/Linux）或命令提示符/PowerShell（Windows），运行以下命令：

bash ollama --version

如果安装成功，您应该能看到 Ollama 的版本信息。

四、运行您的第一个模型

安装好 Ollama 后，迫不及待地想体验一下大模型了吧？运行模型只需要一个简单的命令：

bash ollama run <model_name>

<model_name> 是您想要运行的模型名称。您可以在 Ollama 官方网站 (https://ollama.com/models) 或通过命令 ollama list (如果已经下载过模型) 查看可用的模型列表。

例如，我们来运行一个常用的模型——Llama 2 的 7B 参数量版本：

bash ollama run llama2

首次运行的流程：

当您第一次运行某个模型时，Ollama 会检查本地是否已经下载了该模型。
如果本地没有，Ollama 会自动从 Ollama 仓库下载模型文件。这可能需要一些时间，取决于您的网络速度和模型的大小。您会看到下载进度条。
下载完成后，Ollama 会加载模型。
模型加载成功后，您将进入模型的交互界面。通常会显示一个提示符，等待您输入文本。

在交互界面中：

您可以直接输入您的问题或想要模型生成的内容，然后按回车键。
模型会生成响应并显示在终端中。
您可以继续输入文本，与模型进行多轮对话。
要退出交互界面，可以输入 /bye 或按 Ctrl + D。

例如，运行 llama2 并进行对话：

“`bash
$ ollama run llama2
pulling manifest
pulling 953216788c3f… 100%
pulling c750f69c6d14… 100%
pulling 2e0922850347… 100%
pulling 2124be99cb0d… 100%
pulling a4645c40f4c4… 100%
pulling 7c2e0ddc648f… 100%
pulling 400f5034f1cd… 100%
verifying sha256 digest
writing manifest
removing any unused layers
success

你好，你能做什么？
你好！作为一个大型语言模型，我能做很多事情，例如：
– 回答你的问题
– 撰写文本，如故事、文章、诗歌等
– 翻译语言
– 总结文章或文本
– 提供创意写作的灵感
– 帮助你学习新的知识
…等等。请告诉我你想要做什么！

给我讲个睡前故事。
很久很久以前，在一个遥远的小村庄里，住着一个名叫莉莉的小女孩。莉莉有一只非常喜欢睡觉的小猫，名字叫“打盹儿”。每天晚上，当星星开始在天空中闪烁时，莉莉就会抱着打盹儿坐在窗前，轻声地给他讲故事… (故事继续)

/bye
“`

五、管理本地模型

使用 Ollama 下载了几个模型后，您可能需要管理它们。Ollama 提供了一些简单的命令来帮助您。

列出已下载的模型：
bash ollama list
这个命令会显示您本地已经下载的所有模型及其大小。

bash $ ollama list NAME ID SIZE MODIFIED llama2:latest f76cc1058... 3.8 GB 2 weeks ago mistral:latest 2235b400c... 4.1 GB 3 days ago gemma:2b a0533d54... 1.6 GB 1 day ago
删除模型：
如果您不再需要某个模型，或者需要释放磁盘空间，可以使用 ollama rm 命令删除它：
bash ollama rm <model_name>
例如，删除 Llama 2 模型：
bash ollama rm llama2
删除后，模型文件将被移除。
更新模型：
如果您想获取某个模型的最新版本（例如模型提供者发布了更新），只需再次运行 ollama pull 命令即可：
bash ollama pull <model_name>
或者直接使用 ollama run 命令，它也会检查并下载最新版本（如果本地版本不是最新的）。

六、通过 API 与 Ollama 交互

对于开发者来说，Ollama 最强大的功能之一是它提供了一个本地 REST API。这意味着您可以从任何编程语言、任何应用程序中调用 Ollama 服务，而不是仅仅局限于命令行界面。

Ollama 服务默认运行在 http://localhost:11434。其 API 设计简洁且符合现代风格。最常用的 API 端点包括：

/api/generate: 用于生成文本（单次请求或流式响应）。
/api/chat: 用于进行多轮对话（通常结合模型的聊天模板）。
/api/embeddings: 用于生成文本嵌入向量。
/api/list: 列出本地可用的模型。
/api/pull: 下载模型。
/api/show: 显示模型信息（如 Modelfile）。
/api/create: 创建自定义模型。

使用 curl 示例 (生成文本):

首先确保 Ollama 服务正在运行。

bash curl http://localhost:11434/api/generate -d '{ "model": "llama2", "prompt": "给我讲一个关于未来科技的短故事。", "stream": false }'

这个命令会向 Ollama API 发送一个请求，使用 llama2 模型，并要求它生成一个关于未来科技的短故事。"stream": false 表示等待整个响应生成完毕后再返回。如果设置为 true，则会像聊天一样流式输出。

使用 Python 示例 (需要安装 requests 库: pip install requests)

“`python
import requests
import json

url = “http://localhost:11434/api/generate”
data = {
“model”: “llama2”,
“prompt”: “用中文写一首关于秋天的五言绝句。”,
“stream”: False
}

response = requests.post(url, json=data)

if response.status_code == 200:
result = response.json()
print(result[‘response’])
else:
print(f”请求失败: {response.status_code}”)
print(response.text)

示例聊天API调用

url_chat = “http://localhost:11434/api/chat”
data_chat = {
“model”: “llama2”,
“messages”: [
{“role”: “user”, “content”: “你好！”},
{“role”: “assistant”, “content”: “你好！有什么可以帮到您？”},
{“role”: “user”, “content”: “帮我写一份简单的产品介绍文案。”}
],
“stream”: False
}

response_chat = requests.post(url_chat, json=data_chat)
if response_chat.status_code == 200:
result_chat = response_chat.json()
print(result_chat[‘message’][‘content’])
else:
print(f”聊天请求失败: {response_chat.status_code}”)
print(response_chat.text)
“`

通过这些 API，您可以将 Ollama 集成到聊天机器人应用、自动化脚本、本地开发工具等多种场景中。许多第三方库（如 LangChain、LlamaIndex）也提供了直接与 Ollama API 集成的功能，进一步简化了开发。

七、定制你的模型：Modelfile

Ollama 允许用户通过创建和修改 Modelfile 来定制现有模型。Modelfile 的概念类似于 Dockerfile，它定义了如何构建或配置一个模型。

Modelfile 的基本结构：

一个 Modelfile 通常包含以下指令：

FROM <model_name>: 指定要基于哪个现有模型进行定制。
PARAMETER <parameter_name> <value>: 设置模型的运行参数，例如 temperature (温度), top_k, top_p, num_ctx (上下文长度) 等。
SYSTEM """<system_prompt>""": 设置模型的系统提示词。这是模型在开始生成文本之前接收到的“指令”，可以极大地影响模型的行为和输出风格。
MESSAGE <role> """<content>""": （较新版本支持）为模型设置示例对话历史。
ADAPTER <lora_file_path>: （实验性）加载 LoRA 适配器以微调模型行为。

创建一个简单的 Modelfile 示例 (例如，让 Llama 2 扮演一个讲故事的角色)：

创建一个文本文件，命名为 storyteller.Modelfile (注意：文件名可以自定义，但通常以 .Modelfile 结尾是个好习惯)。

“`modelfile
FROM llama2

设置一个系统提示词，让模型扮演一个讲故事的人

SYSTEM “””
你是一位富有想象力的说书人，擅长创作各种风格的故事。当用户给出主题或关键词时，请为他们创作一个引人入胜的故事。故事应该包含清晰的开头、发展和结局。尽量让故事充满细节和情感。
“””

设置一些参数，让故事更具创造性（温度较高）

PARAMETER temperature 0.8
PARAMETER top_k 40
PARAMETER top_p 0.9
“`

使用 Modelfile 创建并运行自定义模型：

打开终端，切换到存放 storyteller.Modelfile 的目录。
使用 ollama create 命令创建新的自定义模型：
bash ollama create storyteller -f storyteller.Modelfile
这会基于 llama2 模型创建一个名为 storyteller 的新模型，并应用 Modelfile 中的配置。
创建完成后，您就可以像运行其他模型一样运行您的自定义模型了：
bash ollama run storyteller
现在，当您与 storyteller 模型交互时，它会尝试按照您设置的系统提示词和参数来生成故事。

通过 Modelfile，您可以为不同的应用场景创建定制化的模型版本，例如用于编程、写作助手、特定领域的问答等。

八、性能优化与注意事项

本地运行大模型的性能主要取决于您的硬件配置，特别是 GPU 的显存。以下是一些性能相关的考虑和优化建议：

优先使用 GPU： 确保您的 Ollama 配置能够正确识别和使用您的 GPU。安装对应厂商的驱动是关键（NVIDIA CUDA Toolkit，AMD ROCm 驱动等）。Ollama 会尝试自动检测并使用可用的 GPU 加速。
选择合适的模型大小和量化： 模型越大，质量通常越高，但需要的资源也越多。模型的量化版本（如 Q4_K_M, Q8_0 等）使用更少的显存和内存，但可能会稍微牺牲一些精度。选择适合您硬件配置的量化版本模型至关重要。模型仓库中通常会列出不同量化版本的模型。例如 llama2:7b-chat-q4_k_m 表示 Llama 2 7B 参数的聊天模型，使用了 Q4_K_M 量化。
关闭不必要的程序： 运行大模型会占用大量内存和显存。关闭其他占用资源较多的应用程序可以为 Ollama 腾出更多资源，提升性能。
监控资源使用： 使用任务管理器（Windows）、活动监视器（macOS）或命令行工具（如 nvidia-smi 在 Linux/Windows for NVIDIA GPU）来监控 CPU、内存和 GPU 的使用情况，了解性能瓶颈在哪里。
上下文长度 (Context Length)： num_ctx 参数控制模型一次能够处理的文本长度。增加 num_ctx 可以让模型记住更长的对话历史或处理更长的文档，但这会显著增加内存/显存消耗，并可能降低推理速度。根据您的硬件和需求进行调整。

九、常见问题与故障排除

安装失败：
- 检查您的操作系统版本是否符合要求。
- 如果是 Linux，确保您的系统支持 systemd。检查是否有权限问题。
- 重新下载安装包，确保文件完整。
模型下载慢或失败：
- 检查您的网络连接。
- 尝试更换网络环境。
- Ollama 仓库可能暂时不稳定，稍后再试。
模型运行时报错或崩溃：
- 最常见的原因是内存或显存不足。检查您的硬件配置是否满足模型的要求。尝试运行更小的模型或量化程度更高的模型。
- 确保您的 GPU 驱动是最新且正确安装的。
- 查看 Ollama 服务的日志（具体位置取决于操作系统，通常在用户家目录下的 .ollama 或系统日志中）获取详细错误信息。
模型推理速度慢：
- 确认 Ollama 正在使用您的 GPU 进行加速（检查资源监控工具，如 nvidia-smi）。
- 如果仅使用 CPU 运行，速度慢是正常的，考虑升级硬件。
- 尝试使用量化程度更高的模型。
API 无法访问：
- 确认 Ollama 服务正在运行。
- 检查防火墙设置，确保 11434 端口没有被阻止。
- 确认您请求的 URL 是正确的 (http://localhost:11434)。

如果遇到难以解决的问题，可以访问 Ollama 的 GitHub 仓库 (https://github.com/ollama/ollama) 查看 Issues 或在社区寻求帮助。

十、结语

Ollama 的出现极大地推动了个人本地运行大模型的发展，让这项前沿技术不再是大型公司或研究机构的专属。通过简单的安装和命令，您就可以在自己的电脑上体验各种开源大模型的强大能力，无论是用于个人学习、开发测试、保护隐私，还是仅仅出于好奇。

掌握 Ollama 的使用，您就拥有了一个强大的本地 AI 工作台。您可以根据自己的需求，尝试不同的模型，通过 Modelfile 进行定制，甚至将 LLMs 集成到您的日常工作流程或创意项目中。

本地运行大模型是一个充满潜力的领域。随着硬件性能的不断提升和模型技术的持续发展，未来我们有望在个人设备上运行更强大、更多样的模型。希望这篇指南能帮助您顺利踏上本地大模型的探索之旅，释放您的个人计算能力！

现在，就去下载 Ollama，选择一个您感兴趣的模型，开始您的本地 AI 体验吧！

ollama 本地运行大模型指南 – wiki基地

Ollama 本地运行大模型指南：释放个人计算能力

一、为何选择 Ollama 在本地运行大模型？

二、开始之前：硬件和系统要求

三、安装 Ollama

四、运行您的第一个模型

五、管理本地模型

六、通过 API 与 Ollama 交互

示例聊天API调用

七、定制你的模型：Modelfile

设置一个系统提示词，让模型扮演一个讲故事的人

设置一些参数，让故事更具创造性（温度较高）

八、性能优化与注意事项

九、常见问题与故障排除

十、结语

发表评论取消回复

Ollama 本地运行大模型指南：释放个人计算能力

一、为何选择 Ollama 在本地运行大模型？

二、开始之前：硬件和系统要求

三、安装 Ollama

四、运行您的第一个模型

五、管理本地模型

六、通过 API 与 Ollama 交互

示例聊天API调用

七、定制你的模型：Modelfile

设置一个系统提示词，让模型扮演一个讲故事的人

设置一些参数，让故事更具创造性（温度较高）

八、性能优化与注意事项

九、常见问题与故障排除

十、结语

发表评论 取消回复

发表评论取消回复