本地 AI 大模型：Ollama 详细教程与指南

在人工智能飞速发展的今天，大型语言模型（LLM）已经成为了不可或缺的工具。然而，许多强大的模型通常需要在云端运行，这不仅带来了数据隐私、成本和网络依赖等问题。幸运的是，随着硬件性能的提升和开源社区的繁荣，我们现在可以在本地设备上运行这些强大的 AI 模型。Ollama，一个专为本地运行大型语言模型而设计的开源工具，正迅速成为这一领域的佼佼者。

本指南将详细介绍 Ollama，从安装到基本使用，再到一些高级功能，帮助您在自己的电脑上轻松驾驭本地 AI 大模型。

1. 什么是 Ollama？为什么选择它？

Ollama 是一个轻量级的、可扩展的工具，它允许用户在本地机器上运行各种大型语言模型。它简化了模型的下载、安装、运行和管理过程，让普通用户也能体验到本地 AI 的强大。

为什么选择 Ollama？

数据隐私保护： 所有数据处理都在本地进行，无需上传到第三方服务器，极大地保护了用户隐私。
离线可用： 一旦模型下载完成，即使没有网络连接，您也可以随时随地使用 AI 模型。
成本效益： 避免了云服务提供商的按使用量计费模式，长期来看更经济。
速度与效率： 响应速度通常更快，因为数据无需在本地和云端之间传输。
高度兼容性： 支持多种主流操作系统，并与多种流行的开源模型兼容。
易于使用： 简单的命令行界面和 API，使得模型的管理和交互变得异常简单。

2. 系统要求

在安装 Ollama 之前，请确保您的系统满足以下基本要求：

操作系统： macOS (Intel 或 Apple 芯片), Linux, Windows (需要 WSL 2 或原生 Windows 版本)。
内存 (RAM)： 至少 8 GB RAM。对于更大的模型（如 7B 或 13B 参数模型），建议 16 GB 或 32 GB RAM。
存储空间： 每个模型的大小从几 GB 到几十 GB 不等，请确保有足够的硬盘空间。
GPU (推荐)： 虽然 CPU 也可以运行模型，但强烈建议配备 NVIDIA 或 AMD 显卡以获得更快的推理速度。Ollama 支持 GPU 加速。

3. Ollama 安装教程

Ollama 的安装非常简单，支持多种操作系统。

3.1 macOS 安装

访问 Ollama 官方网站：https://ollama.com/download
下载 macOS 版本。
打开下载的 .dmg 文件，将 Ollama 拖拽到 Applications 文件夹。
运行 Ollama 应用程序。它会常驻在菜单栏，并在后台启动 Ollama 服务。

3.2 Linux 安装

打开终端，运行以下命令：

bash curl -fsSL https://ollama.com/install.sh | sh

此脚本会自动检测您的系统，并安装 Ollama。安装完成后，Ollama 服务将自动启动。您可以通过 systemctl status ollama 检查服务状态。

3.3 Windows 安装

选项一：通过 WSL 2 (推荐，性能更优)

安装 WSL 2： 如果尚未安装，请按照微软官方指南安装 WSL 2 和您喜欢的 Linux 发行版（如 Ubuntu）。
bash wsl --install
在 WSL 2 中安装 Ollama： 启动您的 Linux 发行版终端，然后按照 Linux 的安装步骤执行：
bash curl -fsSL https://ollama.com/install.sh | sh
配置 WSL 2 GPU 支持： 确保您的 WSL 2 具有 GPU 支持，以便 Ollama 能利用显卡加速。通常，最新的 Windows 11 和 NVIDIA/AMD 驱动会提供开箱即用的支持。

选项二：原生 Windows 版本 (较新功能)

访问 Ollama 官方网站：https://ollama.com/download
下载 Windows 版本安装包。
运行安装程序，按照提示完成安装。

4. 基本使用

安装完成后，您就可以开始下载和运行模型了。

4.1 核心命令

Ollama 主要通过命令行进行操作。

ollama run <model_name>： 运行一个模型。如果本地没有该模型，Ollama 会自动下载。
ollama pull <model_name>： 手动下载一个模型。
ollama list 或 ollama ls： 列出所有已下载的本地模型。
ollama rm <model_name>： 删除一个本地模型。
ollama push <model_name> <registry>： 将本地模型推送到一个注册表（通常用于分享自定义模型）。
ollama create <model_name> -f <Modelfile>： 从 Modelfile 创建一个自定义模型。

4.2 运行您的第一个模型

我们将以 Llama 2 为例，它是一个非常流行且功能强大的开源模型。

打开终端 (或 WSL 2 终端)：
- macOS/Linux: 直接打开终端。
- Windows: 如果使用 WSL 2 安装，打开您的 Linux 发行版终端。如果使用原生 Windows 版本，打开 PowerShell 或命令提示符。
运行 Llama 2 模型：
bash ollama run llama2

第一次运行 llama2 时，Ollama 会自动从其模型库中下载它。下载过程可能需要一些时间，具体取决于您的网络速度和模型大小。

下载完成后，您将进入一个交互式对话界面。现在，您可以开始与 Llama 2 对话了！

“`

How are you today?
I am doing well, thank you for asking! As an AI, I don’t have feelings, but I am ready to assist you. How can I help you today?
What is the capital of France?
The capital of France is Paris.
/bye
`` * 输入/bye或/exit可以退出对话。 * 输入/set parameter key value可以设置模型参数，例如/set temperature 0.7`。
下载其他模型：
您可以使用 ollama pull 命令预先下载其他模型，例如 Mistral、Gemma 等。
bash ollama pull mistral ollama pull gemma:2b # 指定模型版本
Ollama 官方网站的 Models 页面提供了所有可用模型的列表。
查看已下载模型：
bash ollama list
这将显示您本地已安装的所有模型及其大小。

5. 高级用法与自定义

Ollama 不仅仅是运行模型，它还提供了强大的自定义能力。

5.1 Modelfile：创建自定义模型

Modelfile 是 Ollama 中用于定义和定制模型的关键。通过 Modelfile，您可以：

基于现有模型创建新模型： 添加系统提示、自定义参数。
导入 GGUF 模型： 运行社区中广泛使用的 GGUF 格式模型。
组合多个模型层： (高级功能)

创建 Modelfile 示例：

假设您想创建一个专门用于代码解释的 Llama 2 模型。

创建一个名为 CoderAssistantModelfile 的文件：

FROM llama2 PARAMETER temperature 0.7 PARAMETER top_k 40 PARAMETER top_p 0.9 SYSTEM """ You are a helpful coding assistant. Your task is to explain code snippets, debug errors, and provide code examples. Always be concise and clear. """
- FROM llama2: 表示这个新模型基于 Llama 2。
- PARAMETER: 用于设置模型的各种推理参数，如 temperature（随机性）、top_k、top_p 等。
- SYSTEM: 定义模型的系统级提示，引导其行为。
创建自定义模型：
在终端中，进入 CoderAssistantModelfile 文件所在的目录，运行：

bash ollama create coder-assistant -f CoderAssistantModelfile
运行自定义模型：
bash ollama run coder-assistant

现在，当您与 coder-assistant 交互时，它会更倾向于遵循您在 SYSTEM 提示中定义的行为。

5.2 Ollama API

Ollama 暴露了一个 RESTful API，允许其他应用程序与本地运行的模型进行交互。这为开发者提供了无限的可能性，可以在自己的应用中集成本地 AI 功能。

默认情况下，Ollama 服务在 http://localhost:11434 端口运行。

API 示例 (使用 curl 请求)：

bash curl -X POST http://localhost:11434/api/generate -d '{ "model": "llama2", "prompt": "Why is the sky blue?", "stream": false }'

您会收到一个 JSON 格式的响应，其中包含模型的回答。Ollama 还提供了用于 Python、JavaScript 等语言的客户端库，进一步简化了 API 集成。

6. 本地 AI 的优势与未来

在本地运行大型 AI 模型，不仅仅是技术上的进步，更是一种趋势：

赋能个人： 每个人都可以拥有一个专属的、私密的 AI 助手。
创新开发： 开发者可以在没有云端限制的情况下，快速迭代和测试 AI 驱动的应用。
边缘计算： 将 AI 能力带到网络边缘设备，如智能家居、物联网设备等。

Ollama 极大地降低了本地运行大型 AI 模型的门槛。随着模型优化和硬件性能的不断提升，本地 AI 的能力将越来越强大，应用场景也将越来越广泛。

7. 常见问题与故障排除

模型下载失败或速度慢： 检查网络连接，或者尝试更换网络环境。某些大型模型下载时间会较长。
内存不足错误： 尝试运行参数更小的模型（如 gemma:2b 或 llama2:7b），或增加系统内存。
GPU 未被使用：
- NVIDIA： 确保安装了最新的 NVIDIA 驱动程序和 CUDA Toolkit (通常 Ollama 会自动处理大部分)。
- AMD： 确保安装了 ROCm 驱动（Linux）或最新的显卡驱动（Windows）。
- WSL 2： 确保您的 WSL 2 安装具有 GPU 支持。
- 可以在 ollama run <model_name> 后加上 --gpu 强制使用 GPU，但通常是默认启用的。
找不到 ollama 命令： 确保 Ollama 已正确安装，并且其安装路径已添加到系统的 PATH 环境变量中。

结语

Ollama 为我们打开了本地 AI 的大门，让高性能的语言模型不再是云端巨头的专属。通过本指南，您应该已经掌握了在本地设备上安装、运行和自定义 Ollama 模型的基本方法。现在，是时候开始您的本地 AI 探索之旅，亲身体验数据隐私、离线便利和无尽创新带来的乐趣了！