本地部署大型语言模型：使用 Ollama 轻松开启你的 AI 之旅

随着大型语言模型（LLM）技术的飞速发展，越来越多的人希望能在本地设备上体验这些强大的工具。相比依赖云服务，本地运行 LLM 具有诸多优势：更高的隐私性、不受网络限制、潜在的更低成本（长期来看）以及完全的控制权。然而，直接在本地部署和管理 LLM 可能涉及复杂的依赖关系、环境配置和模型文件处理。这时，一个名为 Ollama 的工具应运而生，极大地简化了在 macOS、Linux 和 Windows 系统上运行大型语言模型的过程。

本文将带你一步步了解 Ollama 是什么、为什么选择它，以及如何详细地使用 Ollama 在你的本地计算机上运行各种开源大型语言模型。

什么是 Ollama？为什么选择它？

Ollama 是一个轻量级、易于使用的工具，它将 LLM 的运行环境打包成一个简单的应用程序。它内置了一个模型库，你只需通过简单的命令就可以下载并运行各种流行的开源模型，如 Llama 2、Mistral、Gemma 等。Ollama 隐藏了底层复杂的细节，如模型格式转换、依赖管理和硬件加速配置，让用户能够快速地启动并与模型交互。

选择 Ollama 的主要优势：

极简的安装和使用： 告别繁琐的依赖安装和配置，Ollama 提供傻瓜式的安装包或脚本，只需几步即可完成部署。
丰富的模型库： Ollama 官方维护了一个不断增长的模型库，涵盖了多种模型架构、参数规模和量化版本，满足不同需求和硬件条件。
跨平台支持： 支持 macOS（包括 Apple Silicon 优化）、Linux 和 Windows 系统。
硬件加速： 自动检测并利用你的 GPU（Nvidia CUDA, Apple Metal, AMD ROCm）进行计算加速，显著提升推理速度。
API 接口： 除了命令行交互，Ollama 还提供标准的 REST API 接口，方便开发者将其集成到自己的应用程序中。
私密性： 数据完全在本地处理，无需上传到云端，保护你的隐私。
离线可用： 模型下载完成后，无需网络连接即可运行（模型下载过程仍需要网络）。

本地运行 LLM 的硬件要求

虽然 Ollama 简化了流程，但运行大型语言模型本身对硬件仍有一定的要求，特别是内存（RAM）和显卡（GPU）。

操作系统： macOS (Monterey 12.3 或更高), Windows 10/11 (需开启 WSL2，Ollama 安装器会自动处理), Linux (支持主流发行版如 Ubuntu, Fedora 等)。
CPU： 现代多核处理器。
内存 (RAM)： 模型的参数规模越大，需要的内存越多。
- 运行 3B (30亿) 参数模型：建议 8GB+ RAM
- 运行 7B 参数模型：建议 16GB+ RAM
- 运行 13B 参数模型：建议 32GB+ RAM
- 运行 70B 参数模型：建议 64GB+ RAM
- 请注意，即使是较小的模型，如果使用高精度的量化版本，也可能需要更多内存。
显卡 (GPU)： GPU 是加速 LLM 推理的关键。
- Nvidia (CUDA): 推荐使用 Nvidia 显卡，需要安装相应的驱动。Ollama 会利用 CUDA 进行加速。显存 (VRAM) 大小直接决定了能运行多大或多高精度的模型。通常 8GB VRAM 可以尝试运行 7B 模型，12GB+ VRAM 运行 13B 模型，40GB+ VRAM 运行 70B 模型。
- Apple Silicon (Metal): macOS 用户在 M 系列芯片上可以获得非常好的性能，Ollama 对 Metal 进行了优化。统一内存 (Unified Memory) 的大小在这里相当于显存 + 内存。
- AMD (ROCm): Linux 上部分 AMD 显卡也支持 ROCm 加速，但兼容性可能不如 Nvidia 和 Apple Silicon 成熟。
存储空间： 模型文件体积较大，从几个 GB 到几十个 GB 不等。确保你有足够的硬盘空间来存储下载的模型。

如果你的硬件条件有限，可以选择参数规模较小或经过高度量化的模型版本（如 q4_0 或 q4_k_m），这些版本在性能和内存占用之间做了权衡，可以在较低配置的设备上运行。

安装 Ollama

安装过程在不同操作系统上略有差异，但都非常简单。

macOS

访问 Ollama 官方网站 (https://ollama.com/)。
点击页面上的 “Download” 或 “Download for macOS” 按钮。
下载 .dmg 安装文件。
双击打开 .dmg 文件。
将 Ollama 图标拖动到 Applications 文件夹。
打开 Applications 文件夹，双击 Ollama 启动应用。Ollama 会在后台运行一个服务，你会在菜单栏看到一个 Ollama 的图标。
点击菜单栏的 Ollama 图标，选择 “Install” 或确保它显示 “Running”。

Windows

访问 Ollama 官方网站 (https://ollama.com/)。
点击页面上的 “Download” 或 “Download for Windows” 按钮。
下载 .exe 安装文件。
双击运行安装文件。
安装程序可能会提示你开启 WSL2 (Windows Subsystem for Linux 2)，这是 Ollama 在 Windows 上运行的基础。按照提示完成 WSL2 的安装和配置。
选择安装路径（通常保持默认即可）。
点击 “Install” 并等待安装完成。
安装完成后，Ollama 服务会自动在后台运行。你可以通过 Windows 的系统托盘找到 Ollama 图标，右键点击可以管理服务（启动/停止）。

Linux

Linux 用户可以通过官方提供的脚本进行安装。

打开终端。
执行以下命令：
bash curl https://ollama.com/install.sh | sh
这个命令会下载并执行 Ollama 的安装脚本。脚本会自动检测你的系统并安装 Ollama。
安装完成后，Ollama 服务通常会自动启动。你可以通过 systemctl status ollama 命令查看服务状态。

验证安装：

安装完成后，打开终端（macOS/Linux）或命令提示符/PowerShell (Windows)，输入以下命令并按回车：

bash ollama --version

如果安装成功，会显示 Ollama 的版本号，例如 ollama version is 0.1.XX。

你也可以尝试运行一个简单的命令来确认服务是否正常：

bash ollama

如果显示 Ollama 的使用帮助信息，说明服务正在运行且命令可用。

下载和运行第一个模型

Ollama 的核心操作是通过命令行进行的。让我们尝试下载并运行一个模型。以 Llama 2 模型为例，这是一个非常流行的开源模型。

打开终端或命令提示符。
运行模型： 输入以下命令并按回车：
bash ollama run llama2
- 如果你是第一次运行 llama2 模型，Ollama 会检测本地没有该模型文件。
- 它会自动连接到 Ollama 的模型库，开始下载 llama2 模型。下载过程会显示进度条。
- 模型文件通常较大（Llama 2 7B 大约 3.8GB），下载时间取决于你的网络速度。请耐心等待。
- 下载完成后，Ollama 会自动加载模型。
- 模型加载完成后，你将看到一个提示符，表示你可以开始与模型交互了，通常会显示模型的名称，例如 >>> Send a message (/? for help)。

解释：

ollama run <model_name> 是 Ollama 最常用的命令。
如果本地没有 <model_name> 模型，它会自动执行 ollama pull <model_name> 命令来下载。
如果本地有 <model_name> 模型，它会直接加载并运行该模型。

你也可以选择先手动下载模型，再运行：

下载模型 (可选)：
bash ollama pull llama2
这个命令只会下载模型文件，不会立即启动交互。当你准备好时，再使用 ollama run llama2 启动。对于需要长时间下载的大模型，先 pull 可以避免下载中断后重新开始。

与模型交互

一旦模型加载完成，你就可以在终端中直接输入你的问题或指令，按回车发送给模型。

“`

Send a message (/? for help)
你好！请介绍一下你自己。
“`

模型会在终端中生成并显示回复。

Hello! I am a large language model, trained by Meta. I'm here to assist you with information and tasks. How can I help you today?

你可以继续输入问题，进行多轮对话。Ollama 会记住当前的对话上下文（在一定限制内），让对话更加连贯。

常用命令 (在交互模式下输入，以 / 开头)：

/bye 或 /exit: 退出当前的模型交互会话。
/? 或 /help: 查看交互模式下的帮助信息。
/set parameter value: 设置模型参数，例如 /set temperature 0.8。
/system <prompt>: 设置或修改模型的系统提示词，影响模型的行为风格。
/load <model_name>: 在当前会话中切换到另一个已下载的模型。

探索更多模型

Ollama 仓库中有许多其他模型可供选择，不仅仅是 Llama 2。你可以访问 https://ollama.com/library 查看完整的模型列表。

一些流行的模型包括：

Mistral: 以其高效和高质量的 7B 版本闻名。
Gemma: 谷歌发布的轻量级开源模型。
CodeLlama: 专门用于代码生成和理解的模型。
Yi: 零一万物发布的优秀中文模型。
Deepseek: 深度智控发布的优秀模型，包含编码和聊天版本。
等等…

每个模型通常还有不同的参数规模（如 7B, 13B, 70B 等）和量化版本（如 q4_0, q4_k_m, q5_k_m 等）。

如何选择模型版本？

参数规模 (7B, 13B, 70B): 参数越多，模型能力通常越强，但对硬件要求越高。新手建议从 7B 或 13B 模型开始。
量化版本 (q4_0, q4_k_m, q5_k_m 等): 量化是对模型进行压缩的技术，可以显著减小模型体积并降低内存/显存占用，同时保持大部分性能。
- q4_0 是较低精度的量化，体积小，速度快，但性能损失可能较大。
- q4_k_m, q5_k_m 等是更高精度的量化方法，在减小体积的同时更好地保留了模型性能，是目前比较推荐的选择。
- 未量化或高精度版本 (f16, q8_0) 提供最佳性能，但对硬件要求最高。

如何在 Ollama 中指定模型版本？

在 ollama run 或 ollama pull 命令后面加上冒号和版本标签。

例如：

运行 Mistral 7B 模型（默认或推荐量化版本）：
bash ollama run mistral
下载 Llama 2 13B 的 q5_k_m 量化版本：
bash ollama pull llama2:13b-instruct-q5_k_m
运行 Gemma 2B 的指令微调版本：
bash ollama run gemma:2b-instruct

建议根据你的硬件配置，先尝试下载并运行 7B 模型的量化版本（如 q4_k_m 或 q5_k_m），如果运行流畅且效果满意，再尝试更大参数或更高精度的模型。

管理本地模型

随着你下载的模型越来越多，可能会占用大量存储空间。Ollama 提供简单的命令来管理这些模型。

列出本地已下载的模型：
bash ollama list
这个命令会显示你本地已经下载的所有模型及其标签、大小和最近修改时间。

示例输出：
NAME ID SIZE MODIFIED llama2:latest f7011a9a5c7b 3.8 GB About an hour ago mistral:latest 235ae3a9ed51 4.1 GB 4 days ago gemma:2b-instruct c40e56a99691 1.6 GB 2 days ago
删除本地模型：
bash ollama rm <model_name>
例如，要删除 llama2 模型：
bash ollama rm llama2
如果要删除特定版本，需要指定标签：
bash ollama rm llama2:13b-instruct-q5_k_m
在执行删除前，请确保你不再需要该模型，因为它将从你的硬盘上移除。

使用 Ollama 的 API (面向开发者)

Ollama 在本地启动了一个 HTTP 服务，默认监听在 127.0.0.1:11434。这提供了一个标准的 REST API 接口，允许其他应用程序与 Ollama 交互，发送请求并获取模型生成的结果。

这意味着你可以通过编写代码来利用 Ollama，例如构建一个本地的聊天机器人网页界面、一个离线翻译工具、或者一个与本地文档交互的应用。

API 文档可以在 Ollama 官方网站上找到 (https://github.com/ollama/ollama/blob/main/docs/api.md)。

一个简单的 API 请求示例 (使用 curl 命令)：

发送一个聊天请求给 llama2 模型：

bash curl http://localhost:11434/api/chat -d '{ "model": "llama2", "messages": [ {"role": "user", "content": "What is the capital of France?"} ] }'

收到类似以下的响应：

json { "model": "llama2", "created_at": "2023-10-20T17:48:16.673491473Z", "message": { "role": "assistant", "content": "The capital of France is Paris." }, "done": true }

许多第三方开发的 Ollama 图形界面或集成工具都是通过调用这个本地 API 来工作的，例如著名的 Open WebUI (https://github.com/open-webui/open-webui)，它提供了一个美观的聊天界面，让你无需使用命令行也能方便地与 Ollama 中的模型交互。如果你不习惯命令行，可以考虑安装这类 Web UI。

创建和修改模型 (Modelfile)

Ollama 还允许用户通过创建 Modelfile 来定制模型。Modelfile 类似于 Dockerfile，你可以指定一个基础模型，然后添加自定义的系统提示词、修改模型参数、甚至加载 Lora 权重等。这为进阶用户提供了极大的灵活性，可以根据特定任务优化模型行为。

例如，创建一个名为 my-chatbot 的 Modelfile：

“`dockerfile
FROM llama2

Set a custom system prompt

SYSTEM “””
You are a helpful, creative, sarcastic and friendly AI assistant.
“””

Set a parameter

PARAMETER temperature 0.8
PARAMETER top_k 40
PARAMETER top_p 0.9
“`

然后使用这个 Modelfile 创建并运行一个新的模型：

bash ollama create my-chatbot -f ./Modelfile ollama run my-chatbot

这样你就可以使用带有你自定义设定的大语言模型了。

常见问题与故障排除

Error: connection refused 或服务无法启动： 确保 Ollama 服务正在后台运行。在 macOS 和 Windows 上检查菜单栏/系统托盘图标，在 Linux 上使用 systemctl status ollama。防火墙设置也可能阻止连接。
模型下载中断或失败： 检查网络连接。可以尝试重新运行 ollama pull <model_name>。
模型运行非常慢：
- 检查你的硬件是否满足要求，特别是 GPU。
- Ollama 是否正在使用你的 GPU？在终端运行模型时，Ollama 通常会显示它正在加载到 GPU 还是 CPU。
- 如果是在 CPU 上运行，速度会慢很多。确保你的显卡被 Ollama 支持并安装了正确的驱动。
- 尝试下载并运行参数更小或量化程度更高的模型版本。
- 关闭其他占用大量内存或 GPU 资源的程序。
模型生成的内容不佳或跑偏：
- 尝试调整模型的运行参数（如 temperature, top_k, top_p），可以在 ollama run 后添加参数，或在交互模式下使用 /set 命令，或者通过 Modelfile 设置。
- 尝试使用不同的模型或模型版本。
- 优化你的提示词 (prompt)。
磁盘空间不足： 使用 ollama list 查看已下载模型，使用 ollama rm <model_name> 删除不再需要的模型。
Windows 上 WSL2 问题： 确保 WSL2 已正确安装并更新到最新。有时重启计算机可以解决 WSL2 的问题。

总结

Ollama 的出现极大地降低了在本地运行大型语言模型的门槛。通过简单的安装和几个命令，你就可以轻松地在自己的设备上体验各种强大的开源 LLM，享受隐私、控制和离线使用的便利。

本文详细介绍了 Ollama 的安装、模型下载、命令行交互、模型管理以及简单的 API 和 Modelfile 使用。现在，你已经掌握了使用 Ollama 在本地运行 LLM 的基本技能。

本地运行 LLM 的生态系统正在快速发展，Ollama 作为其中的重要一环，其易用性和活跃的社区使其成为入门本地 LLM 的绝佳选择。根据你的硬件条件和需求，探索 Ollama 模型库中的不同模型，亲手感受大模型在本地的强大力量吧！

无论你是开发者希望将 LLM 集成到自己的应用中，还是普通用户只是想在本地体验一下 AI 聊天的乐趣，Ollama 都能为你提供一个稳定、高效且便捷的平台。现在就开始你的本地 AI 之旅吧！

如何使用 ollama 本地运行大型语言模型 – wiki基地

本地部署大型语言模型：使用 Ollama 轻松开启你的 AI 之旅

什么是 Ollama？为什么选择它？

本地运行 LLM 的硬件要求

安装 Ollama

macOS

Windows

Linux

下载和运行第一个模型

与模型交互

探索更多模型

管理本地模型

使用 Ollama 的 API (面向开发者)

创建和修改模型 (Modelfile)

Set a custom system prompt

Set a parameter

常见问题与故障排除

总结

发表评论取消回复

本地部署大型语言模型：使用 Ollama 轻松开启你的 AI 之旅

什么是 Ollama？为什么选择它？

本地运行 LLM 的硬件要求

安装 Ollama

macOS

Windows

Linux

下载和运行第一个模型

与模型交互

探索更多模型

管理本地模型

使用 Ollama 的 API (面向开发者)

创建和修改模型 (Modelfile)

Set a custom system prompt

Set a parameter

常见问题与故障排除

总结

发表评论 取消回复

发表评论取消回复