如何安装 Ollama – wiki基地

本地运行大型语言模型的利器：Ollama 详细安装指南

引言：探索本地AI的无限可能

随着人工智能技术的飞速发展，大型语言模型（LLMs）已经从遥不可及的云端服务，逐渐走向我们个人的电脑。本地运行LLMs不仅能更好地保护用户隐私、降低使用成本，还能在无网络环境下提供服务，并为开发者提供灵活的实验和开发环境。然而，传统的LLM本地部署过程往往涉及复杂的软件依赖、环境配置和模型管理，对普通用户来说门槛较高。

正是在这样的背景下，Ollama 应运而生。Ollama 是一个轻量级的、易于使用的框架，它极大地简化了在个人电脑上运行和管理大型语言模型的过程。无论您是AI爱好者、开发者，还是仅仅对LLMs感到好奇，Ollama 都能帮助您轻松迈出在本地探索AI的第一步。

本篇文章将为您提供一个极其详细的 Ollama 安装指南，涵盖主流操作系统（Windows、macOS、Linux）的安装步骤，并介绍安装前的准备工作、安装后的验证以及如何快速开始使用您的第一个本地模型。我们将力求文字的丰富性与内容的深度，确保即使是技术背景有限的读者也能顺利完成安装。

第一部分：安装前的准备——磨刀不误砍柴工

在开始安装 Ollama 之前，我们需要做一些准备工作，以确保安装过程顺利进行，并为您未来的模型运行打下基础。这主要包括了解 Ollama 的基本需求以及检查您的硬件和操作系统是否满足要求。

1. 了解 Ollama 的基本原理与优势

Ollama 的核心在于它提供了一个统一的接口和运行时，用于打包、分发和运行大型语言模型。它将复杂的模型权重、配置文件、量化信息以及运行所需的库文件封装成一个易于管理的“模型”（Model），用户只需通过简单的命令即可下载并运行这些模型。

Ollama 的主要优势包括：

易用性： 提供简洁的安装包和命令行接口，无需复杂的依赖管理。
模型管理： 方便地拉取（下载）、删除和列出本地已有的模型。
性能优化： 自动利用您的硬件加速，尤其是GPU。
跨平台： 支持 Windows、macOS 和 Linux。
API接口： 提供兼容OpenAI等标准的本地API，方便集成到其他应用。

2. 硬件需求：您的电脑是否足够强大？

运行大型语言模型对硬件有一定的要求，特别是对于GPU。Ollama 会尽可能地利用您的硬件资源，但基本的性能保障是必要的。

CPU： 需要一个现代化的多核处理器。大多数近几年生产的电脑都能满足基本需求。如果您的电脑没有强大的独立显卡（GPU），那么模型将主要依靠CPU运行，这会显著降低推理速度。
内存 (RAM)： 建议至少 8GB RAM。对于运行较大的模型（例如 13B 参数或更高），16GB 或 32GB RAM 将提供更好的体验，尤其是在没有足够显存的情况下，部分模型数据可能会溢出到系统内存。
显卡 (GPU) 及显存 (VRAM)： 这是影响LLM运行速度的关键因素。 大多数大型语言模型在GPU上运行时速度远超CPU。为了获得流畅的体验，建议您拥有一块支持CUDA (NVIDIA GPU) 或 ROCm (AMD GPU，Linux下支持较好) 的独立显卡。
- 显存 (VRAM) 大小至关重要。 模型的大小通常以参数数量衡量（例如 7B, 13B, 70B）。模型参数越多，通常需要更多的显存。
  - 7B 参数模型：通常需要约 6GB – 8GB VRAM 才能完全加载到显存中获得最佳性能。如果显存不足，Ollama 会自动进行层卸载（layer offloading），将部分层放在内存或甚至CPU上运行，但速度会变慢。
  - 13B 参数模型：通常需要约 12GB – 14GB VRAM。
  - 70B 参数模型：通常需要 60GB+ VRAM。
- 量化 (Quantization)： 模型可以通过量化技术减小体积和显存需求，例如 Q4_K_M 这样的量化版本。使用量化模型可以在显存较小的显卡上运行更大的模型，但可能会对输出质量有轻微影响。例如，一个 7B 参数模型的 Q4 量化版本可能只需要 4GB – 6GB VRAM。
- 总结： 如果您的电脑有 8GB 或更多 VRAM 的独立显卡，您将能够流畅运行 7B 或 13B 参数的量化模型。如果只有集成显卡或显存较少，您仍然可以运行模型，但速度会比较慢，主要依靠CPU。在 Ollama 官方模型库（ollama.com/models）中，您可以查看不同模型及其所需的显存估算。
硬盘空间： Ollama 本身安装文件不大，但下载的模型文件会占用大量空间。一个模型（例如 Llama 2 的一个版本）的大小可能从几 GB 到几十 GB 不等。如果您计划下载多个模型，请确保您的硬盘有足够的可用空间，至少预留几十 GB，甚至几百 GB 的空间。

3. 操作系统要求：选择合适的平台

Ollama 支持以下主流操作系统：

Windows: 推荐使用 Windows 10 或 Windows 11 的 64 位版本。需要支持 WSL 2 (Windows Subsystem for Linux 2) 以获得最佳性能，特别是对于GPU加速。大多数最新的 Windows 10/11 版本默认支持或可以轻松启用 WSL 2。
macOS: 支持 macOS Monterey (12) 或更高版本，包括 Ventura (13) 和 Sonoma (14)。Ollama 为 Apple Silicon (M系列芯片) 提供了优化的支持，能很好地利用其内置的神经引擎和统一内存。
Linux: 支持多种基于 x86_64 架构的发行版，例如 Ubuntu、Debian、Fedora、CentOS/RHEL、Arch Linux 等。需要支持 systemd 服务管理器（这是绝大多数现代Linux发行版的默认配置）。安装过程通常通过命令行脚本完成。

4. 更新系统与驱动

在安装 Ollama 前，强烈建议您：

更新操作系统： 确保您的操作系统是最新版本，或者至少满足 Ollama 的最低版本要求。
更新显卡驱动： 如果您的电脑有独立显卡，请务必访问显卡制造商（NVIDIA、AMD、Intel）的官方网站，下载并安装最新版本的显卡驱动。这是确保 Ollama 能够正确检测并利用您的GPU进行加速的关键步骤。过旧或不兼容的驱动是导致Ollama无法使用GPU的最常见原因。

第二部分：分平台安装指南——手把手教你安装

根据您的操作系统，选择以下对应的安装指南。我们将详细介绍每一步骤。

1. 在 Windows 上安装 Ollama

Windows 用户可以通过下载一个简单的安装包来安装 Ollama，过程非常直观。

步骤 1：访问 Ollama 官方网站

打开您的网络浏览器，访问 Ollama 的官方网站：https://ollama.com/

步骤 2：下载 Windows 安装包

在网站首页，您会看到一个显眼的“Download”或“Download for Windows”按钮。点击该按钮，网站会自动检测您的操作系统并提供相应的下载链接。请确保您下载的是针对 Windows 的安装包。文件通常命名为 OllamaSetup.exe。

步骤 3：运行安装程序

找到您下载的 OllamaSetup.exe 文件，双击运行它。可能会弹出用户账户控制（UAC）的提示，点击“是”允许程序运行。

步骤 4：同意许可协议并开始安装

安装程序界面通常非常简洁。您可能需要阅读并同意许可协议。勾选同意选项后，点击“Install”或“安装”按钮。

步骤 5：等待安装完成

安装程序会自动完成文件复制和配置。这个过程通常只需要几分钟，取决于您的电脑性能。

步骤 6：完成安装

安装完成后，安装程序会显示“Installation Complete”或类似的提示。点击“Finish”或“完成”按钮关闭安装窗口。Ollama 会自动启动并作为后台服务运行。您可能会在任务栏的系统托盘区看到 Ollama 的图标（一个蓝色的圆圈）。

重要提示：WSL 2

Ollama 在 Windows 上运行时，为了获得更好的性能，特别是在使用GPU加速时，会利用 Windows Subsystem for Linux 2 (WSL 2)。大多数现代 Windows 10/11 版本都已经内置或可以轻松安装 WSL 2。Ollama 安装程序通常会检查并提示您启用或更新 WSL 2。如果您遇到相关问题，请参考微软官方文档关于如何启用 WSL 2 的说明。通常只需在 PowerShell 或命令提示符中运行 wsl --install 命令即可。

2. 在 macOS 上安装 Ollama

macOS 用户同样可以通过下载安装包来安装 Ollama，过程也非常简单。

步骤 1：访问 Ollama 官方网站

打开您的网络浏览器，访问 Ollama 的官方网站：https://ollama.com/

步骤 2：下载 macOS 安装包

在网站首页，点击“Download”或“Download for macOS”按钮。下载文件通常是一个 .dmg 磁盘镜像文件，例如 Ollama-XXXX.dmg。

步骤 3：打开磁盘镜像文件

找到您下载的 .dmg 文件，双击打开它。这会在 Finder 中挂载一个虚拟磁盘，显示 Ollama 安装程序。

步骤 4：将 Ollama 应用程序拖到应用程序文件夹

在打开的窗口中，您会看到 Ollama 的应用程序图标和一个指向“Applications”（应用程序）文件夹的快捷方式。将 Ollama 图标拖动到“Applications”文件夹图标上。这会将 Ollama 应用程序复制到您的应用程序目录中。

步骤 5：启动 Ollama 应用程序

前往您的“Applications”文件夹，找到 Ollama 应用程序图标，双击启动它。

步骤 6：授权运行

首次运行时，macOS 可能会提示您该应用程序是从互联网下载的，询问您是否确定要打开。点击“打开”或“Allow”。

步骤 7：后台运行

Ollama 启动后，不会打开一个窗口，而是会在菜单栏（屏幕顶部的菜单条）显示一个图标（一个蓝色的圆圈）。点击这个图标，您可以查看 Ollama 的状态、查看日志、退出等选项。Ollama 此时已作为后台服务运行，准备接收模型运行请求。

可选：使用 Homebrew 安装 (面向命令行用户)

如果您是 macOS 的命令行用户，并且习惯使用 Homebrew 包管理器，也可以通过 Homebrew 安装 Ollama：

打开终端应用程序。
运行以下命令：
bash brew install ollama
Homebrew 会自动下载并安装 Ollama。安装完成后，您可以通过 ollama 命令来启动 Ollama 服务或与之交互。Homebrew 安装方式可能需要您手动启动服务或配置自启动，具体请参考 Homebrew 的安装输出信息。对于大多数用户来说，下载 .dmg 安装包是更简便的方式。

3. 在 Linux 上安装 Ollama

Linux 上的 Ollama 安装主要通过一个官方提供的一行命令脚本来完成，该脚本会自动检测您的系统并进行安装。

步骤 1：打开终端

打开您的 Linux 发行版上的终端应用程序（例如 GNOME Terminal, Konsole, xfce4-terminal 等）。

步骤 2：运行安装脚本

复制并粘贴以下命令到终端中，然后按 Enter 键执行：

bash curl -fsSL https://ollama.com/install.sh | sh

解释一下这个命令：
* curl: 这是一个用于传输数据的命令行工具。
* -fsSL: f 失败时快速退出，s 静默模式（不显示进度或错误），S 显示错误（即使在静默模式下），L 跟随重定向。这些选项确保脚本能够正确下载。
* https://ollama.com/install.sh: 这是 Ollama 官方提供的安装脚本的 URL。
* |: 这是一个管道符号，它将 curl 命令的输出（即安装脚本的内容）传递给下一个命令。
* sh: 这是一个 shell 命令解释器，它会执行通过管道传递过来的脚本内容。

步骤 3：输入密码（如果需要）

安装脚本可能需要使用 sudo 命令来获取管理员权限，以便安装 Ollama 服务和文件到系统目录。当提示时，输入您的用户密码，然后按 Enter 键。在 Linux 终端中输入密码时，通常不会显示任何字符（甚至不会显示星号），这是正常的安全设置。

步骤 4：等待安装完成

脚本会自动下载 Ollama 的二进制文件，安装到 /usr/local/bin 目录，配置 Ollama 作为 systemd 服务，并尝试检测您的GPU驱动以配置GPU加速。您会看到一些安装过程的输出信息。

步骤 5：验证服务状态（可选但推荐）

安装脚本完成后，Ollama 服务通常会自动启动。您可以通过以下命令检查服务的状态：

bash systemctl status ollama

您应该看到服务处于“active (running)”状态。按下 Q 键退出状态显示。

手动安装或特定发行版

上述脚本适用于大多数现代 Linux 发行版。如果因为某些原因脚本安装失败，或者您使用的是非主流发行版/架构，可以考虑手动下载二进制文件并进行配置。但这超出了本基础指南的范围，建议查阅 Ollama 官方文档或社区论坛获取更详细的针对特定情况的安装说明。通常，脚本安装是最推荐和最简便的方式。

重要提示：GPU驱动

在 Linux 上，确保您的 NVIDIA 或 AMD GPU 驱动程序已正确安装并与您的内核兼容是使用 GPU 加速的关键。安装 Ollama 之前或之后，请务必检查并更新您的显卡驱动。

第三部分：安装后的验证与首次运行

无论您在哪种操作系统上安装了 Ollama，安装完成后都应该验证其是否正常工作，并尝试运行您的第一个模型。

1. 验证 Ollama 安装

打开您的终端（macOS/Linux）或命令提示符/PowerShell（Windows），输入以下命令：

bash ollama --version

如果 Ollama 安装成功，您会看到 Ollama 的版本号，例如：

ollama version is 0.1.32

这意味着 Ollama 程序本身已成功安装并可以在命令行中访问。

接下来，我们可以通过列出本地模型来进一步验证。由于您刚安装，本地应该还没有任何模型：

bash ollama list

输出应该类似这样，表示没有找到本地模型：

NAME ID SIZE MODIFIED

2. 首次运行模型：拉取并启动 Llama 2

现在，让我们尝试运行一个实际的模型。Llama 2 是 Meta 开源的一系列模型，Ollama 官方提供了方便拉取的 Llama 2 版本。

在终端或命令提示符中输入以下命令：

bash ollama run llama2

解释一下这个命令：
* ollama: 调用 Ollama 程序。
* run: 告诉 Ollama 您要运行一个模型。
* llama2: 您想要运行的模型名称。

首次运行某个模型时，Ollama 会首先检查本地是否已有该模型。如果本地没有，它会自动从 Ollama 官方模型库中下载（拉取）该模型。您会在终端中看到下载进度：

pulling manifest pulling 000000000000... 100% verifying sha256 digest writing manifest removing any unused layers success

下载完成后，Ollama 会加载模型到内存/显存中，并显示一个提示符，等待您输入文本：

“`

“`

恭喜！您已经成功启动了您的第一个本地大型语言模型。现在，您可以在 >>> 提示符后输入问题或文本，按 Enter 键，Llama 2 就会生成回复。

例如，您可以输入：

“`

Please tell me a short story about a brave knight.
“`

模型会在思考片刻后（所需时间取决于您的硬件性能和模型大小）生成一个故事。

要退出模型交互模式，可以输入 /bye 然后按 Enter 键：

“`bash

/bye
“`

3. 探索更多模型

您可以通过访问 Ollama 官方网站的模型页面：https://ollama.com/models 来探索更多可用的模型。页面上列出了许多社区贡献的模型，包括 Mistral、Gemma、Code Llama、Yi 等等。

找到您感兴趣的模型后，只需记住其名称（例如 mistral 或 yi:34b），然后使用 ollama run <model_name> 命令即可下载并运行该模型。

使用 ollama list 命令可以查看您已经下载到本地的所有模型及其占用的空间。

使用 ollama rm <model_name> 命令可以删除本地不再需要的模型文件以释放硬盘空间。

第四部分：常见问题与故障排除

在安装和使用 Ollama 的过程中，您可能会遇到一些问题。以下是一些常见的故障排除提示：

无法下载模型（pulling manifest failed 或网络错误）：
- 检查您的网络连接是否正常。
- 如果您使用了代理服务器，可能需要配置 Ollama 使用代理。具体方法请查阅 Ollama 官方文档。
- 防火墙或安全软件可能阻止了连接，检查并允许 Ollama 访问网络。
模型运行缓慢（主要依靠CPU）：
- 验证您的显卡驱动是否是最新版本。
- 在 Linux 上，检查您的系统是否正确安装了 NVIDIA CUDA 或 AMD ROCm 相关的库和驱动。
- 使用 ollama run --verbose <model_name> 命令查看加载过程，检查是否正确检测到并使用了GPU（查找 cuda enabled 或 rocm enabled 等字样）。
- 如果显存不足以加载整个模型，Ollama 会自动使用CPU/内存。考虑运行显存需求更小的模型版本（例如量化版本 Q4_K_M 等），或者升级您的显卡。
“command not found: ollama”错误：
- 这意味着 Ollama 的可执行文件没有被添加到系统的 PATH 环境变量中，或者安装失败。
- Windows/macOS 安装包： 重新运行安装程序，确保安装成功。有时候重启电脑可以解决问题。
- Linux 脚本安装： 检查脚本的输出是否有错误。确保 /usr/local/bin 目录在您的 PATH 环境变量中（通常是默认的）。如果安装时使用了 sudo sh 或类似的命令，确保脚本是以正确的方式执行的，并且文件权限正确。有时，安装后需要关闭并重新打开终端窗口才能识别 ollama 命令。
安装脚本在 Linux 上执行失败：
- 检查您的 Linux 发行版和架构是否支持。
- 检查您是否有足够的权限运行脚本（需要 sudo 权限进行系统级别的安装）。
- 确保您正确复制粘贴了命令，包括管道符 |。
- 尝试手动下载脚本并分步执行，或者查看脚本内容了解具体失败原因。
磁盘空间不足：
- 使用 ollama list 查看已下载模型的总大小。
- 使用 ollama rm <model_name> 删除不需要的模型。
- 在您安装 Ollama 的分区或目录下清理其他不需要的文件。
模型加载失败或崩溃：
- 尝试重新下载模型，模型文件可能在下载过程中损坏。
- 检查 Ollama 的日志文件，通常可以在用户主目录下的 .ollama 目录中找到日志文件，或者在 Ollama 服务的状态信息中查看日志路径。
- 您的硬件可能无法支持该模型，尝试运行更小的模型。

如果您遇到的问题无法通过以上方法解决，建议访问 Ollama 的 GitHub 仓库的 Issues 页面或参与 Ollama 社区的讨论，寻求更专业的帮助。

第五部分：Ollama 的进一步探索

成功安装并运行了您的第一个本地模型后，Ollama 的世界才刚刚向您展开。您可以进一步探索：

运行不同的模型： 尝试 Ollama 模型库中的其他模型，了解它们的不同特点和能力。
创建自定义模型： Ollama 允许您使用 Modelfile 定义自己的模型，可以基于现有模型进行微调，或者整合不同的组件。
使用 Ollama API： Ollama 在本地启动了一个服务，提供与 OpenAI API 兼容的接口。这意味着您可以将 Ollama 集成到各种支持 OpenAI API 的应用中，例如聊天客户端、开发框架等。API 默认地址是 http://localhost:11434。
图形界面前端： 社区开发了许多基于 Ollama API 的图形界面，让您无需命令行即可与模型互动。搜索“Ollama GUI”可以找到很多选项。
与其他工具集成： Ollama 可以轻松集成到 LangChain、LlamaIndex 等流行的LLM开发框架中，帮助您构建更复杂的AI应用。

结论：迈向本地AI的新起点

通过本篇详细的安装指南，您应该已经成功地在您的电脑上安装了 Ollama，并初步体验了本地运行大型语言模型的便捷。Ollama 极大地降低了本地部署LLMs的技术门槛，让更多人能够亲身体验和利用这项强大的技术。

从隐私保护到离线使用，从成本控制到灵活开发，本地运行LLMs具有无可比拟的优势。Ollama 正是实现这些优势的关键工具。

现在，您已经站在了本地AI探索的新起点上。尽情地使用 ollama run 命令去尝试不同的模型，用 ollama list 去管理它们，用 ollama --help 去了解更多命令细节。随着您对本地AI的深入了解，Ollama 将为您打开更多通往高级应用和开发的大门。

希望这篇指南对您有所帮助。祝您在本地AI的世界里探索愉快！