如何安装 Ollama – wiki基地


本地运行大型语言模型的利器:Ollama 详细安装指南

引言:探索本地AI的无限可能

随着人工智能技术的飞速发展,大型语言模型(LLMs)已经从遥不可及的云端服务,逐渐走向我们个人的电脑。本地运行LLMs不仅能更好地保护用户隐私、降低使用成本,还能在无网络环境下提供服务,并为开发者提供灵活的实验和开发环境。然而,传统的LLM本地部署过程往往涉及复杂的软件依赖、环境配置和模型管理,对普通用户来说门槛较高。

正是在这样的背景下,Ollama 应运而生。Ollama 是一个轻量级的、易于使用的框架,它极大地简化了在个人电脑上运行和管理大型语言模型的过程。无论您是AI爱好者、开发者,还是仅仅对LLMs感到好奇,Ollama 都能帮助您轻松迈出在本地探索AI的第一步。

本篇文章将为您提供一个极其详细的 Ollama 安装指南,涵盖主流操作系统(Windows、macOS、Linux)的安装步骤,并介绍安装前的准备工作、安装后的验证以及如何快速开始使用您的第一个本地模型。我们将力求文字的丰富性与内容的深度,确保即使是技术背景有限的读者也能顺利完成安装。

第一部分:安装前的准备——磨刀不误砍柴工

在开始安装 Ollama 之前,我们需要做一些准备工作,以确保安装过程顺利进行,并为您未来的模型运行打下基础。这主要包括了解 Ollama 的基本需求以及检查您的硬件和操作系统是否满足要求。

1. 了解 Ollama 的基本原理与优势

Ollama 的核心在于它提供了一个统一的接口和运行时,用于打包、分发和运行大型语言模型。它将复杂的模型权重、配置文件、量化信息以及运行所需的库文件封装成一个易于管理的“模型”(Model),用户只需通过简单的命令即可下载并运行这些模型。

Ollama 的主要优势包括:

  • 易用性: 提供简洁的安装包和命令行接口,无需复杂的依赖管理。
  • 模型管理: 方便地拉取(下载)、删除和列出本地已有的模型。
  • 性能优化: 自动利用您的硬件加速,尤其是GPU。
  • 跨平台: 支持 Windows、macOS 和 Linux。
  • API接口: 提供兼容OpenAI等标准的本地API,方便集成到其他应用。

2. 硬件需求:您的电脑是否足够强大?

运行大型语言模型对硬件有一定的要求,特别是对于GPU。Ollama 会尽可能地利用您的硬件资源,但基本的性能保障是必要的。

  • CPU: 需要一个现代化的多核处理器。大多数近几年生产的电脑都能满足基本需求。如果您的电脑没有强大的独立显卡(GPU),那么模型将主要依靠CPU运行,这会显著降低推理速度。
  • 内存 (RAM): 建议至少 8GB RAM。对于运行较大的模型(例如 13B 参数或更高),16GB 或 32GB RAM 将提供更好的体验,尤其是在没有足够显存的情况下,部分模型数据可能会溢出到系统内存。
  • 显卡 (GPU) 及显存 (VRAM): 这是影响LLM运行速度的关键因素。 大多数大型语言模型在GPU上运行时速度远超CPU。为了获得流畅的体验,建议您拥有一块支持CUDA (NVIDIA GPU) 或 ROCm (AMD GPU,Linux下支持较好) 的独立显卡。
    • 显存 (VRAM) 大小至关重要。 模型的大小通常以参数数量衡量(例如 7B, 13B, 70B)。模型参数越多,通常需要更多的显存。
      • 7B 参数模型:通常需要约 6GB – 8GB VRAM 才能完全加载到显存中获得最佳性能。如果显存不足,Ollama 会自动进行层卸载(layer offloading),将部分层放在内存或甚至CPU上运行,但速度会变慢。
      • 13B 参数模型:通常需要约 12GB – 14GB VRAM。
      • 70B 参数模型:通常需要 60GB+ VRAM。
    • 量化 (Quantization): 模型可以通过量化技术减小体积和显存需求,例如 Q4_K_M 这样的量化版本。使用量化模型可以在显存较小的显卡上运行更大的模型,但可能会对输出质量有轻微影响。例如,一个 7B 参数模型的 Q4 量化版本可能只需要 4GB – 6GB VRAM。
    • 总结: 如果您的电脑有 8GB 或更多 VRAM 的独立显卡,您将能够流畅运行 7B 或 13B 参数的量化模型。如果只有集成显卡或显存较少,您仍然可以运行模型,但速度会比较慢,主要依靠CPU。在 Ollama 官方模型库(ollama.com/models)中,您可以查看不同模型及其所需的显存估算。
  • 硬盘空间: Ollama 本身安装文件不大,但下载的模型文件会占用大量空间。一个模型(例如 Llama 2 的一个版本)的大小可能从几 GB 到几十 GB 不等。如果您计划下载多个模型,请确保您的硬盘有足够的可用空间,至少预留几十 GB,甚至几百 GB 的空间。

3. 操作系统要求:选择合适的平台

Ollama 支持以下主流操作系统:

  • Windows: 推荐使用 Windows 10 或 Windows 11 的 64 位版本。需要支持 WSL 2 (Windows Subsystem for Linux 2) 以获得最佳性能,特别是对于GPU加速。大多数最新的 Windows 10/11 版本默认支持或可以轻松启用 WSL 2。
  • macOS: 支持 macOS Monterey (12) 或更高版本,包括 Ventura (13) 和 Sonoma (14)。Ollama 为 Apple Silicon (M系列芯片) 提供了优化的支持,能很好地利用其内置的神经引擎和统一内存。
  • Linux: 支持多种基于 x86_64 架构的发行版,例如 Ubuntu、Debian、Fedora、CentOS/RHEL、Arch Linux 等。需要支持 systemd 服务管理器(这是绝大多数现代Linux发行版的默认配置)。安装过程通常通过命令行脚本完成。

4. 更新系统与驱动

在安装 Ollama 前,强烈建议您:

  • 更新操作系统: 确保您的操作系统是最新版本,或者至少满足 Ollama 的最低版本要求。
  • 更新显卡驱动: 如果您的电脑有独立显卡,请务必访问显卡制造商(NVIDIA、AMD、Intel)的官方网站,下载并安装最新版本的显卡驱动。这是确保 Ollama 能够正确检测并利用您的GPU进行加速的关键步骤。过旧或不兼容的驱动是导致Ollama无法使用GPU的最常见原因。

第二部分:分平台安装指南——手把手教你安装

根据您的操作系统,选择以下对应的安装指南。我们将详细介绍每一步骤。

1. 在 Windows 上安装 Ollama

Windows 用户可以通过下载一个简单的安装包来安装 Ollama,过程非常直观。

步骤 1:访问 Ollama 官方网站

打开您的网络浏览器,访问 Ollama 的官方网站:https://ollama.com/

步骤 2:下载 Windows 安装包

在网站首页,您会看到一个显眼的“Download”或“Download for Windows”按钮。点击该按钮,网站会自动检测您的操作系统并提供相应的下载链接。请确保您下载的是针对 Windows 的安装包。文件通常命名为 OllamaSetup.exe

步骤 3:运行安装程序

找到您下载的 OllamaSetup.exe 文件,双击运行它。可能会弹出用户账户控制(UAC)的提示,点击“是”允许程序运行。

步骤 4:同意许可协议并开始安装

安装程序界面通常非常简洁。您可能需要阅读并同意许可协议。勾选同意选项后,点击“Install”或“安装”按钮。

步骤 5:等待安装完成

安装程序会自动完成文件复制和配置。这个过程通常只需要几分钟,取决于您的电脑性能。

步骤 6:完成安装

安装完成后,安装程序会显示“Installation Complete”或类似的提示。点击“Finish”或“完成”按钮关闭安装窗口。Ollama 会自动启动并作为后台服务运行。您可能会在任务栏的系统托盘区看到 Ollama 的图标(一个蓝色的圆圈)。

重要提示:WSL 2

Ollama 在 Windows 上运行时,为了获得更好的性能,特别是在使用GPU加速时,会利用 Windows Subsystem for Linux 2 (WSL 2)。大多数现代 Windows 10/11 版本都已经内置或可以轻松安装 WSL 2。Ollama 安装程序通常会检查并提示您启用或更新 WSL 2。如果您遇到相关问题,请参考微软官方文档关于如何启用 WSL 2 的说明。通常只需在 PowerShell 或命令提示符中运行 wsl --install 命令即可。

2. 在 macOS 上安装 Ollama

macOS 用户同样可以通过下载安装包来安装 Ollama,过程也非常简单。

步骤 1:访问 Ollama 官方网站

打开您的网络浏览器,访问 Ollama 的官方网站:https://ollama.com/

步骤 2:下载 macOS 安装包

在网站首页,点击“Download”或“Download for macOS”按钮。下载文件通常是一个 .dmg 磁盘镜像文件,例如 Ollama-XXXX.dmg

步骤 3:打开磁盘镜像文件

找到您下载的 .dmg 文件,双击打开它。这会在 Finder 中挂载一个虚拟磁盘,显示 Ollama 安装程序。

步骤 4:将 Ollama 应用程序拖到应用程序文件夹

在打开的窗口中,您会看到 Ollama 的应用程序图标和一个指向“Applications”(应用程序)文件夹的快捷方式。将 Ollama 图标拖动到“Applications”文件夹图标上。这会将 Ollama 应用程序复制到您的应用程序目录中。

步骤 5:启动 Ollama 应用程序

前往您的“Applications”文件夹,找到 Ollama 应用程序图标,双击启动它。

步骤 6:授权运行

首次运行时,macOS 可能会提示您该应用程序是从互联网下载的,询问您是否确定要打开。点击“打开”或“Allow”。

步骤 7:后台运行

Ollama 启动后,不会打开一个窗口,而是会在菜单栏(屏幕顶部的菜单条)显示一个图标(一个蓝色的圆圈)。点击这个图标,您可以查看 Ollama 的状态、查看日志、退出等选项。Ollama 此时已作为后台服务运行,准备接收模型运行请求。

可选:使用 Homebrew 安装 (面向命令行用户)

如果您是 macOS 的命令行用户,并且习惯使用 Homebrew 包管理器,也可以通过 Homebrew 安装 Ollama:

  1. 打开终端应用程序。
  2. 运行以下命令:
    bash
    brew install ollama
  3. Homebrew 会自动下载并安装 Ollama。安装完成后,您可以通过 ollama 命令来启动 Ollama 服务或与之交互。Homebrew 安装方式可能需要您手动启动服务或配置自启动,具体请参考 Homebrew 的安装输出信息。对于大多数用户来说,下载 .dmg 安装包是更简便的方式。

3. 在 Linux 上安装 Ollama

Linux 上的 Ollama 安装主要通过一个官方提供的一行命令脚本来完成,该脚本会自动检测您的系统并进行安装。

步骤 1:打开终端

打开您的 Linux 发行版上的终端应用程序(例如 GNOME Terminal, Konsole, xfce4-terminal 等)。

步骤 2:运行安装脚本

复制并粘贴以下命令到终端中,然后按 Enter 键执行:

bash
curl -fsSL https://ollama.com/install.sh | sh

解释一下这个命令:
* curl: 这是一个用于传输数据的命令行工具。
* -fsSL: f 失败时快速退出,s 静默模式(不显示进度或错误),S 显示错误(即使在静默模式下),L 跟随重定向。这些选项确保脚本能够正确下载。
* https://ollama.com/install.sh: 这是 Ollama 官方提供的安装脚本的 URL。
* |: 这是一个管道符号,它将 curl 命令的输出(即安装脚本的内容)传递给下一个命令。
* sh: 这是一个 shell 命令解释器,它会执行通过管道传递过来的脚本内容。

步骤 3:输入密码(如果需要)

安装脚本可能需要使用 sudo 命令来获取管理员权限,以便安装 Ollama 服务和文件到系统目录。当提示时,输入您的用户密码,然后按 Enter 键。在 Linux 终端中输入密码时,通常不会显示任何字符(甚至不会显示星号),这是正常的安全设置。

步骤 4:等待安装完成

脚本会自动下载 Ollama 的二进制文件,安装到 /usr/local/bin 目录,配置 Ollama 作为 systemd 服务,并尝试检测您的GPU驱动以配置GPU加速。您会看到一些安装过程的输出信息。

步骤 5:验证服务状态(可选但推荐)

安装脚本完成后,Ollama 服务通常会自动启动。您可以通过以下命令检查服务的状态:

bash
systemctl status ollama

您应该看到服务处于“active (running)”状态。按下 Q 键退出状态显示。

手动安装或特定发行版

上述脚本适用于大多数现代 Linux 发行版。如果因为某些原因脚本安装失败,或者您使用的是非主流发行版/架构,可以考虑手动下载二进制文件并进行配置。但这超出了本基础指南的范围,建议查阅 Ollama 官方文档或社区论坛获取更详细的针对特定情况的安装说明。通常,脚本安装是最推荐和最简便的方式。

重要提示:GPU驱动

在 Linux 上,确保您的 NVIDIA 或 AMD GPU 驱动程序已正确安装并与您的内核兼容是使用 GPU 加速的关键。安装 Ollama 之前或之后,请务必检查并更新您的显卡驱动。

第三部分:安装后的验证与首次运行

无论您在哪种操作系统上安装了 Ollama,安装完成后都应该验证其是否正常工作,并尝试运行您的第一个模型。

1. 验证 Ollama 安装

打开您的终端(macOS/Linux)或命令提示符/PowerShell(Windows),输入以下命令:

bash
ollama --version

如果 Ollama 安装成功,您会看到 Ollama 的版本号,例如:

ollama version is 0.1.32

这意味着 Ollama 程序本身已成功安装并可以在命令行中访问。

接下来,我们可以通过列出本地模型来进一步验证。由于您刚安装,本地应该还没有任何模型:

bash
ollama list

输出应该类似这样,表示没有找到本地模型:

NAME ID SIZE MODIFIED

2. 首次运行模型:拉取并启动 Llama 2

现在,让我们尝试运行一个实际的模型。Llama 2 是 Meta 开源的一系列模型,Ollama 官方提供了方便拉取的 Llama 2 版本。

在终端或命令提示符中输入以下命令:

bash
ollama run llama2

解释一下这个命令:
* ollama: 调用 Ollama 程序。
* run: 告诉 Ollama 您要运行一个模型。
* llama2: 您想要运行的模型名称。

首次运行某个模型时,Ollama 会首先检查本地是否已有该模型。如果本地没有,它会自动从 Ollama 官方模型库中下载(拉取)该模型。您会在终端中看到下载进度:

pulling manifest
pulling 000000000000... 100%
verifying sha256 digest
writing manifest
removing any unused layers
success

下载完成后,Ollama 会加载模型到内存/显存中,并显示一个提示符,等待您输入文本:

“`

“`

恭喜!您已经成功启动了您的第一个本地大型语言模型。现在,您可以在 >>> 提示符后输入问题或文本,按 Enter 键,Llama 2 就会生成回复。

例如,您可以输入:

“`

Please tell me a short story about a brave knight.
“`

模型会在思考片刻后(所需时间取决于您的硬件性能和模型大小)生成一个故事。

要退出模型交互模式,可以输入 /bye 然后按 Enter 键:

“`bash

/bye
“`

3. 探索更多模型

您可以通过访问 Ollama 官方网站的模型页面:https://ollama.com/models 来探索更多可用的模型。页面上列出了许多社区贡献的模型,包括 Mistral、Gemma、Code Llama、Yi 等等。

找到您感兴趣的模型后,只需记住其名称(例如 mistralyi:34b),然后使用 ollama run <model_name> 命令即可下载并运行该模型。

使用 ollama list 命令可以查看您已经下载到本地的所有模型及其占用的空间。

使用 ollama rm <model_name> 命令可以删除本地不再需要的模型文件以释放硬盘空间。

第四部分:常见问题与故障排除

在安装和使用 Ollama 的过程中,您可能会遇到一些问题。以下是一些常见的故障排除提示:

  • 无法下载模型(pulling manifest failed 或网络错误):
    • 检查您的网络连接是否正常。
    • 如果您使用了代理服务器,可能需要配置 Ollama 使用代理。具体方法请查阅 Ollama 官方文档。
    • 防火墙或安全软件可能阻止了连接,检查并允许 Ollama 访问网络。
  • 模型运行缓慢(主要依靠CPU):
    • 验证您的显卡驱动是否是最新版本。
    • 在 Linux 上,检查您的系统是否正确安装了 NVIDIA CUDA 或 AMD ROCm 相关的库和驱动。
    • 使用 ollama run --verbose <model_name> 命令查看加载过程,检查是否正确检测到并使用了GPU(查找 cuda enabledrocm enabled 等字样)。
    • 如果显存不足以加载整个模型,Ollama 会自动使用CPU/内存。考虑运行显存需求更小的模型版本(例如量化版本 Q4_K_M 等),或者升级您的显卡。
  • “command not found: ollama”错误:
    • 这意味着 Ollama 的可执行文件没有被添加到系统的 PATH 环境变量中,或者安装失败。
    • Windows/macOS 安装包: 重新运行安装程序,确保安装成功。有时候重启电脑可以解决问题。
    • Linux 脚本安装: 检查脚本的输出是否有错误。确保 /usr/local/bin 目录在您的 PATH 环境变量中(通常是默认的)。如果安装时使用了 sudo sh 或类似的命令,确保脚本是以正确的方式执行的,并且文件权限正确。有时,安装后需要关闭并重新打开终端窗口才能识别 ollama 命令。
  • 安装脚本在 Linux 上执行失败:
    • 检查您的 Linux 发行版和架构是否支持。
    • 检查您是否有足够的权限运行脚本(需要 sudo 权限进行系统级别的安装)。
    • 确保您正确复制粘贴了命令,包括管道符 |
    • 尝试手动下载脚本并分步执行,或者查看脚本内容了解具体失败原因。
  • 磁盘空间不足:
    • 使用 ollama list 查看已下载模型的总大小。
    • 使用 ollama rm <model_name> 删除不需要的模型。
    • 在您安装 Ollama 的分区或目录下清理其他不需要的文件。
  • 模型加载失败或崩溃:
    • 尝试重新下载模型,模型文件可能在下载过程中损坏。
    • 检查 Ollama 的日志文件,通常可以在用户主目录下的 .ollama 目录中找到日志文件,或者在 Ollama 服务的状态信息中查看日志路径。
    • 您的硬件可能无法支持该模型,尝试运行更小的模型。

如果您遇到的问题无法通过以上方法解决,建议访问 Ollama 的 GitHub 仓库的 Issues 页面或参与 Ollama 社区的讨论,寻求更专业的帮助。

第五部分:Ollama 的进一步探索

成功安装并运行了您的第一个本地模型后,Ollama 的世界才刚刚向您展开。您可以进一步探索:

  • 运行不同的模型: 尝试 Ollama 模型库中的其他模型,了解它们的不同特点和能力。
  • 创建自定义模型: Ollama 允许您使用 Modelfile 定义自己的模型,可以基于现有模型进行微调,或者整合不同的组件。
  • 使用 Ollama API: Ollama 在本地启动了一个服务,提供与 OpenAI API 兼容的接口。这意味着您可以将 Ollama 集成到各种支持 OpenAI API 的应用中,例如聊天客户端、开发框架等。API 默认地址是 http://localhost:11434
  • 图形界面前端: 社区开发了许多基于 Ollama API 的图形界面,让您无需命令行即可与模型互动。搜索“Ollama GUI”可以找到很多选项。
  • 与其他工具集成: Ollama 可以轻松集成到 LangChain、LlamaIndex 等流行的LLM开发框架中,帮助您构建更复杂的AI应用。

结论:迈向本地AI的新起点

通过本篇详细的安装指南,您应该已经成功地在您的电脑上安装了 Ollama,并初步体验了本地运行大型语言模型的便捷。Ollama 极大地降低了本地部署LLMs的技术门槛,让更多人能够亲身体验和利用这项强大的技术。

从隐私保护到离线使用,从成本控制到灵活开发,本地运行LLMs具有无可比拟的优势。Ollama 正是实现这些优势的关键工具。

现在,您已经站在了本地AI探索的新起点上。尽情地使用 ollama run 命令去尝试不同的模型,用 ollama list 去管理它们,用 ollama --help 去了解更多命令细节。随着您对本地AI的深入了解,Ollama 将为您打开更多通往高级应用和开发的大门。

希望这篇指南对您有所帮助。祝您在本地AI的世界里探索愉快!


发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部