Ollama 本地大模型运行框架：从零开始的下载、安装与入门全攻略

随着大型语言模型（LLMs）技术的飞速发展，越来越多的人希望能够在本地电脑上运行这些强大的模型，以便保护数据隐私、降低成本、实现离线访问或进行个性化定制。然而，手动配置运行环境、处理模型文件、管理依赖等过程往往复杂且门槛较高。

正是在这样的背景下，Ollama 应运而生。Ollama 是一个轻量级、易于使用的框架，它极大地简化了在本地计算机上运行大型语言模型的流程。通过 Ollama，用户可以轻松地下载、安装和运行各种流行的开源模型，如 Llama 2、Mistral、Gemma、Qwen 等，并能通过简单的命令行接口或其提供的 API 与模型进行交互。

本文将为您提供一份详尽的 Ollama 下载、安装与入门教程，无论您是技术新手还是有一定经验的开发者，都能跟随本指南快速在您的设备上部署并运行本地大模型。

第一章：认识 Ollama – 为何选择它？

在深入学习如何使用 Ollama 之前，我们先来了解一下它是什么以及为什么值得选择它：

极致的易用性： Ollama 将复杂的模型加载、显存管理、运行环境配置等细节抽象化，用户只需几条简单的命令即可完成模型的下载和运行。
跨平台支持： Ollama 支持 Windows、macOS（包括 Intel 和 Apple Silicon）和 Linux 等主流操作系统，覆盖了绝大多数个人电脑用户。
丰富的模型库： Ollama 提供了官方模型库，包含了众多主流的开源大模型，用户可以直接通过名称拉取并使用，无需手动寻找和下载模型文件。
强大的 API 接口： Ollama 在本地启动一个服务，并提供标准的 REST API 接口，这使得开发者可以轻松地将本地模型集成到自己的应用中，进行聊天、Embedding 计算、图像生成（结合多模态模型）等操作。
高效的硬件利用： Ollama 能够充分利用本地设备的 GPU 资源（如果可用），实现更快的推理速度。即使没有高性能 GPU，它也能在 CPU 上运行，虽然速度会慢一些。
完全离线运行： 一旦模型下载完成，所有的推理计算都在本地进行，无需连接互联网（除非需要下载新的模型或更新）。这对于注重隐私或在网络环境受限的情况下非常有价值。
模型定制与创建： Ollama 支持使用 Modelfile 文件来自定义现有模型或创建新的模型，例如修改模型的系统提示词、参数或者将多个模型组合（未来可能支持），提供了高度的灵活性。

总而言之，Ollama 就像一个本地大模型领域的 Docker，它为模型的打包、分发和运行提供了一个统一、简便的解决方案。

第二章：环境准备 – 系统要求与注意事项

在下载和安装 Ollama 之前，请确保您的电脑满足以下基本要求：

操作系统：
- Windows 10 或更高版本。
- macOS 11 (Big Sur) 或更高版本（支持 Intel 和 Apple Silicon）。
- Linux（支持大多数主流发行版，如 Ubuntu, Fedora, Debian 等）。
内存 (RAM)： Ollama 本身占用资源不多，但运行大型语言模型非常消耗内存。建议至少拥有 8GB RAM，对于运行较大的模型（例如 7B 参数量或以上），建议拥有 16GB 或更多的 RAM，以避免系统性能瓶颈或模型无法加载。
存储空间： 模型文件通常较大（几 GB 到几十 GB 不等），请确保您的硬盘有足够的剩余空间来存放您计划下载的模型。
图形处理器 (GPU)： 强烈建议拥有 NVIDIA、AMD 或 Apple Silicon GPU。 Ollama 可以极大地利用 GPU 加速模型的推理速度，从而获得流畅的交互体验。
- NVIDIA GPU：需要安装最新的驱动程序。
- AMD GPU：在 Linux 上支持 ROCm，Windows 上支持特定型号。
- Apple Silicon：原生支持 M1/M2/M3 系列芯片的 GPU 加速。
- 注意： 即使没有 GPU，Ollama 也可以在 CPU 上运行，但这会导致推理速度非常慢，可能只适合简单的测试或对速度要求不高的场景。
网络连接： 下载 Ollama 安装程序和模型文件需要稳定的互联网连接。

在开始安装前，最好关闭可能干扰安装过程的其他应用程序。

第三章：下载 Ollama – 获取安装程序

Ollama 的下载非常简单，只需访问其官方网站并选择对应您操作系统的版本即可。

官方网站： https://ollama.com/

请按照以下步骤进行下载：

访问官网： 打开您的网页浏览器，输入 https://ollama.com/ 并访问。
找到下载区域： 在官网首页，您通常会看到一个醒目的下载按钮或指向下载页面的链接。点击它。
选择您的操作系统： 下载页面会列出支持的操作系统版本：Windows、macOS、Linux。点击对应您当前使用的操作系统的下载按钮。
- Windows: 会下载一个 .exe 安装文件。
- macOS: 会下载一个 .dmg 安装文件。
- Linux: 会提供一个 curl 命令，您需要在终端中运行这个命令来下载并安装 Ollama。

针对 Linux 用户的特别说明：

Linux 的安装方式通常是通过一个脚本来完成。在 Ollama 下载页面找到 Linux 部分，您会看到类似如下的命令：

bash curl -fsSL https://ollama.com/install.sh | sh

这个命令的作用是：
* curl -fsSL https://ollama.com/install.sh: 从指定的 URL 下载安装脚本。-fsSL 是 curl 的参数，表示静默模式、失败时退出、显示错误、跟踪重定向。
* | sh: 将下载的脚本通过管道传递给 sh 命令来执行。

您需要打开您的终端（Terminal）应用程序，复制并粘贴这行命令，然后按回车键执行。脚本会自动检测您的系统并进行安装。

重要提示： 务必从 Ollama 官方网站下载安装程序，以确保您获得的是安全、最新的版本。

第四章：安装 Ollama – 让它在您的系统上运行

下载完成后，接下来是安装过程。不同操作系统的安装步骤略有不同。

4.1 Windows 上的安装

运行安装程序： 找到您下载的 .exe 文件（通常在“下载”文件夹中），双击运行它。
用户账户控制： 如果系统弹出用户账户控制（UAC）窗口，请点击“是”允许程序运行。
同意许可协议： 阅读并同意 Ollama 的许可协议，然后点击“安装”或“Next”。
选择安装位置（可选）： 大多数情况下，使用默认的安装位置即可。如果您需要更改，可以点击“Browse”选择新的位置。
开始安装： 点击“Install”按钮开始安装过程。安装程序会自动复制文件并配置必要的服务。
完成安装： 安装完成后，通常会显示“Installation Complete”或类似的提示。点击“Finish”关闭安装程序。
验证安装： Ollama 通常会作为一个后台服务自动启动。在 Windows 系统托盘区域（通常在任务栏右侧）查找一个蓝色的山羊图标（Ollama 的 Logo）。如果看到这个图标，说明 Ollama 已经成功安装并正在运行。您也可以打开命令提示符（CMD）或 PowerShell，输入 ollama --version 并按回车，如果显示了 Ollama 的版本号，则表示安装成功且已添加到系统 PATH 中。

4.2 macOS 上的安装

打开 DMG 文件： 找到您下载的 .dmg 文件，双击打开它。
拖拽应用： 在打开的窗口中，您会看到 Ollama 的图标和“Applications”文件夹的快捷方式。将 Ollama 的图标拖拽到“Applications”文件夹中。
启动 Ollama： 打开“Applications”文件夹，找到 Ollama 的应用程序图标，双击运行它。
安全提示： 如果系统弹出安全警告，提示应用程序来自未知开发者，请前往“系统设置”或“系统偏好设置”->“安全与隐私”，找到并允许运行 Ollama。
菜单栏图标： Ollama 启动后，它会驻留在 macOS 的菜单栏中，显示一个蓝色的山羊图标。点击这个图标可以查看 Ollama 的状态或退出。
验证安装： 打开“终端”（Terminal）应用程序，输入 ollama --version 并按回车。如果显示了版本号，说明安装成功。

4.3 Linux 上的安装

如果您使用了前面提到的 curl 命令进行安装，安装脚本会自动完成大部分工作。

运行安装脚本： 在终端中执行之前提到的 curl 命令。
等待完成： 脚本会下载 Ollama 二进制文件并将其放置在合适的系统路径中（通常是 /usr/local/bin/ollama）。它还会配置 Ollama 服务，使其在系统启动时自动运行。您可能需要输入管理员密码（sudo）来完成某些步骤。
验证安装： 安装完成后，Ollama 服务应该已经启动。您可以通过以下命令检查其状态：
bash systemctl status ollama # 对于使用 systemd 的系统 (如 Ubuntu 15.04+, Debian 8+, Fedora 15+) # 或者 service ollama status # 对于使用 Upstart 或 Init 系统的系统
如果服务正在运行，状态会显示为 active (running)。同时，打开新的终端窗口，输入 ollama --version 并按回车，确认命令可用且显示版本号。

安装过程中的常见问题与解决方案：

权限问题： 在 Linux 上安装可能需要管理员权限（使用 sudo）。
防火墙： 确保防火墙没有阻止 Ollama 服务监听本地端口（默认为 11434）。
依赖问题： Linux 脚本通常会处理依赖，但极少数情况下可能需要手动安装一些库。
杀毒软件： 某些杀毒软件可能会误报 Ollama，请添加到信任列表。

第五章：入门使用 – 运行您的第一个本地大模型

安装并确认 Ollama 正在运行后，您就可以开始下载并与大型语言模型进行交互了。这一切都通过 Ollama 提供的命令行接口来完成。

打开终端或命令提示符：
- Windows: 搜索并打开“命令提示符”或“PowerShell”。
- macOS: 打开“终端”（Terminal）应用程序。
- Linux: 打开您的终端模拟器。
拉取并运行模型： 使用 ollama run <模型名称> 命令来拉取并运行模型。这是 Ollama 最常用的命令。
- 选择一个模型： Ollama 官方模型库提供了许多模型。对于初次尝试，建议选择一个体积较小、运行速度较快的模型，例如 llama2、mistral 或 gemma:2b。您可以在 https://ollama.com/library 查看完整的模型列表和不同参数量（如 7B, 13B, 70B）的版本（通过标签区分）。
- 执行命令： 在终端中输入以下命令并按回车（以拉取并运行 Mistral 模型为例）：
  
  bash ollama run mistral
首次运行：模型下载：
- 当您第一次运行某个模型时，Ollama 会检查本地是否已有该模型。如果本地没有，它会自动开始从 Ollama 官方模型库下载该模型。
- 下载过程会显示进度条，模型文件通常较大，下载时间取决于您的网络速度。请耐心等待下载完成。
- 例如，运行 ollama run mistral 可能首先显示：
  pulling manifest pulling d4d75b31e90b... 100% pulling 50c71b7258f5... 100% pulling 8d392dfee315... 100% pulling bf99f15f72be... 100% pulling c45119808f96... 100% verifying sha256 digest
  这些步骤表示正在下载模型的不同层和清单文件。
模型加载与交互：
- 下载完成后，Ollama 会自动加载模型到内存（或显存）中。加载时间取决于模型大小和您的硬件性能。
- 模型加载完成后，您会看到一个提示符，表示模型已经准备就绪，等待您的输入。例如：
  >>>
- 现在，您就可以像与聊天机器人一样，在 >>> 提示符后输入您的问题或指令，然后按回车键。
- 模型会在终端中生成并输出回复。
- 您可以连续输入问题，与模型进行多轮对话。
结束对话：
- 要退出与当前模型的交互会话，可以输入 /bye 或 /exit 并按回车键。
- 或者，在大多数终端中，您也可以按下 Ctrl + C 来中断并退出当前的 Ollama 进程。

示例对话流程：

“`bash

打开终端，运行 mistral 模型

ollama run mistral

(等待下载和加载…)

你好，请自我介绍一下。

(模型开始生成并输出回复)

你好！我是一个大型语言模型，由 Mistral AI 训练。我可以协助你完成各种文本任务，比如回答问题、写作、总结信息等等。请问有什么我可以帮你的吗？

给我讲个笑话。

(模型生成笑话)

当然。为什么科学家不相信原子？
因为它们组成了一切！

/bye

(退出会话)

“`

恭喜您！您已经成功在本地运行了您的第一个大模型，并与其进行了交互。

第六章：进阶使用 – 探索 Ollama 的更多功能

Ollama 不仅仅是一个简单的运行器，它还提供了一些有用的命令和功能：

查看已下载模型：
使用 ollama list 命令可以查看您当前本地已经下载的所有模型及其大小。
bash ollama list
输出示例：
NAME ID SIZE MODIFIED mistral:latest d4d75b31e90b 4.1 GB 3 weeks ago llama2:latest 078cd215b8f6 3.8 GB 4 weeks ago
删除模型：
如果您不再需要某个模型，可以使用 ollama rm <模型名称> 命令将其从本地删除，以释放磁盘空间。
bash ollama rm llama2
您可以删除一个或多个模型，模型名称后面需要加上标签，例如 llama2:latest 或只写 llama2 (默认删除 latest 标签)。
拉取特定标签的模型：
同一个模型可能有很多版本或参数量，通过标签区分。您可以使用 ollama pull <模型名称>:<标签> 来下载特定版本。例如，要下载 Llama 2 的 13B 参数量版本：
bash ollama pull llama2:13b
您可以在 Ollama 模型库页面查看每个模型的可用标签。
复制模型：
可以使用 ollama copy <源模型> <目标模型> 来复制一个模型并给它一个新的名字或标签。这在您想基于现有模型进行修改（如创建 Modelfile）时很有用。
bash ollama copy mistral:latest my-mistral:v1
创建自定义模型 (Modelfile)：
Ollama 允许您通过创建一个 Modelfile 来定制模型的行为或创建新的模型。Modelfile 类似于 Dockerfile，包含一系列指令。例如，您可以基于现有模型设置固定的系统提示词：

首先，创建一个文本文件，命名为 MyChatModel (没有后缀名)，内容如下：
“`
FROM mistral

SYSTEM “””
你是一个友好的、乐于助人的AI助手，总是用中文回答问题。
“””
然后，在终端中进入到存放 `MyChatModel` 文件的目录，执行创建命令：bash
ollama create my-chat-model -f ./MyChatModel
`` 这将创建一个名为my-chat-model的新模型，它基于mistral，但会始终使用您定义的系统提示词。现在您就可以ollama run my-chat-model` 来使用这个定制的模型了。

Modelfile 支持更多指令，如 PARAMETER (设置温度、Top P 等参数)、TEMPLATE (修改聊天模板) 等，具体可以参考 Ollama 官方文档。
通过 API 使用 Ollama：
Ollama 启动后，会在本地监听端口 11434，并提供一个 REST API。这使得其他应用程序可以通过 HTTP 请求与 Ollama 交互。例如，您可以使用 curl 来与模型进行聊天：
bash curl http://localhost:11434/api/chat -d '{ "model": "mistral", "messages": [ {"role": "system", "content": "You are a helpful assistant."}, {"role": "user", "content": "Why is the sky blue?"} ] }'
这个 API 对于开发者将 Ollama 集成到自己的 Web 应用、桌面应用或其他服务中非常有用。Ollama 提供了 /api/generate (文本补全)、/api/chat (聊天)、/api/embeddings (生成向量) 等多个端点。
使用第三方 Web UI：
虽然 Ollama 命令行界面简单高效，但对于习惯图形界面的用户，可以使用一些社区开发的第三方 Web 用户界面。这些 UI 通过 Ollama 的 API 与后端交互，提供了更友好的聊天界面、模型管理功能等。流行的选择包括 Ollama WebUI、Open WebUI 等。您需要额外安装和配置这些 Web UI，它们通常以 Docker 容器的形式提供。

第七章：故障排除与常见问题

在使用 Ollama 过程中，您可能会遇到一些问题。以下是一些常见的问题及其可能的解决方案：

ollama command not found：
- 原因： Ollama 的安装目录没有被添加到系统的环境变量 PATH 中，或者安装失败。
- 解决方案： 重新运行安装程序。在 Linux 上，检查 /usr/local/bin/ollama 文件是否存在，并确保该目录在您的 PATH 环境变量中。安装脚本通常会处理这个问题，如果遇到，可能需要手动添加到 ~/.bashrc 或 ~/.zshrc 等文件。
模型下载速度慢或失败：
- 原因： 网络连接不稳定或下载源速度慢。
- 解决方案： 检查您的网络连接。可以尝试更换网络环境或稍后重试。目前 Ollama 的模型库主要分布在海外，国内用户可能会受到网络波动影响。
模型运行缓慢：
- 原因： 模型体积过大，或硬件性能不足（特别是没有 GPU 或 GPU 显存不足）。模型正在 CPU 上运行。
- 解决方案：
  - 检查 Ollama 是否正在使用您的 GPU。在终端运行 ollama run <模型名称> 后，查找输出信息中是否提到了 GPU。
  - 确保您的 GPU 驱动是最新的。
  - 如果您有 NVIDIA GPU，可以安装 CUDA Toolkit 和 cuDNN（Ollama 会自动检测）。
  - 如果您有 AMD GPU 在 Linux 上，确保 ROCm 安装正确。
  - 如果您有 Apple Silicon Mac，Ollama 应该会自动利用 Metal 进行加速。
  - 尝试运行参数量更小的模型（例如从 7B 换成 3B 或 2B 版本）。
  - 增加系统内存，确保模型不会频繁地在内存和磁盘之间交换数据。
模型加载失败或崩溃：
- 原因： 通常是内存或显存不足。运行一个 7B 参数的模型可能需要至少 8GB 显存或 16GB 内存，13B 模型需要更多。
- 解决方案： 确认您的硬件满足模型的最低运行要求。尝试关闭其他占用大量内存或显存的应用程序。考虑升级硬件或运行更小的模型。
Ollama 服务未运行：
- 原因： Ollama 服务没有正确启动或意外崩溃。
- 解决方案：
  - Windows/macOS: 查看系统托盘/菜单栏的 Ollama 图标状态，尝试点击重启。
  - Linux: 使用 systemctl status ollama 查看状态，如果未运行，使用 systemctl start ollama 启动。查看日志文件 (journalctl -u ollama) 获取更多错误信息。
与模型交互时出现乱码或不完整输出：
- 原因： 终端编码问题，或模型输出被截断。
- 解决方案： 确保您的终端支持 UTF-8 编码。尝试调整终端窗口大小。某些情况下，模型可能需要特定的提示模板才能更好地工作，但这通常在使用 Modelfile 时才会涉及。

如果遇到其他复杂问题，建议访问 Ollama 官方文档或社区论坛寻求帮助。

第八章：总结与展望

通过本文的详细教程，您应该已经成功地在您的本地计算机上下载、安装并运行了 Ollama，并与您选择的大型语言模型进行了首次互动。

Ollama 为本地运行 LLMs 提供了一个极其便捷的途径，极大地降低了普通用户和开发者的门槛。它不仅可以作为简单的聊天工具，更重要的是提供了一个强大的本地推理后端，使得构建基于大模型的应用成为可能，而且这一切都可以在离线状态下完成，充分保护了数据隐私。

随着开源模型社区的不断壮大和 Ollama 自身的持续迭代，我们可以期待 Ollama 未来将支持更多类型的模型、提供更丰富的功能（如多模态支持、更好的性能优化、更灵活的模型组合方式等），它将成为个人和开发者探索和应用本地大模型的利器。

现在，您可以开始尝试下载 Ollama 模型库中的其他模型，体验它们不同的特点和能力。祝您在本地大模型的探索之旅中取得丰硕的成果！

Ollama 下载、安装与入门教程 – wiki基地

Ollama 本地大模型运行框架：从零开始的下载、安装与入门全攻略

第一章：认识 Ollama – 为何选择它？

第二章：环境准备 – 系统要求与注意事项

第三章：下载 Ollama – 获取安装程序

第四章：安装 Ollama – 让它在您的系统上运行

4.1 Windows 上的安装

4.2 macOS 上的安装

4.3 Linux 上的安装

第五章：入门使用 – 运行您的第一个本地大模型

打开终端，运行 mistral 模型

(等待下载和加载…)

(模型开始生成并输出回复)

(模型生成笑话)

(退出会话)

第六章：进阶使用 – 探索 Ollama 的更多功能

第七章：故障排除与常见问题

第八章：总结与展望

发表评论取消回复

Ollama 本地大模型运行框架：从零开始的下载、安装与入门全攻略

第一章：认识 Ollama – 为何选择它？

第二章：环境准备 – 系统要求与注意事项

第三章：下载 Ollama – 获取安装程序

第四章：安装 Ollama – 让它在您的系统上运行

4.1 Windows 上的安装

4.2 macOS 上的安装

4.3 Linux 上的安装

第五章：入门使用 – 运行您的第一个本地大模型

打开终端，运行 mistral 模型

(等待下载和加载…)

(模型开始生成并输出回复)

(模型生成笑话)

(退出会话)

第六章：进阶使用 – 探索 Ollama 的更多功能

第七章：故障排除与常见问题

第八章：总结与展望

发表评论 取消回复

发表评论取消回复