什么是 Ollama？本地运行大模型的入门介绍 – wiki基地

什么是 Ollama？本地运行大模型的入门指南

近年来，大型语言模型（LLM）以其惊人的能力席卷全球，从智能写作到编程辅助，再到创意生成，它们的应用场景越来越广泛。然而，大多数强大的 LLM 都运行在云端服务器上，这带来了成本、隐私和数据安全等方面的担忧。许多用户渴望能够在自己的电脑上本地运行这些模型，以便更自由、更安全地使用它们。

但本地运行 LLM 并非易事。它涉及到复杂的模型格式、依赖库、硬件加速配置（尤其是 GPU 的使用）以及模型管理等诸多技术细节。对于普通用户而言，这无疑是一道高高的技术门槛。

正是在这样的背景下，Ollama 应运而生。它是一款旨在极大简化在本地计算机上运行和管理大型语言模型的工具，让普通用户也能轻松体验本地 LLM 的强大能力。

那么，Ollama 究竟是什么？它是如何工作的？我们又该如何通过它在本地运行大模型呢？本文将为您详细解答。

一、什么是 Ollama？

简单来说，Ollama 是一个用于在本地轻松运行、创建和管理大型语言模型的框架或工具集。 它的核心目标是：让本地部署和使用 LLM 像运行一个 Docker 容器或者执行一个简单的命令行指令一样简单。

Ollama 的主要特点和功能包括：

简化安装和设置： Ollama 提供适用于 Windows、macOS 和 Linux 的一键式安装包，大大降低了入门难度。
集成模型库： Ollama 维护了一个在线模型库（ollama.com/library），用户可以通过简单的命令直接下载和运行各种主流的开源模型，如 Llama 2、Mistral、Code Llama、Gemma 等。
统一模型格式： Ollama 将各种来源和格式的模型打包成一种易于分发和运行的格式，用户无需关心底层的模型文件类型（如 GGUF, SafeTensors 等）。
提供命令行接口 (CLI)： 用户可以通过 ollama run <model_name>、ollama list、ollama pull 等简单命令与模型进行交互或管理模型。
提供本地 API 服务： Ollama 安装后会在本地启动一个后台服务（通常在 localhost:11434 端口），提供标准的 RESTful API 接口，允许开发者轻松地将本地运行的模型集成到其他应用程序中。这使得构建本地 AI 应用成为可能，例如各种基于 Ollama 的 Web UI、桌面应用等。
硬件加速支持： Ollama 能够自动检测并利用可用的硬件加速资源，特别是 GPU（Nvidia CUDA, AMD ROCm, Apple Metal 等），以显著提升模型的推理速度。
支持模型定制（Modelfiles）： Ollama 允许用户通过创建 Modelfile 文件来定制模型，例如基于现有模型创建新模型、修改模型的默认系统提示词、调整模型参数等，这为模型的个性化使用提供了可能。

总而言之，Ollama 就像是本地运行大模型的“管家”和“翻译官”，它负责处理那些复杂的技术细节（模型下载、格式转换、硬件调用、服务暴露），让用户可以直接专注于与模型进行交互或将其集成到自己的工作流程中。

二、为什么选择在本地运行大模型？

在了解了 Ollama 是什么之后，我们或许会问：既然云端模型（如 OpenAI 的 ChatGPT、Google 的 Gemini 等）已经很方便了，为什么还需要在本地运行模型呢？本地运行大模型有着诸多吸引人的优势：

隐私和数据安全： 这是最核心的优势之一。在本地运行模型时，您的数据无需上传到任何第三方服务器。所有敏感信息都保留在您自己的计算机上，极大降低了数据泄露的风险。这对于处理包含个人、商业或机密信息的数据尤为重要。
成本效益： 一旦您拥有了合适的硬件，本地模型推理的成本几乎为零（仅消耗电能）。相比之下，使用云端 API 通常需要按使用量付费，长期累积下来可能是一笔不小的开支，尤其对于开发者或重度用户。
低延迟： 数据无需通过互联网传输到远程服务器再传回，模型推理直接在本地硬件上完成，响应速度更快，延迟更低。这对于需要实时交互的应用场景（如本地聊天机器人、代码补全等）体验提升显著。
离线可用： 模型下载完成后，即使没有互联网连接，您也可以随时随地使用本地模型。这对于在网络不稳定或受限的环境下工作非常有帮助。
完全控制： 您对本地运行的模型拥有完全的控制权，可以自由地使用、修改（通过 Modelfiles）或集成到您的应用程序中，不受第三方服务提供商的策略限制或 API 变动影响。
探索和实验： 本地环境为探索不同的开源模型、进行模型性能测试、甚至尝试模型微调提供了便利和自由度。

当然，本地运行大模型也有其局限性，主要是对硬件的要求较高，特别是需要一块具备足够显存（VRAM）的显卡才能流畅运行较大规模的模型。但这正是 Ollama 等工具试图解决的问题之一：通过支持量化模型等技术，让更多硬件配置的用户也能参与进来。

三、如何入门：使用 Ollama 在本地运行您的第一个大模型

现在，让我们进入实操环节，看看如何使用 Ollama 在您的计算机上运行第一个大型语言模型。

步骤 1：检查硬件要求

虽然 Ollama 让过程变得简单，但运行 LLM 仍然需要一定的硬件基础。最重要的硬件是显卡（GPU）及其显存（VRAM）。模型的规模越大、精度越高，所需的 VRAM 就越多。

最低要求： 至少 8GB 内存，推荐 16GB 或更高。对于运行小型量化模型（如 7B Q4）且没有强大 GPU 的情况，CPU 和内存会承担更多计算任务。
推荐配置（以流畅运行主流模型为例）：
- GPU： Nvidia 显卡（推荐 RTX 3060 12GB VRAM 或更高）、AMD 显卡（RX 6000 系列或更高，需 ROCm 支持）、Apple Silicon (M1/M2/M3 芯片及更高版本)。
- VRAM： 这是关键。
  - 运行 7B 参数的量化模型 (e.g., Llama 2 7B Q4, Mistral 7B Q4) 大约需要 4-6 GB VRAM。
  - 运行 13B 参数的量化模型 (e.g., Llama 2 13B Q4) 大约需要 8-10 GB VRAM。
  - 运行 70B 参数的量化模型 (e.g., Llama 2 70B Q4) 可能需要 40 GB 或更多的 VRAM。
- 内存 (RAM)： 建议 16GB 或更高，以便在 VRAM 不足时进行 CPU 卸载。
注意： 如果您的硬件配置较低，特别是 VRAM 不足，仍然可以尝试运行非常小的模型或进行 CPU 推理，但速度可能会非常慢。Ollama 会自动尝试利用所有可用的硬件资源。

步骤 2：下载并安装 Ollama

访问 Ollama 的官方网站：https://ollama.com/

网站会根据您的操作系统自动推荐下载版本（Windows, macOS, Linux）。

Windows: 下载 .exe 安装包，双击运行并按照提示完成安装。
macOS: 下载 .dmg 文件，打开后将 Ollama 应用拖拽到“应用程序”文件夹。首次运行可能需要一些设置。
Linux: 网站提供了详细的安装脚本命令，通常是打开终端，复制粘贴命令执行即可。

安装完成后，Ollama 会在您的系统后台运行一个服务。

步骤 3：验证安装

打开您的终端（macOS/Linux）或命令提示符/PowerShell（Windows）。输入以下命令并按回车：

bash ollama --version

如果安装成功，您将看到 Ollama 的版本信息。这表明 Ollama 已经在您的系统上正确运行。

步骤 4：下载并运行第一个模型

现在，我们可以下载并运行一个模型了。Ollama 的命令行接口非常直观。我们将以 Mistral 7B 模型为例，它是一个相对小巧但性能优秀的模型，非常适合初学者尝试。

在终端中输入以下命令：

bash ollama run mistral

如果这是您第一次运行 mistral 模型： Ollama 会检查本地是否已经下载了该模型。如果本地没有，它会自动开始从 Ollama 模型库下载模型文件。下载过程可能需要一些时间，取决于您的网络速度和模型大小。下载进度会在终端中显示。
如果模型已经下载过： Ollama 会直接加载该模型并启动交互模式。

下载完成后或模型加载完毕后，终端会显示一个提示符，表示模型已经准备好接收您的输入了。例如：

“`

“`

现在，您可以像与聊天机器人一样输入您的问题或指令，按回车发送。

例如，输入：

给我讲一个关于一只勇敢的猫的故事。

按下回车，Ollama 后台的 Mistral 模型就会处理您的请求，并将生成的文本输出到终端中。

“`

给我讲一个关于一只勇敢的猫的故事。

从前，在一个名叫橡树村的小村庄里，住着一只名叫奥利弗的虎斑猫。奥利弗不是一只普通的猫，他勇敢而好奇，总是喜欢探索村庄周围的未知区域。橡树村旁边有一片古老的森林，森林深处流传着一个关于一只巨大的、爱捣乱的狐狸的传说，它常常偷走村民的食物。

有一天，村庄的鸡被偷走了。村民们都很伤心和愤怒，因为他们知道这是那只传说中的狐狸干的。奥利弗听到了村民们的谈话，他决定要找出那只狐狸，并把鸡找回来。这是一项危险的任务，但他知道自己必须去尝试。

奥利弗小心翼翼地进入了森林。森林里阴森森的，树木高大茂密，几乎遮住了阳光。他沿着小路前进，警惕地观察着四周。突然，他听到了一阵沙沙声。他躲到一棵大树后面，看到那只巨大的狐狸正叼着一只鸡走过去。狐狸的皮毛是红棕色的，眼睛闪烁着狡猾的光芒。

奥利弗知道自己不能直接攻击狐狸，它太大了。他必须想一个聪明的办法。他悄悄地跟在狐狸后面，保持着距离。狐狸走进了森林深处的一个洞穴。奥利弗趁机靠近洞穴，他看到洞穴里堆满了被偷来的食物，包括许多鸡。

奥利弗没有贸然进入，他想到了一个主意。他在洞穴入口附近找到了一些干燥的树叶和树枝。他用爪子将这些易燃物推到一起，然后找到一块光滑的石头和一块打火石，尽管有些笨拙，但他努力地摩擦它们，试图制造火花。作为一只猫，这非常困难，但他坚持不懈。

终于，几颗火星溅了出来，点燃了树叶。烟很快就冒了起来。狐狸在洞穴里闻到了烟味，它害怕火，赶紧跑了出来。奥利弗趁机冲进洞穴，快速地将那些被偷的鸡推了出来。然后，他头也不回地跑向村庄。

狐狸看到奥利弗带着鸡逃跑，愤怒地追了上来。但奥利弗跑得很快，而且他熟悉森林里的每一条小路。他巧妙地躲避着狐狸的追击。

最终，奥利弗成功地带着鸡回到了橡树村。村民们看到奥利弗和他们失而复得的鸡，都非常高兴和惊讶。他们称赞奥利弗是一只勇敢的英雄猫。从那以后，奥利弗成了村庄的守护者，再也没有狐狸敢来偷东西了。

奥利弗的故事告诉我们，即使是小小的个体，只要有勇气和智慧，也能完成伟大的事情。
“`
（这是一个模型生成的示例故事）

要退出交互模式，请按 Ctrl + D 或输入 /bye 并回车。

步骤 5：管理您的模型

Ollama 提供了一些简单的命令来管理您下载的模型：

列出已下载的模型：
bash ollama list
这会显示您本地已经下载的所有模型及其大小。
下载指定模型：
bash ollama pull <model_name>
例如：ollama pull llama2:13b 会下载 Llama 2 的 13B 参数版本（如果存在的话）。Ollama 模型库中的模型通常会以 <model_name>:<tag> 的形式存在，:latest 是默认标签，:7b、:13b、:70b 等通常代表模型大小，而 :latest 可能指向当前最常用的版本。不指定标签则默认下载 :latest。你也可以指定量化级别，例如 ollama pull llama2:7b-chat-q4_k_m 下载 Llama 2 7B Chat 模型的 Q4_K_M 量化版本。
删除模型：
bash ollama rm <model_name>
例如：ollama rm mistral 会删除您本地的 Mistral 模型文件，以释放存储空间。删除前请确认您不再需要该模型。

步骤 6：探索 Ollama 模型库

Ollama 的官方网站（https://ollama.com/library）提供了支持的模型列表。您可以在这里找到各种模型（如 Llama 2, Mistral, Code Llama, Gemma, Cohere, Phi-2 等）及其不同的版本和量化级别。每个模型页面都会提供模型的简介、大小以及如何使用 ollama run <model_name> 命令来下载和运行它。

四、进阶使用：Ollama 的 API 和 Modelfiles

除了简单的命令行交互，Ollama 还提供了更强大的功能：

本地 API： 如前所述，Ollama 运行一个本地服务，并在 localhost:11434 提供了兼容 OpenAI 风格的 API 接口。这意味着您可以利用各种支持 OpenAI API 的库和工具（如 LangChain, LlamaIndex 等）轻松地与您的本地模型进行交互，构建更复杂的应用。许多第三方本地 AI Web UI（如 Open WebUI, Jan 等）也是通过调用 Ollama 的 API 来提供更友好的图形界面。
Modelfiles： 这是 Ollama 的一个强大特性，允许您通过一个文本文件（类似于 Dockerfile）来定制模型。您可以使用 Modelfile 做很多事情，例如：
- 基于一个现有的模型，修改其默认的系统提示词（System Prompt），使其扮演特定的角色（例如，扮演一个 Linux 终端、一个创意写作助手等）。
- 合并（merge）多个 LoRA 权重到基础模型中。
- 创建完全自定义的模型（虽然这更高级，需要有模型文件的基础）。
- 调整模型的默认参数（如温度 temperature, top_p, top_k 等）。
  通过 Modelfiles，您可以轻松创建具有特定行为和功能的个性化模型。创建 Modelfile 后，使用 ollama create <new_model_name> -f <path_to_modelfile> 命令即可创建新的模型，然后像运行其他模型一样运行它：ollama run <new_model_name>。

五、总结与展望

Ollama 极大地降低了在本地计算机上运行大型语言模型的门槛，使得普通用户也能轻松享受到本地 LLM 带来的隐私、安全、低延迟和成本效益等优势。通过简单的安装和命令行操作，您就可以快速下载和运行各种主流的开源模型。

尽管本地运行 LLM 仍然受到硬件条件的限制，特别是对显卡显存的要求，但随着模型量化技术的发展和 Ollama 等工具的优化，越来越多的用户可以在中高端消费级硬件上体验到不错的性能。

Ollama 的出现，无疑推动了个人和小型团队部署和使用 LLM 的民主化进程。它不仅是一个简单的工具，更是连接用户与前沿 AI 模型的重要桥梁。如果您对本地 AI 充满兴趣，那么 Ollama 绝对是您不容错过的入门选择。

现在，不妨访问 Ollama 官网，下载并安装它，开始您的本地大模型探索之旅吧！

什么是 Ollama？本地运行大模型的入门指南

一、 什么是 Ollama？

二、 为什么选择在本地运行大模型？

三、 如何入门：使用 Ollama 在本地运行您的第一个大模型