本地运行LLM：ollama安装与配置 – wiki基地

本地运行LLM：Ollama安装与配置指南

随着大型语言模型（LLM）技术的飞速发展，越来越多的人希望能在本地环境中运行这些强大的AI模型，以保护数据隐私、降低API成本或在无网络环境下进行开发。Ollama 正是一款出色的开源工具，它简化了在个人电脑上安装、运行和管理各种开源LLM的过程。

本文将详细介绍如何在主流操作系统上安装 Ollama，并指导您如何配置和运行您选择的语言模型。

1. 为什么选择 Ollama？

在本地运行LLM面临诸多挑战，例如模型文件的庞大体积、复杂的依赖关系、以及需要优化的硬件资源管理。Ollama 通过以下几个核心优势解决了这些问题：

易于安装和使用： 提供了一键式安装程序，无需复杂的命令行操作。
模型管理： 内置了方便的模型库，可以轻松下载、更新和删除模型。
HTTP API： 提供了一个简单的HTTP API接口，使得开发者能够轻松地将本地LLM集成到自己的应用程序中。
多平台支持： 支持 macOS、Linux 和 Windows 等主流操作系统。
硬件优化： 针对不同的硬件（如GPU）进行了优化，以提供更好的性能。
社区活跃： 拥有一个活跃的社区，不断有新的模型和功能加入。

2. Ollama 的安装

Ollama 的安装过程非常直接。请根据您的操作系统选择相应的安装方法。

2.1 macOS 安装

下载安装包： 访问 Ollama 官方网站 (ollama.ai)，点击“Download”按钮，选择 macOS 版本进行下载。
运行安装程序： 下载完成后，打开 .dmg 文件，将 Ollama 应用拖拽到“Applications”文件夹中。
启动 Ollama： 双击“Applications”文件夹中的 Ollama 图标启动应用。Ollama 会在后台运行，您可以在菜单栏看到它的图标。

2.2 Linux 安装

Ollama 提供了方便的单行命令安装脚本。

打开终端： 打开您的终端应用程序。
运行安装命令： 复制并粘贴以下命令，然后按 Enter 键执行：

bash curl -fsSL https://ollama.com/install.sh | sh

此脚本会自动检测您的系统并安装 Ollama。
3. 验证安装： 安装完成后，您可以运行以下命令来验证 Ollama 是否正确安装：

bash ollama --version

2.3 Windows 安装

下载安装包： 访问 Ollama 官方网站 (ollama.ai)，点击“Download”按钮，选择 Windows 版本进行下载。
运行安装程序： 下载完成后，双击 .exe 安装程序，按照提示完成安装。
启动 Ollama： 安装完成后，Ollama 会自动启动并在后台运行。您可以在系统托盘中找到 Ollama 的图标。

3. 配置和运行您的第一个LLM

安装完成后，接下来就是下载和运行LLM模型了。

3.1 下载模型

Ollama 提供了命令行界面来管理模型。打开您的终端（macOS/Linux）或命令提示符/PowerShell（Windows）。

浏览可用模型： 您可以在 Ollama 官方网站的模型库 (ollama.ai/library) 上查看所有支持的模型。流行的模型包括 Llama 2、Mistral、Gemma 等。
下载模型： 使用 ollama pull 命令下载您想要运行的模型。例如，要下载 Llama 2 模型，运行：

bash ollama pull llama2

下载过程可能需要一些时间，具体取决于您的网络速度和模型大小。Ollama 会自动将模型存储在本地的默认路径。

如果您想下载其他模型，只需替换 llama2 为您想要的模型名称，例如 mistral 或 gemma。

3.2 运行模型

模型下载完成后，您就可以立即开始与它交互了。

启动交互式对话： 使用 ollama run 命令启动一个交互式会话：

bash ollama run llama2

Ollama 会加载 llama2 模型，然后您就可以在终端中开始输入您的提示词（prompts），模型会生成回复。

“`

How are you today?
I am an AI assistant, so I don’t have feelings in the way humans do, but I am functioning well and ready to help you. How can I assist you today?
“`

要退出交互式会话，可以输入 /bye 或按下 Ctrl + D。
通过 HTTP API 使用模型： Ollama 在后台运行一个 HTTP 服务器，默认端口为 11434。您可以通过向这个 API 发送请求来与模型交互，这对于开发集成非常有用。

例如，使用 curl 命令发送一个生成请求：

bash curl -X POST http://localhost:11434/api/generate -d '{ "model": "llama2", "prompt": "Why is the sky blue?" }'

您将收到一个 JSON 格式的响应，其中包含模型的生成结果。

Python 示例：

“`python
import requests
import json

url = “http://localhost:11434/api/generate”
headers = {“Content-Type”: “application/json”}
data = {
“model”: “llama2”,
“prompt”: “Tell me a short story about a brave knight.”,
“stream”: False # Set to True for streaming responses
}

response = requests.post(url, headers=headers, data=json.dumps(data))

if response.status_code == 200:
print(response.json()[“response”])
else:
print(f”Error: {response.status_code} – {response.text}”)
“`

4. 高级配置（可选）

Ollama 的默认配置通常适用于大多数用户，但您也可以进行一些调整。

4.1 自定义模型

Ollama 允许您基于现有的模型文件（例如 GGUF 格式）创建自己的模型。这通过 Modelfile 文件实现。

创建 Modelfile： 在一个新文件中，例如 MyModelModelfile，写入以下内容：

dockerfile FROM llama2 PARAMETER temperature 0.7 SYSTEM "You are a helpful assistant."
- FROM llama2: 指定了基础模型。
- PARAMETER temperature 0.7: 设置模型生成时的温度参数。
- SYSTEM "...": 定义了模型启动时默认的系统提示。
创建新模型： 使用 ollama create 命令创建您的自定义模型：

bash ollama create my-custom-llama2 -f ./MyModelModelfile

现在您就可以运行 ollama run my-custom-llama2 来使用您的自定义模型了。

4.2 更改默认模型存储路径

默认情况下，Ollama 将模型存储在用户主目录下的特定位置。如果您希望更改此路径，可以设置环境变量 OLLAMA_MODELS。

Linux/macOS：
bash export OLLAMA_MODELS="/path/to/your/models"
您可以将此命令添加到您的 shell 配置文件（如 .bashrc 或 .zshrc）中，使其永久生效。
Windows：
在系统环境变量中添加一个名为 OLLAMA_MODELS 的变量，并将其值设置为您希望的路径。

4.3 调整内存和GPU使用

Ollama 会尝试自动优化模型的运行，以充分利用您的硬件资源（尤其是GPU）。对于一些内存敏感的模型或在资源有限的系统上，您可能需要调整模型的分层（layer offloading）。这通常通过 Modelfile 中的 num_gpu 或 num_cpu 参数来控制，但对于大多数用户而言，默认行为已经足够。

5. 总结

Ollama 为在本地运行大型语言模型提供了一个强大而简便的解决方案。通过简单的安装步骤和直观的命令行接口，您可以轻松地下载、运行并管理各种LLM，无论是进行个人实验、数据分析还是开发集成。随着本地LLM技术的不断成熟，Ollama 必将成为开发者和AI爱好者不可或缺的工具。

现在，您已经掌握了 Ollama 的基本使用方法，可以开始您的本地LLM探索之旅了！