AMD 用户必看:Ollama 本地运行 AI 模型教程 – wiki基地

My apologies, I do not have a write_file tool available to create a file with the article content. I can provide the article directly in the response for you to copy.

Here is the article:

“`markdown

AMD 用户必看:Ollama 本地运行 AI 模型教程

引言

随着人工智能技术的飞速发展,越来越多的人希望能够在本地计算机上运行大型语言模型(LLMs)和其他AI模型,以实现数据隐私、更快的响应速度和更低的成本。Ollama 的出现极大地简化了这一过程,它提供了一个简单易用的框架,让您可以在本地轻松下载、运行和管理各种开源AI模型。

对于 AMD GPU 用户来说,过去在本地运行AI模型可能面临一些挑战,例如驱动兼容性、ROCm 配置等。然而,Ollama 正在积极改进对 AMD GPU 的支持,使得现在 AMD 用户也能享受到本地AI的强大功能。本文将为您详细介绍 AMD 用户如何使用 Ollama 在本地运行 AI 模型。

为什么选择 Ollama?

  • 易于安装和使用: 极简的安装过程,通过简单的命令行即可下载和运行模型。
  • 广泛的模型支持: 支持 Llama 2, Mistral, Code Llama 等众多流行模型。
  • 本地运行: 数据完全保留在您的计算机上,无需上传到云端,确保隐私安全。
  • API 接口: 提供与 OpenAI 兼容的本地 API 接口,方便开发者集成到自己的应用中。
  • 跨平台: 支持 macOS, Linux 和 Windows 操作系统。

准备工作:AMD 硬件与驱动

在开始之前,请确保您的 AMD GPU 满足以下条件:

  1. 硬件支持: 您的 AMD GPU 应该是 RDNA 架构(如 Radeon RX 5000 系列及更新型号,包括 RX 6000、RX 7000 系列)。较旧的 GCN 架构 GPU 可能支持不佳或性能有限。
  2. 充足的显存 (VRAM): 大型语言模型需要大量的显存。建议至少有 8GB VRAM,对于更大的模型(如 7B 或 13B 参数),16GB 或更多显存将提供更好的体验。
  3. 最新驱动: 确保您的 AMD GPU 驱动程序是最新版本。
    • Windows 用户: 通过 AMD Software: Adrenalin Edition 软件更新您的驱动。
    • Linux 用户: 确保您安装了最新的 Mesa 驱动和 ROCm 库。ROCm (Radeon Open Compute) 是 AMD 为 GPU 计算提供的开源软件平台,它对 Ollama 在 Linux 上运行 AMD GPU 模型至关重要。您可以通过 AMD 官方文档查找针对您 Linux 发行版的 ROCm 安装指南。

第一步:安装 Ollama

访问 Ollama 官方网站:ollama.com

根据您的操作系统选择相应的安装包进行下载和安装。

  • Windows: 下载 .exe 安装包并按照提示进行安装。安装程序会自动处理大部分依赖。
  • Linux:
    bash
    curl -fsSL https://ollama.com/install.sh | sh

    这条命令将自动下载并安装 Ollama。在某些 Linux 发行版上,您可能需要额外配置 ROCm 运行时以确保 Ollama 能够正确识别并利用您的 AMD GPU。请参考 Ollama 的官方文档或 ROCm 的安装指南。
  • macOS: 下载 .dmg 文件并拖拽到应用程序文件夹。

安装完成后,打开终端或命令提示符,输入 ollama --version,如果能显示版本信息,则说明安装成功。

第二步:下载并运行您的第一个 AI 模型

Ollama 提供了一个模型库,您可以通过 ollama run 命令轻松下载和启动模型。

  1. 查找模型:
    您可以在 Ollama 官方网站的模型库页面 (ollama.com/library) 浏览可用的模型。选择一个您感兴趣的模型,例如 llama2mistral

  2. 下载并运行模型:
    打开您的终端或命令提示符,执行以下命令:

    bash
    ollama run llama2

    如果您是第一次运行 llama2 模型,Ollama 会自动开始下载它。下载速度取决于您的网络带宽,模型文件通常较大(几GB)。

    下载完成后,模型将立即启动,您会看到一个交互式提示符,表示模型已准备好接受您的输入。

    “`

    Send a message (/? for help)
    “`

  3. 与模型交互:
    现在,您可以开始与 llama2 模型进行对话了。输入您的问题或指令,模型会生成回复。

    “`

    Send a message (/? for help)
    你好,能帮我写一首关于秋天的诗吗?
    (模型生成诗歌…)
    退出
    ``
    要退出模型,输入
    byeexit`。

  4. 尝试其他模型:
    您可以尝试下载和运行其他模型,例如 mistral

    bash
    ollama run mistral

    您也可以指定模型的具体版本,例如:

    bash
    ollama run llama2:13b

    这会下载并运行 Llama 2 的 130 亿参数版本。请注意,更大的模型需要更多的显存。

  5. 列出已下载的模型:
    要查看您本地已下载的模型列表,请使用以下命令:

    bash
    ollama list

第三步:优化与故障排除(AMD 专属)

1. 确认 AMD GPU 加速是否启用

对于 Windows 用户,Ollama 通常会自动尝试使用您的 AMD GPU。您可以通过任务管理器查看 GPU 利用率。

对于 Linux 用户,确保 ROCm 正确安装和配置是关键。您可以通过环境变量来控制 Ollama 对 ROCm 的使用:

“`bash

检查 ROCm 版本 (如果安装了)

rocminfo

运行 Ollama 模型时启用 ROCm 调试信息

HSA_OVERRIDE_GFX_VERSION=10.3.0 # 根据您的 GPU 架构调整,例如 RX 6000 系列可能是 10.3.0
OLLAMA_ROCM_PATH=/opt/rocm # 替换为您的 ROCm 安装路径
OLLAMA_DEBUG=1 ollama run llama2
``
请注意,
HSA_OVERRIDE_GFX_VERSION` 可能需要根据您的具体 GPU 型号进行调整。您可以在 ROCm 官方文档中找到对应的 GPU 代号。

2. 显存不足问题

如果您遇到模型运行缓慢或报错“显存不足”的情况,可以尝试以下方法:

  • 选择更小的模型: 模型名称后面的参数数量(如 7b, 13b)表示模型的规模。选择参数更小的模型(例如 llama2:7b)可以显著减少显存占用。
  • 量化版本: 许多模型有不同的量化版本(例如 q4_0, q5_k_m),这些版本在保持一定性能的同时,能大幅降低显存需求。在 Ollama 库中查找这些版本。
  • 关闭其他显存占用程序: 运行模型时关闭游戏、视频编辑软件或其他大型应用程序。

3. Linux ROCm 相关问题

如果在 Linux 上 Ollama 无法识别您的 AMD GPU,请检查:

  • ROCm 安装: 确保 ROCm 已正确安装并配置。
  • 环境变量: 确保 PATHLD_LIBRARY_PATH 环境变量包含 ROCm 路径。
  • 内核模块: 确保 AMD GPU 相关的内核模块(如 amdgpu)已加载。

结论

Ollama 为 AMD 用户在本地运行 AI 模型提供了一条清晰且相对简便的路径。通过遵循本文的步骤,您可以轻松地将强大的 AI 模型带到您的桌面,享受本地推理带来的隐私、速度和灵活性。随着 Ollama 和 ROCm 生态系统的不断成熟,AMD 用户在 AI 领域的体验将越来越好。现在就开始探索吧,将您的 AMD 平台转变为一个强大的本地 AI 工作站!
“`

滚动至顶部