本人使用的開發主機搭載 NVIDIA 顯卡,GPU 記憶體只有 6GB,屬於中低容量等級。由於顯卡記憶體有限,無法負擔大型 AI 模型的運行,因此本文以較小容量且效能適中的 AI 模型為主,透過 Open-WebUI 與 Ollama 搭配,達成本地 AI 互動平台的實作。整體流程會包括利用 pyenv 管理合適的 Python 版本,安裝 Open-WebUI,並示範如何安裝與管理 Ollama 及多款符合 GPU 規格的聊天室模型。
一、本機 Python 版本管理:使用 Pyenv 安裝 Python 3.11
- 安裝編譯必須的依賴:
sudo apt update sudo apt install -y build-essential curl libssl-dev libbz2-dev libreadline-dev libsqlite3-dev libffi-dev liblzma-dev zlib1g-dev libncurses5-dev libncursesw5-dev libgdbm-dev libdb5.3-dev uuid-dev - 安裝 pyenv:
curl https://pyenv.run | bash - 設定 shell 環境(加入
~/.bashrc或~/.zshrc):export PATH="$HOME/.pyenv/bin:$PATH" eval "$(pyenv init --path)" eval "$(pyenv init -)" - 重新整理 shell,並安裝 Python 3.11:
source ~/.bashrc pyenv install 3.11.0 pyenv global 3.11.0 - 確認 Python 版本:
python --version
二、安裝並啟動 Open-WebUI
- 建立虛擬環境以隔離套件:
python -m venv ~/openwebui-venv source ~/openwebui-venv/bin/activatemkdir tmp
export TMPDIR=$HOME/tmp - 升級 pip 以免安裝過程中遇到問題:
pip install --upgrade pip - 安裝 Open-WebUI:
pip install open-webui - 使用下方 bash 腳本啟動 Open-WebUI,監聽指定 IP 和埠號,且設定環境變數以確保找得到 Ollama 指令:
#!/bin/bash # 設定Open-WebUI執行檔路徑,根據實際安裝位置調整source $HOME/openwebui-venv/bin/activateHOST="192.168.19.20" PORT="8080" echo "啟動 Open-WebUI,監聽 $HOST:$PORT ..." open-webui serve --host "$HOST" --port "$PORT"
- 確定防火牆允許 8080 埠:
sudo ufw allow 8080/tcp
現在局域網中其他設備即可透過 http://192.168.19.20:8080 存取 Open-WebUI。
三、安裝 Ollama 及 AI 聊天模型
Ollama 是一款在 Linux 上方便部署 AI 模型的工具,可以與 Open-WebUI 搭配使用,提升機器學習應用體驗。
安裝 Ollama
curl -fsSL https://ollama.com/install.sh | sh
執行後會自動依系統架構下載並安裝 Ollama。
安裝 AI 聊天模型
- 安裝 Gemma3 模型:
ollama pull gemma3 - 安裝 Taide 模型:
ollama pull Yu-Feng/Llama-3.1-TAIDE-LX-8B-Chat:Q4_K_M - 安裝 DeepSeek-r1 模型:
ollama pull deepseek-r1 - 安裝 qwen3 模型:
ollama pull qwen3
安裝完成後,就可以透過 Ollama 管理並呼叫這些模型,實現本地 AI 聊天與推理。
四、總結
本文說明了在 Debian 13 上,利用 pyenv 管理 Python 3.11,安裝並啟動 Open-WebUI,以及如何搭配 Ollama 拉取並運行多款 AI 聊天模型的詳細步驟。由於本機 NVIDIA 顯卡只有 6GB 記憶體,因此選用較小模型以適配硬體條件。透過本地完整部署,打造出具彈性且可控的 AI 服務環境,適合技術愛好者與私有化應用場景。
歡迎讀者留言交流使用心得與問題!
留言
張貼留言