讓 AI 幫你口譯文字稿或上字幕：在 Live Debian System 中使用 OpenAI Whisper

以前影片上字幕需要花費很多時間去打字、對時間，隨著人工智慧蓬勃發展，各種工具開發出來幫助我們節省了許多時間，以教會每年有2次的總會大會來說，現在都有提供中文發音及原音（英文）上字幕的方式，大大增加觀看的便利性，這次就以某個演講來示範，如何為這個演講自動產生字幕檔。同理，如果要用來產生會議紀錄流水帳，也是個可行的方法，運用 OpenAI Whisper 衍生的 Buzz 專案，甚至還可以同步口譯，只是目前尚未在 Live Debian System 上實做（網路上介紹的大多是 Windows 跟 MAC 版本），也許不久的將來，口譯員就會被 AI 所取代。

首先，仍然是採用先前介紹 Live Debian System 安裝使用 CodeFormer 的方式沿用該環境，安裝好 Anaconda 並設定好執行環境（步驟1到3）。

接著安裝 Whisper:

source /etc/profile
pip install torch torchvision torchaudio
pip install -U openai-whisper
pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git

在 /usr/local/bin/ 中做個簡單的指令，如 voice2txt （可用 sudo pluma /usr/local/bin/voice2txt 來編輯），內容如下：

source /etc/profile
whisper "$1".mp3 --language Chinese --model medium --initial_prompt="使用繁體"

存檔後將該指令變成可執行：

sudo chmod +x /usr/local/bin/voice2txt

該指令預設口譯 mp3 聲音檔，用中等語言模型（中文需要的模型建議以此為起點，有更好的獨立顯示卡可以用更大型的模型），可以依照自己的配備調整，如果沒有獨立顯示卡用電腦 CPU 跑，速度會慢很多。

使用方法：（以 Live Debian System 為使用環境，裡面已經內建所需程式及指令，其他 Linux 版本請自行架構安裝）

以這篇短講為例：

先取得該影片聲音檔及影片檔（下載後會儲存在影片資料夾中）：

musicdl https://www.youtube.com/shorts/kM2WTWuXfD0

videodl https://www.youtube.com/shorts/kM2WTWuXfD0

將檔名改成英文或簡要中文比較好打及避免出問題，如「先知演講」。將著用剛剛建立的指令來產生文字檔（字幕檔），附屬檔名就不用打了。

voice2txt 先知演講

第一次執行會先下載語言模型，稍後就會開始執行轉譯文字工作。

再來就是校稿，完成後儲存，播放影片，就會發現已經自動上字幕了。

Live Debian System Taiwan

搜尋此網誌

讓 AI 幫你口譯文字稿或上字幕：在 Live Debian System 中使用 OpenAI Whisper

標籤

留言

張貼留言

這個網誌中的熱門文章

Live Debian System 中安裝使用 AI 對話模型 Gemma3 / Taide / DeepSeek-r1 / Qwen3

Live Debian System 安裝使用 CodeFormer（使用Anaconda）XXX

一個隨身碟搞定！數位家庭歷史