跳到主要內容

讓 AI 幫你口譯文字稿或上字幕:在 Live Debian System 中使用 OpenAI Whisper

以前影片上字幕需要花費很多時間去打字、對時間,隨著人工智慧蓬勃發展,各種工具開發出來幫助我們節省了許多時間,以教會每年有2次的總會大會來說,現在都有提供中文發音及原音(英文)上字幕的方式,大大增加觀看的便利性,這次就以某個演講來示範,如何為這個演講自動產生字幕檔。同理,如果要用來產生會議紀錄流水帳,也是個可行的方法,運用 OpenAI Whisper 衍生的 Buzz 專案,甚至還可以同步口譯,只是目前尚未在 Live Debian System 上實做(網路上介紹的大多是 Windows 跟 MAC 版本),也許不久的將來,口譯員就會被 AI 所取代。

首先,仍然是採用先前介紹 Live Debian System 安裝使用 CodeFormer 的方式沿用該環境,安裝好 Anaconda 並設定好執行環境(步驟1到3)。

接著安裝 Whisper:

source /etc/profile
pip install torch torchvision torchaudio
pip install -U openai-whisper
pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git

在 /usr/local/bin/ 中做個簡單的指令,如 voice2txt (可用 sudo pluma /usr/local/bin/voice2txt 來編輯),內容如下:

source /etc/profile
whisper "$1".mp3 --language Chinese --model medium --initial_prompt="使用繁體"

存檔後將該指令變成可執行:

sudo chmod +x /usr/local/bin/voice2txt

該指令預設口譯 mp3 聲音檔,用中等語言模型(中文需要的模型建議以此為起點,有更好的獨立顯示卡可以用更大型的模型),可以依照自己的配備調整,如果沒有獨立顯示卡用電腦 CPU 跑,速度會慢很多。

使用方法:(以 Live Debian System 為使用環境,裡面已經內建所需程式及指令,其他 Linux 版本請自行架構安裝)

以這篇短講為例:

先取得該影片聲音檔及影片檔(下載後會儲存在影片資料夾中):

musicdl https://www.youtube.com/shorts/kM2WTWuXfD0
videodl https://www.youtube.com/shorts/kM2WTWuXfD0

將檔名改成英文或簡要中文比較好打及避免出問題,如「先知演講」。將著用剛剛建立的指令來產生文字檔(字幕檔),附屬檔名就不用打了。

voice2txt 先知演講

第一次執行會先下載語言模型,稍後就會開始執行轉譯文字工作。

再來就是校稿,完成後儲存,播放影片,就會發現已經自動上字幕了。

留言

這個網誌中的熱門文章

Debian 13 原生 Python 安裝與使用 CodeFormer 修復臉部照片與影片教學

目前人工智慧(AI)已有越來越多的應用,而 CodeFormer 是一種人工智慧數位臉部修復工具,一般可以在其官網上傳照片( https://huggingface.co/spaces/sczhou/CodeFormer ),它會修復後讓你下載,但傳過一次曠日費時。還好它是開源軟體,於是將其安裝到自己的電腦中,便可以批次處理。不過事涉大量運算,有獨顯速度會快些,沒有的就只能用 CPU 硬解。如果原稿臉部夠大張(最好 512×512 像素以上),其還原程度相當不錯,有針對臉部一般修復、精細修復、上色、破碎還原等功能,個人覺得蠻自然傳神的。 因為自己筆電沒有太高檔 GPU,且 Debian 12 時使用 Anaconda3 來處理在 Debian 13 時卻失效,常常說空間不足、安裝 CUDA 相依性錯誤等問題,重灌系統好幾次,於是改變作法,打掉重做,用原生 Python 來執行。 在 Debian 13 中安裝 Nvidia GPU 驅動 若使用 Nvidia GTX 1060 等顯卡,想讓 CodeFormer 利用 GPU 加速運算,需要先安裝 Nvidia 官方驅動與 CUDA 開發環境。 注意!核心要使用 Debian 標準版核心以免編譯失敗。 1. 更新系統並安裝基礎工具 sudo apt update sudo apt upgrade sudo apt install linux-headers-amd64 python3.13-venv sudo apt install -y build-essential dkms 2. 安裝 Nvidia 官方驅動 sudo apt install nvidia-detect nvidia-driver firmware-misc-nonfree sudo reboot (如果失敗,編輯 /etc/apt/sources.list 在套件庫中加入 contrib non-free 如下: deb http://free.nchc.org.tw/debian/ trixie main non-free-firmware contrib non-free )  3. 驗證驅動安裝是否成功 nvidia-smi Debian 13 原生 Python 安裝與 CodeFor...

Live Debian System 安裝使用 CodeFormer(使用Anaconda)XXX

目前人工智慧(AI)已有越來越多的應用,而CodeFormer是一種人工智慧數位臉部修復工具,一般可以在其官網上傳照片,它會修復後讓你下載,但傳過一次曠日費時,還好它是開源軟體,於是將其安裝到自己的電腦中,便可以批次處理,不過事涉大量運算,有獨顯速度會快些,沒有的就只能用CPU硬解。

Live Debian System 中安裝使用 AI 對話模型 Gemma3 / Taide / DeepSeek-r1 / Qwen3

隨著 AI 的興起,熱門的 ChatGPT 應用充斥在生活中,一般都要上網才能使用,但如果自己有好一點的設備(尤其是獨立顯示卡),也可以安裝在自己的機器中,成為隨身的幫手。目前有一些對話式AI 開放讓人自己架設安裝甚至訓練,不過訓練需要的資源非常驚人暫不討論,以手上既有的設備,大概只能架設中、小型的模型使用。本文以 Live Debian System 為例,搭配 6G Nvidia 顯示卡,安裝 Google 的 Gemma3 以及台灣自行訓練的 Taide 還有最近討論度很高的 DeepSeek,實做如下: