跳到主要內容

讓 AI 幫你口譯文字稿或上字幕:在 Live Debian System 中使用 OpenAI Whisper

以前影片上字幕需要花費很多時間去打字、對時間,隨著人工智慧蓬勃發展,各種工具開發出來幫助我們節省了許多時間,以教會每年有2次的總會大會來說,現在都有提供中文發音及原音(英文)上字幕的方式,大大增加觀看的便利性,這次就以某個演講來示範,如何為這個演講自動產生字幕檔。同理,如果要用來產生會議紀錄流水帳,也是個可行的方法,運用 OpenAI Whisper 衍生的 Buzz 專案,甚至還可以同步口譯,只是目前尚未在 Live Debian System 上實做(網路上介紹的大多是 Windows 跟 MAC 版本),也許不久的將來,口譯員就會被 AI 所取代。

首先,仍然是採用先前介紹 Live Debian System 安裝使用 CodeFormer 的方式沿用該環境,安裝好 Anaconda 並設定好執行環境(步驟1到3)。

接著安裝 Whisper:

source /etc/profile
pip install torch torchvision torchaudio
pip install -U openai-whisper
pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git

在 /usr/local/bin/ 中做個簡單的指令,如 voice2txt (可用 sudo pluma /usr/local/bin/voice2txt 來編輯),內容如下:

source /etc/profilewhisper "$1".mp3 --language Chinese --model medium --initial_prompt="使用繁體"

存檔後將該指令變成可執行:

sudo chmod +x /usr/local/bin/voice2txt

該指令預設口譯 mp3 聲音檔,用中等語言模型(中文需要的模型建議以此為起點,有更好的獨立顯示卡可以用更大型的模型),可以依照自己的配備調整,如果沒有獨立顯示卡用電腦 CPU 跑,速度會慢很多。

使用方法:(以 Live Debian System 為使用環境,裡面已經內建所需程式及指令,其他 Linux 版本請自行架構安裝)

以這篇短講為例:

先取得該影片聲音檔及影片檔(下載後會儲存在影片資料夾中):

musicdl https://www.youtube.com/shorts/kM2WTWuXfD0
videodl https://www.youtube.com/shorts/kM2WTWuXfD0

將檔名改成英文或簡要中文比較好打及避免出問題,如「先知演講」。將著用剛剛建立的指令來產生文字檔(字幕檔),附屬檔名就不用打了。

voice2txt 先知演講

第一次執行會先下載語言模型,稍後就會開始執行轉譯文字工作。

再來就是校稿,完成後儲存,播放影片,就會發現已經自動上字幕了。

留言

這個網誌中的熱門文章

Live Debian System 中安裝使用 AI 對話模型 Gemma3 / Taide / DeepSeek-r1 / Qwen3

隨著 AI 的興起,熱門的 ChatGPT 應用充斥在生活中,一般都要上網才能使用,但如果自己有好一點的設備(尤其是獨立顯示卡),也可以安裝在自己的機器中,成為隨身的幫手。目前有一些對話式AI 開放讓人自己架設安裝甚至訓練,不過訓練需要的資源非常驚人暫不討論,以手上既有的設備,大概只能架設中、小型的模型使用。本文以 Live Debian System 為例,搭配 6G Nvidia 顯示卡,安裝 Google 的 Gemma3 以及台灣自行訓練的 Taide 還有最近討論度很高的 DeepSeek,實做如下:

一個隨身碟搞定!數位家庭歷史

  在這個數位時代,我們的生活充滿了科技,從手中的智慧型手機到家中的電腦,無一不依賴軟體與硬體的協同運作。然而,這兩者的關係並非只是科技上的搭配,更能與我們自身的存在產生有趣的聯繫。 想像一下,我們的身體就如同電腦的硬體,擁有各種功能與構造,但如果沒有軟體來驅動,它們便無法發揮作用。同樣地,靈魂就像軟體,賦予我們思想、情感與目標,使我們不僅僅是一具空殼,而是能夠行動、學習與成長的存在。當靈魂與身體結合時,我們才能真正發揮潛能,影響世界。 這個概念與我在信仰中的理解不謀而合。身為耶穌基督後期聖徒教會的成員,我相信每個人都是天父的孩子,擁有屬於自己的天賦與使命。我們的靈魂與身體相結合,使我們能夠學習、成長,並運用我們的能力來服務他人。 這系列文章的目的,正是要探討如何運用科技來保存我們的數位歷史,同時強調自由軟體的重要性。然而,這不是一本教科書,而只是我 20 多年使用經驗的分享,內容難免有所謬誤,但希望能為讀者提供實用的參考。 現今,我們的回憶大多以數位形式存放——家庭照片、珍貴文件、重要影音資料等,然而,如果沒有適當的方法來管理與保存,這些珍貴的記錄可能會隨著時間流逝而遺失。 許多商業軟體的限制,加上不斷提升的硬體需求,使得許多仍然堪用的電腦因為無法升級作業系統而被淘汰,甚至送進回收場,造成極大的資源浪費。長期以來,商業軟體的壟斷使得 Linux 被邊緣化,再加上 Linux 的分支版本繁多,讓許多人無從選擇或學習。本系列文章的主軸是 Live Debian System,因為 Debian 以其穩定性、安全性著稱,且是許多發行版的基礎,因此成為最適合的選擇。我會選用市面上受歡迎的幾個 Linux 發行版,調整界面並選擇適合的軟體,特別是針對繁體中文初學者,提供最佳的入門方案。 Live Debian System 提供了一種靈活而強大的方式,讓我們能夠透過一個簡單的隨身碟,打造專屬的數位檔案管理系統,確保家庭歷史得以長存。這個系統無需安裝,不會影響現有的電腦環境,讓使用者能夠安心體驗 Linux 的強大功能。 透過這系列文章,我希望帶領讀者從基礎的電腦概念開始,逐步了解如何建構 Live Debian System,並運用它來保存與管理個人與家庭的重要數位記錄。無論你是技術新手,還是對 Linux 系統已有一定了解的使用者,都能從這系列文章中獲得實用的知識...

在 Live Debian System 中透過 Openweb-UI 結合 Stable Diffusion 產生圖片

  一直想在 Live Debian System 中安裝 Stable Diffusion,以往在 Windows 中用 automatic 1111 很方便,但是新版的 Stable Diffusion 3.5 目前無法在 automatic 1111 上跑,且 Live Debian System 中測試 AI 的環境以往是用 anaconda ,也使得 Stable Diffusion 遲遲無法在 Linux 安裝,所以這次改用 ComfyUI,解決上述2個難題。 [ 先前準備 ] AI模型、運行環境先前準備資料。 ComfyUI 簡介 ComfyUI 是一個模組化、視覺化的 Stable Diffusion 前端工具,使用節點式的流程架構,讓使用者更直觀地設計影像生成流程。它支援最新的 Stable Diffusion 模型,包括 SDXL 與 SD3.5,對硬體要求較低,且安裝過程相對簡單,成為替代 automatic1111 的理想選擇。 如何在 Live Debian System 上安裝 ComfyUI: 將 ComfyUI 下載到家目錄 : git clone https://github.com/comfyanonymous/ComfyUI.git 下載 Stable Diffusion 3.5 模型 (使用中模型)及 Workflow example Hugging Face 網址: https://huggingface.co/stabilityai/stable-diffusion-3.5-medium/tree/main 需註冊登入、同意條款才能下載。( 下載  SD3.5M_example_workflow.json 及 sd3.5_medium.safetensors ) 下載 Text Encoders 3 個後放到 Comfyui > models > clip : clip_l.safetensors clip_g.safetensors t5xxl_fp16.safetensors (大模型) If you have less than 32 GB RAM (CPU RAM, not GPU VRAM), you can use t5xxl_fp8_e4m3fn.safetens...