以前影片上字幕需要花費很多時間去打字、對時間,隨著人工智慧蓬勃發展,各種工具開發出來幫助我們節省了許多時間,以教會每年有2次的總會大會來說,現在都有提供中文發音及原音(英文)上字幕的方式,大大增加觀看的便利性,這次就以某個演講來示範,如何為這個演講自動產生字幕檔。同理,如果要用來產生會議紀錄流水帳,也是個可行的方法,運用 OpenAI Whisper 衍生的 Buzz 專案,甚至還可以同步口譯,只是目前尚未在 Live Debian System 上實做(網路上介紹的大多是 Windows 跟 MAC 版本),也許不久的將來,口譯員就會被 AI 所取代。
首先,仍然是採用先前介紹 Live Debian System 安裝使用 CodeFormer 的方式沿用該環境,安裝好 Anaconda 並設定好執行環境(步驟1到3)。
接著安裝 Whisper:
source /etc/profile
pip install torch torchvision torchaudio
pip install -U openai-whisper
pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git
在 /usr/local/bin/ 中做個簡單的指令,如 voice2txt (可用 sudo pluma /usr/local/bin/voice2txt 來編輯),內容如下:
source /etc/profilewhisper "$1".mp3 --language Chinese --model medium --initial_prompt="使用繁體"
存檔後將該指令變成可執行:
sudo chmod +x /usr/local/bin/voice2txt
該指令預設口譯 mp3 聲音檔,用中等語言模型(中文需要的模型建議以此為起點,有更好的獨立顯示卡可以用更大型的模型),可以依照自己的配備調整,如果沒有獨立顯示卡用電腦 CPU 跑,速度會慢很多。
使用方法:(以 Live Debian System 為使用環境,裡面已經內建所需程式及指令,其他 Linux 版本請自行架構安裝)
以這篇短講為例:
先取得該影片聲音檔及影片檔(下載後會儲存在影片資料夾中):
musicdl https://www.youtube.com/shorts/kM2WTWuXfD0
videodl https://www.youtube.com/shorts/kM2WTWuXfD0
將檔名改成英文或簡要中文比較好打及避免出問題,如「先知演講」。將著用剛剛建立的指令來產生文字檔(字幕檔),附屬檔名就不用打了。
voice2txt 先知演講
第一次執行會先下載語言模型,稍後就會開始執行轉譯文字工作。
再來就是校稿,完成後儲存,播放影片,就會發現已經自動上字幕了。
留言
張貼留言