跳到主要內容

讓 AI 幫你口譯文字稿或上字幕:在 Live Debian System 中使用 OpenAI Whisper

以前影片上字幕需要花費很多時間去打字、對時間,隨著人工智慧蓬勃發展,各種工具開發出來幫助我們節省了許多時間,以教會每年有2次的總會大會來說,現在都有提供中文發音及原音(英文)上字幕的方式,大大增加觀看的便利性,這次就以某個演講來示範,如何為這個演講自動產生字幕檔。同理,如果要用來產生會議紀錄流水帳,也是個可行的方法,運用 OpenAI Whisper 衍生的 Buzz 專案,甚至還可以同步口譯,只是目前尚未在 Live Debian System 上實做(網路上介紹的大多是 Windows 跟 MAC 版本),也許不久的將來,口譯員就會被 AI 所取代。

首先,仍然是採用先前介紹 Live Debian System 安裝使用 CodeFormer 的方式沿用該環境,安裝好 Anaconda 並設定好執行環境(步驟1到3)。

接著安裝 Whisper:

source /etc/profile
pip install torch torchvision torchaudio
pip install -U openai-whisper
pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git

在 /usr/local/bin/ 中做個簡單的指令,如 voice2txt (可用 sudo pluma /usr/local/bin/voice2txt 來編輯),內容如下:

source /etc/profile
whisper "$1".mp3 --language Chinese --model medium --initial_prompt="使用繁體"

存檔後將該指令變成可執行:

sudo chmod +x /usr/local/bin/voice2txt

該指令預設口譯 mp3 聲音檔,用中等語言模型(中文需要的模型建議以此為起點,有更好的獨立顯示卡可以用更大型的模型),可以依照自己的配備調整,如果沒有獨立顯示卡用電腦 CPU 跑,速度會慢很多。

使用方法:(以 Live Debian System 為使用環境,裡面已經內建所需程式及指令,其他 Linux 版本請自行架構安裝)

以這篇短講為例:

先取得該影片聲音檔及影片檔(下載後會儲存在影片資料夾中):

musicdl https://www.youtube.com/shorts/kM2WTWuXfD0
videodl https://www.youtube.com/shorts/kM2WTWuXfD0

將檔名改成英文或簡要中文比較好打及避免出問題,如「先知演講」。將著用剛剛建立的指令來產生文字檔(字幕檔),附屬檔名就不用打了。

voice2txt 先知演講

第一次執行會先下載語言模型,稍後就會開始執行轉譯文字工作。

再來就是校稿,完成後儲存,播放影片,就會發現已經自動上字幕了。

留言

這個網誌中的熱門文章

Debian 13 原生 Python 安裝與使用 CodeFormer 修復臉部照片與影片教學

目前人工智慧(AI)已有越來越多的應用,而 CodeFormer 是一種人工智慧數位臉部修復工具,一般可以在其官網上傳照片( https://huggingface.co/spaces/sczhou/CodeFormer ),它會修復後讓你下載,但傳過一次曠日費時。還好它是開源軟體,於是將其安裝到自己的電腦中,便可以批次處理。不過事涉大量運算,有獨顯速度會快些,沒有的就只能用 CPU 硬解。如果原稿臉部夠大張(最好 512×512 像素以上),其還原程度相當不錯,有針對臉部一般修復、精細修復、上色、破碎還原等功能,個人覺得蠻自然傳神的。 因為自己筆電沒有太高檔 GPU,且 Debian 12 時使用 Anaconda3 來處理在 Debian 13 時卻失效,常常說空間不足、安裝 CUDA 相依性錯誤等問題,重灌系統好幾次,於是改變作法,打掉重做,用原生 Python 來執行。 在 Debian 13 中安裝 Nvidia GPU 驅動 若使用 Nvidia GTX 1060 等顯卡,想讓 CodeFormer 利用 GPU 加速運算,需要先安裝 Nvidia 官方驅動與 CUDA 開發環境。 注意!核心要使用 Debian 標準版核心以免編譯失敗。 1. 更新系統並安裝基礎工具 sudo apt update sudo apt upgrade sudo apt install linux-headers-amd64 python3.13-venv sudo apt install -y build-essential dkms 2. 安裝 Nvidia 官方驅動 sudo apt install nvidia-detect nvidia-driver firmware-misc-nonfree sudo reboot (如果失敗,編輯 /etc/apt/sources.list 在套件庫中加入 contrib non-free 如下: deb http://free.nchc.org.tw/debian/ trixie main non-free-firmware contrib non-free )  3. 驗證驅動安裝是否成功 nvidia-smi Debian 13 原生 Python 安裝與 CodeFor...

Live Debian System 安裝使用 CodeFormer(使用Anaconda)XXX

目前人工智慧(AI)已有越來越多的應用,而CodeFormer是一種人工智慧數位臉部修復工具,一般可以在其官網上傳照片,它會修復後讓你下載,但傳過一次曠日費時,還好它是開源軟體,於是將其安裝到自己的電腦中,便可以批次處理,不過事涉大量運算,有獨顯速度會快些,沒有的就只能用CPU硬解。

在 Debian 13 使用本機 Python 安裝 Open-WebUI 與 Ollama AI 聊天模型指南

本人使用的開發主機搭載 NVIDIA 顯卡,GPU 記憶體只有 6GB,屬於中低容量等級。由於顯卡記憶體有限,無法負擔大型 AI 模型的運行,因此本文以較小容量且效能適中的 AI 模型為主,透過 Open-WebUI 與 Ollama 搭配,達成本地 AI 互動平台的實作。整體流程會包括利用 pyenv 管理合適的 Python 版本,安裝 Open-WebUI,並示範如何安裝與管理 Ollama 及多款符合 GPU 規格的聊天室模型。 一、本機 Python 版本管理:使用 Pyenv 安裝 Python 3.11 安裝編譯必須的依賴: sudo apt update sudo apt install -y build-essential curl libssl-dev libbz2-dev libreadline-dev libsqlite3-dev libffi-dev liblzma-dev zlib1g-dev libncurses5-dev libncursesw5-dev libgdbm-dev libdb5.3-dev uuid-dev 安裝 pyenv: curl https://pyenv.run | bash 設定 shell 環境(加入 ~/.bashrc 或 ~/.zshrc ): export PATH="$HOME/.pyenv/bin:$PATH" eval "$(pyenv init --path)" eval "$(pyenv init -)" 重新整理 shell,並安裝 Python 3.11: source ~/.bashrc pyenv install 3.11.0 pyenv global 3.11.0 確認 Python 版本: python --version 二、安裝並啟動 Open-WebUI 建立虛擬環境以隔離套件: python -m venv ~/openwebui-venv source ~/openwebui-venv/bin/activate mkdir tmp export TMPDIR=$HOME/tmp 升級 pip 以免安裝過程中遇到問題: pip install --upgrade...