最近,台灣團隊 Twinkle AI 釋出了一款基於 Google Gemma 3 4B 架構微調的模型——TwinkleAI/gemma-3-4B-T1-it。它主打針對台灣法律、政府公文、在地人文進行深度優化 。身為一個重視資安與在地化體驗的 IT 人,當然要立刻在我的 Debian 環境上實測看看,它是否能成為我們期待已久的「台灣隊」解答。
💻 測試環境
延續之前的硬體配置,我依然是在中階 GPU (6GB VRAM) 的環境下進行測試。
- OS: Debian 13 (Trixie)
- GPU: Nvidia GeForce GTX 1060 (6GB VRAM)
- 工具: Ollama + Open WebUI
- 模型: TwinkleAI/gemma-3-4B-T1-it
為什麼是 4B?
對於我們這種不想花大錢租雲端算力、又想在本地端跑 AI 的使用者來說,4B (40億參數) 是一個非常甜蜜的點。它比 7B 更輕量,推理速度飛快,而且對 VRAM 的需求極低,舊顯卡也能跑得嚇嚇叫。
🚀 實測重點:它真的懂台灣嗎?
這次我針對之前幾個模型的痛點進行測試,看看 T1-4B 表現如何。
1. 台灣用語在地化測試 (修正「支語」?還差一點!)
以往使用國外模型,最頭痛的就是它滿口「視頻」、「質量」、「信息」。針對這一點,T1-4B 的表現如何?
請比較「視頻」與「影片」、「質量」與「品質」這兩組詞彙的差異,並說明在台灣通常使用哪一個?
T1-4B 回答摘要 (實測結果):
- 關於視頻 vs. 影片: 它正確指出台灣最普遍的正式用法是「影片」,而「視頻」多見於網路或非正式場合。這點算答對了。但也出現了奇怪的解釋:「影片是直接音譯」(Video 怎麼音譯成影片?這邏輯怪怪的)。
- 關於質量 vs. 品質: 這裡它出現了混淆。它認為「質量」在台灣常用於描述「客觀屬性」(可能把它當成物理學上的 Mass 了),而「品質」用於主觀體驗。但在台灣日常語境中,形容東西好壞我們一律用「品質」,幾乎不會用「質量」(那是中國用語,或物理課才會用到)。
實測點評:這個結果只能給 70 分。
- 優點: 它知道台灣人偏好用「影片」而非「視頻」。
- 缺點: 它對「質量 (Quality)」與「質量 (Mass)」的區分不夠精確,且解釋邏輯有些混亂。這顯示它雖然經過微調,但底層邏輯可能還是受到大量英文或簡中資料的干擾。
- 結論: 雖然比原版 Gemma 好一些,但用來撰寫正式文案時,人工潤飾還是不可少的,別完全相信它的語感。
2. 在地文化實測:宜蘭美食大會考(它是不是餓昏了?)
為了測試 T1-4B 對台灣在地文化的深度,我出了一道經典考題:「請推薦宜蘭『外冷內熱』的特色小吃」。
我是第一次去宜蘭玩的觀光客,請推薦三樣最具宜蘭特色的傳統小吃,並介紹它們的口感與特色,特別是那種『外冷內熱』的食物。
T1-4B 回答摘要:
模型非常有自信地列出了蔥油餅、糕渣、卜肉三大天王,並且詳細描述了它們的製作方式與口感特色。
乍看之下名單完全正確,但仔細一讀內容......咦?
- 它眼中的糕渣: 竟然變成了用「米漿和地瓜粉」製作,內部夾著「肉末、蝦仁、紅蔥頭」,還用「醬油膏滷製」?(真正的糕渣是用雞肉豬肉熬煮後凝固成凍狀物油炸,不是滷的!)
- 它眼中的蔥油餅: 內裡是「半生不熟的麵糊」?(老闆聽到會生氣的!真正的宜蘭蔥油餅是餅皮蓬鬆有嚼勁,不是半生不熟)
- 它眼中的卜肉: 表面有「焦糖化糖衣」,內部呈現「淡粉紅色」?(這是拔絲地瓜吧!卜肉是鹹的裹粉炸物,而且要炸全熟)
實測點評:
這顯示了 4B 小模型常見的「幻覺 (Hallucination)」問題。它知道「糕渣、蔥油餅、卜肉」是宜蘭名產,也知道糕渣是「外冷內熱」的代表。
但在細節描述上,它似乎把不同食物的特徵「混搭」了。這提醒我們,雖然 T1-4B 的在地化關鍵字召回率 (Recall) 很高,但在作為「知識百科」使用時,仍需要人工查核。它更適合作為創意發想或草稿助理,而不是嚴謹的旅遊指南。
3. 生活實用測試:台北到宜蘭怎麼搭車?(小心搭錯車!)
為了測試它能不能當旅遊助手,我問了一個非常實用的問題。
台北到宜蘭客運巴士有哪些?
AI 回答摘要:
它列出了國光、葛瑪蘭、首都、統聯四家客運,還貼心地附上了路線代號(如 1810, 2436, 1579, 1660)。看起來條理分明且專業。
這裡出現了嚴重的「數字幻覺」:
- 它說統聯 1660 是去羅東,其實那班車是板橋去高雄的!(你上車睡一覺起來就在高雄了 😂)
- 它說首都 1579 是去宜蘭,其實那是去基隆八斗子的。
- 葛瑪蘭的 2436、2437 更是根本不存在的幽靈公車。
- 國光客運的正確代號應該是 1878、1877、1879(圓山轉運站發車),它卻提了已停駛或錯誤的代號。
結論:
對於需要精確數據(如時刻表、路線代號、電話號碼)的任務,4B 這種小模型的記憶體顯然不太夠用,容易產生混淆。這類問題建議還是直接 Google 或使用 RAG (檢索增強生成) 讓它去查聯網資料,而不要依賴它的「大腦」硬背。
🔧 安裝教學 (Debian 13 + Ollama)
如果你已經照著我之前的教學安裝好 Ollama,現在只需要一行指令:
ollama run TwinkleAI/gemma-3-4B-T1-it
系統會自動從 Ollama Library 下載模型檔 (約 2.5 GB) 。下載完成後即可直接對話。
若要整合進 Open WebUI,只需在 WebUI 的模型設定中,確認 Ollama 已抓到新模型即可切換使用。
📊 系統資源佔用
在 Ollama 下執行此模型,記憶體佔用非常低。對於想在公司內部架設小型 RAG (檢索增強生成) 系統的 MIS 來說,這絕對是可以部署在邊緣裝置 (Edge Device) 的好選擇。
📝 總結:它在哪些場景適合?哪些不適合?
經過這幾天的相處,TwinkleAI T1-4B 給我的感覺是「小而有潛力,但需謹慎使用」。
- ✅ 適合的使用場景:
- 文案撰寫與潤飾:雖然偶有小瑕疵,但整體語氣比 Llama 3 或原版 Gemma 更像台灣人。
- 文化諮詢與創意發想:它能聯想到「外冷內熱=糕渣」,這點非常有價值,細節再人工查證即可。
- 快速原型開發:作為 MIS 的內部助手,回答「如何設定防火牆」、「Linux 指令說明」等基礎問題,速度快且支援中文。
- ❌ 不適合的使用場景:
- 精確數據查詢:公車代號、電話號碼、法條細節、數學計算等,容易幻覺。
- 嚴謹的知識百科:如果需要作為「唯一可信來源」,建議搭配 RAG 或人工查核。
🎯 最終評價
對於像我一樣使用 Debian、重視開源與隱私的使用者來說,T1-4B 是一個值得鼓勵的嘗試 。
雖然它在「硬知識」和「細微語意」上還有進步空間,但在日常行政、文案草稿上已經能提供不錯的協助。更重要的是——它願意去理解台灣的文化脈絡,而不是只當個翻譯機器。
強烈推薦各位 IT 夥伴下載來玩玩看,體驗一下這個「有點路癡、有點餓、但很熱情」的台灣 AI 模型!
🔗 相關連結
- Hugging Face: twinkle-ai/gemma-3-4B-T1-it
- Ollama: TwinkleAI/gemma-3-4B-T1-it
- 上一篇文章: 我的生成式 AI 使用經驗分享:Qwen、Gemma、Deepseek 與 Taide 比較
覺得這篇文章實用嗎?歡迎在下方留言分享你的測試心得!
留言
張貼留言