網路城邦
上一篇 回創作列表 下一篇   字體:
閩南語終於通了
2022/11/04 16:00:25瀏覽499|回應0|推薦3
最近 Meta 發表閩南語的語音對語音系統,台灣工程師為父親開發出的,由左伯格親自示範,確實滿感人的。因為閩南語沒有自己的文字,所以不能借用文字對文字的翻譯功能,只要加入語音辨識和語音合成既可。其實全世界有超過 40% 語言沒有自己的文字系統,就像原住民的母語也只能口傳。

在 Meta 論文 Speech-to-speech translation for a real-world unwritten language 中有描述他們的做法,居然是靠三萬小時的本土劇來訓練模型,老爸老媽愛看的本土劇還真有重大用途,真不是蓋的。當然目前的正確率還是偏低,卻是一條可行之路,或許老爸老媽要多看點本土劇來支援。

其中引入 unit 概念,好像是自創出閩南語的文字,依據李弘毅教授的解讀,也可以應用在 AI 繪圖上,同時對於在 SQA (Speech QA) 方面,應該也會有所幫助。以前在做 Chatbot 時,對於閩南語需要特別處理,現在終於有機會做在一起了。

目前只針對語音對語的內容進行翻譯,其實它比文字對文字的資訊多出說話者和情緒等,這些方面多有待開發,看起來是不錯的發展領域。同時這個系統也是使用自監督式學習(Self-Supervised Learning),看起來這也是發展趨勢。
( 創作散文 )
回應 推薦文章 列印 加入我的文摘
上一篇 回創作列表 下一篇

引用
引用網址:https://classic-blog.udn.com/article/trackback.jsp?uid=robertyjlai&aid=177383579