網路城邦
上一篇 回創作列表 下一篇  字體:
自然語言處理的前世今生(上)
2023/03/15 20:00:00瀏覽318|回應0|推薦12
在沒有多久以前,有一個機器人的書香世家,妄想突破人類學習語言的方法。這世家的三兄弟各自揣摩,他們的學習方法不但非常怪異,而且各有不同。三人各自另闢蹊徑,卻都達到意想不到的成就,最後居然可以達成百種語言的翻譯、搜尋、文書處理,以及聊天機器人。
 
以下是三兄弟學習的心路歷程。
 
 1.Bag of Words 
老大看書從來不考慮文字的前順序,他將一袋一袋的字倒入腦海,然後依據出現的頻率與特異性來判斷句子之間的相似度。有趣的是,他雖然完全不知道這些文字的意義是什麼,但卻能蠻精准的抓出意義相同的句子。據說早期的搜尋引擎,就是用這種方法找到有關的文件。由於老大屬於極簡派,不喜歡複雜的運算,他的讀書方法蠻適合講求效率的垃圾文件分類。因為他總是一袋一袋處理文字,所以別人都稱這方法為「袋袋相傳」。
 
 2.Word to Vector, 2013
老二的語言學習方式則考慮的比較周全。他訓練自己從前後文猜中間字,或者從中間字猜上下文。他每天勤學練功,古往今來的文本都吞了下去。久而久之,它的猜字能力變得非常精準。而經過這些猜字,他逐漸將每個字都編成了高維度的向量,再利用數學上的向量計算,可以輕易地找出類似的句子。比起老大的袋裝法雖然費事,但判斷上下文的能力卻更精准,世人戲稱之為「瞻前顧後」。
 
老二的學習方法,對自然語言的認知有很大的進展,但因爲侷限于文字的順序性,前文處理完了才能處理後語,所以速度非常緩慢。加上如果句子變長,處理完了後語又忘了前文,造成對整個句子的判斷失準。所以語義精准度和處理速度仍然是個問題。
 
 3.Transformer,2017
提起老三,他唸書的方法就更怪異了。他繼承了老二對單字的高維向量編碼,但他對整句文字的瞭解,認為不但需要從上下文來判斷,而且參考距離應該無遠弗屆,不應限於前後字,而是要找出最值得注意的字,也就是Attention is all you need。這老三不但將文句的語義更精准的察覺出來,且由於它的上下文不需要順序進行,可以同時一目十行,過目不忘,所以效率大幅度提高。這個老三,後來就變成了眾所周知的變形金剛(Transformer)。
 
變形金剛一舉突破以往限制,讓自然語言的認知能力大幅增長,已經接近了人類的瞭解程度。而他所收的兩位優秀學生,OpenAI的GPT-3和谷歌的BERT,更在語言的認知學習上面做了進一步的超越。
 
GPT-3運用了超大量的文本,和超級的腦袋容量,對自然語言做了非常精准而廣泛的瞭解。這使得GPT-3的徒兒,也就是人人談之色變,既期待又怕受傷害,有用又好笑的ChatGPT,正式橫空出世,堂堂登上自然語言處理的擂臺。
 
至於後者BERT,雖然書讀的沒有比GPT-3多,腦袋容量也沒有GPT-3這麼大,但是他卻有一套獨門的學習方式,那就是將一篇文章正過來看,反過來也看,有點像西毒歐陽鋒的倒練九陰真經。他的兩種訓練方式也很特別,一種是將文章的某一個字蓋掉,讓他去猜;另一種就是拿兩個句子,讓他去判斷是否為前後句。這些獨特的訓練法,造成他對文字的理解有更精微獨到之處,最適合做翻譯、搜尋的工作。比起GPT-3,他更可以配合不同的用途,靈活地做下游(downstream)的訓練和應用。
 
(未完待續)

( 創作散文 )
回應 推薦文章 列印 加入我的文摘
上一篇 回創作列表 下一篇

引用
引用網址:https://classic-blog.udn.com/article/trackback.jsp?uid=Shaw2309&aid=178584523