網路城邦
上一篇 回創作列表 下一篇   字體:
《英文論文寫作不求人》推薦序
2010/11/27 21:03:35瀏覽3571|回應0|推薦10

博客來網址: http://www.books.com.tw/exep/prod/booksfile.php?item=0010488527

資料密集語言學習

張俊盛 Jason S. Chang

國立清華大學 資訊工程學系 

中央研究院台灣國際研究生院 計算語言學與中文處理學程

隨著全球化腳步加快,網路通訊科技飛速發展,不論是貿易、文化、生活都以全球為舞台。因此,如何透過科技,發展新的教育學習策略,強化國際溝通能力,成為個人、國家提昇全球競爭力的重要課題。然而,在外語學習方面,無法全面安排英語為母語的師資,也缺乏實際練習機會。

因應這種全球化的語言教育的挑戰,今日的學校外語教育與自學,需要新的「以資料為師」的數位學習新典範,強化語言學習的效果。教授在本書特別介紹許多套國內外開發的語言學習工具。這些工具的開發與應用,可以說和資料密集技術的理念完全契合。我們也可以說教授介紹的是「資料密集語言學習」 data-intensive language learning)的新典範。

 最近美國出版的一本書《The Fourth Paradigm: Data-Intensive Scientific Discovery 呼應杜林獎[1]得主 Jim Gray 的主張 ── 科學發展走過「實驗、理論、計算」三個典範,最近漸漸形成以「資料」為重點的第四典範。書中很多科學家指出未來科學的發展將取決於不同學科的研究者如何彼此合作,運用密集資料技術,改善處理流程,並透過雲端運算的分散平行處理技術視覺化方式,來分析、提煉、呈現資料。在語言工程方面,新典範也開始發揮影響,顛覆了機器翻譯、電腦輔助語言學習的傳統研究方式。

Google Translate 機器翻譯系統為例。負責的 Franz Josef Och 帶領研究人員,分析、統計大量雙語對照的語料庫,開發統計式機器翻譯系統。短短幾年內,發揮驚人效應──不懂外語的研發人員(不懂中文的研究者開發英中、中英翻譯系統)──用極簡理論架構與極大量資料,所開發出的系統,居然勝過 50 年逐漸發展出來的傳統機器翻譯作法(例如 Systran 機器翻譯系統)。足見資料、計算的角色提昇,而實驗、理論的角色減弱。

過去很多的資料是透過設計、蒐集而形成,如光華雜誌語料庫、英國國家語料庫。其規模不能說不大,對語言學習也有不可輕忽的效果。此時此刻,網路無庸置疑已經成為蒐集學習資訊的最佳途徑──數百萬網路作者提供了各學科學習、語言學習的最重要資料。語言技術研究者漸漸接納資料密集的觀念,也有學者開始運用網路語料庫開發語言學習工具。

教授書中提及的清華大學 Linggle 系統是少數學界開發,規模逼近業界搜尋引擎規模的特例。2008 年新開發的 Linggle 系統(Linguistic Search Engine)使用更大的 Google Web 1T 5-gram資料(一兆詞網頁資料 1 5 連字的統計資料)。過程中過濾其中的錯字,並巧妙地加註詞性,可以支援創新的「任意詞性+關鍵詞」搜尋方式。例如, Linggle 上查詢 "ADJ beach" 以學習超過 1,000 "beach" 搭配形容詞。如果查詢 role 這個單字的用法,可以得知最常配合的動詞是 play,形容詞是 important,介詞是 in。到了 2010年紐西蘭 University of Waikado 也開發出 Greenstone Project 系統,功能更加完整。

另外教授也介紹了能在學習者的寫作中偵測錯誤,提供建議或評分的工具,如清華大學的 MUST 雛形系統。根據最近的一份研究報告《Automated Grammatical Error Detection for Language Learners指出,MUST 是目前動詞偵錯效果最好的系統。這份研究報告還介紹了其他如 Educational Test Services (即舉辦托福考試的 ETS)、微軟公司、英國牛津大學等研究單位,積極開發的主動式寫作工具,目前已經都有不錯的成效。隨著資料擴大到網路規模的趨勢,這些工具都會越來越成熟。

資料密集科學為語言學習帶來新思維 ── 有效地篩選、分辨網路規模的資料中最有學習價值的資訊,可以顛覆傳統的教材與教學方式。資料密集的語言學習的研發作法,能彌補能說、寫流利外語教師的不足,增加學生聽說讀寫的互動機會,大幅提昇學習的效果。

如果我們要大幅度提昇語言學習的效果,語言教學的學者和資訊科學家必須密切合作,一起運用雲端運算技術,來駕馭密集的資料,顛覆傳統的學習方式,大幅提昇語言學習效果。教授的這本書,相信可有效地推廣「資料密集式語言學習」的觀念與實務,對老師、學生都是一大福音。我樂於推薦本書,是為序。



[1] 杜林獎(Turing Award)是資訊科學界最負盛名的獎項,有「資訊諾貝爾獎」之稱。Jim Gray 2007 於加州海岸駕駛帆船出海,不幸失蹤於海上。為推崇 Jim Gray 的遠見,微軟促成出版The Fourth Paradigm: Data-Intensive Scientific Discovery

 

( 知識學習語言 )
推薦文章 列印 加入我的文摘
上一篇 回創作列表 下一篇

引用
引用網址:https://classic-blog.udn.com/article/trackback.jsp?uid=trjason&aid=4641982