網路城邦
上一篇 回創作列表 下一篇   字體:
從第一句話開始
2013/12/15 05:09:25瀏覽1724|回應3|推薦43

看著牙牙學語的小孩,口裡開始冒出有意義的字語,戰戰兢兢的踏出獨立行走的第一步,相信是很多人共同有過的感動時刻。最近看了一則2011年三月的TED  演講[1]MIT的研究員Deb Roy 分享他家庭錄影檔案裡的這些感動時刻,並且講述他的研究團隊的故事,介紹他們如何從追蹤小孩牙牙學語過程中,發展出可以分析數十億則數位媒體的語意分析系統,進而應用於描繪新聞事件即時衍生出的層層資訊網路結構,精確分析出訊息的意義以及影響力。

一個誕生不久的孩子讓這個故事有了起始點,安裝家裡各個角落的攝影鏡頭與麥克風,24小時不停的拍攝,經過三年一共累積超過25萬小時的影音記錄,堪稱是有史以來最多的家庭錄影。Deb Roy 的研究團隊開發出各種影像追蹤與語音擷取分析的工具,還將所有的影音資料縫合在一個3D 的立體模型中,因此,透過滑鼠與鍵盤,就可以在這些資料中遊走到這個家的任一個角落,在任一時間點的影音記錄

你可以想像在連環漫畫中,一個個文字泡泡從說話的人嘴角冒出來,而這個系統的運作,正像是把這些文字泡泡的內容全部收集起來,加以分析。他們藉此了解小孩如何學會說出一個字的詳細過程,這其中包括小孩在發音上的變化,所在環境以及大人與小孩間的互動關係等,都是分析的項目。量化對話中出現的字眼,統計出它們在空間中發生的機率,不難預期看到一些結果,例如講到 water 這個字時,出現率較高的地方在廚房附近,而說 bye  的時機,在門口那裡出現高峰。而有趣的是大人很自然的在察覺小孩無法意會到對話內容時,會放慢速度,簡化敘述方式,等小孩接得上了,再慢慢增加對話內容的複雜度。在這個由簡而繁的轉折點,通常也是小孩學會新的詞語的時刻,這也說明了大人和小孩之間的對話行為,有著很強的回饋作用在互相影響著。影片中4:30 – 5:40 左右,他用很短的時間播放這個一歲小孩在半年內如何說出「水」這個字,一開始是 「嘎 嘎」的聲音,最後變成 water 的過程,很可愛的童音。

這個錄影分析系統,可以探究兒童口語形成過程,進而歸納出一些語言與外在因子間的關連性。他們更將此概念擴大,應用在其他大眾媒體的分析,並且有亮麗的成果。影片中11:50-13:20 指出像連續劇、廣告、新聞等影片的詞語內容,都可以截取出來,這些影音內容在播出後,通常會引發網路上的廣泛討論,透過各種社交網路或是部落格等,對話與評論紛紛開始湧現。這種播出與回應之間的關連性,在他們研發的系統中,可以鉅細靡遺的檢視,或透過篩選過濾的機制,有點類似「x光」一般透視一些深藏其中的資訊,最後總結出有價值的訊息,得知觀眾一般的共識。這種基於閱聽大眾對訊息「黏合度」的調查,應該比傳統電視收視率的調查更有價值吧!

這個TED 演講,讓我想起 1998 年的電影,楚門的世界(The Truman Show),這個被設計的真人實境,對外界廣播的故事中,似乎劇中的每一個觀眾,包括螢幕前看這部電影的人,都被劇中主角的一舉一動所吸引。這個虛構的故事中,媒體對個人隱私侵犯在在滿足大眾的窺視,曾引發不少道德與人性等議題上的省思。

講者 Deb Roy 以自己的家庭生活,在類似楚門的世界裡的設定下,不僅完成了一項傑出的研究計畫,後來還衍生出目前社群電視媒體分析的翹楚 Bluefin labs [2]. 年初,Twitter 曾開價要收購這家公司,可見這項價值不斐的技術可望成為明日之星。

(本文亦發表於「泛科學」網站: http://pansci.tw/archives/53780


TALKS

Deb Roy:一個字詞的誕生


參考資料:

1.   1. Deb Roy:一個字詞的誕生  http://www.ted.com/talks/deb_roy_the_birth_of_a_word.html 

2.   2. Bluefin Labs http://en.wikipedia.org/wiki/Bluefin_Labs

( 知識學習科學百科 )
回應 推薦文章 列印 加入我的文摘
上一篇 回創作列表 下一篇

引用
引用網址:https://classic-blog.udn.com/article/trackback.jsp?uid=2jclee&aid=9924264

 回應文章

木頭...發呆ing
等級:8
留言加入好友
2013/12/26 19:28
哈哈....再回來, 發現瘦骨這裡可以餵魚耶....^^
瘦骨(2jclee) 於 2013-12-27 00:03 回覆:
呵呵!被發現了,blog 裡有五個自定欄位,想試試看可以用來作什麼,所以先拿兩個出來用。看你的格子改版後,這些自定欄位幾乎都用上了,看起來很豐富!值得學習。

木頭...發呆ing
等級:8
留言加入好友
2013/12/25 09:41
記錄下這龐大的資料, 是可以想像的.
但令人不可思議的是這些資料的應用
搜尋(原來海裡撈針是可能的)、擷取、解構、分析、再建構、顯示、表達.....
WOW  光想就覺得太了不起了.
瘦骨(2jclee) 於 2013-12-25 23:19 回覆:

摩爾定律在描述積體電路上可容納的電晶體數的成長曲線,現用於描述資料數據的成長也很合宜, 在更短的時間內,達成數量倍增的成長,還好有這些科學家想出辦法,減少我們小小腦袋傷腦筋的機會。跟你一樣,我也很佩服這些人這麼厲害,把資料處理得這麼好。


火星情報總長
等級:8
留言加入好友
2013/12/17 17:40
太驚人了,一年窺見未來世界每個人的一舉一動都翔實地紀錄在電腦裏,而且不經意的小動作都分析得一覽無遺。另外,他的data visualization 和 information extraction真是高明!
瘦骨(2jclee) 於 2013-12-18 09:08 回覆:
越仔細的記錄,需要越多的資料容量,資料儲存與分析的困難度也會相對增高。最欣賞他們可以在 200 TB 的巨量資料中游移自如,還同時做一堆分析,功力實在很高強!雖然是兩年前的演講,還是相當的引人注目,如您所言,資料的視覺呈現手法,以及資訊萃取技術,十分令人讚賞。