網路城邦
上一篇 回創作列表 下一篇  字體:
通關密語,你答對了嗎?
2009/11/10 09:21:03瀏覽986|回應0|推薦15
當你在一些網站貼文、回應、填寫表單或啟動某項服務時,你可能會看到該網頁突然跳出一串變形扭曲的文字來,如果你無法正確辨認那串變形的文字,就無法取得該項服務。這種用來防止網路線上服務被濫用的技術叫做 CAPTCHA,是由以下字首縮寫組成:Completely Automated Public Turing test to tell Computers and Humans Apart,這項技術所挑戰的任務是要辨認網路的使用者是一個真實的人,而非刻意撰寫的程式或機器,這些變形扭曲的字串,正是人類可以輕易辨認,但是機器或軟體卻難以解讀的測驗題。這項技術是在2000年時由Carnegie Mellon University 的 Luis von Ahn 所主導開創的。

CAPTCHA 技術有效地阻擋網路服務被惡意濫用,目前已被廣泛採用,但是每一次都得花大約10 秒鐘來辨認這些字,再輸入進行確認,全世界可能隨時都有幾千萬人正在回答這樣的通關密語,累積起來的工作時間相當可觀,沒有善加利用實在可惜。

開創CAPTCHA 這項技術的 Carnegie Mellon University 團隊,將網路上大家回答通關密語的力量集結起來,運用在協助書籍或報紙等文件在數位化過程所需的的字元辨認工作,這個計畫稱為 reCAPTCHA (http://recaptcha.net),reCAPTCHA 的基本原理很簡單,當網頁採用CAPTCHA 技術來驗證使用者時,會同時顯示兩組字串,一組字串由電腦產生,另一組則是掃描自古書或報紙的影像,當使用者可以正確辨認電腦產生的扭曲變形字串時,reCAPTCHA 程式就假設使用者也可以正確辨認掃描文件上的模糊字跡。據統計,99.1% 的模糊字跡可被使用者正確解讀,這正可彌補OCR軟體只有大約 83.5% 正確辨認率的缺憾。

你知道嗎,每天大約有2億組CAPTCHA 被正確解讀,累積的工作時數超過15萬小時,夠驚人的了!2009 年 9 月, Google 正式取得這項 reCAPTCHA技術協助書籍的數位化,目前正在進行 New York Time 百年來累積報紙的數位化,估計在2010年就可完成。

clip_image002 左圖是自reCAPTCHA 擷取的畫面。左邊是一個文件掃描所得的模糊字跡影像“natured”,右邊是電腦產生的驗證碼 “$21-million”,正確解讀這兩個字後,輸到文字框內,提交之後,你便幫某本電子書的數位化工作完成一個單字的辨認。

參考資料: 

1.  reCAPTCHA: Stop Spam, Read Books  http://recaptcha.net/

2. Games with a purpose   http://www.pbs.org/wgbh/nova/sciencenow/0401/04-gwap-nf.html
3. Luis von Ahn's Home Page  http://www.cs.cmu.edu/~biglou/

 

( 知識學習科學百科 )
回應 推薦文章 列印 加入我的文摘
上一篇 回創作列表 下一篇

引用
引用網址:https://classic-blog.udn.com/article/trackback.jsp?uid=2jclee&aid=3482977