網路城邦
上一篇 回創作列表 下一篇   字體:
Lucene全文檢索
2008/07/18 12:23:47瀏覽1645|回應1|推薦2

提取Lucene,知道的人,都會豎起大姆指說:贊,同時也對Lucene團隊衷心地感謝!

雖然如此,但將Lucene應用到中文(繁體),卻有一些需要克服的地方。到底是何因素造成如此?而所謂要克服的地方,又是指那裡?

首先,必須談到的是英文(也可說拼字體系)與中文在斷詞方面是截然不同的。一個英文字,單純以空白或標點即可清楚表示,但中文可不是如此,對中文來說,這可能是一段話,或是一個子句。也因如此,Lucene在處理索引建檔(indexing)時,通常會將位置(position)記錄成連續,如此一來,中文就可能跨越標點而成字詞!舉例來說,"某某兄台,半年未見,可好嗎?",台與半是兩個不相關的,但如以"台半"檢索,仍然被找到,而北被以為是台灣半導體公司的簡稱:台半。

其次,要談的是中英混雜的情況。在台灣,大家習慣中英文一起使用,像什麼e化,LED產業....等等,也因此,上網查資料也很習慣以此為關鍵字。Lucene,在這方面就有得討論。

如果,我們使用的是本土所開發的檢索系統,它們絕對沒有問題,這要歸功於那些優良的工程師。而在Lucene,由於將斷詞分為Term,Phrase,因此軟體基本結構上處理斷詞,通常就分為single,word(註:double也可行)。也因如此,軟體處理邏輯及路線就不同。要將中英混雜,不是辦不到,而是要工程師多費心思,多多研究Lucene內部的結構。

Lucene,是很棒的軟體,也是原創使者的名字,把它翻成'路神',可能有點奇怪,但倒可表達Lucene對internet的關懷及貢獻。您說是不是?下回,我們再談談Lucene的其他特性,即可能的限制。

( 休閒生活網路生活 )
回應 推薦文章 列印 加入我的文摘
上一篇 回創作列表 下一篇

引用
引用網址:https://classic-blog.udn.com/article/trackback.jsp?uid=memberfred&aid=2051373

 回應文章


等級:
留言加入好友
Lucene已有繁體中文解決方案了嗎
2011/08/28 12:45

博主

非常感謝你的文章,坊間很難找到有關Lucene的繁體中文檢索功能。請問現在的Lucene 與衍生物 Solr已經有繁體中文的解決方案了嗎?我找到很多資料關於簡體中文檢索的方法,但是有關繁體中文檢索的方法幾乎沒有。如果博主知道,或者有人知道,麻煩跟大家分享一下。需要付費的解決方案也比沒有好。感謝。