Lucene全文檢索 - www.mybloger.com

字體：小中大

Lucene全文檢索

2008/07/18 12:23:47瀏覽1713｜回應1｜推薦2

提取Lucene，知道的人，都會豎起大姆指說：贊，同時也對Lucene團隊衷心地感謝！

雖然如此，但將Lucene應用到中文（繁體），卻有一些需要克服的地方。到底是何因素造成如此？而所謂要克服的地方，又是指那裡？

首先，必須談到的是英文（也可說拼字體系）與中文在斷詞方面是截然不同的。一個英文字，單純以空白或標點即可清楚表示，但中文可不是如此，對中文來說，這可能是一段話，或是一個子句。也因如此，Lucene在處理索引建檔（indexing）時，通常會將位置（position）記錄成連續，如此一來，中文就可能跨越標點而成字詞！舉例來說，"某某兄台，半年未見，可好嗎？"，台與半是兩個不相關的，但如以"台半"檢索，仍然被找到，而北被以為是台灣半導體公司的簡稱：台半。

其次，要談的是中英混雜的情況。在台灣，大家習慣中英文一起使用，像什麼e化，LED產業....等等，也因此，上網查資料也很習慣以此為關鍵字。Lucene，在這方面就有得討論。

如果，我們使用的是本土所開發的檢索系統，它們絕對沒有問題，這要歸功於那些優良的工程師。而在Lucene，由於將斷詞分為Term，Phrase，因此軟體基本結構上處理斷詞，通常就分為single，word(註：double也可行)。也因如此，軟體處理邏輯及路線就不同。要將中英混雜，不是辦不到，而是要工程師多費心思，多多研究Lucene內部的結構。

Lucene，是很棒的軟體，也是原創使者的名字，把它翻成'路神'，可能有點奇怪，但倒可表達Lucene對internet的關懷及貢獻。您說是不是？下回，我們再談談Lucene的其他特性，即可能的限制。

( 休閒生活｜網路生活 )


	回應文章