字體:小 中 大 | |
|
|
2008/07/18 12:23:47瀏覽1665|回應1|推薦2 | |
提取Lucene,知道的人,都會豎起大姆指說:贊,同時也對Lucene團隊衷心地感謝! 雖然如此,但將Lucene應用到中文(繁體),卻有一些需要克服的地方。到底是何因素造成如此?而所謂要克服的地方,又是指那裡? 首先,必須談到的是英文(也可說拼字體系)與中文在斷詞方面是截然不同的。一個英文字,單純以空白或標點即可清楚表示,但中文可不是如此,對中文來說,這可能是一段話,或是一個子句。也因如此,Lucene在處理索引建檔(indexing)時,通常會將位置(position)記錄成連續,如此一來,中文就可能跨越標點而成字詞!舉例來說,"某某兄台,半年未見,可好嗎?",台與半是兩個不相關的,但如以"台半"檢索,仍然被找到,而北被以為是台灣半導體公司的簡稱:台半。 其次,要談的是中英混雜的情況。在台灣,大家習慣中英文一起使用,像什麼e化,LED產業....等等,也因此,上網查資料也很習慣以此為關鍵字。Lucene,在這方面就有得討論。 如果,我們使用的是本土所開發的檢索系統,它們絕對沒有問題,這要歸功於那些優良的工程師。而在Lucene,由於將斷詞分為Term,Phrase,因此軟體基本結構上處理斷詞,通常就分為single,word(註:double也可行)。也因如此,軟體處理邏輯及路線就不同。要將中英混雜,不是辦不到,而是要工程師多費心思,多多研究Lucene內部的結構。 Lucene,是很棒的軟體,也是原創使者的名字,把它翻成'路神',可能有點奇怪,但倒可表達Lucene對internet的關懷及貢獻。您說是不是?下回,我們再談談Lucene的其他特性,即可能的限制。 |
|
( 休閒生活|網路生活 ) |