網路城邦
上一篇 回創作列表 下一篇   字體:
注音排序實作的技巧
2010/05/29 15:47:34瀏覽4568|回應2|推薦44
   之前發表的〈運用注音簡碼編製索引的技巧〉,只針對首字的注音簡碼做排序, 所處理的資料量較小。實用的注音排序( Phonetic sort),必須可處理較大的資料量,就不能只針對首字取注音簡碼,而應針對前兩字或前三字等取注音簡碼。
   注音符號包括聲符、介音和韻符,共計37個,如果只針對首字取注音簡碼,資料只能分成37類;如果針對前三字取注音簡碼,資料可分成17,576類(即37*37*37),取三碼是取一碼的1,369倍(即37*37)。
   要做好注音排序,最重要的是排序鍵的建立,排序鍵取得好,日後檢索才會方便。排序鍵取碼的原則可歸納成7項,如下所示:
(1) 若暱稱為英數,則注音碼就取英數。
(2) 若暱稱是英數後面接中文,則注音碼只取英數。
(3) 若暱稱是中文,則只按暱稱前三個字各取注音的第一個符號。
(4) 若暱稱是中文後面接英數,則只按暱稱前三個字各取注音的第一個符號。
(5) 若暱稱的中文少於三個字,則取碼長度就少於三個字。
(6) 若暱稱裡含有特殊符號,則略過該符號,只理會中文和英數部份。
(7) 若暱稱含注音符號,則照取注音符號。
   在Excel中進行注音排序,主要鍵取「注音碼」欄,第二鍵取「暱稱」欄,兩者皆採遞增順序,如此會先按注音排序,若注音簡碼相同,再按暱稱的筆畫數。排序的果如下所示:
注音碼 暱稱 
ani   ani   
Asian-A Asian-A_暫休筆 進修 讀您   
beautiful world   beautiful world   
ez  ez 
Joson   Joson   
kinini~   kinini~   
Nicolai GEDDA  Nicolai GEDDA 牡羊座  
Odelia  Odelia  
Orchis  orchis.小捲3隻   
PinkCottonCandy   PinkCottonCandy   
Posen  Posen 英文老失   
Rinka   Rinka   
shiaoling   shiaoling   
ti  ti  
-Uncle-  -Uncle-  
ㄅㄇㄕ 白面書生  
ㄆㄉ 平淡   
ㄇ 謎 otivia   
ㄇㄍ *玫瑰*   
ㄇㄍㄅ 魔鬼ㄅㄚˇ拔  
ㄇㄒ 美賢  
ㄇㄒ 梅心  
ㄈㄉㄒ 風的心聲  
ㄈㄌㄎ 法蘭客   
ㄈㄘㄌ 鳳彩翎:周公旦  
ㄉㄈ 蝶非   
ㄉㄌㄈ 大羅府-命理地理館   
ㄉㄏ 朵荷   
ㄊㄒㄎ 通霄客  
ㄋㄏㄐ 南寒寂   
ㄋㄔㄦ 弄潮兒  
ㄌㄆ 靈婆  
ㄌㄌㄈ 戀戀 風塵  
ㄌㄐ 廉婕《命理諮商師 》   
ㄌㄑ 老齊   
ㄌㄓㄋ 老宅男 / 法網第 3日一勝難求  
ㄎㄒㄒ *開心小屋*  
ㄎㄓ 克昭 - 音樂廳  
ㄎㄘ ☆珂玼☆揮別眷戀  
ㄏㄅㄒ 烘焙小魔女  
ㄐㄉㄦ 金朵兒   
ㄐㄐ 加吉:修电脑要小心   
ㄐㄑ 澗 泉   
ㄐㄧㄆ 江依萍   
ㄑㄑㄌ 巧巧來了   
ㄑㄕㄧ 秋山一夢  
ㄒㄇㄐ 須彌芥子  
ㄒㄌ 心 蓮   
ㄒㄒ ~~小潯~~  
ㄒㄖㄔ 旭日初昇   
ㄒㄖㄙ 享榮塑膠有限公司   
ㄒㄗㄖ 閒雜人等  
ㄒㄧ 小奕(愛在宜蘭破曉時)  
ㄒㄧㄘ 熏衣草 
ㄒㄨㄌ 小武老師 - 教你網路行銷   
ㄓㄈㄇ (祝福滿滿)   
ㄓㄑㄨ 追求完美  
ㄓㄒㄒ 鄭琇襄   
ㄓㄓㄒ 真真小月巴月巴   
ㄓㄕ 止善  
ㄕㄌ 善良:::最難忘的人   
ㄕㄍㄏ 水果皇后  
ㄕㄐ 舒姜.瑪琳   
ㄕㄖㄐ 善容居士   
ㄖㄕㄐ 如瞬間即逝   
ㄗㄋ 子甯  
ㄘㄏㄒ 彩虹心靈花園   
ㄘㄒㄧ 采芯雁  
ㄙㄆㄓ 隨波逐流   
ㄙㄌㄩ 嵩麟淵明  
ㄙㄎ 俗客  
ㄙㄩ 思于   
ㄚㄇ ㄚ妙~ 冰情孤心.   
ㄞㄉㄉ 愛的大大  
ㄞㄌㄙ 愛麗絲維維  
ㄧㄇ 逸名  
ㄧㄉㄘ 有道才有德~天天素食,一起搶救地球  
ㄧㄋ 鹰農   
ㄧㄕㄑ ^"^亞莎崎是絕不搞笑的俏狐狸  
ㄧㄖㄌ 楊若林(西N潘)  
ㄧㄘㄐ 迎財接福   
ㄧㄨ 因為~所以~  
ㄨㄐㄐ 王絹絹  
ㄨㄧ 【無 ★ 言】   
ㄩㄑㄗ 漁樵子(酸棗仁)   
ㄩㄓ 芸之  
ㄩㄕㄨ 於是我愛了.... 
   測試的資料共計87筆,但只有”美賢”和”梅心”這兩筆的注音簡碼相同,同為”ㄇㄒ”,但”美”字是9畫,“梅”字是11畫,故”美賢”排在”梅心”之前。
   排序鍵若只取一個字,只適合數十筆的資料量;排序鍵若取三個字,可適合一萬多筆的資料量。注音碼的長度取三個字,重複的機會就會變少,在書面上檢索時,只要看注音碼即可。這種方便有效的檢索方式,有如英數資料之檢索,可是注音簡碼的排序鍵更為精簡;但前提是被排序的中文字都要會念,否則排序鍵將無法完整地建立。
( 興趣嗜好電腦3C )
回應 推薦文章 列印 加入我的文摘
上一篇 回創作列表 下一篇

引用
引用網址:https://classic-blog.udn.com/article/trackback.jsp?uid=glwang&aid=4078177

 回應文章

思于
等級:8
留言加入好友
我投降了
2010/05/30 20:04

實在很困難

讓年輕人去忙吧

一句話:

阿國太專業啦

佩服

王國良(阿國)(glwang) 於 2010-05-31 22:39 回覆:
   注音排序是中文最實用的排序方法,而注音排序又以每筆資料取前三至四個字,每個字只取注音的第一個聲韻符號,這種方式有如英文取簡稱,第一次接觸這種排序法,也許會覺得複雜難懂,但真的蠻好用的,謝謝思于老師的稱讚。

魔鬼ㄅㄚˇ拔~食玩趣記
等級:7
留言加入好友
厲害
2010/05/29 21:07
厲害
王國良(阿國)(glwang) 於 2010-05-30 14:48 回覆:

  中文一般都採筆畫數排序,但最好用的應是注音排序,只是微軟對於注音排序的設計,仍然不夠完善,需要我們自己想辦法,筆者只是略盡棉薄之力,謝謝魔鬼ㄅㄚˇ拔格友的稱讚。