字體:小 中 大 | |
|
|
2009/07/22 09:33:24瀏覽1120|回應0|推薦11 | |
之前筆者發表在「知識學習類」的「科學版」的文章,已介紹過漢字字數的計算,但那是針對Unicode的「標準字集」,適用於Vista和Windows XP以下的作業系統。但在Vista作業系統之下,微軟還提供了「增補字集」,其內碼位於標準字集之前。 標準字集的第一個漢字是「一」字,內碼是4E00,最後一個漢字是「龥」字,內碼是9FA5,字數共計20,902字。至於增補字集,第一個漢字是「㐀」字,內碼是3400,最後一個漢字是「䶵」字,內碼是4DB5。增補字集一樣是採連續編碼,只要計算兩者的差距,即可求得字數。 接下來進行細步計算: 3400 =3*16^3+4*16^2+0*16^1+0*16^0 =3*4,096+4*256+0*16+0*1 =12,288+1,024+0+0 =13,312 4DB5=4*16^3+13*16^2+11*16^1+5*16^0 =4*4,096+13*256+11*16+5*1 =16,384+3,328+176+5 =19,893 4DB5-3400+1=19,893-13,312+1 =6,582 經過以上計算,求得增補字集的字數共計6,582字,加上標準字集字數20,902字,兩者共計為27,484字,這就是Vista作業系統所含漢字的字數。 雖然Unicode的編碼空間是65,536個,漢字只用了其中的27,484個,還用不到一半的空間;但請不要忘了,韓文需要的編碼空間,也不下於漢字。那天如果微軟新一代的作業系統,能為中文提供三個位元組的編碼,編碼空間是2^24=16,777,216個,空間將是無法想像的大。屆時,不只《康熙字典》,只要是大家認可的漢字,都可容納進去。 |
|
( 興趣嗜好|電腦3C ) |