網路城邦
上一篇 回創作列表 下一篇   字體:
中文《全字庫》網站「內碼查詢」之探討
2010/04/10 23:33:28瀏覽5633|回應0|推薦28

  中文全字庫網站共提供了13種查詢方式,其中共有8種是整合在「複合查詢」之下。本文將介紹的內碼查詢是指UNICODE查詢和BIG5查詢,這兩種查詢並未整合在「複合查詢」之內。全字庫網站的內碼查詢到底應如何善用,請看本文之探討。

() UNICODE查詢

  UNICODE查詢之下,共分成「段落查詢」和「單字查詢」這兩個選項:

(1) 段落查詢

Vista的中文系統為例,Unicode的字集分成標準字集和增補字集,標準字集的內碼是4E009FA5,字數共計20,902個。使用全字庫的Unicode查詢,若選第0(BMP)字面,選段落查詢,字碼輸入4E00~9FA5 共查得字數20,907個;若選第2字面,共查得字數20,900個;若選第15字面,共查得字數3,930個。

增補字集的內碼是34004DB5,字數共計6,258個。使用全字庫的Unicode查詢,若選第0(BMP)字面,選段落查詢,字碼輸入3400~4DB5,共查得字數6,581個;若選第2字面,共查得字數6,582個;若選第15字面,共得查字數0個。段落查詢選項,適合用來查詢Unicode內碼區間所包含的漢字。

(2) 單字查詢

在全字庫用任何方法查得的漢字,皆會標註Unicode碼,在單字查詢選項之下,若輸入Unicode字碼,即可查得漢字,例如輸入4E00,可查得「一」字;若輸入9FA5,可查得「」字;若分別輸入3400 4DB5,可分別查得各該漢字。單字查詢選項,適合已知該漢字的Unicode碼。

() BIG5查詢

    BIG5查詢之下,共分成「段落查詢」和「單字查詢」這兩個選項:

(1) 段落查詢

  BIG5的字集分成常用字集與次常用字集,常用字集的內碼是A440C67E,字數共計5,401個;次常用字集的內碼是C940F9D5,字數共計7,652個,兩者字數合計13,053個。使用全字庫的BIG5查詢,選段落查詢,若字碼輸入A440~C67E,共查得字數5,401個;若字碼輸入C940~F9D5,共查得字數7,650個;若字碼輸入A440~F9D5,共查得字數 13,051個。段落查詢選項,適合用來查詢BIG5內碼區間所包含的漢字。

  (2) 單字查詢

在全字庫用任何方法查得的漢字,皆會標註BIG5碼,在單字查詢選項之下,若輸入BIG5字碼,即可查得漢字,例如輸入A440,可查得「一」字;若輸入C67E,可查得「籲」字;若輸入C940,可查得「乂」字;若輸入F9D5,可查得「龘」字。單字查詢選項,適合已知該漢字的BIG5碼。

   經由上述的探討可知,全字庫上面的UNICODE查詢的段落查詢,配合第0215字面的選定,會出現不同字數的漢字,總字數比起Vista作業系統上的漢字還多。照理說應是一碼一字,不知全字庫上面是否一碼多字?這一部份有待日後再研究。

[相關閱讀]

1. Vista作業系統到底含有多少漢字?

2. 電腦上的漢字字數計算

( 興趣嗜好電腦3C )
回應 推薦文章 列印 加入我的文摘
上一篇 回創作列表 下一篇

引用
引用網址:https://classic-blog.udn.com/article/trackback.jsp?uid=glwang&aid=3931534