ユニコードを利用して文字問題を解決した龍語瀚堂典籍数據庫

中国では次世代身分証の書き換え時期が迫り人名で使える文字を制限する動きがあるけれども、ユニコードを利用して文字問題を解決した龍語瀚堂典籍数據庫は4バイト文字コードを使用するので処理可能な漢字数は7万字に及ぶ上、wordなどのソフト上で編集やレイアウトが可能。今までにも手書きをスキャンしたり、作字をしたり、フォント・データベースを作ったりといった方法があったが検索の問題が残されていた。龍語瀚堂典籍数據庫はこれを解決した。現在龍語瀚堂典籍数據庫はハーバード大スタンフォード大の中文系や歴史系、考古学系など漢字を扱う機関で利用されている。

生僻字处理突破瓶颈
信报讯(记者朱晨日韦)目前我国约有6000万人因为姓名中生僻字问题,在办理第二代身份证时存在问题。而这一问题目前在技术上已经得到突破,日前推出的龙语瀚堂典籍数据库技术将完全可以实现对所有汉字的数字化。
该技术建立在Unicode超大字符集之上,突破了以往二字节汉字编码技术。采用四字节编码技术的龙语瀚堂典籍数据库系统可处理汉字数达到7万之多,最大可管理的字符理论上可以超过20亿,使用该技术可以在如微软Word等软件上进行文字的编辑排版。

在所有已经装有Unicode超大字符集的计算机内,这些文字可以自如的在MS-Office上进行复制、粘贴和通过互联网进行广泛发布,从而结束了古籍研究手工抄写、图片替代、生硬造字的时代,也为研究者、古文字爱好者查阅、认知生僻字、罕用字提供了便捷的途径,使得整理所有古籍类图书信息化成为现实,对于中华文化的保存和发展具有极为重要的意义。

http://www.stardaily.com.cn/view.asp?id=195531
http://www.dragoninfo.cn/introduction.htm
http://news.shangdu.com/category/10008/2006/03/29/2006-03-29_257563_10008.shtml