リナックス上のbig5エンコード

台湾政府の不手際もあって台湾での繁体字は民間で作られたbig5が採用されているが政府がこれを正式に標準と認めたことはない。これに加えて漢字の不足を埋めるためにさまざまな拡張big5が現れたが、互いに相容れないものとなっている。会話でよく出てくる殺手鐧のような単語においても、鐧が出ないので鍆で代用するなど漢字文化に対する重大な問題になっている。またコード衝突問題で有名な許蓋功問題がある。これはもともとASCIIコードの0x5Cと0x7Cをbig5に取り込んでしまったためにリナックスで中国語処理をする際、必ずこれら三文字に対して特別処理をしなければならないようになってしまった。big5には問題が多々あるためユニコードに移る傾向にあるがbig5とユニコードは必ずしも一対一で対応するものでもない。例えば中国海字集のかなりの字がユニコードには見あたらないものだ。

Big5 碼基本上是以兩個 ASCII 碼代替為一個中文字。但 Big5 碼在編碼之初卻把 ASCII 碼中的 0x5C「」(倒斜線)和 0x7C「|」(管線)等編進去了。這兩個字是 Linux 常用的控制碼,所以在進行中文字處理時,常常必須針對這兩個字再特別處理,其中當然產生了不少的不便和困擾。(這即是有名的『許蓋功』問題,因為這三個常用字都有這個大問題)。也就是因此只要 Linuxer 一提到 Big5 碼就直搖頭,就算即使時至今日有些軟體對這幾個字還是消化不良呢!

http://tetralet.luna.com.tw/index.php?op=ViewArticle&articleId=119&blogId=1