gmailにて広東語入力法がサポートされる

グーグルのchromeブラウザのエクステンションで広東語入力法が使えるようになったが、gmailにおいても広東語入力法がサポートされた。最初に、gmailの設定の言語設定で各国の文字入力法を可能にしておく必要がある。クロスプラットフォームで使える中国語入力法であるrimeでも広東語入力法が使えるが、gmailの広東語入力法の特徴は特に設定せずとも、jyutpingやyaleなど複数の綴りが使える点にある。
例えば、「廣東話輸入法可以支持不同的拼法」と言う文章をそれぞれjyutpingとyaleで入力する場合、以下のようになる。

gwong dung waa syu jap faat ho ji zi ci bat tung dik ping faat
gwong dung wa syu yap faat ho yi ji chi bat tung di ping faat

これをgmailの広東語入力法で入力する場合、特にjyutpingとyaleの綴りの違いを気にせずとも候補が現れるので、両者の綴りを混ぜて入力することも可能になっている。
この広東語入力法は、シアトル生まれでワシントン大学を卒業しグーグルで7年間働いているベテランのグーグル社員であるアルバート・ウォンが、グーグルのソフトウェア・エンジニアであるハンナ・タンと去年香港に旅行したときに、広東語入力にフラストレーションを感じたことから一年の時間を掛けて開発したもの。今後半年に渡りユーザーからフィードバックを受けながら改良を重ねていく予定でいる。

Wong, a Seattle native and software engineer at the Google office here in the Emerald City, was traveling last year with Google software engineer Hannah Tang in Hong Kong, where Cantonese is widely spoken. The two had trouble using a Yelp-equivalent app because they couldn’t figure out how to enter particular Cantonese characters. [...]
So for the next 12 months, Wong and Tang rallied up fellow Googlers from Mountain View, New York City, Beijing and Singapore to help them develop a way to fix this difficult and complex problem. Everyone had different skills that were crucial to the development process, whether it was a linguistics background to parse apart input issues, language analysis A.I. expertise or just people who knew a lot about the Cantonese dialect. And of course it couldn’t have been done without Google’s massive data set.

http://www.geekwire.com/2013/seattle-googlers-type-cantonese-web-browser/
http://d.hatena.ne.jp/huixing/20130104/chinese_ime

カスタマイズ自由な最強の中国語入力法であるrime

rimeとは何か
カスタマイズ自由な最強の中国語入力法であるrimeは、ひとつの入力法ではなく、複数の入力法を自由に切り替えて使える入力フレームワークと言ったほうがいい。rimeのフレームワーク中では、ピンイン入力法は勿論のこと、広東語入力法や上海語入力法を使うことが出来る。またクロスプラットフォームWindows XPWindows 7でも、LinuxMac OS Xでも同様に使える。しかし中国語名はそれぞれ違っていてWindowsでは小狼毫、Linuxでは中州韻、Mac OS Xでは鼠鬚管となっている。このクロスプラットフォームの利点はひとつの使い慣れた入力法をどのプラットフォームでも使えるという以外に、自分の入力した語彙集をエクスポートしインポートして使いまわすことができる点にある。

速度
入力はスムーズで、グーグル入力法と比べても遜色ない。

入力法切り替え
デフォルトではコントロールキーとグレーブ・キーで入力法の切り替えを行うようになっているけれども、デバイスごとにグレーブの位置が違うと思うので、F4のファンクションキーを押せば、インストール時に自分の選んだ各種の入力法が選択できる。

英文と中国語の切り替え
グーグル入力法などで手に馴染んだシフト・キーで英文と中国語の切り替えが出来る。

変換候補の選択
グーグル入力法などで手に馴染んだ<キーと>キーを使って、変換候補を順々にめくっていくことが出来る。

語彙集のエクスポートとインポート
ユーザーがrimeの使用中に使った語彙を集めたユーザー辞書は、用戶詞典管理からダイアローグを出し、導出文本碼表をクリックするとタブ区切りのユーザー辞書を取り出すことが出来る。逆にユーザーがタブ区切りのユーザー辞書を作って導入することも出来る。また異なるプラットフォームにユーザー辞書をエクスポートとインポートする場合には、同様にダイアローグから輸出詞典快照と合入詞典快照を使うことになる。

変換候補の垂直表示と水平表示の変更
デフォルトでは変換候補は垂直表示されるので、水平表示にしたい場合はweasel.custom.yamlを開き、patch:の下に"style/horizontal": trueを書き加えた後にメニューから重新部署を選べば適用される。

http://code.google.com/p/rimeime/
http://code.google.com/p/rimeime/downloads/detail?name=weasel-0.9.17.1-installer.exe

自分の北辞郎のエントリーが5万語台に

北辞郎が19万語を突破し*1、自分のエントリーした単語も5万語を超えたので、気のついた事を書いてみようと思う。

成語とことわざについて
まず気を付けなければならないのは、中国語の成語をそのまま日本語のことわざから拾って無理に当てはめようとすること。これはぜひ避けなければならないことで、まず平易な説明があって、そのあとで日本語のことわざに当たりそうなものを付け加えればいいのであって、中国語成語=日本語ことわざありきではない。例えば、顺水推舟のエントリーではもともと日本語訳は「流れに掉さす」のみだけが記されていた。しかしたいていの日本人は、「流れに掉さす」を耳で聞いた場合、流れを止める、水を差すという意味に取ることが多い。googleで「流れに掉さす」を検索すると、ほとんどが誤用例である。たまに正しい例があると、大抵は正しい日本語とかいうサイトのページだったりする。それで中国語成語=日本語ことわざだけにすれば、正しい理解が難しいばかりでなく、ユーザーを混乱させることになる。よって中国語の成語には、まず日本語の平易な説明をし、そのあとで日本語のことわざに当たりそうなものを付け加えるのが妥当だと思われる。

前回3万エントリーをした時に動植物のエントリーの難しさを書いた。その後化学物質や動植物のエントリーがかなりまとまって登録されるようになり充実してきた。やはり専門用語は専門に従事する人間が書いたほうが良いが行き過ぎはダメである。専門家は得てして過剰に書きがちだが、簡潔であることが大切だ。一方で、北辞郎がiphoneのアプリケーションとして出て以降、注目されるようになったためか、ユーザーの裾野が広がっていくにつれ、共同編集という機能も裏目に出て、弊害も出てきた。日本語に理解のないユーザーが奇妙な日本語を辞書からひっぱってきては登録するようになっている。誰かがこうしたどうでもいいエントリーを注視していないと、北辞郎は品質低下していくことになるだろう。

例文について
よく英辞郎を引き合いに出して、北辞郎の登録単語に例文のないことが悪いような書き込みを見ることがある。でも北辞郎に例文のないことは弱点にはならない。今ではグーグルなどインターネット全体をある単語のコーパスとして使えるので、わざわざ適当にそのなかから一つ選び出して記述することはあまり意味がないばかりか、意味をただ単に例文の中で復唱するような例文は却って邪魔である。例文が欲しいのならインターネットから数例をながめて見当をつけたほうが賢明で、ただ例文のための例文は必要ない。例文をつけるのは分離動詞となる場合やごく限られた例に限られるべきである。

方言について
紙の辞書にある方言ではよく南方方言とかしているが、南方とは何だろうか。恐らく上海以南の地方を指すのであろうか。日本の辞書編纂者自身も、ただ中国の辞書をそのまま翻訳しているにすぎないので、具体的にどこの地方で話されてるのをさして気にしないのだろう。あるいは全く知らないのどちらかだ。ある言葉は上海語で話されている。ある言葉は広東語で使われる。ある言葉は上海語でも広東語でも使われる。これは旧時に上海で商売をしていた粤商から広東語に入ったのか、上海から香港に逃げてきた上海人から広東語に入ったのか詳しいことは分からない。しかしこれをただ南方方言と片付けるのは相当いい加減であると言わざるを得ない。それで北辞郎に記述するときには、現実に即して現実に使用例を見た時に北辞郎に加えていくことにする。

広東語と標準中国語を混ぜて書く場合はいくつか考えられる。第一に、標準中国語の中にたまに広東語を挿入する場合で、この場合は広東語の数も極めて少ない。時には気がつかずに広東語を挿入している場合もあるだろう。第二に、「三及第」のような広東語と古典中国語と標準中国語を混ぜて書く場合で、この場合は広東語が他の2つの文体と同様の比率で使われる。第三に、ランダムに広東語と標準中国語が使われる場合。第四に、ナレーションは標準中国語でせりふは広東語が使われる場合。第五に、完全に広東語の口語に沿って書かれる場合である。以上の場合においては、グーグル翻訳などで使われる統計的機械翻訳はほとんど役に立たない。

また、もともと広東語の成語や慣用句を標準中国語に開いて書かれている場合、元の広東語を知っていないと意味が取れない場合がある。こうした場合も機械翻訳は完全にお手上げである。宁可犯天条不可犯众憎は広東語の唔怕犯天条,最怕犯众憎を普通語に開いたものだし、不穷不教学,不饿不舔壳は唔穷唔教学,唔饿唔舔饭壳を普通語に開いたものだし、好话不好听は好话唔好听を普通語に開いたものだし、帮理不帮亲は帮理唔帮亲を普通語に開いたものだし、一本通书读到老は一本通书睇到老を普通語に開いたものである。以上のことを見ても、北辞郎において広東語や上海語を標準語と混ぜて記述することの利点は言うまでもない。

パーサーについて
北辞郎に必要なのは文章のパーサーParserである。テキスト・グロシングText Glossingと言ってもいい。テキストエリアがあってそこに中国語のテキストを貼り付けてボタンを押すと、北辞郎のデータベースに登録されている語に注釈が入るようになるものだ。このパーサーは、ボランティアによる辞書データベース・サイトであればあったほうが良いもので、これによってまだ未登録の単語や語句があることが知れる。実際、中国語や広東語や日本語の辞書データベースサイトにはこれがある。また、naver中国語辞書にも単語分析ツールがあるが、これはすでに登録されている単語を確認するのには向いていないのでダメである。特にドイツのテキスト・アノテーションは秀逸で、ワンセンテンスごとにテキストを分かち書きしたうえで英語の注釈をつけ、辞書に未登録の単語まで示して辞書登録に導くところまでしてくれる。また辞書に登録されている数に限りあるため、単語の境界が全て精確に区切られるわけではないが、辞書に単語を加えていくことで精確さが増していくとも注意書きがしてある。こうした例を見ても、北辞郎サイトにはパーサーを兼備したほうがいいのではと思うのである。


http://www.cantonese.sheik.co.uk/scripts/parse_chinese.php?action=parse
http://www.csse.monash.edu.au/cgi-bin/cgiwrap/jwb/wwwjdic?9T
http://www.handedict.de/chinesisch_deutsch.php?mode=mu


可視化について
最後に、登録単語が増えていくと面白いことも出来るようになる。それは登録単語の可視化である。単語と単語のネットワークを可視化するに当たり、以下のサイト記事を参考に可視化してみる。

http://readingmonkey.blog45.fc2.com/blog-entry-636.html


まず今回は簡単に「一」と「多」という親字に関連する言葉を集めて可視化し、「一」と「多」の両方を含む10の単語、「一举多得」「一夫多妻制」「一心多用」「一石多鸟」「一稿多投」「多一事不如少一事」「多此一举」「多此一虑」「多此一问」「多背一公斤」がきちんと表現できれば良いとする。次に一と一を含む単語をコンマで区切っただけのcsvファイルを作る。次に多と多を含む単語をコンマで区切っただけのcsvファイルを作り前者とマージする。
例は以下のようになる。

"一","风行一时"
"一","风靡一时"
"一","饮一杯凉茶,不用找医家"
"一","首屈一指"
"一","高人一等"
"一","高人一筹"
"一","齐聚一堂"
"多","一举多得"
"多","一夫多妻制"
"多","一心多用"
"多","一石多鸟"
"多","一稿多投"
"多","丁咁多"
"多","三多"

データができたので、Gephiの最新のベータ版Version 0.8.1-betaをhttps://gephi.org/users/download/からダウンロードする。

インストールしたらメニューのファイルの開くから先ほどのcsvファイルを取り込む。なにやらグラフが出てくるので概観のレイアウトから胡一凡を選んで実行する。少しずつ変化していくので、適当なところで中止する。これだと文字同士の間隔がとれていないので、更にFruchterman Reingoldを実行する。次にプレビューに移ってデフォルトの状態でフォントを黒体、フォントサイズを48にする。他に線の色など好きなように設定すればいい。
以下にデータファイルと書きだしたpdfを置いておくので設定を変えていろいろ遊んでみて欲しい。

http://dl.dropbox.com/u/29457156/yi00.csv
http://dl.dropbox.com/u/29457156/yi_duo3.pdf


最後にこうしたことは、gexf-jsとかsigma.jsを使えば、Hanzi Network / 汉字网のようにウェブ上でインタラクティブなネットワーク図を公開できるので、北辞郎のデータを使ってこうしたことが出来れば面白いと思うのである。

ウィキペディアの裏で働くボットClueBot-NG

ウィキペディアはネット上で調べ物をするのになくてはならないものだけれども、誰でもが編集できることから悪意のある人間がわけもなく内容を改変できてしまう。しかしウィキペディアの背後ではClueBot-NGと呼ばれるボットが疲れを知ることもなく常に監視して破壊行為をたちどころに見つけてしまう。もしClueBot-NGがなければウィキペディアは混乱の極みと化していることだろう。ウィキペディアの英語版は現在400万を超える項目、25億字を数え、ブリタニカ百科事典の50倍を超える分量を持ち、万を数える編集する人間を抱えている。これらを人間の手で監視するのはほとんど不可能な話だ。しかしClueBot-NGにも多少のミスがある。ClueBot-NGの仕事にはデータセットの支持が欠かせない。データセットを完璧なものにすることでClueBot-NGの精確度も上がる。
ウィキペディアには悪意ある書き換え行為を根絶やしにするClueBot-NGだけでなく他のボットも存在する。ウィキペディアの誕生の翌年にはrambotと言うボットがアメリカ統計局からデータを取り出し項目を書いた。しかしその内容はどうみても機械が書いたようにしか見えず、その後は本当の人間の編集者が後を引き継ぐ流れとなった。2008年には他のボットがNASAのデータベースからデータを取り出し小惑星に関する項目を書いた。今日でもボットによる文章作成には賛否両論がある。ある人はこのような自動的に生成された文章にはほとんど価値がないとし、またある人は新たな内容が加わることは良いことだと考える。今ではボットにはまるごとの文章の作成をさせず、編集者がリサーチと文章作成に集中できるよう機械的作業だけをやらせればよいとする結論に落ち着いている。

ClueBot NG, as the bot is known, resides on a computer from which it sallies forth into the vast encyclopaedia to detect and clean up vandalism almost as soon as it occurs. It is one of several hundred bots patrolling Wikipedia at any given time. Its role in repairing the Supreme Court article illustrates how bots have quietly become an indispensable - if virtually invisible - part of the Wikipedia project.

http://www.bbc.co.uk/news/magazine-18892510

多言語翻訳アプリVoice Tra4U-M

日本の情報通信研究機構など23ヶ国の26の研究機関の集まったU-Starはロンドン・オリンピックにちなんで23ヶ国語を翻訳できるiphoneのフリーアプリを公開する。Voice Tra4U-Mと呼ばれるアプリは17ヶ国語の言語を音声か文字入力を通じて数秒しないうちに翻訳できる。残りの6言語は文字入力のみを支持する。このアプリを使えば異なった言語をしゃべる5人のユーザーが同時に電話で交流できるという。またこのアプリの中国語・英語の翻訳部分は、中国科学院自動化所が担当しており、中国語・英語の双方向翻訳を実現しているほか、クラウド・コンピューティングと3D技術でビッグデータが使用できることから、これまでと違い専門分野を限定せずに翻訳を可能にしているのが新しい。つまり旅行会話なら旅行会話だけにしか使えないということがない。一説にグーグルの翻訳サービスと比べ遙かに正確度が高いと言われるVoice Tra4U-Mは、6月末からダウンロードが開始され、来年の3月まで使用できるとのこと。アプリ自体はフリーだが、クラウド・コンピュータで翻訳を行うため期間を限定するしかないのだろう。実にもったいないことだ。

日本“信息通信研究机构”等23个国家的26家研究机构27日宣布,为迎接伦敦奥运会,将发布用于23国语言互译的iPhone免费应用。该应用名为“Voice Tra4U-M”,包括日语在内的17国语言可通过声音或文字输入进行翻译,其余6国语言仅支持文字输入。此外,有13国语言可在翻译之后语音朗读。该应用将从6月底开始提供下载,可用至明年3月底。有了这款应用,使用不同语言的5个人可同时通过电话交流。据称,谷歌公司的同类翻译服务相比,“Voice Tra4U-M”的翻译准确率更高。

http://china.kyodonews.jp/news/2012/06/32834.html

该项目中,中科院自动化所承担了其中中英互译项目,其中包括汉语普通话识别、中文-英文双向翻译以及汉语普通话合成等四大任务。据中科院自动化所副所长徐波介绍:“我所研究成果的最大突破,便是无专业领域的限定。例如以往总是考虑在旅游中会用到的词汇,而在真实情况下很难判断语句实际应用的可能性,使得系统的可靠性很难保证。云计算技术和3G技术的推进,让我们能获取海量数据信息,运用有效的算法进行翻译转换,因此该系统并没有限定翻译领域。”

http://www.oktranslation.com/news/twininfo29258.html

ルンビニの未完成のマスタープランとラーマグラマ

インドとの国境から10キロしか離れていないネパールのテライ平原にあるブッダの誕生地であるルンビニは旅行者にとっては通過地点でしかないようだ。その発展は遅々として進んでいない。1967年に当時の国連事務総長だったビルマ出身のウ・タントルンビニを訪れ、その荒れ果て具合を見てショックを受けて以来、1970年に国連の援助による国際開発委員会が設けられ、その開発マスタープラン設計が日本の建築家である丹下健三に依頼された。そのマスタープランは1978年に正式に認められた。しかしその後も資金不足から完成にはほど遠く、中央を貫通する運河にも巡礼者を乗せた舟の姿は無く、世界の仏教寺の集中する寺院区域も半分が埋まっているに過ぎない。なかでも目につくのが、両側に土産物屋が並んだ小型の紫禁城のような中国寺が、ここで唯一人気のある証である乞食を目にする場所となっている。ベトナム寺は補修されることもなく鉄条がかけられて閉まったままである。
ルンビニから30分ほどのドライブで着くラーマグラマは、ブッダの死後に遺灰が8つの氏族に分けられた場所の一つで、遺灰を埋めた場所にはストゥーパが建てられた。今は標識も何もない緑に覆われた小高い丘でしかなく、小枝に掛けられた旗だけがその目印となっている。その後アショカ王が遺灰をもっと広範囲に広めようとして7つのストゥーパを開け84,000個分に遺灰を分けたが、ラーマグラマ王国だけはストゥーパを開くことを拒否したので、ラーマグラマは唯一オリジナルの遺灰を残す場所となったのであった。その後ラーマグラマは1974に再発見されるまで歴史から忘れ去られることとなる。

As a result, a U.N.-sponsored international development committee was founded in 1970, and this body commissioned Japanese architect Kenzo Tange to come up with a vision for the site. Tange labored on his design for six years before his Master Plan was formally adopted in 1978. [...] Arguably the only flaw in the Master Plan is that there was no money to deliver it, so what Lumbini visitors see today is a partial realization of Tange's design. The water features he placed at the heart of his plan ― including a long central canal ― are there, but not the boats that he envisaged carrying pilgrims slowly through the zones to the lake surrounding the Sacred Garden Zone. The Monastic Zone is taking shape in fits and starts, though of its 42 lots available for countries to build on, only around half are occupied.

http://www.japantimes.co.jp/text/fl20120624x1.html

中国の大辞典である大辞海が2015年までに完成

中国の大辞典である大辞海が2015年までに38巻全巻を出版し完成する予定であることが明らかにされた。大辞海は中国の百科事典的な総合辞典である辞海をもとにして、2002年に刊行が開始されており、現在までに21巻が出版され全体の60パーセントが完成している。完成の暁には収録語数25万条、字数5千万字の大型辞典となる。また大辞海は中国の政治・経済・文化や科学技術などの各分野を反映すると同時に世界各国の知識や情報も紹介している。2015年以降はピンイン順に整理した総まとめ編の刊行とeブック版とウェブ版の刊行に取り組む予定となっている。

《大辞海》《辞海》主编扩大会议7日在沪举行,全国人大常委会副委员长陈至立出席会议。据悉,我国跨世纪重大文化工程、国内首部特大型综合性词典《大辞海》计划于2015年底前出齐38个分卷,目前编纂工程已经完成60%。皇皇巨著《辞海》是我国最大的综合性词典,凝聚了中国几代专家学者智慧和心血,迄今已经修订6次。而《大辞海》篇幅为《辞海》的2.5倍,以《辞海》为基础,收词规模为25万条、5000万字,将分为38卷出版,填补我国特大型综合性辞典的空白。《大辞海》主编、全国人大常委会副委员长陈至立说,做好《大辞海》的编纂工作要坚持和发扬“辞海精神”,坚持社会主义先进文化的前进方向,坚持严谨的编纂作风,使之成为“集古今中外文化精华、满足人民群众精神文化需求的传世之作”。上海世纪出版集团总裁陈昕说,《大辞海》不仅充分反映中国政治、经济、文化和科学技术等各个领域的历史、现状和知识,同时还介绍世界各国的知识和信息,展现当今世界迅猛发展的新面貌。《大辞海》副总编巢峰说,《大辞海》已经陆续出版21卷,总字数3000万字,“整个《大辞海》项目已完成60%。”而到2015年之后,《大辞海》的第二期工程将出版按音序编排的汇编本,并推出电子版和网络版。

http://www.npc.gov.cn/npc/fwyzhd/2012-06/08/content_1724545.htm