自分の北辞郎のエントリーが3万語台に

自分の北辞郎のエントリーも3万語台になったことであるし、これを契機に考えたことを書いてみる。

エントリー数について
北辞郎で編集したエントリーは現在約3万3千件、うち新規単語のエントリーが2万6千件。2005年からはじめてやっと3万語台になった。北辞郎も全体として現在登録語数は16万8千件、自分では最近では平均1日30エントリーを登録しているので1ヶ月では約600語、1年間では7200語になる。2012年の新年ごろには北辞郎は17万語の大台に乗ることも不可能ではないだろう。
ただ闇雲に数を増やしても意味が無いとも思っていて、単語登録数の多い紙の辞書を引き写せば数は簡単に増やせるだろうが、いわゆる大辞書もろくでもない単語を載せていることがあり、編者が地方出身者のせいか日本語が変なエントリーもあるので引き写せばいいという訳でもない。気にせずマイペースでいけばいいと思っている。自分の方向としては今リアルタイムに使われている新聞・雑誌、インターネットの最新語句、テレビ・ラジオ、街角の看板、レストランのメニュー、映画ビデオの字幕・キャプションなどに重点においた方がいいと思っている。
広東語のエントリーも総数で9千200件となって広東語の基本単語を集めたような半端なサイトを超えた数にはなっている。数もほとんど出尽くした感じもするが切りのよい1万エントリーを目指したい。以前中国と台湾と香港で使用される単語を集めた辞典があったがそれほどたいしたものでもない。今後は北辞郎でそれを凌駕するものを目指したい。つまり中国と台湾と香港および東南アジアと全世界華人の住んでいる地域を含めた大中華圏で使われる単語を収集する方向で行く。これもマイペースで。


アプリケーションについて
アプリケーションはあくまで道具であって中身が無いと何もならない。悲しいことに北辞郎はオープンであってAPIも公開されているのに、これを活用したアプリケーションをほとんど聞かない。中日辞典とかを搭載した電子辞書とかもあるけれども一度も使ったことがないのでほとんど知らないが、図体がでかいわりに単語数が少なくユーザー辞書も自由に取り込めなければ無くてもいいものなので廃れてケータイのアプリケーションに集約されていくほうを望む。
そして今後学習や旅行に使うのはIPHONEやアンドロイド携帯の方が便利になるのは目に見えている。バーチャルリアリティに街角の看板やレストランのメニューを撮影し分からない単語を調べるアプリケーションがあって、自由にユーザーの作成した辞書を取り込めるならば、あらゆる言葉が検索の対象になるから、それに備えてよりきめ細かく登録しておいたほうがいいだろうと思っている。


翻訳精度について
グーグル翻訳の中国語から日本語への翻訳精度もやってみればわかるけれどもたいしたものではない。おそらく機械翻訳や統計翻訳のエンジニアは中国語を知らないか、中国語研究者は機械翻訳や統計翻訳を知らないのが原因である。また、たとえ機械翻訳といっても全て機械的に処理するわけにはいかず、かならず人間の修正や補正が入るものだ。グーグル翻訳のユーザーによる修正もまったく不便なものでグーグルの本気さを疑う。これらネット翻訳に頼っていてもしょうがないので、北辞郎でマイペースで粒度のこまかい登録をしていくことにしよう。自分の所では常に2千語くらいの未登録の語句が眠っていてエントリーを待っているが、意味がとれないか単なる間違いなのか、超希少な語句で参照するものがなくエントリーに至らなかった悲しい語句たちである。人間でもこれだけ不明な語句がでてくるのだから、機械翻訳の精度がどれだけ意味を汲めるのか推して知るべしといったところだろうか。


専門分野の単語について
これは機械翻訳の分野と同様に、専門分野の専門家が中国語を知らないか、中国語研究者がその分野に無知であるのが原因だと思われる。特に花や鳥や魚の名前などは微妙で既に出版されている中国語辞書でも全信頼を置ける日本語訳はないといっていい。ぜひ動物学者や魚類学者に北辞郎に参加してもらいたいと思うのは高望みか。それでも登録してくれるのであれば簡潔明瞭をこころがけていただきたい。わけのなく長いのは要らないどころが迷惑なだけなので。これからはケータイのアプリケーションで北辞郎が見られることを常に心がけていただきたい。


幸いにも今まで北辞郎が中国ににらまれてブロックされたことはなかった。裏を返せばそれだけ中国人に役に立っているということ?ということで中国から自由に北辞郎が見れる限りエントリーを続けていきたいと思っている。最後にタケウチさんいつもありがとうございます。そしてこれからもよろしくお願いします。