捜狗ピンイン入力法の入力ミス補正機能とCHIME

6月14日に新リリースされた中国語インプット・システムの捜狗ピンイン入力法バージョン6.0では、新しい機能としてピンイン入力において、ピンインの順番を逆に打ったり、ピンインの打ち漏れをしたり、打ち間違いをしたりといったユーザーが犯しやすい入力ミスを自動的に補正する強力な機能が加わっている。この補正機能は「ユーザー体験計画」に参加したユーザーが実際に間違えたデータを基に作られた補正モデルを基礎にしている。またこれまでのピンイン入力法の簡単な方法と異なっているのは、マシンが自動的に行なってくれることで何の設定もしないでいいという点だ。一方、CHIMEはこれまでの中国語ピンイン入力法がピンインの入力ミスを補正することができずにいた問題を解決する方法を目指しており、ユーザーがミススペルをしても自動修正する。捜狗とCHIMEの関係ははっきりとしないが、CHIMEチームがミススペルデータを捜狗から提供されて、ユーザーがバック・スペースで文字修正することを手がかりに正しいスペルとミススペルのペアを抽出していることからも何らかの協力関係があるのだろう。いずれにせよかなりの確率でCHIMEの技術が捜狗ピンイン入力法に取り込まれていると思われる。
http://pinyin.sogou.com/features/

6.0版本新增了强大的智能纠错功能。此纠错功能是在参与《用户体验计划》的用户真实输错数据的基础上建立的强大纠错模型,可以对打反字母、漏打字母、按错字母的情况进行最大程度的纠错。与以前输入法的简单做法不同的是,这些纠错都是机器自动进行的,无需任何设置即可体验,提高输入效率。

http://www.cnbeta.com/articles/145730.htm

Chinese Pinyin input methods are very important for Chinese language processing. In many cases, users may make typing errors. For example, a user wants to type in "shenme" (什么, meaning "what" in English) but may type in "shenem" instead. Existing Pinyin input methods fail in converting such a Pinyin sequence with errors to the right Chinese words. To solve this problem, we developed an efficient error-tolerant Pinyin input method called "CHIME" that can handle typing errors. By incorporating state-of-the-art techniques and language-specific features, the method achieves a better performance than state-of-the-art input methods. It can efficiently find relevant words in milliseconds for an input Pinyin sequence.

http://chime.ics.uci.edu/
http://www.aclweb.org/anthology/P/P11/P11-2085.pdf