ユニコードの使用増加とgoogleのユニコード5.1への移行

googleは近頃ユニコード5.1への移行を開始し、検索において新バージョンのユニコードに対応した。それは例えばマラヤラム文字中のユニコード5.1でサポートされた新しい文字を含む単語が検索可能になったことを意味する。googleにおいては世界の言語に対応するためユニコードをテキスト検索の中間フォーマットとし、それ以外のエンコードは一旦ユニコードに変換される。そのため一旦ユニコードが新バージョンにアップグレードされるたびにgoogleもそれに合わせアップグレードして常に最新のユニコードが使われるようにしている。またgoogleの統計によれば、去年12月にユニコードエンコードされたウェブサイトがasciiや西欧文字エンコードのサイトをはじめて数において追い越したほか、特定言語に限ったエンコードの使用も減少傾向を見せている。

You can see a long-term decline in pages encoded in ASCII (unaccented letters A through Z). More recently, there's been a significant drop in the use of encodings covering only Western European letters. We're seeing similar declines in other language-specific encodings. Unicode, on the other hand, is showing a sharp increase in usage. [...] This is based on our indexing of web pages, and thus may vary somewhat from what other search engines find. However, the trends are pretty clear, and the continued rise in use of Unicode makes it even easier to do the processing for the many languages that we cover.

http://googleblog.blogspot.com/2008/05/moving-to-unicode-51.html