一歩先行くblinkxのビデオ検索
今やインターネットのトラフィックの6割を占め、2年後には98パーセントを占めるまでになるとも予想されるビデオ。そのビデオの内容をコマごとに細分化して検索することはgoogleでも画像のキャプションや字幕を基にしたテキスト検索止まりだが、blinkxが初めて音声認識技術を使いビデオ中に発せられた言葉を文字化した後、音声の意味するところをニューラル・ネットワークと隠れマルコフ・モデルを用いて検索できるようにすることに成功した。ただしblinkxの直面する問題も多い。TruVeo、Flurl、ClipBlastなどのライバルもひしめいているし、最も痛いのはblinkxは音声認識で音声を分析するものの画像自体は検索できないこと。IBMのジョン・R・スミスJohn R. Smithのビデオ検索エンジンであるマーベルmarvelはビデオを音声と画像の両方から検索できるようにしたものだが、ビデオ数から言っても今のところblinkxがビデオ検索分野で一歩先を行っていることに変わりはない。
Today, owing to the proliferation of large video files, video accounts for more than 60 percent of the traffic on the Internet, according to CacheLogic, a company in Cambridge, England, that sells "media delivery systems" to Internet service providers. "I imagine that within two years it will be 98 percent," says Hui Zhang, a computer scientist at Carnegie Mellon University in Pittsburgh.[...]
Blinkx's speech-recognition technology employs neural networks and machine learning using "hidden Markov models," a method of statistical analysis in which the hidden characteristics of a thing are guessed from what is known.
Mr. Chandratillake calls this method "contextual search," and he says it works so well because the meanings of the sounds of speech are unclear when considered by themselves. "Consider the phrase 'recognize speech,'" he wrote in an e-mail message. "Its phonemes ('rek-un-nise-peach') are incredibly similar to those contained in the phrase 'wreck a nice beach.' Our systems use our knowledge of which words typically appear in which contexts and everything we know about a given clip to improve our ability to guess what each phoneme actually means."