Siriを超える音声認識の世界
音声認識技術はこの10年で急速な進化を遂げた Wowanna/SHUTTERSTOCK
<着実に進化する音声認識技術が私たちの生活習慣や思考回路を一変させる>
今の子供が大人になる頃には、キーボードはそろばんのような時代遅れの道具になっているだろう。そのうちに、博物館でしか見たことがないと言われるかもしれない。
私は98年にある記事で、「音声認識技術が世界を変えようとしている」と書いた。ただし、当時の最先端のソフトに「2つのターンテーブルと1つのマイクロホン」と話し掛けたら、「2つのトーン(破れた)レーベルと1つのアイスクリームコーン」と認識したのだが。
もちろん、近年の音声認識技術はもっと優秀だ。マイクロソフト、グーグル、アマゾン・ドットコム、IBM、中国の百度(バイドゥ)などのIT大手やスタートアップが、微妙な言葉遣いまで理解して論理的に返答できる人工知能(AI)システムの開発を進めている。
マイクロソフトは昨年10月、自社の音声認識システムが「人間と同じレベル」になったと発表した。単語誤り率が人間(プロの口述筆記者)と同等の5.9%まで低下したのだ。
グーグルの音声認識サービスは、世界中の言語を次々に習得している。今年8月にもアゼルバイジャン語やジャワ語など30言語が追加され、現在119言語をサポートしている。
IBMのAIプラットフォーム「ワトソン」が、ボブ・ディランと会話をするCMを見たことがある人もいるだろう。ディランの言葉を機械が理解できるなんて画期的ではないか。
急成長中の音声認識ビジネスに、多くの企業が照準を合わせている。アマゾンのAIアシスタント「アレクサ」を搭載した音声認識スピーカー「アマゾン・エコー」が普及すれば、話し掛けるだけで買い物できるのが当たり前になる。
グーグルは8月に、小売り最大手ウォルマートとのネット通販事業の提携を発表。こちらも、音声認識スピーカー「グーグル・ホーム」に話し掛けるだけで注文できるようになる。
ネット通販では、チャットボット(自動会話プログラム)のアプリが注目を集めている。現在は大半が文字入力のテキストでやりとりするが、音声入力も着実に増えている。
調査会社コムスコアによると、20年までにインターネット検索の半分が音声入力に変わるという。既に私たちの買い物の大半は、検索から始まっている。
11年にアップルの音声アシスタント「Siri(シリ)」が登場して以来、携帯電話やアプリが音声を理解するのは当然になった。音声認識技術の研究者による数十年の試行錯誤を思えば、隔世の感がある。
IBMがシアトル万国博覧会で同社初の音声認識システム「シューボックス」を披露したのは1962年。音声の指示で計算を行い、答えを印刷する。認識できる単語は16個で、0~9の数字と「プラス」「マイナス」など計算に関する指示のみだった。