Siriを超える音声認識の世界
70年代に入ると米国防総省傘下の防衛先端技術研究計画局(DARPA)が大規模な音声認識システムの開発に取り組み、約1000語を理解できるようになった。21世紀の現アメリカ大統領と似たような語彙力だが、実用化には程遠かった。
音声認識技術で知られるドラゴンシステムズは、90年に最初の消費者向け口述筆記ソフトを発売したが、値段は9000ドル。使うほどに不満がたまる代物だった。98年に私がIBMの研究チームに確認したときも、音声認識技術は日常生活で使うにはまだ不十分だった。
創造のプロセスが変わる
技術が大きく飛躍したのは07年以降だ。グーグルやアマゾンが運営する巨大なデータセンターが、携帯端末やクラウドサービスで交わされる膨大な量の会話を使って言語を「学習」できるようになった。
私たちが話し掛けるたびに、アレクサやワトソンは少しずつ人間の話し方を覚える。いずれ標準的な人間よりシステムのほうが、人間の話を理解できる日も来るだろう。
そこまで賢くなれば、世の中は劇的に変わる。買い物の習慣どころか、思考回路さえ変わるかもしれない。
私たちは数十年をかけて、キーボードとマウスを使って考えるようになった。ドラゴンシステムズのジョエル・グールドは98年に、「口(マウス)を使って考える」時代になれば「創造のプロセスが変わる」と予言している。
ある意味で、脳が本来の機能に立ち返るとも言える。人間は数千年の間、ペンもタイプライターもワープロも使わずに物事を考え、創造した。叙事詩『イリアス』を紡いだホメロスにキーボードは必要なかった。
音声認識が普及すれば、読み書きができなくても人並みの生活を送れるようになる。グーグルの音声認識サービスが途上国の言語に次々と対応しているのは、これまで手の届かなかった市場を見据えているからだ。
読み書きができないか、インターネットが使えない成人は全世界で7億8100万人。彼らは安価な携帯電話に話し掛けるだけで、公共サービスに登録し、銀行口座を開設して、猫の動画を見られるようになる。
さて、私はアレクサに「2つのターンテーブルと1つのマイクロホンって何のこと?」と質問した。答えは――「さあ、分かりません」。
ちなみに、正解はベックの90年代のヒット曲の歌詞。アイスクリームと間違えなかったことは褒めておこう。
【お知らせ】ニューズウィーク日本版メルマガリニューアル!
ご登録(無料)はこちらから=>>
[2017年10月 3日号掲載]