「二人」のオバマが同時にスピーチ!? 音声から話者の口の動きを学習するアルゴリズムが誕生
Synthesizing Obama-Youtube
<米ワシントン大学の研究チームは、音声データをもとにその話者とそっくりな口の形を自動生成するアルゴリズムを開発。さらに、この口の形を、別の動画に合成することにも成功した>
明らかに異なる場所や時間に存在しながら同時に同じ言葉を話す"二人"のオバマ前大統領の様子が、動画共有プラットフォーム『ユーチューブ』で公開された。
音声データをもとに生成した本物そっくりの口の形を動画に合成
もちろん、この動画は本物ではない。右側の動画は、オバマ前大統領のスピーチの音声データをもとに人工的に生成した本物そっくりの口の形を、在職中にホワイトハウスで撮影された動画に合成したものだ。そして、この本物そっくりの口の形には、人工知能における機械学習の手法が用いられている。
米ワシントン大学の研究チームは、2017年7月、音声データをもとにその話者とそっくりな口の形を自動生成するアルゴリズムを開発。さらに、この研究チームが2015年に開発した合成技術と組み合わせることで、このアルゴリズムによって生成された口の形を、別の動画に合成することにも成功した。
一般に、音声から動画に変換するには、特定の音と口の形がどのように関連しているのかを把握することが必要だ。従来は、複数の人々に同じセンテンスを何度も繰り返して話してもらい、その様子を撮影するという手法がとられていたが、時間や手間がかかるのが課題であった。
既存のインタビュー映像などを活用できる
一方、このアルゴリズムでは、インターネットで公開されているインタビュー映像や動画コンテンツなど、既存のデータを活用できるのが利点。人工ニューラルネットワーク(人工神経回路網)に動画データを読み込ませて"学習"させ、それぞれの音声から基本的な口の形に変換する仕組みだ。対象となる動画にこれらの口の形を重ねて合成し、タイミングを調整すれば、本物そっくりのスピーチ動画が完成する。
このアルゴリズムの実用的なニーズの一例として、ビデオ会議や動画チャットなど、音声と動画によるコミュニケーション手段の改善が挙げられる。たとえば、『スカイプ』などのチャットツールから収集した動画データを使って各ユーザーの話しぶりを"学習"させれば、アルゴリズムによって、そのユーザーの音声から合成動画を生成でき、フェイス・トゥ・フェイスに近い状態でコミュニケーションできるわけだ。