あるAIの歌 10年前に他界した妻の歌声と写真を再現する理由──第一回AIアートグランプリ受賞
1時間分の歌声と声のデータをAIに学習させた
異世界とりちゃんと妻音源とりちゃんによる投稿をYouTubeにしたところ、海外で合成音声活動をしている方からコメントをもらいます。「Diff-SVCという技術が松尾さんにはちょうどいいかもしれないから試してみてはどうでしょう」。
2017年にグーグル傘下のディープマインドが開発したWaveNetは人間の声と区別がつかない音声合成を可能にする技術でしたが、個人で使えるようになるにはだいぶ時間がかかる印象でした。
Diff-SVCはStable Diffusionと同じく機械学習のための新しい手法であるDiffusionモデルを使っています。Diff-SVCのすごいところは、合成するための元データが、その人の独立した音声であれば、素片であろうとが歌声であろうが、話し声であろうがなんでもよくて、1時間のデータがあれば、本人そっくりの合成が可能だというところにあります。さらに、ラベル付けや調整もいっさい不要という手軽さ。
妻のもともとの歌声、妻音源とりちゃんの歌声、ビデオに残った妻の話し声など合計1時間分のデータをクラウドサーバで17時間学習させてAIモデルを作りました。あとは、誰かの歌唱データを変換するだけで妻の声になります。
つまり、自分が歌えば、それが妻の歌声になるのです。そこから生まれた歌声は、AI技術で変換されたものですが、妻の歌声と認識できるほどのものでした。
これまでの妻音源とりちゃんとは違うレベルの歌声なので、新たに「妻音源とりちゃん[AI]」と名付けました。このために新たに自分のボーカルを収録し、それを妻の歌声に変換した最初の曲が、イーグルス、リンダ・ロンシュタットの名曲「Desperado」(ならず者)なのです。
ミュージックビデオの背景画像には、Memeplexで生成した「異世界とりちゃん」を使いました。もう写真がないと心配する必要はありません。今回は、歌詞に合わせて「depressed」という物憂げな表情を異世界とりちゃんにしてもらいました。
呪文を送ったら異世界から届けられる妻の新しい写真は、海外から届く絵葉書のようだし、自分が歌ったボーカルトラックで変換された妻の歌声は、部屋のどこかで見つけた古いカセットテープのような感じもします。
イザナギ・イザナミの神話をはじめ、小説、映画では、亡くなった妻を取り戻そうとすると世界が滅びそうになったりと悲劇ばかりが起きてその願いは叶えられないのですが、自分にとってはゆるやかな日常です。
AIの可能性を拓く「前代未聞のアプローチ」
AIアートグランプリ受賞後、審査員の樋口真嗣監督に「この作品はどうやって終わりになるのかわからない、前代未聞のアプローチ」と評していただきました。
まさにおっしゃる通りで、妻と一体化したこの活動は、自分の生命の続く限りはやっていくつもりです。自分の思考を学習したAIによって自動生成すら可能になるでしょうし、そうなれば、自分が死んでも二人の活動は残ることになります。
妻はこうも言ってました。「わたしが死んでもこうちゃんのそばで漂ってるからね」と。これからも、妻の存在をそこらじゅうに感じながら生きていきたいと思います。今も新しい曲に取り組んでいます。ポール・マッカートニーがメリー・ホプキンのために書いた曲「Goodbye」。妻も好きだった曲です。
妻音源とりちゃん[AI]のボーカルは途中までできた
[筆者]
松尾公也
ソフトバンクの出版事業部で「MacUser」や「Beginners' Mac」、ソフトバンク初の有料メールマガジン「Macintosh WIRE(MacWIRE)」など数々のMac系媒体の創刊編集長を歴任し、その後は「ITmedia NEWS」の編集部デスクを務め、現在はテックメディア「テクノエッジ」のシニアエディター兼コミュニティストラテジスト。ガジェット楽器や音楽制作を趣味とし、東京ドームでのライブ演奏、フジテレビ、NHKでの番組内ライブ演奏の経験を持つ。2014年にアメリカ在住のエンジニアとスタートしたポッドキャスト「backspace.fm」は、現在多くの有料購読者を抱える人気番組である。ボカロPとしての活動名は「松尾P」。2023年には「AIアートグランプリ」にて、AI生成した亡き妻の写真や音声を使った「Desperado by 妻音源とりちゃん[AI]」がグランプリを受賞した。