驚き!!たった3秒の声のサンプルがあれば、その学習した声で話せるAIツール
【必要なのはたった「3秒間の声」。マイクロソフトが開発しているAIの恐るべき人超声模倣能力】
https://www.lifehacker.jp/article/2301-gizmodo-microsoft-ai-voice-mimic-deepfake-natural-copy-audio/
・マイクロソフトのAIツール「VALL-E」は、Metaのエンコード音声コンプレッション技術「ニューラルコーデック言語モデル」をベースに開発
・Metaの技術は、AIを使うことで、音質を損なわずに、CD以上の音質データをMP3ファイルより10倍小さいデータレートに圧縮するというもの
・Metaは通話時の音声の質アップや、音楽ストリーミングサービスの通信幅節約を狙って開発していたが、マイクロソフトはこれを精度の高い音声変換AIツールに活用
・マイクロソフトのVALL-Eは、7千人を超える英語スピーカーによる6万時間もの音声データを学習
・マイクロソフトのVALL-Eは、たった3秒の声のデータがあれば、学習した声を作れる。学習した声で話せる。
以上、記事引用参考
たった3秒の声で声真似される時代を想像
Metaの音質を損なわずに、CD以上の音質データをMP3ファイルより10倍小さいデータレートに圧縮(10/1に圧縮ということかな?)というのにも驚いたのですが、
その技術を活用して作ったマイクロソフトのVALL-Eは、たった3秒の声を学習すれば、学習した声で話せるようになるようです。(AIツールのために事前に6万時間学習はしてますが)
【VALL-E Sample】
https://valle-demo.github.io/
こちらで実際の音声を聴くことができます。
・「Speaker Prompt」は、声マネされた人のサンプル音源(およそ3秒?)
・「Groud Truth」は、声マネされる人が左のテキストを喋った比較用音声
・「Baseline」は一般的なAIで生成された音声
・「VALL-E」はVALL-Eが生成した音
実際、聴いてみると、人の声とVALL-Eが作成した声とで、ほとんど違いを感じられません。(英語のアクセントにやや難があるようですが)
それにしても3秒で声を作っちゃうって本当にすごいです。
これまでも、AI美空ひばりとか、AI歌手、AI音声というのは、開発されてきましたが、それを実現するためには、莫大データを学習する必要がありました。
だって、考えてみてください。
日本語で考えるならば、五十音順(46文字)の言葉があるわけですが、学習する3秒のデータの中に、含まれてない言葉も絶対あるはずです。その含まれてない言葉も生成してしまうのですから、すごいことです。(無数にある単語やフレーズを生成すること自体すごいことなんだけど)
上の記事の最後にも書いてますが、
悪用される可能性もあるので、この技術は公開されていません。
果たして、このまま公開されずに開発されていくのでしょうか。
そもそも、マイクロソフトは何を目的に、この技術を開発しているのでしょうか。
声を扱う音楽家として、その辺がとても気になるのでした。
個人的に、
この技術が発展していけば、歴史的な歌手の歌声が永遠に歌い続けることも可能なんじゃないかと想像してしまいます。
ではでは
デジタル上において、顔や姿、声も作り出せるのであれば、メタバースの世界なら、この世にいるいない関係なく、人間そのものを再現できそうですよね。