音声だけで顔画像を生成する技術が開発(音声も含めた個人情報管理時代へ?)

【音声だけで話者の「顔」を復元できるAIが開発される】
https://nazology.net/archives/39278

 

・音声情報から話者の顔を復元できる機能を持つAIが開発

・AIに何百万人もの話者の動画をインプットさせ、声と顔の共通性を学習させることで可能になった

・声の波長域に共通する身体的特徴を抜き出し再構築する仕組みなので、厳密な個人の顔ではなく平均的な顔が生成される

 

以上、記事引用参考。

 

 

 



 

 

顔と声の関連性

 

顔と声には確かに強いつながりがありますが、音楽家である私の視点からするとそれは絶対ではありません。

 

ざっくり言ってしまえば、声質を決めるのは声帯、鼻腔、口腔、と、それらの周辺の構造によって決まります。(声楽的視点)

 

なので、目の形や頭の形、特に顔上半分は声質にそこまで大きく関係しないと私は考えます。

 

とはいえ、上の記事内の生成された顔画像を見てみるとかなりの精度があります。まあ、記事内でも言っているように、あくまで平均的な顔が生成されるということで絶対的なものではないのでしょう。

 

 

音声データと個人を紐付けた個人情報AI管理時代到来の予感

 

この研究は、オレオレ詐欺など、犯人の声しかわかないような犯罪において活用できそうだと考えたのは私だけではないと思います。

 

ただ、いつものごとく私はさらに妄想や想像を膨らまして考えます。

 

この研究のように、何万人というデータを学習し管理することなど、AIには簡単なことです。

 

もっと言えば、声質によって平均的な顔画像を生成するなんて生やさしいものではなく、

 

一人一人、声と個人を紐付けた形でデータが管理される時代がくるのではないかと私は考えます。

 

そして、その準備(データ集め)は着々と進んでいます。

 

スマートスピーカー(AIスピーカー)、SNS

 

この2つのキーワードを並べればもうおわかりですよね。^^

 

今ではたくさんある監視カメラ。でも、それらはカメラに映らないと意味をなしませんでした。でも、音に関して言えば、360度四方八方とらえることができます。そして、その音を拾うデバイス(装置)はスマホという形で世界中に配置されているわけです。

 

そう考えると、これからの時代は、どこにいても、悪いことはできないのはもちろん、悪いことも言えない時代なのかもしれません。

 

管理監視社会と言うと、自由がないとか、良いイメージがそんなにありませんが、犯罪撲滅、悪いことを完全抹消という点では良いことなのかもしれません。

 

ただしかし、悪いことの定義は誰が決めるのか?という話になると、またいろいろと考えさせられる部分があります。

 

とにもかくにも、

 

私たちはスマホで情報を入手しているだけではなく、音声などを含む情報も差し出しているということも忘れてはいけないと思います。(知らないうちにあなたの声と顔がセットで管理されているかも?)

 

ではでは

 

今は、街中で自分の知らない音楽が流れていても、スマホ(アプリ)をかざせば、すぐに曲名やアーティストがわかる時代です。数年後には、スマホをかざせば、音声によって周りにどういう人がいるのかをポンポンと表示、認識できる時代になるのかもしれません。

 

 

 

 

あわせて読みたい

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です