Googleとメルカリが共同開発。視覚機能を持った大規模言語モデル。人間が得るもの失うもの。
【Googleが「大規模言語モデルに視覚を与える仕組み」について解説、メルカリと協力して作成デモも公開】
https://gigazine.net/news/20230822-llm-with-vision/
・Googleが、大規模言語モデル(LLM)に「視覚」を持たせた「大規模視覚モデル(LVM)」のデモを公開すると同時に、LVMの仕組みについての解説記事を投稿
・このデモは名前にMERCARIと付いている通り、メルカリの商品データを利用して作成されている
・この検索は「タイトル」「説明」「タグ」などを使用せず、画像をAIが分析することのみで成り立っている
・「黒と白のビーズのついた手作りのアクセサリー」「踊っている人の絵が付いたカップ」「Googleロゴ色のコップ」というような検索性の低そうな文章でも適切な商品を検索できる
・これは、「大規模言語モデルに視覚を与えるようなもの」
以上、記事引用参考
進化していく大規模言語モデルによって人間が失うもの
Chat-GPTを代表とする大規模言語モデル(以下、LLM)は、まるで、人間の言葉を理解したように、会話をするように、情報(言葉)のやりとりができることで注目が集まっています。
そして、今回のGoogleとメルカリが共同開発しているLLMは視覚機能を手に入れたようです。言葉だけでなく、視覚も理解して、商品を検索してくれるものです。
上記のように、「踊っている人の絵が付いたカップ」という検索をしても、今までだったら、「踊る」「カップ」というような言葉の情報がないと、検索に引っかかることはありませんでした。
しかし、今回の開発したLMVならば、そんな言葉もなく、写真だけあれば、検索にヒットすることになります、つまり、LLMが写真の内容を理解して検索していくれているようなものです。すごいことです。
Chat-GPTなどのLLMが登場してきた時、私は、いろいろなことが便利になり、効率的になっていくだろうと想像しました。それと同時に、「こんなにも気軽に情報のやりとりができるようになったら、私たち人間は今までのように考える必要がなくなるな」とも思ったのでした。つまり、人間は思考力が弱まっていく?
自動車が開発されて、人間の脚力が弱まり
計算機が開発されて、人間の暗算力が弱まる
それらと同様です。
何かが便利になれば、私たちの機能も何か失われていくのが常です。(便利になって使わなくなるので当然です)
今回、視覚も手に入れたLMVの記事を読んで、さらに思ったことがあります。
視覚を手に入れることで、
「私の好みの結婚相手(恋人)探して(SNSとかで)」とか、
「誰々好みの景色を堪能できる観光スポット探して」とか、
今まで以上に、具体的かつ効率的に、目的(検索目標)に到達できるようになる可能性があります。
そうなると、
寄り道とか、無駄なことは、一切、排除されていきますよね、きっと。
だって、LLMの言う通りにしておけば、ある程度の正解は担保されているわけですから。(LLMがすごい完成度になっていることが前提の話です)
そうすると、たとえば、
「あの人との恋愛でとても傷ついたけど、いい経験になった」とか
「道に迷ったけど、思いがけない、素敵な景色に巡り合えた」とか、
そういう、偶然性のものなくなっていくと思われます。
偶然性のものがなくなっていくと、必然的に、感動する機会も減っていくような気がします。
つまり、
LLMが開発されて、完成していくと、
人間は「思考力」だけでなく、「偶然性」、そして、間接的ではありますが、「感動する機会」も失っていくのではないかと、私は大袈裟に想像してしまいます。(寄り道や無駄がないことは効率的だが、幅の狭い生き方になっていきそう)
もちろん、
LLMによって、多くのことが効率的で、便利になっていくことはいいことです。
ただ、
何事にも、良い悪い、正負、陰陽、両方があります。
大きな力を持つものであればあるほど、その辺を意識することは大事だと思います。
今回は、正負の、負の部分??
LLMの便利で、人間は何を失っていくのかという視点で考えてみました。書いてみました。
ではでは
「便利な世の中で、あえて、〇〇をやりたい」というような需要だったり、ビジネスってありますよね。その視点で考えると、遠い未来では、あえて、思考させる、あえて、偶然性、ランダム性を楽しむサービス、ビジネスが登場してくるのかもしれません。