ChatGPT-4o は信じられないほど優れており、「ビデオチャット」であなたと一緒に笑ったり歌ったりします。

ChatGPT-4o は信じられないほど優れており、「ビデオチャット」であなたと一緒に笑ったり歌ったりします。

OpenAI の ChatGPT の最新 Spring アップデートを心待ちにしていて、同社が GPT-5 をリリースすることを期待していたなら、その点ではがっかりするでしょう。しかし、OpenAI が代わりにリリースしたものは、それを補って余りあるものです。

同社は最近、最新の主力モデルである GPT-4o を発表しました。これは人類のイノベーションの傑作です。GPT-4o の「o」は「omni」の略で、ChatGPT の最新の遍在機能にふさわしいものです。GPT-4 モデルと比べて知性と推論の部分はあまり改善されていませんが、新しいモデルは速度とマルチモーダル性が大幅に改善されています。

それは何を意味するのでしょうか? GPT-4o は、テキスト、音声、視覚の面で機能が向上しました。画像をよりよく理解し、議論することができます。しかし、このアップデートで最もエキサイティングなのは、音声とビデオを介してリアルタイムで会話する機能であり、人間と機械の相互作用の未来へと私たちを導きます。私たちのほとんどは、はるか遠くにある AI とのこの SF 風の相互作用を想像しただけでした。しかし、それは今ここにあり、ワクワクします。

OpenAI の CTO である Mira Murati 氏と 2 人の研究リーダーが、GPT-40 の新機能を紹介しました。

音声モデルは信じられないほど個性的で、音色も豊かで、AI と対話していることを (しばらくの間) 忘れさせてくれます。恐ろしいほど刺激的です。応答ははるかに自然で、人間のように笑ったり、顔を赤らめたりもします。

デモでは、ChatGPT が明示的に要求されたときに表現できる感情の範囲も強調されました。ストーリーを語る際、ChatGPT は声にさらに感情とドラマを吹き込み、ロボットのような音に切り替え、ミュージカルのように歌い、すべてをシームレスに実行しました。

多くのユーザーは、その声が映画「her」のスカーレット・ヨハンソンの AI を思い出させると言っていますが、注目すべきは、それが ChatGPT の過去の声と同じだという点です。違いは、音色の変化と、適切な笑い声だけです。

これを画面上のコンテンツを見て反応する機能と組み合わせると、実に驚異的です。新しい視覚機能により、ChatGPT は線形方程式などを理解できるだけでなく、カメラを使用して映し出された人の顔の感情だけでなく、周囲の状況をかなり正確に解釈しました。今では、じゃんけんをして ChatGPT に審判を頼んだり、面接の準備をさらに進めて服装を批評するように頼んだりすることもできます。ChatGPT は、あなたが間違った選択をしても、それを無視しません。

全体的に、その効果は顕著で、ビデオ通話で実際の人とやり取りしているような錯覚に陥ります (相手が常にカメラをオフにしていればの話ですが)。

https://www.youtube.com/watch?v=DQacCB9tDaw

音声モデルも、現在利用可能なものより全体的に優れています。対話はより自然な会話のように流れ、途中で中断することができ、複数の声や背景の雑音、声のトーンを理解して区別することができます。

技術的なレベルでは、GPT-4o は、これまで 3 つの異なるモデル (文字起こし、インテリジェンス、テキスト読み上げ) を必要としていたすべてのことをネイティブに実行できるためです。これらの改善により、以前のモデルの遅延ではなく、より没入感のある共同作業のエクスペリエンスがユーザーにもたらされます。

GPT-4o へのアクセスは、Web アプリで無料ユーザーと Plus ユーザーにすでに展開され始めていますが、GPT-4o を使用した新しい音声モードは、今後数週間で ChatGPT Plus ユーザーのみにアルファ版としてリリースされる予定です。新しい macOS ChatGPT アプリもリリースされ、ChatGPT Plus ユーザーからアクセスが段階的に展開されます。

デモは非常に印象的でしたが、モデルが最終的にリリースされたときに実際のアプリケーションが同じようにスムーズであるかどうかを確認する必要があります。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です