Google が、ChatGPT の高度な音声モードに対する同社の回答である Gemini Live をリリース

Google の Made by Google イベントが正式に終了し、同社が主力スマートフォン Pixel シリーズの最新ラインナップを発表しました。この数週間、この製品に関する噂が飛び交っていましたが、ついに多くの噂が現実のものとなりました。さらに、予想通り、このイベントでは AI についてもかなり多く言及されました。

AI 関連の発表の中でも、重要な発表は Gemini Live のリリースです。Google は今年初めの I/O カンファレンスで Gemini Live を発表しました。ついに Android の Gemini Advanced サブスクライバーに英語版が提供され、他の言語や iOS (Google アプリ経由) にも近々提供される予定です。

Gemini Live により、Gemini はより自然な双方向の会話を行えるようになりました。また、自然な会話と同じように、応答の途中で中断することもできます。Android の Gemini アプリにアクセスして、チャットボットと会話できます。

これは、ChatGPT Plus ユーザーに限定アルファ版がリリースされている ChatGPT アプリの高度な音声モードエクスペリエンスに似ています。今回、Google はより広範な展開を開始することで、リリースタイムラインで OpenAI をリードしました。

Gemini Live はハンズフリーでも利用できるため、バックグラウンドでも、または携帯電話がロックされているときでも、Gemini と会話できます。会話を途中で終了し、後で再開することもできます。

Google は、AI との会話がさらに本物らしく感じられるよう、10 種類の新しい音声で Gemini Live を展開しています。自分の心に響く音声と口調を選択できます。

注目すべきは、Gemini Live はアプリで利用できる 10 種類の音声以外の音声をシミュレートできないことです。これはおそらく著作権の問題を避けるためでしょう。ChatGPT-4o も同じポリシーに従います。Gemini Live が ChatGPT-4o の音声モードと同じでない点が 1 つあります。Gemini Live は口調から感情を理解することができませんが、OpenAI はチャットボットでそれができるとデモしました。

さらに、Google が I/O カンファレンスでデモした Gemini Live の機能のうち、発売時には利用できないものが 1 つあります。そうです、マルチモーダル入力のことです。それが何なのかわからなくても心配はいりません。要約すると、マルチモーダル入力により、Gemini Live は携帯電話のカメラ (写真と動画の両方) からの入力をリアルタイムで受け取り、質問に答えたり、指している物体の識別を手伝ったりすることができます。たとえば、DJ 機器に向け、部品の名前を識別してもらうように頼んだり、画面に向け、コードの特定の部分が何をするのかを尋ねたりすることができます。

しかし、マルチモーダル機能は今のところ遅れており、Google は今年後半に登場するとだけ述べており、詳細は明らかにしていない。興味深いことに、ChatGPT-4o の高度な音声モードにも同様の機能があるはずだが、こちらも限定的なアルファ版の展開ではリリースされていない。

注目すべきは、Gemini Live は Google が Project Astra を実現するための一歩であるという点です。

チャットボットと話すことは、特に何かをブレインストーミングしたいときなど、何かを入力するよりもはるかに便利な場合があります。そして、Gemini Live を使用すると、会話ははるかにシームレスになります。または、Made by Google イベントのライブデモが何らかの指標であるならば、十分にシームレスです。(チャットボットはライブデモ中に幻覚を起こしたようで、テストのために「Gemini を途中で中断する」機能を実行すると、多少の摩擦が生じます)。実際の環境でどのように機能するかを見てみましょう。今日から数週間以内に、Pixel、Samsung、またはその他の Android デバイスで Gemini Live をテストする準備をしてください。