5月に行われたOpenAIのAdvanced Voice Modeのデモは観客を魅了し、興奮の波を生み出した。しかし、その機能が今年後半まで利用できないことが明らかになると、当初の興奮はすぐに失望に変わった。
それから数か月が経ち、OpenAI は、ChatGPT の無料および有料加入者を含むすべてのユーザーに Advanced Voice Mode を展開しました。このテクノロジーはより幅広い用途で利用できるようになったため、そのパフォーマンスを評価し、最初のショーケースで設定された高い期待に応えるかどうかを確認する時期が来ました。
能力と限界の評価
以前のデモで紹介された印象的な機能を Advanced Voice Mode が再現することを期待していたユーザーからは、明らかな失望感が生まれました。マルチモーダル性、インターネット接続、ファイルアップロード機能などの主要な機能が明らかに欠けています。ChatGPT Search が展開されているにもかかわらず、音声モードにはリアルタイムのインターネット アクセスと更新がまだありません。
さらに、以前のテキストベースのやり取りから音声会話を継続できないため、実用性が制限されます。この欠点は、デモ中に強調された有望な機能とはまったく対照的であり、ユーザーには実現されていない機能への期待を抱かせます。
会話の流れの強化
制限はあるものの、高度な音声モードは前バージョンに比べて大幅に改善されています。会話がより自然に感じられ、ユーザーは AI が「考える」のを待たずに割り込むことができるため、より魅力的な体験が生まれます。
新しい音声モードのバックエンド プロセスについて推測する人もいますが、私の経験では、話してから応答を受け取るまでの遅延は最小限であることがわかりました。この即時性により、人間の会話に似た対話感覚が促進されます。
ヒンディー語、パンジャブ語、英語、フランス語などの言語を切り替える機能も高く評価できます。ただし、ヒンディー語とパンジャブ語の区別が難しい場合があり、音声モードでは言語学習用のライブ文字起こし機能があると便利です。
多様で魅力的な音声オプション
ChatGPT の音声の選択により、ユーザー エクスペリエンスが向上します。現在、次の音声が提供されています。
- アーバー(M) – 気楽で多才
- ヴェイル(女性) – 明るく好奇心旺盛
- そよ風(男性) – 活発で真剣
- ソル(女性) – 賢くてリラックスした
- メープル(女性) – 明るくて率直
- コーブ(男性) – 落ち着いていて率直
- エンバー(男性) – 自信があり楽観的
- ジュニパー(女性) – オープンで明るい
- スプルース(男性) – 穏やかで肯定的
これらの音声の生き生きとした性質により、同様の会話の流暢さを欠く Gemini Live や Copilot などの競合製品に比べて、対話がはるかに楽しくなります。
制限に伴う課題
音声モードはストーリーテリングの感情的なニュアンスを効果的に伝えることができるが、制限が厳しすぎるため不十分だ。以前のデモでは、ユーザーは歌う機能など、より幅広い機能を体験したが、著作権侵害の可能性を回避するためにこの機能は削除された。
残念ながら、これらの制約は全体的なエクスペリエンスを損ないます。ユーザーは、演技の練習のためのセリフの生成など、妥当な要求が拒否され、フラストレーションを感じることがあります。高度な音声モードでは、少しのプロンプトでクリエイティブな要求を満たすことができますが、一貫性のなさが使いやすさを妨げていると感じることがよくあります。
記憶能力とコンテキスト認識
高度な音声モードの注目すべき機能は、情報を呼び出す機能です。ただし、テキストや画像が含まれる既存のチャット内での音声会話のフォローアップは許可されないため、大きな制限があります。
比較すると、Gemini Live は以前のチャットのコンテキストに関係なく継続的な対話をサポートしており、OpenAI が効果的に競争するために改善する必要がある領域を浮き彫りにしています。
迅速な対応時間
素早い応答は会話のダイナミクスを高めますが、対話の流れを乱すこともあります。AI は一時停止を応答の誘いと誤解する傾向があり、ユーザーの思考の流れを乱す中断につながる可能性があります。
「保留」ボタンのように、ユーザーがより長い一時停止を知らせることができる機能があれば、こうしたやり取りの自然さが大幅に向上します。
時々発生する小さな不具合
高度な音声モードでのほとんどの操作はスムーズですが、短い雑音や予期しない音声の変化など、軽微な不具合が時々発生することがあります。これらの問題は一般的に軽微ですが、ユーザー エクスペリエンスを妨げることがあります。
コストとアクセシビリティの考慮
高度な音声モードは、無料の ChatGPT プランで月に約 15 分間利用できますが、フルアクセスにはサブスクリプションが必要です。これは、音声機能をユーザーに無料で提供する Copilot や Gemini Live などの競合他社とは対照的です。
サブスクリプション料金に加え、他のモデルに搭載されているインターネットアクセスなどの機能がないことから、特に音声機能のみに関心のあるユーザーにとっては、サービスの価値に疑問が生じます。
最終評価
アドバンスド ボイス モードは、間違いなく目覚ましい技術的進歩を誇っていますが、現時点ではデモで約束されたすべての機能を提供するには至っていません。実用的な用途は限られており、大幅な機能強化がなければ、必要なツールというよりは目新しいものとしてしか機能しません。
Canvas、検索、推論モデルなどの機能のためにすでに ChatGPT に加入している人にとって、高度な音声モードは魅力的なアドオンとして機能します。ただし、それだけではサブスクリプションを正当化できない可能性があります。
コメントを残す