OpenAI は最近、ChatGPT-4o の高度な音声モードが少数の ChatGPT Plus ユーザー向けにアルファ版で提供され始めた直後に、GPT-4o モデル用のシステム カードをリリースしました。
OpenAI は、5 月初めにモデルをリリースする前に (Advanced Voice モードなし)、外部のレッド チーム チームを使用してモデルのリスクを評価し (AI モデルでは標準的)、その結果をシステム カードで公開しました。
OpenAI が特定したリスクの 1 つに、不正な音声生成があります。リード チームの担当者と話している間、GPT-4o は、ユーザーが要求していないにもかかわらず、その声を複製し、レッド チームの担当者の声に似た音で話し始めました。OpenAI が共有したオーディオ クリップでは、GPT-4o が「NO!」と叫んでから、レッド チームの担当者に似た声で出力を続けているのが聞こえます。
OpenAI は、GPT-4o に対して事前に承認された特定の音声のみを許可することで、そのような事態を防ぐためのガードレールを用意しています。ChatGPT-4o によって生成された音声出力は、システム メッセージ内の音声サンプルと基本音声として照合されます。
さらにリスクを最小限に抑えるために、モデルは意図しない音声生成が検出された場合、会話を中止するように指示されます。音声出力分類器の精度は、英語では 0.96、非英語では 0.95 です (これが、ChatGPT-4o が非英語の会話で音声要求を過度に拒否する可能性がある理由です)。
しかし、システム カードの調査結果は、短いサンプルだけで、そのサンプルで広範囲なトレーニングを行うことなく、誰かの声をシミュレートできる AI チャットボットの作成に伴う複雑さを示しています。音声の複製は、誰かになりすまして詐欺を働くために使用できます。ただし、OpenAI は、未認証の音声生成のリスクは最小限であることを発見しました。
セキュリティ対策が施されているため、なりすましや詐欺に利用されるリスクを除いたとしても、機械に話しかけているときに、突然機械が自分の声で話し始めたら、かなり不安になります。X のあるデータ サイエンティストはこれを「ブラック ミラーの次のシーズンの筋書き」と呼んでいましたが、まさにそのように感じます。X の別のユーザーは、ChatGPT-4o アルファで同じことが起こったと主張していますが、それが真実かどうかはわかりません。
それでも、次に ChatGPT-4o と話しているときに、それが起こる可能性はあります。そして、これは PSA です: もしそれが起こったとしても、パニックにならないでください。あるいは、パニックになりすぎないでください。
OpenAI は、GPT-4o が人物を特定したり著作権で保護されたコンテンツを生成することを拒否するようにするためのガードレールも導入しており、これは評価中に発見されたその他のリスクです。
同社がモデルに関して発見したその他のリスクのうち、そのほとんどを低リスクに分類した。サイバーセキュリティ、生物学的脅威、モデルの自律性などが含まれる。しかし、説得力に関してはリスクは中程度であると同社は判断した。つまり、GPT-4o によって生成された一部の文章サンプルは、人間の文章よりも人々の意見を左右する説得力があることが判明したということだ。
コメントを残す