OpenAI が推論モデルの最初のシリーズを発表: o1 のリリース

OpenAI の待望の Project Strawberry リリースをめぐる話題が渦巻く中、同社は最新モデルである OpenAI o1 を発表しました。正式な名称は Strawberry ではありませんが、このリリースには高度な推論機能が搭載されており、さまざまな憶測が飛び交っています。

OpenAI o1 に加えて、OpenAI o1 mini と呼ばれるより手頃な価格のバリエーションがあります。この動きは、GPT-4o mini の導入に続いて、開発者をよりよくサポートするためにより小さなモデルをリリースするという OpenAI の傾向を継続するものです。

o1 という名前は新たなスタートを意味し、以前のモデルでやや複雑になっていた命名システムをリセットします。

o1 は既存のモデルに比べて運用コストが高く、応答時間も遅いことに注意することが重要です。ただし、現在のバージョンは開発の初期段階を反映した「プレビュー」にすぎません。

OpenAI o1 は GPT モデルとは明確に異なり、新しい最適化アルゴリズムとデータセットを採用した独自のトレーニング方法を誇ります。

この革新的なモデルは、強化された推論を通じて科学、コーディング、数学などの分野の複雑な問題に対処するのに優れています。OpenAI o1 は、報酬と罰のメカニズムを組み込んだ強化学習を問題解決に利用しています。主に次の単語を予測していた以前のモデルとは異なり、o1 は「思考の連鎖」プロンプトを統合して、クエリに効果的に応答します。この進歩は、人間のような知能を実現するための大きな一歩であり、精度が向上し、幻覚の傾向が減少します (ただし、時折不正確になる傾向があります)。

プロンプトが提示されると、o1 は思考プロセスを明確に表現し、以前のモデルと比較して推論能力が著しく向上していることを示します。たとえば、o1 は国際数学オリンピック (IMO) で 83% という素晴らしいスコアを達成しましたが、GPT-4o はわずか 13% でした。

推論し、思考プロセスを共有する能力があるにもかかわらず、思考時間には制限があります。The Verge の報告によると、ユーザーは「ああ、時間がなくなってきました。すぐに答えを出してください」といったプロンプトを受け取る場合があります。

o1 は広範な一般知識を必要とする複雑な問題に取り組むのに優れていますが、o1 mini は、一般知識の幅広い理解を必要としないコーディング、数学、科学的なタスクに適しています。さらに、o1 mini は o1 よりも 80% 近く安く、大幅に手頃な価格になっています。

現在、o1 にはインターネットの閲覧やファイル/画像の入力としての受け入れなど、GPT-4o に見られる機能が欠けていますが、OpenAI はこれらの機能を組み込むために積極的に取り組んでいます。o1 モデルは、医療研究者、物理学者、経済学者、ソフトウェア開発者など、複雑な問題の解決策を必要とするユーザー向けに特別に設計されています。

誰がモデルにアクセスできますか?本日より、ChatGPT Plus および Team ユーザーは o1-preview および o1-mini にアクセスできます。Edu および Enterprise ユーザーは来週からアクセスできるようになります。ChatGPT Free プランのユーザーはすぐにはアクセスできませんが、OpenAI は将来的に無料ユーザーに o1-mini アクセスを提供することを目指しています。

両モデルの使用制限は、o1 では週 30 件、o1-mini では週 50 件に設定されており、将来的にはこれらの制限を増やす予定です。

価格面では、o1 の API は比較的高価です。o1-preview は入力トークン 100 万個あたり 15 ドル、出力トークン 100 万個あたり 60 ドルかかります。対照的に、GPT-4o は入力トークン 100 万個あたり 5 ドル、出力トークン 100 万個あたり 15 ドルかかります。

モデルにアクセスするにはどうすればいいですか?ユーザーは ChatGPT メニューから o1 と o1-mini を切り替えることができます。OpenAI は将来、ユーザーのプロンプトに基づいてモデル選択を自動化することにも取り組んでいます。

o1 と o1-mini のリリースは、OpenAI のイノベーションへの取り組みを強調し、競合他社との差別化を図っています。このモデルが複雑な推論タスクを正常に実行できれば、汎用人工知能 (AGI) に向けた大きな進歩となる可能性があります。ただし、初期のフィードバックによると、o1 は基本的な推論タスクに苦戦する可能性があるようです。