Claude 3.5 Sonnet が Anthropic からリリースされました: 新しい印象的な AI モデル

Outbyte Driver Updater
Claude 3.5 Sonnet が Anthropic からリリースされました: 新しい印象的な AI モデル

最近、Anthropic は主力モデルである Claude 3.5 Sonnet の機能強化を発表しましたが、これは Computer Use や Analysis ツールなどの他の注目すべきアップデートのせいで、あまり注目されなかったかもしれません。しかし、更新された Claude 3.5 Sonnet では、注目すべき改善がいくつか導入されています。

Computer Use は大きな進歩ですが、ユーザーの間での採用はまだ限られています。これは主に、開発の初期段階にあり、完全な信頼性が欠けているためです。さらに、そのアクセシビリティは API の使用に限定されているため、幅広いユーザーにとって扱いにくいものとなっています。

対照的に、新しい Claude 3.5 Sonnet はすぐに使用でき、大幅に強化されたパフォーマンスを提供します。では、この更新された 3.5 Sonnet は具体的に何が違うのでしょうか?

Anthropic のレポートでは、最新の Claude 3.5 Sonnet が、業界ベンチマークにおいて以前のモデルや多くの競合製品よりも顕著な改善を示したことが強調されています。エージェント コーディングとツールの使用における進歩は特に印象的です。たとえば、SWE ベンチ検証でのエージェント コーディングの精度は 33.4% から 49% に向上し、TAU ベンチ テストでのエージェント ツールの使用は、小売業では 51.0% から 69.2% に、航空業界では 22.8% から 46.0% に上昇しました。注目すべきは、これらの機能強化が前モデルと同じコストと速度で実現されていることです。

クロード 3.5 ソネット アップデート
出典: Anthropic

評価してみると、Claude 3.5 Sonnet (新) (一部のユーザーは名前の混乱のため 3.6 Sonnet と呼んでいます) は、特にコーディング、推論、および創造的なライティング機能において顕著な進歩を示しています。

これまでコーディングのトップ パフォーマーの 1 つとして認められてきた Claude は、今回のアップデートで大きな進歩を遂げ、非常に複雑な問題を 1 つの回答で解決できるようになりました。また、以前のエラーを修正する機能も向上しました。

ユーザーは、新しい Claude 3.5 Sonnet では応答速度が大幅に向上し、パフォーマンスが著しく低下していた以前のバージョンで経験した不満が解消されていることに気付くでしょう。

Claude は推論能力も改良しており、OpenAI のモデル o1 と比較されています。複雑な推論タスクでは o1 に匹敵しないかもしれませんが、より単純な推論課題では十分な能力を発揮します。

クロードの推論を興味深くテストするには、次のように質問してみてくださいHow many words are in your response to this prompt?。特に、トランスフォーマー アーキテクチャ モデルは、後続の単語を予測する必要があるため、このようなプロンプトで苦労することがよくあります。ただし、このプロンプトは、モデルが事前に戦略を立てることを促します。

OpenAI の o1 モデルは、このプロンプトを効果的に処理することに優れています。新しい Claude 3.5 Sonnet は o1 の熟練度には達していませんが、Claude の旧バージョンを大幅に上回っています。以前は、Claude は知識に基づいた推測を行っていたかもしれませんが、今では単語をすべて平等に考慮するわけではありませんが、正確に単語を数えようとしています。最終的に、Claude の答えが正しいと見なされるかどうかは、個人の解釈次第です。

Let me count the words in my response to your question:
This (1) is (2) my (3) first (4) response (5) to (6) your (7) prompt (8).
There are 8 words in my response up to this point. Note that I did not count the words after the period since those were explaining my counting process rather than being part of my direct response to your question.

クロードの単語数カウントの例

提供された例によると、一部のユーザーは、Claude が回答を検討した単語を正確に数えたと主張するかもしれません。後続の単語は、推論プロセスを詳しく説明するだけなので、回答の一部ではないことが明確にされています。「質問に対する回答の単語数を数えてみましょう」という導入フレーズが省略されていることを見逃す人もいるかもしれませんが、別の見方をする人もいます。最終的には、これは個人の判断の問題になります。

それでも、この例は、新しい Claude 3.5 Sonnet の推論能力が確かに強化されたことを示しています。思考プロセスを明確に表現したり、さらに考える時間が必要なときに「熟考中、待機中」と言ったりできるようになりました。これは o1 と似ています。時には、「もう一度考えさせてください」と言って、自己修正することもあります。

この先を見据える能力は、クロード氏の創造的な執筆スキルも強化しました。先を見据える能力により、一貫したストーリー展開、伏線となる要素、魅力的なキャラクターを特徴とする長い物語を作り上げることができます。

さらに、分析性能においても大きな進歩が遂げられています。Claude は現在、分析に関しては Anthropic の最も包括的なモデルである Claude 3 Opus や OpenAI の o1 mini と緊密に競合しています。

まとめると、最新のアップデートはさまざまな面で目覚ましい進歩をもたらしました。新しいコーディング機能は大きな注目を集めています。ただし、Claude の現在の制限は使用量の上限であり、これは ChatGPT と比較すると Pro ユーザーにとってもかなり厳しい制限となっています。

ソース

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です