Claude Sonnet 3.5 と ChatGPT-4o: どちらが優れていますか?

最近、私は Claude の新しい 3.5 Sonnet モデルを試してみました。これは Anthropic のこれまでで最も強力な AI モデルであり、同社によれば OpenAI の ChatGPT などのライバルよりも優れているとのことです。これは大胆な主張ですが、Anthropic はかなり印象的なベンチマークでそれを裏付けています。

新しいモデルには視覚機能も備わっており、画像や文書を提供してそこから情報を抽出できます。また、ユーモアなどの感情をよりよく理解し、はるかに高速化できます。これらすべての要素により、Claude 3.5 は、マルチモーダル AI モデルでもある新しい GPT-40 搭載の ChatGPT の強力な競合相手となっています。

Sonnet と同様に、ChatGPT-40 はテキストベースの入力に加えて視覚ベースの入力を使用して応答を提供できます。問題解決能力は同等に優れており、同様の会話機能を備えています。両方の新しいモデルは機能とパフォーマンスの点で非常に近いため、誰もが疑問に思うのは、どちらが優れているかということです。その答えを得るために、両方のモデルを詳細に比較することにしました。

文書から情報を抽出する

AI ツールは PDF ファイルなどのドキュメントから情報を抽出して要約するのによく使用されます。そこで、まずはどちらのモデルがより効率的にこれを実行できるかを確認することにしました。そのために、以前書いた屋根ふき材の PDF ドキュメントを用意し、ChatGPT と Claude にアップロードしました。

次に、プロンプト「私が発見したことは次のとおりです」を出しましたsummarize this document and provide me with the most important points discussed in it.。新しい Claude モデルは ChatGPT よりもはるかに高速で、リクエストを送信するとすぐに応答を生成し始めました。また、プロンプトにさらに忠実に従い、重要なポイントを番号付きリストに示しました。時間がなくて、ドキュメントの内容をざっと確認したいだけなら、これが最適です。

ドキュメントからの情報抽出と要約に関する Claude の機能をテストします。

しかし、クロードより遅かったにもかかわらず、私は今回の場合は ChatGPT の回答の方が好みでした。ドキュメントの最も重要なポイントをリストしただけでなく、定義と重要性、計算などのさまざまなセクションに分割していました。

ドキュメントで議論されているトピックの特定の側面に関する具体的な情報を見つける必要がある場合は、ChatGPT の方法の方が便利に思えます。すべてのポイントを確認する必要はなく、必要なセクションだけを見ればよいのです。情報は、確認しやすく理解しやすい方法で提供されます。

ChatGPT は重要なポイントをリストし、それをさまざまなセクションに分割します。

視覚機能のテスト

Claude 3.5 と ChatGPT-40 の両方の重要なハイライトの 1 つは、視覚的な入力を使用してそれに基づいて情報を提供する機能であるため、次に手書きの指示を書き写した後にそれに従うように依頼して、それをテストすることにしました。AI モデルに、イソップの「アリとコオロギ」に似た短い詩を書くように依頼しました。

書面では指定していませんでしたが、出力は詩にインスピレーションを得たもので、異なるキャラクターを使用したものにしたいと考えていました。クロードは最初に手書きのリクエストを確認するように求め、それから作業を進めました。結果は非常に良好で、元の詩に非常に近いものでしたが、同じキャラクターが登場しました。AI チャットボットは、詩を書き終えた後、別のアプローチや詩の修正が必要かどうかも尋ねました。

クロードは手書きの指示に忠実に従います。

ChatGPT は私のリクエストを確認する必要もなく、すぐに完成させてくれました。ChatGPT が書いた詩もとても印象的で、元の作品のアリとコオロギをハチと蝶に置き換えていましたが、これは Claude がやったことではありません。ChatGPT のバージョンの方が詩的だとも思いました。

ChatGPT は手書きの指示を理解しますが、それに従う際に独自のタッチを追加します。

したがって、転写では結果に若干の違いがありますが、画像があまり鮮明でなくても、どちらも手書きや印刷されたテキストを非常によく解読して理解できます。これらの強力な視覚機能は、これらのツールを使用してグラフやチャートから情報を収集できることも意味し、数学的なタスクに適しています。

画像の説明:どちらのモデルも画像から情報を抽出できるので、私も試してみることにしました。Claude と ChatGPT に熱帯の島の画像を提供し、それを説明するように依頼しました。ご覧のとおり、Claude は画像を鮮明に説明し、前景と背景の各要素を非常に明確に説明してくれました。私自身が気づかなかったものも含まれています。

クロードが画像を説明するために選んだフレーズや言葉も、画像にふさわしいインパクトがあり、とても印象的でした。色彩や照明をうまく表現し、画像が作り出す全体的な静けさと平穏さを伝えています。

クロード 3.5 は、画像を正確かつ詳細に説明できます。

ChatGPT の場合、結果はより複雑でした。ChatGPT は画像を説明できますが、Claude ほどではありません。OpenAI のモデルは、存在しない要素を追加するなど、間違いを犯す傾向があり、幻覚を起こす可能性があることが示されています。また、当初は、画像が描いたものではなく、タイトルに基づいて画像を説明しようとし続け、複数回の試行の末、ようやく正しく説明できました。

それでも、私がそこから得た説明は、クロード氏の反応に比べると見劣りしました。GPT-40 のビジョン機能は OpenAI がローンチ時に披露した最大のハイライトの 1 つだったので、これは非常に驚きでした。

ChatGPT は画像を説明できますが、間違いを犯す可能性があります。

コンテンツの生成と編集

次に、どのモデルがコンテンツ生成において優れているかを確認しようとしました。モデルのパフォーマンスを明確に把握するために、実際の事実とデータを必要とするコンテンツと、AI モデルの創造性に依存する架空のコンテンツを生成することにしました。

まず、私は Claude と ChatGPT に、さまざまな Android スキンの詳細な記事を提供するよう依頼しました。これは多くの人が知りたいことでありながら、非常に主観的なトピックであり、各個人に好みがあるためです。私は、「Can you write a detailed article on the different Android skins, such as OneUI, MIUI, ColorOS, etc.?スマートフォンに費やす時間の長さを考えると、モデルがどの程度正確で、各スキンについてどの程度の情報を提供できるかを調べたい」というプロンプトを使用しました。

いつものように、Claude の方が早く回答してくれました。Android スキンの概要を説明してくれたのは良かったのですが、その後は、さまざまなスキンとその機能を箇条書きでリストアップするだけにとどまりました。プロンプトで「詳細な記事」と明記したにもかかわらず、モデルがこの結果を出したことに留意してください。

Claude 3.5 Sonnet では、簡単な概要を示し、次に箇条書きで機能をリストします。

対照的に、ChatGPT は記事にもっと印象的なタイトルを付け、簡単な紹介文を添えました。その後、各スキンを独自のセクションで説明し、それぞれを概要、主な機能、長所、短所に分けています。

これにより、より包括的な情報が提供されるだけでなく、さまざまなスキンが互いにどのように比較されるかを正確に知ることができます。最後に、適切な結論で記事を締めくくっています。ChatGPT が言及したスキンの数は Claude がリストしたものよりも少ないですが、ここでは量よりも質が重要です。

ChatGPT-40 では、スキンごとに異なるセクションを含む詳細な記事を提供しています。

この場合、ChatGPT は Claude よりも優れたパフォーマンスを発揮しましたが、以前のテストで判明したように、後者も良いコンテンツを生成できます。トピックやプロンプトの言い回しによって変わる可能性があります。そのため、両方のモデルに別のプロンプト (今回はプロンプトを使用) を与えました。これにより、Write a humorous story about a penguin that wants to fly but ends up getting entangled into funny situations when it attempts to do so.モデルがユーモアをどれだけ理解し、伝えることができるかを確認する機会も得られました。

今回は、結果は非常に似通っており、どちらのモデルも本当に面白いストーリーを作り上げました。どちらのストーリーにも、皮肉や身体的コメディなどの共通要素がありました。フィクションでは、個人の好みが大きな要素となり、全体的には、言葉遊びでユーモアを生み出す点など、クロードの作品の方がわずかに優れていると感じました。

クロード 3.5 によって生成された架空のコンテンツ

しかし、前にも述べたように、ChatGPT のストーリーも楽しく読めましたし、Claude のストーリーよりも少し長かったです。結末もより健全でした。つまり、Claude と ChatGPT はどちらも、私の指示に従ってユーモラスな要素を盛り込みながら、優れたフィクション コンテンツを生み出すことができたのです。

ChatGPTの架空のコンテンツ。

コンテンツの編集:コンテンツの生成はプロセスの一部にすぎません。コンテンツに関して AI モデルが何ができるかを本当に知るには、コンテンツ編集機能もテストする必要があります。私はその作業を進めました。この目的のために、私は Claude と ChatGPT にソーシャルコマースに関するテキストを提供し、次のようなプロンプトを出しました。Can you expand this article while also proofreading and improving it?

記事を改善する際、クロードは導入から始め、次にソーシャルコマースの進化について書き、最後に他のセクションに続いて、それぞれを必要に応じて拡張しました。モデルでは、読みやすさを向上させるために必要と思われる箇所で番号付きリストと箇条書きも使用しました。

クロードの編集機能は非常に強力です。

ChatGPT の対応は以前のものと似ており、コンテンツをさまざまなサブ見出しを持つさまざまなセクションに分割しました。リストは使用せず、情報を段落の形式で保持しました。変更と改善については、Claude が ChatGPT よりも記事に大幅な変更を加えたことに気付きましたが、最終結果もはるかに優れていました。最終的に、Sonnet の編集機能の方が強力で、私のワークフローに非常に適していることがわかりました。

ChatGPT はコンテンツの編集と改善も非常に優れています。

コーディング能力

AI モデルの比較は、コーディング能力を含めなければ完結しません。Claude は、プログラマーがより良いコードを迅速かつ簡単に記述できるように特別に開発されましたが、新しい GPT-40 搭載の ChatGPT もコーディングに関しては侮れません。

コード生成能力をテストするために、Claude と ChatGPT の両方に、Generate code for a simple game that can help beginners learn programming.2 人とも Python でコードを記述しましたが、予想通り、Claude の方がコード生成を速く完了しました。画面の右側にコード全体が表示され、左側に関数や変数などの要素の説明が表示されました。

クロードさんの回答で一番気に入ったのは、コードにすぐにアクセスできるボタンも含まれていて、簡単に確認できることです。さらに、チャットボットはコードを実行するために必要な要件を、手順とともに教えてくれました。コード自体は非常に理解しやすく、テストしたところ、完璧に動作しました。

Claude 3.5 Sonnet を使用してコードを生成します。

ChatGPT の応答について言えば、私が要求したとおり、シンプルでありながら機能的なコードを生成することもできました。コードの下には、チャットボットがゲームを実行するために必要な手順と、コードがカバーする概念を提供し、初心者でも理解しやすいようにしました。全体的に、この例では両方のモデルの結果はほぼ同じでしたが、Claude はより多くの要素を説明し、コードの任意の部分を詳しく説明するように依頼できるオプションがありました。

Pythonで書かれたシンプルなゲームのChatGPTのコード

数学的能力

最後に、私は Claude と ChatGPT の両方に数学の問題を解かせ、彼らの成績とどちらが速いかを確認しました。問題は代数方程式を含んでいましたが、特に難しいものではありませんでした。両方のモデルとも、最初のステップで何をすべきかを説明することから始めましたが、アプローチは異なっていました。Claude は方程式を展開し、最終的に問題を完全に解くにはグラフ電卓またはコンピュータ代数システムを使用する必要があると私に言いました。

クロード 3.5 では、質問に対して 0 個、1 個、または 2 個の解決策が存在する可能性があると述べています。

とはいえ、問題に対する潜在的な解決策の数を示していました。対照的に、ChatGPT は問題全体を解決し、考えられるすべての解決策を示しました。これは、数学的能力に関する限り、ChatGPT-4o が Sonnet より優れていることを示しています。

ChatGPT は問題に対するあらゆる可能な解決策を提供します。

最終判定 – Claude Sonnet 3.5 または ChatGPT-4o: どちらが勝ったでしょうか?

Claude 3.5 と ChatGPT-4o のどちらを選ぶかは簡単ではありませんが、最終的にはどちらか一方しか勝者になれません。私にとっては、新しい Sonnet モデルが勝者です。ChatGPT よりも大幅に高速なだけでなく、より正確な回答も提供します。特に、画像の説明やそれに関連するアクションの実行が優れている点が気に入りました。

また、私が使用していた間、クロードは一度も幻覚を見ませんでした。これもまた、この製品の利点の 1 つです。また、応答も全体的に私の指示に近いものでした。詳細なコンテンツが欲しかった 1 つの場面で期待どおりに動作しなかったにもかかわらず、この製品を使用して必要な情報を取得するのは、概して簡単で、労力も少なくて済みました。

Claude 3.5 Sonnet と ChatGPT-40 の両方を試してみたところ、どちらもパフォーマンスが非常に近い、非常に優れた AI モデルであることがわかりました。Sonnet は一部のタスクでより優れたパフォーマンスを発揮しますが、ChatGPT は他のタスクでより優れた結果をもたらします。どちらが優れているかは、個々の使用例によって決まることを理解しておく必要があります。

さらに、無料モデルはどちらもできることが限られています。そのため、どちらかの AI を定期的に使用したい場合は、最良の結果を得るために有料サブスクリプションを取得することをお勧めします。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です