← Yohaku の都市 / 読み物

「いちばん賢いLLM」を探すのは、もうやめよう — 2026年、“あなた向き”の一本の選び方

賢さ比べはもう頭打ち。だいじなのは『あなたに合うか』と『払う額に見合うか』。新しいものさしと、主要11モデルの早わかりガイド。

更新 2026-06-01 ・ 関連州: llm

#AI#コスト#評価・指標#品質

「いちばん賢いAIはどれ?」——その問いを、いったん手放してみてください。

2026年、トップのLLMたちの“賢さ”は、もう団子レースです。ベンチマークの数字を小数点で競っても、あなたの仕事の出来はたいして変わりません。本当に効いてくるのは、別のふたつの問い——あなたの使い方に合っているか。そして、払う額に見合っているか。

このページは、その新しいものさしで主要11モデルを並べ直した“選び方の地図”です。むずかしい計算は後ろにまとめました。まずは肩の力を抜いて、自分に近いところを探してみてください。

選ぶときの、3つの問い

① 何に使う?
コード、長文の読み込み、大量処理、チャット——用途によって得意なモデルが違います。

② いくらまで出す?
賢さは上を見ればキリがない。でも多くの仕事は“中堅”で十分です。

③ データはどこまで気にする?
提供元の国や、自前で動かせるか。機微な情報を扱うほど効いてきます。

迷ったら、ここから

とにかく安く、大量にさばきたい
→ Gemini 3.1 Flash-Lite / Gemini 3 Flash

安いのに賢いのが欲しい(コスパ重視)
→ Grok 4.x / DeepSeek V3.2

迷ったら、外さない万能の一本
→ GPT-5.x

コードや実務の相棒に
→ Claude Sonnet 4.6(難題は Claude Opus)

長い資料・コードを丸ごと読ませたい
→ Gemini 3.x Pro(文脈200万トークン)

自分のサーバーで動かしたい・データ主権が気になる
→ Mistral Small 4(欧州・重み公開)

11モデル、一言ずつ(安い順)

Gemini 3.1 Flash-LiteGoogle(米)・約 $0.33/100万トークン・文脈100万

とにかく安い軽量モデル。賢さは控えめでも、大量のテキストを安くさばく仕事なら、いちばん財布にやさしい。

こんな人に 下書き・分類・要約を、量で安く回したい。

Mistral Small 4Mistral(仏・EU)・約 $0.49・重み公開

欧州生まれ。モデルの“重み”が公開されていて、自分のサーバーで動かせる。データを外に出したくない人の、現実的な選択肢。

こんな人に EUのルールやデータ主権が気になる/自前で動かしたい。

DeepSeek V3.2DeepSeek(中国)・約 $0.90・重み公開

破格に安いのに、思った以上に賢い。コスパの台風の目。ただし提供元は中国系なので、機微なデータを預けるなら、一度立ち止まって考えたい。

こんな人に 安く賢く使いたく、データ主権が問題にならない用途。

Grok 4.xxAI(米)・約 $2.2

賢さと値段の折り合いが、いちばん上手い。最強でも最安でもないけれど、たいていの仕事で「これでいいじゃないか」に着地する。

こんな人に 迷ったときの、コスパ本命。

Gemini 3 FlashGoogle(米)・約 $2.4・文脈100万

速い・安い・長文OKの三拍子。Googleのサービスと組み合わせるなら相性がいい。

こんな人に 速度と量、そして Google 環境。

Claude Haiku 4.5Anthropic(米)・約 $4

Claude の軽量版。きびきび速く、文章の素直さに定評がある。

こんな人に 応答の速さが効く、チャットや補助役。

Qwen3 MaxAlibaba(中国)・約 $6.25・オープン系

高性能なオープン寄りモデル。難しめの推論もこなす。中国系なので、ここでもデータ主権は要検討。

こんな人に 高性能なオープン系を試したい。

GPT-5.xOpenAI(米)・約 $7.8・文脈40万

困ったらこれ、の定番。ツールも、資料も、対応サービスも、いちばんそろっている万能選手。

こんな人に とりあえず外したくない一本/エコシステム重視。

Gemini 3.x ProGoogle(米)・約 $7.8・文脈200万

桁違いに長い文章を、丸ごと飲み込む。資料の束やコードベース、本一冊ぶんをまとめて読ませたいときの王様。

こんな人に 超長文・大規模な資料の読み込み。

Claude Sonnet 4.6Anthropic(米)・約 $12

コーディングと実務の主力。長い作業でも息切れしにくい、安定感がある。

こんな人に 日々のコードや文章仕事の、相棒に。

Claude Opus 4.xAnthropic(米)・約 $20

いまの頭脳の最高峰のひとつ。そのぶん、値段も最高峰。難しい問題を一発で通したいときの、切り札。

こんな人に 難題・品質最優先で、コストは二の次。

ざっくりの位置どり

安い ← 値段 → 高いかしこさ →← 安くて賢い=おトク1234567891011
右にいくほど高い、上にいくほど賢い。左上=安くて賢い=おトクなゾーン。色は提供元(青=米 / 橙=中国系 / 緑=欧州)。番号は上の一覧と同じ安い順。
1Flash-Lite2Mistral Small 43DeepSeek V3.24Grok 4.x5Gemini 3 Flash6Claude Haiku 4.57Qwen3 Max8GPT-5.x9Gemini 3.x Pro10Claude Sonnet 4.611Claude Opus 4.x
2026-06 のざっくりイメージ。正確な数値と出典は記事末尾に。

コスパで見ると(おまけ)

②の「払う額に見合うか」を一枚の数字にしてみると——払った額あたりの賢さがいちばん高いのは、イメージで Grok 4.x。次いで GPT-5.xDeepSeek V3.2 あたりです。最強の Opus も最安の Flash-Lite も、尖っているぶん、この物差しでは真ん中に寄ります。「最強=最良の買い物、とは限らない」——それが、このものさしの言いたいことです。あくまでイメージで、計算と出典は下に。

ものさしと出典について

価格は各社の公式ページ、賢さは SWE-bench・GPQA などの実名ベンチマークに基づきます。上の「コスパ」は、賢さと安さをそれぞれ正規化して掛け合わせた当サイトの指標(YVI/余白価値指数)で並べたもの。数値は台帳(Cloudflare D1)から毎朝自動更新されるスナップショットで、一部は比較のための編集部による正規化推定(editorial, 2026-06)を含みます。

参考文献・出典

  1. SWE-bench(コーディング実務ベンチマーク) — swebench.com
  2. GPQA: A Graduate-Level Google-Proof Q&A Benchmark(Rein et al., 2023) — arXiv:2311.12022
  3. OpenAI API 価格 — openai.com/api/pricing
  4. Anthropic(Claude)価格 — anthropic.com/pricing
  5. Google Gemini API 価格 — ai.google.dev/gemini-api/docs/pricing
  6. xAI(Grok)API — x.ai/api
  7. DeepSeek API 価格 — api-docs.deepseek.com
  8. Mistral AI 価格 — mistral.ai/pricing
  9. Alibaba Cloud Model Studio(Qwen) — alibabacloud.com/help/en/model-studio
  10. 価格・スコアは Cloudflare D1(台帳)より毎朝更新。一部スコアは比較のための編集部正規化(editorial, 2026-06)。

▶ llm 判定エンジンで、あなたの用途・状況に合わせて採点する

数字は出典つきのスナップショット。評価関数による透明な判定であり、特定製品の推奨ではない。Yohaku — 判定の都市。