「いちばん賢いAIはどれ?」——その問いを、いったん手放してみてください。
2026年、トップのLLMたちの“賢さ”は、もう団子レースです。ベンチマークの数字を小数点で競っても、あなたの仕事の出来はたいして変わりません。本当に効いてくるのは、別のふたつの問い——あなたの使い方に合っているか。そして、払う額に見合っているか。
このページは、その新しいものさしで主要11モデルを並べ直した“選び方の地図”です。むずかしい計算は後ろにまとめました。まずは肩の力を抜いて、自分に近いところを探してみてください。
選ぶときの、3つの問い
① 何に使う?
コード、長文の読み込み、大量処理、チャット——用途によって得意なモデルが違います。
② いくらまで出す?
賢さは上を見ればキリがない。でも多くの仕事は“中堅”で十分です。
③ データはどこまで気にする?
提供元の国や、自前で動かせるか。機微な情報を扱うほど効いてきます。
迷ったら、ここから
とにかく安く、大量にさばきたい
→ Gemini 3.1 Flash-Lite / Gemini 3 Flash
安いのに賢いのが欲しい(コスパ重視)
→ Grok 4.x / DeepSeek V3.2
迷ったら、外さない万能の一本
→ GPT-5.x
コードや実務の相棒に
→ Claude Sonnet 4.6(難題は Claude Opus)
長い資料・コードを丸ごと読ませたい
→ Gemini 3.x Pro(文脈200万トークン)
自分のサーバーで動かしたい・データ主権が気になる
→ Mistral Small 4(欧州・重み公開)
11モデル、一言ずつ(安い順)
とにかく安い軽量モデル。賢さは控えめでも、大量のテキストを安くさばく仕事なら、いちばん財布にやさしい。
こんな人に 下書き・分類・要約を、量で安く回したい。
欧州生まれ。モデルの“重み”が公開されていて、自分のサーバーで動かせる。データを外に出したくない人の、現実的な選択肢。
こんな人に EUのルールやデータ主権が気になる/自前で動かしたい。
破格に安いのに、思った以上に賢い。コスパの台風の目。ただし提供元は中国系なので、機微なデータを預けるなら、一度立ち止まって考えたい。
こんな人に 安く賢く使いたく、データ主権が問題にならない用途。
賢さと値段の折り合いが、いちばん上手い。最強でも最安でもないけれど、たいていの仕事で「これでいいじゃないか」に着地する。
こんな人に 迷ったときの、コスパ本命。
速い・安い・長文OKの三拍子。Googleのサービスと組み合わせるなら相性がいい。
こんな人に 速度と量、そして Google 環境。
Claude の軽量版。きびきび速く、文章の素直さに定評がある。
こんな人に 応答の速さが効く、チャットや補助役。
高性能なオープン寄りモデル。難しめの推論もこなす。中国系なので、ここでもデータ主権は要検討。
こんな人に 高性能なオープン系を試したい。
困ったらこれ、の定番。ツールも、資料も、対応サービスも、いちばんそろっている万能選手。
こんな人に とりあえず外したくない一本/エコシステム重視。
桁違いに長い文章を、丸ごと飲み込む。資料の束やコードベース、本一冊ぶんをまとめて読ませたいときの王様。
こんな人に 超長文・大規模な資料の読み込み。
コーディングと実務の主力。長い作業でも息切れしにくい、安定感がある。
こんな人に 日々のコードや文章仕事の、相棒に。
いまの頭脳の最高峰のひとつ。そのぶん、値段も最高峰。難しい問題を一発で通したいときの、切り札。
こんな人に 難題・品質最優先で、コストは二の次。
ざっくりの位置どり
コスパで見ると(おまけ)
②の「払う額に見合うか」を一枚の数字にしてみると——払った額あたりの賢さがいちばん高いのは、イメージで Grok 4.x。次いで GPT-5.x、DeepSeek V3.2 あたりです。最強の Opus も最安の Flash-Lite も、尖っているぶん、この物差しでは真ん中に寄ります。「最強=最良の買い物、とは限らない」——それが、このものさしの言いたいことです。あくまでイメージで、計算と出典は下に。
ものさしと出典について
価格は各社の公式ページ、賢さは SWE-bench・GPQA などの実名ベンチマークに基づきます。上の「コスパ」は、賢さと安さをそれぞれ正規化して掛け合わせた当サイトの指標(YVI/余白価値指数)で並べたもの。数値は台帳(Cloudflare D1)から毎朝自動更新されるスナップショットで、一部は比較のための編集部による正規化推定(editorial, 2026-06)を含みます。