← Yohaku の都市 / 用語Wiki

benchmark

ベンチマーク

AIの能力を、共通のテストで点数化して比べるためのものさし。

更新 2026-06-01 ・ 分野: AI

#AI#評価・指標#指標

モデルの能力を、共通の問題セットで測って数値化したものです。コーディング力を測る SWE-bench、難しい科学知識を測る GPQA などが有名です。

便利な反面、点数が独り歩きしがち。テストの中身や測り方で結果は変わるため、Yohakuでは出典を明示し、用途に合うベンチを重く見ます。選び方の記事も参照。

関連する用語

LLMの選び方LLM判定エンジン

出典

  1. SWE-bench — swebench.com
  2. GPQA(Rein et al., 2023)— arXiv:2311.12022

定義には出典をつけ、随時見直しています。編集部が責任を持って管理し、誰でも編集できる方式ではありません。だから信頼と鮮度を保てます。