benchmark

ベンチマーク

AIの能力を、共通のテストで点数化して比べるためのものさし。

更新 2026-06-01 ・分野: AI

モデルの能力を、共通の問題セットで測って数値化したものです。コーディング力を測る SWE-bench、難しい科学知識を測る GPQA などが有名です。

便利な反面、点数が独り歩きしがち。テストの中身や測り方で結果は変わるため、Yohakuでは出典を明示し、用途に合うベンチを重く見ます。選び方の記事も参照。

出典

定義には出典をつけ、随時見直しています。編集部が責任を持って管理し、誰でも編集できる方式ではありません。だから信頼と鮮度を保てます。