モデルの能力を、共通の問題セットで測って数値化したものです。コーディング力を測る SWE-bench、難しい科学知識を測る GPQA などが有名です。
便利な反面、点数が独り歩きしがち。テストの中身や測り方で結果は変わるため、Yohakuでは出典を明示し、用途に合うベンチを重く見ます。選び方の記事も参照。
AIの能力を、共通のテストで点数化して比べるためのものさし。
モデルの能力を、共通の問題セットで測って数値化したものです。コーディング力を測る SWE-bench、難しい科学知識を測る GPQA などが有名です。
便利な反面、点数が独り歩きしがち。テストの中身や測り方で結果は変わるため、Yohakuでは出典を明示し、用途に合うベンチを重く見ます。選び方の記事も参照。
定義には出典をつけ、随時見直しています。編集部が責任を持って管理し、誰でも編集できる方式ではありません。だから信頼と鮮度を保てます。