← Yohaku の都市 / 用語Wiki

quantization

量子化

AIモデルの数値の精度を落として、軽く・速く・安く動かす技術。

更新 2026-06-01 ・ 分野: AI

#AI#仕組み#オープン/自前運用#速度

モデル内部の数値(重み)を、より少ないビット数で表すことで、必要なメモリと計算量を減らす技術です。少しだけ精度を犠牲にして、同じモデルを小さなGPUでも動かせるようにします。

オープンウェイトのモデルを自前で動かすときに特に重要。コストと精度のトレードオフを、用途に合わせて選びます(→ GPU判定エンジン)。

関連する用語

オープンウェイトGPU判定エンジン

出典

  1. 量子化手法の解説(各推論フレームワーク公式ドキュメント)。
  2. 定義はYohaku編集部による整理(editorial, 2026-06)。

定義には出典をつけ、随時見直しています。編集部が責任を持って管理し、誰でも編集できる方式ではありません。だから信頼と鮮度を保てます。