テキストに加えて、画像・音声・動画など複数種類(モード)の入出力を扱えるAIを「マルチモーダル」と呼びます。写真の内容を説明したり、図表を読み取ったりできます。
2026年の主要モデルの多くは、少なくとも画像入力に対応しています。用途に画像や音声が含まれるなら、対応の有無を確認しましょう。
文章だけでなく、画像・音声・動画なども扱えるAIのこと。
テキストに加えて、画像・音声・動画など複数種類(モード)の入出力を扱えるAIを「マルチモーダル」と呼びます。写真の内容を説明したり、図表を読み取ったりできます。
2026年の主要モデルの多くは、少なくとも画像入力に対応しています。用途に画像や音声が含まれるなら、対応の有無を確認しましょう。
定義には出典をつけ、随時見直しています。編集部が責任を持って管理し、誰でも編集できる方式ではありません。だから信頼と鮮度を保てます。