文章だけでなく、画像・音声・動画など複数の種類(モード)の情報を扱えること。たとえば写真を見せて内容を説明させる、図を読み取らせる、といった使い方ができる。
関連する記事:対話型AIとAIエージェント
関連用語:生成AI / LLM