マルチモーダル生成AI
マルチモーダル生成AIは、テキスト、画像、音声、動画など、複数種類の情報を入力または出力として扱えるAIです。モダリティとは情報の形式を意味します。テキストだけでなく、画像を読み取って説明する、音声を理解して応答する、テキストから画像を生成する、といった応用があります。
正解の理由
選択肢1は、テキスト、画像、音声など複数種類の情報を扱える生成AIと説明しています。これはマルチモーダルの定義に合っています。近年の基盤モデルでは、複数モダリティを統合して扱うことで、より自然な対話や高度な情報処理が可能になっています。
他の選択肢の評価
- 選択肢2は単一の数値だけを返すAIの説明です。複数モダリティを扱うという特徴と逆です。
- 選択肢3は表計算ソフト専用マクロの説明であり、生成AIの一般的な概念ではありません。
- 選択肢4は画像を削除する処理で、画像を理解・生成するマルチモーダルAIとは異なります。
G検定向けポイント
- テキストから画像: text-to-image。
- 画像から説明文: image captioning。
- 画像を見て質問に答える: visual question answering。
- 音声認識や音声対話もマルチモーダル応用に含まれます。
実務では、入力できるデータの種類が増えるほど利便性は高まりますが、個人情報、顔画像、音声、著作物などの取り扱いリスクも増えます。技術面とガバナンス面を合わせて考える必要があります。
試験対策の確認
生成AI・LLMの論点では、便利さだけでなく、制約とリスクを同時に押さえることが重要です。プロンプト、RAG、ファインチューニング、トークン、コンテキスト、権利・機密情報の各用語は相互に関連します。実務では、モデルの出力をそのまま正解とみなさず、根拠確認、アクセス制御、ログ管理、人間によるレビューを組み合わせて安全に運用します。
追加の確認観点
生成AI・LLMの問題では、技術用語を単独で覚えるより、入力、検索、生成、検証、運用管理の流れに置いて理解することが重要です。トークンやコンテキストは制約、プロンプトは制御、RAGは外部知識の参照、ファインチューニングは振る舞いの調整、ガバナンスは安全な利用のための仕組みです。実務では、出力が自然でも根拠が正しいとは限らず、機密情報や著作権のリスクも残ります。G検定では、便利な応用例と同時に、限界、確認手順、人間のレビューが必要な場面を押さえてください。