埋め込みベクトルの意味
埋め込み(Embedding)は、テキスト、単語、文書、画像などを数値ベクトルとして表したものです。意味が近い対象同士はベクトル空間上でも近くなるように学習されるため、類似検索、推薦、クラスタリング、RAGの検索部分などで重要な役割を持ちます。
正解の理由
選択肢1は、テキストなどを意味的な近さを反映しやすい数値ベクトルに変換した表現と述べています。これは埋め込みの説明として適切です。たとえば「自動車」と「車」は近いベクトルになりやすく、「料理」とは相対的に離れる、といった使い方をします。
他の選択肢の評価
- 選択肢2はHTML変換処理の説明であり、意味表現のベクトル化ではありません。
- 選択肢3は物理的な箱に入れるという説明で、機械学習の埋め込みとは関係ありません。
- 選択肢4はトークン数を0にする圧縮方式としていますが、埋め込みは情報を数値ベクトルで表現する方法であり、入力を消す処理ではありません。
頻出ポイント
- 類似度計算ではコサイン類似度や内積が使われます。
- RAGでは、質問と文書を埋め込みに変換し、近い文書を検索します。
- 埋め込みの品質が悪いと、検索で関連文書を取り逃がします。
実務では、専門用語、略語、社内語彙が多い場合に埋め込みモデルの選定が重要です。単なるキーワード一致では拾えない意味的な近さを扱える点が利点です。
試験対策の確認
生成AI・LLMの論点では、便利さだけでなく、制約とリスクを同時に押さえることが重要です。プロンプト、RAG、ファインチューニング、トークン、コンテキスト、権利・機密情報の各用語は相互に関連します。実務では、モデルの出力をそのまま正解とみなさず、根拠確認、アクセス制御、ログ管理、人間によるレビューを組み合わせて安全に運用します。
追加の確認観点
生成AI・LLMの問題では、技術用語を単独で覚えるより、入力、検索、生成、検証、運用管理の流れに置いて理解することが重要です。トークンやコンテキストは制約、プロンプトは制御、RAGは外部知識の参照、ファインチューニングは振る舞いの調整、ガバナンスは安全な利用のための仕組みです。実務では、出力が自然でも根拠が正しいとは限らず、機密情報や著作権のリスクも残ります。G検定では、便利な応用例と同時に、限界、確認手順、人間のレビューが必要な場面を押さえてください。