3章現在の生成AI（ジェネレーティブAI）の動向

前の章に戻る次の章に進む

3章現在の生成AI（ジェネレーティブAI）の動向

この章の目安学習時間：2時間30分

この章で到達できるゴール：

現在の主要な生成AIサービスとその特徴を理解する
画像処理やデータの最適化における加工技術の重要性を把握する
ディープフェイクのリスクと情報の信頼性について学ぶ
RAG（検索拡張生成）やAIエージェントの仕組みと実務での活用法を習得する

【3-1】生成AIができることと主なサービス

目安の学習時間：40分

生成AIは、作り出すコンテンツの種類（マルチモーダル）によって、テキスト、画像、音楽、音声、動画の5つの分野に大きく分けられます。
ここではそれぞれの分野における、仕組み・できること・注意点を整理します。

1. テキスト生成AI

人間が書いたような自然な文章を作成するAIです。
2026年現在はOpenAIの「ChatGPT」のほか、GoogleのGemini、AnthropicのClaude、MicrosoftのCopilotなどが主要なサービスとして普及しています。

簡単な仕組み

膨大なテキストデータから学習し、ある言葉の次にくる「確率が最も高い言葉」を順番に予測して繋げていく自己回帰モデルという仕組みで動いています。

できること：

・メールの作成や記事の執筆
・長い文章の要約や翻訳
・プログラミングコードの生成

注意点：

・ハルシネーション（嘘）：もっともらしい嘘を自信満々につくことがあります。
・最新情報の不足：学習データが古い場合、最新の出来事には答えられません。

2. 画像生成AI

言葉での指示（プロンプト）から、イラストや写真のような画像を生成するAIです。

簡単な仕組み

画像からノイズを除去して元の形を復元するプロセスを学習しています。
学習時には画像のリサイズや、値の範囲を揃える正規化といった処理が必要です。
また、1つのデータから反転や回転を加えてデータの水増しを行うデータ拡張（augmentation）技術により、精度が高められています。

できること：

・Webサイトや広告用の素材作成
・写真の修正や背景の削除
・古い写真や低解像度画像の鮮明化（リマスタリング）

注意点：

・著作権の侵害：既存の作品に似すぎた画像を生成し、そのまま公開すると権利侵害になる恐れがあります。
・不適切なコンテンツ：倫理的に問題のある画像が生成されるリスクがあります。

3. 音楽生成AI

メロディ、リズム、楽器の音色などを組み合わせて、オリジナルの楽曲を作成するAIです。

簡単な仕組み

音楽の構造（楽譜のパターンや音波のデータ）を数値として捉え、指定された雰囲気やジャンルに合う音の並びを予測して生成します。

できること：

・動画やゲーム用のBGM制作
・鼻歌からの伴奏作成
・特定のアーティスト風の楽曲模倣（※権利上の議論あり）

注意点：

・権利関係の不透明さ：AIが作成した曲の著作権が誰に帰属するのか、法的な議論が続いています。

4. 音声生成AI

テキストを読み上げる音声や、特定の人物の声を再現するAIです。

簡単な仕組み

人間の発声の特徴（イントネーションや感情の起伏）をデータ化し、自然な音声を合成します。

できること：

・オーディオブックのナレーション作成
・リアルタイムでの翻訳音声出力
・自分の声を別の声に変換する（ボイスチェンジャー）

注意点：

・なりすまし詐欺：知人の声を偽装するなどの犯罪（ソーシャルエンジニアリング）に悪用されるリスクがあります。

5. 動画生成AI

テキストの指示から、数秒〜1分程度の高品質な動画を作り出すAIです。

簡単な仕組み

画像生成の技術に加え、時間の経過とともにピクセルがどう動くかを自己回帰モデルなどの仕組みで予測し、連続したフレームを生成します。
代表的なモデルとして、OpenAIのSoraやGoogleの最新モデルであるVeo 3などがあります。

※Googleからは、Veo3のアップデート版として「Veo 3.1」などの最新モデルも順次発表されており、生成の品質や速度が向上し続けています。

できること：

・実写のような風景動画の作成
・商品紹介の短いプロモーション映像制作
・アニメーションの自動生成

注意点：

・物理法則の無視：「コップが割れても中身がこぼれない」といった不自然な描写が混ざることがあります。
・ディープフェイク：本物と見紛うような偽の映像（ディープフェイク）による偽情報（ディスインフォメーション）の拡散が深刻な社会問題となっています。

練習問題：各分野の特徴

問題

生成AIの各サービスと分野の組み合わせとして、誤っているものはどれですか。

Gemini：テキスト生成AI
Sora：動画生成AI
Claude：音楽生成AIの専用ツール名

解答

3
Claudeはテキスト生成AIです。

考えてみよう！：AIを仕事で使う「責任」

AIが非常に高い精度でコンテンツを作れるようになった現在、人間がAIに任せるのではなく、人間が最終的に確認（ファクトチェック）を行う必要があるのはなぜでしょうか？

解答例

AIは「意味」を理解して作っているのではなく、あくまで過去のデータのパターンから確率的に生成しているだけだからです。
ハルシネーション（嘘）や著作権侵害、差別的な表現などのリスクに対し、AIは責任を取ることができません。
最終的な成果物の品質と安全性を保証するのは、常にそれを使う人間の役割です。

【3-2】ディープフェイク（深層偽造）技術

目安の学習時間：20分

偽情報と情報の信頼性

AIの進化は、リスクも生み出しています。
その代表例がディープフェイク（深層偽造）技術です。
AIを用いて、実在しない人物の画像や、実際には言っていない有名人の音声、動画を極めて精巧に作成する技術を指します。

注意：ディープフェイクのリスク

偽情報（ディスインフォメーション）：政治的な世論操作や詐欺を目的とした、意図的な嘘の情報の拡散。
法的・倫理的問題：他人の肖像権侵害や名誉毀損に繋がるケースが増えています。

過去には、著名人の声で偽の電話をかけ、企業から多額の資金を騙し取るといった事件も発生しています。
生成AI時代の有資格者には、情報の真偽を多角的に見極める力が求められます。

考えてみよう！：情報の真偽を見極めるには

SNSで流れてきた衝撃的な映像が「ディープフェイク」かもしれないと感じたとき、どのような確認を行うべきでしょうか？

解答例

発信元が信頼できる公的機関や報道機関であるかを確認する。
同様のニュースが他の信頼できるメディアでも報じられているか比較する。
映像の中に、不自然な瞬きや関節の動き、影の歪みがないか細部を観察する。

【3-3】RAG（検索拡張生成）

目安の学習時間：40分

生成AIをビジネスで活用する際、避けて通れない最重要技術がRAG（Retrieval-Augmented Generation）です。
AIが「知っていること」だけで答えるのではなく、「資料を調べてから」答えるこの仕組みについて、歴史と詳細なステップを学びましょう。

RAGの歴史と進化

RAGという概念は、2020年にFacebook AI Research（現在のMeta AI）の研究者らによって提唱されました。
それまでのAIには、解決すべき大きな課題が2つありました。

従来のAIの課題	RAGによる解決
情報の鮮度（知識のカットオフ）	学習データが古いと最新の事象に答えられない。RAGは外部の最新ニュースやWebサイトを検索して引用できるため、常に最新の情報に基づいた回答が可能です。
ハルシネーション（嘘）	記憶が曖昧なことでも自信満々に答えてしまう。RAGは「根拠となる資料」をAIに直接見せてから答えさせるため、嘘を劇的に減らすことができます。

当初は研究レベルの技術でしたが、ChatGPT（GPT-3.5やGPT-4）の普及とともに、社内マニュアルや独自の専門知識をAIに扱わせるための標準的な手法として、2026年現在はあらゆる業界で導入が進んでいます。

RAGの3ステップ：詳細な仕組み

RAGが回答を作り出すまでには、「データ準備」「検索」「生成」の3つの明確なステップがあります。

ステップ1：データ準備（インデキシング）

AIが検索しやすいように、あらかじめ資料を下ごしらえする工程です。

重要語句：下ごしらえの技術

チャンク（Chunking）：PDFなどの長い文書を、AIが扱いやすい数百文字程度の「塊（チャンク）」に分割することです。
埋め込み（Embedding）：分割したテキストを、コンピュータが意味を計算できる「数値（ベクトル）」に変換します。
ベクトルデータベース：変換された数値データを保存する専用の保管庫です。単なる「言葉の一致」ではなく「意味の近さ」で情報を探せるようになります。

ステップ2：検索（リトリーバル）

ユーザーの質問に対し、保管庫から最適な「回答根拠」を探し出す工程です。

検索の流れ

質問文を「ベクトル（数値）」に変換します。
ベクトルデータベース内で、質問の意味と最も近いチャンクを数個ピックアップします。
これがAIにとっての「回答の根拠資料」となります。

ステップ3：生成（ジェネレーション）

検索した資料をAIに渡し、最終的な回答をまとめさせる工程です。

生成のポイント

AIに「以下の資料を読んで、質問に答えてください」というプロンプトと一緒に資料を渡します。
AIは自分の記憶からではなく、目の前にある資料を要約して回答を作成します。
このとき「資料に基づくと、正解はAです。参照元：マニュアルP.10」のように、根拠を明示させることができます。

練習問題：RAGのステップ理解

問題

RAGにおいて、膨大な社内規定PDFをAIが検索しやすい小さな塊に切り分ける作業を何と呼びますか？

ベクトル化
チャンク化
アライメント

解答

2

考えてみよう！：RAGが苦手なこと

RAGは「資料があれば」正しく答えられますが、逆に「資料が全くない新しいアイディア出し」や「複数の資料にまたがる複雑な計算」をさせる場合、どのような問題が起きると予想されますか？

解答例

資料を検索しても関連情報が見つからないため、「回答できません」となるか、あるいは検索結果を無視して自分の記憶（パラメータ知識）だけで答えてしまい、ハルシネーションが発生する可能性があります。
RAGはあくまで「事実に基づいた検索・要約」が得意な技術であり、ゼロからの創造や高度な論理演算には、AI自身の知能（モデル性能）がより重要になります。

【3-4】AIエージェントの仕組みと高度な連携

目安の学習時間：40分

これまでのAIは、人間が入力したプロンプトに対して「回答を返すだけ」のツールでした。
しかし、現在は自ら計画を立て、必要なツールを使い、目的を達成するまで自律的に動くAIエージェントへと進化しています。

ワークフロー型と自律型の違い

AIエージェントの動き方には、大きく分けて「ワークフロー型」と「自律型」の2つのパターンがあります。

分類	特徴	メリット
ワークフロー型	人間があらかじめ「手順（Aの次はBをする）」を決めておく方式。	動作が確実で、定型業務（経費精算など）の自動化に向いています。
自律型	AIがゴール（目的）だけを聞き、そこに至る手順を自ら考えて実行する方式。	複雑で未知の課題（市場調査や旅行プラン作成など）に柔軟に対応できます。

AIエージェントを支える4つの仕組み

AIエージェントが「賢く、自律的に」動くために、内部では以下のような処理が行われています。

ルーティング：ユーザーの依頼内容を分析し、どの専門AIやツール（計算機、検索など）に任せるのが最適かを判断して振り分ける機能です。
並列化：1つの大きなタスクを複数の小さなタスクに分解し、同時に実行することで処理スピードを劇的に上げる仕組みです。
オーケストレーター：全体の司令塔です。タスクの進捗を管理し、複数のAIやツールの実行順序をコントロールします。
評価者（エバリュエーター）：AIが出した成果物をチェックする役割です。設定した基準に達していない場合は、AIに「やり直し」を命じます。

主要なAIエージェントツールと外部連携

2026年現在、特定の用途に特化した強力なエージェントツールが続々と登場しています。

重要語句：最新のツール事例と規格

GenSpark：複数のAIモデルを組み合わせ、AIエージェントが自律的に情報を収集・統合して、独自の百科事典のような回答ページを作成するサービスです。
Manus / Skywork AI：Webブラウザやデスクトップアプリを人間のように操作し、複雑なタスク（予約、データ入力、調査）を完結させる「汎用AIエージェント」の代表例です。
MCP（Model Context Protocol）：異なるAIツールやデータソース同士を繋ぐための「共通のルール（プロトコル）」です。これがあるおかげで、AIエージェントが外部のアプリやデータをスムーズに扱えるようになります。

考えてみよう！：AIエージェントの使いどころ

日常の業務の中で、「ワークフロー型（手順固定）」と「自律型（手順を任せる）」のどちらが向いているか考えてみましょう。

毎月同じフォーマットで行う「請求書データの抽出」
今まで扱ったことのない新製品の「競合他社の市場分析レポート作成」

解答例

1は手順が決まっているため「ワークフロー型」が適しています。ミスが許されない定型作業では、手順を固定した方が安定します。
2は調査対象や比較項目を柔軟に考える必要があるため「自律型」が適しています。AIエージェントに目的を伝え、自ら最適な調査手法を組み立ててもらうのが効率的です。

練習問題：エージェントの役割

問題

AIエージェントにおいて、複数のAIが同時にタスクを実行することで効率を上げる仕組みと、成果物の品質をチェックして必要に応じて修正を促す役割の名称をそれぞれ答えなさい。

解答

同時に実行：並列化
品質のチェック：評価者（エバリュエーター）

【3-5】3章 -章末課題- [最新動向の理解と活用]

問題

RAG（検索拡張生成）システムを構築しているプロジェクトにおいて、以下の状況が発生しました。　　
それぞれ適切な対処法や用語を選択してください。

1. マニュアルをAIに読み込ませる際、検索効率を上げるために文章を1,000文字程度の塊に分割しました。この分割された単位を何と呼びますか。
2. RAGで検索した結果、マニュアルにはない最新の法律についても回答させたい場合、まず何を確認・更新すべきですか。
3. AIが自律的に外部のWebサイトを巡回して情報を集め、レポートまで作成してくれる仕組みを導入したい場合、どのような技術が最も適していますか。

解答

1. チャンク
2. ベクトルデータベース内の情報（外部資料データ）
3. AIエージェント

学習を振り返ろう

主要ツールの名前（Claude, Gemini, Soraなど）は試験で頻出です。それぞれの開発元とセットで覚えましょう。
RAGのキーワードである「チャンク」と「ベクトルデータベース」の意味を混同しないように整理してください。
ディープフェイクがもたらす偽情報（ディスインフォメーション）のリスクについて、有資格者として説明できるか確認しましょう。

これで「現在の生成AIの動向」の解説を終わります。次の章に進みましょう。

前の章に戻る次の章に進む