生成AIの仕組みを知る | WEBCOACH
LESSON 1-3

生成AIの仕組みを知る

Chapter 1: AI基礎知識 / 所要時間:約15分

このレッスンのゴール
⏱ 約15分

テキストや画像がAIによって「創り出される」仕組みの概要を、比喩を使ってイメージできるようになる

🎬 イメージしてみよう

スマホで文字を打っているとき、「今日は」と入力すると「良い天気ですね」「お疲れ様です」と候補が出てきますよね。

実は、ChatGPTのような文章生成AIもこの「予測変換」の超・進化版です。
ただし、数十文字ではなく、インターネット上の膨大な文章を学習した上での予測変換。

では、画像はどうやって生まれるのか?——
砂の塊から彫刻を削り出す彫刻家をイメージしてみてください。

⚡ このレッスンで躓きやすいポイント
  • 「LLM」「拡散モデル」と聞くと難しそうだが、比喩で理解すればOK。数式は不要
  • AIが「理解」しているように見えるが、実際は統計的な予測をしているだけという点を忘れがち

1. LLM:文章が生まれる仕組み

ChatGPTをはじめとする文章生成AIの心臓部が、「LLM(Large Language Models:大規模言語モデル)」と呼ばれる技術です。基本的な仕組みは、スマホの「予測変換」の非常に高度なものとイメージしてください。

ポイント

LLM (Large Language Models):大量のテキストデータを学習し、人間が使うような自然な言葉を理解・生成することに特化したAIモデル。「大規模」の名の通り、膨大な量の文章を学習しています。

LLMは、入力された文章に続く言葉として、「次にどの言葉が来る確率が最も高いか」をものすごい速さで予測し、それを繋げていくことで文章を生成しています。

LLMの文章生成プロセス

「今日は良い天気なので、」
»
公園に(80%)
洗濯物が(60%)
散歩に(50%)
»
「公園に」を選択

このプロセスを何度も繰り返すことで、自然な文章が組み立てられていく

LLMは、インターネット上の膨大なウェブページ、書籍、記事などのテキストデータを「読む」ことで、言葉の繋がり方、文法、文脈、さらには様々な知識や表現のパターンを学習しています。だからこそ、人間が書いたような自然な文章を生成できるのです。

注意

LLMは人間のように自然な文章を生成しますが、深い意味での「理解」や「意識」「感情」を持っているわけではありません。統計的に「次に来る確率が最も高い言葉」を選んでいるに過ぎません。そのため、事実と異なる情報をもっともらしく生成してしまう「ハルシネーション(幻覚)」が起きることがあります。

✏️ 確認クイズ

LLM(大規模言語モデル)が文章を生成する基本的な仕組みとして、最も適切な説明はどれ?

正解! LLMは「高度な予測変換」のようなもの。膨大なテキストデータから学習した言葉のパターンに基づき、次に来る確率が最も高い言葉を選んで繋げていくことで文章を生成しています。
💡 こんな場面で使える!

「ChatGPTってどうやって文章書いてるの?」と聞かれたら、「スマホの予測変換のめちゃくちゃ賢いバージョン。膨大な文章を学習して、次に来そうな言葉を超高速で予測してるんだよ」と説明できます。

2. 拡散モデル:絵が生まれる仕組み

MidjourneyやStable Diffusionといった画像生成AIで採用されている主要な技術が「拡散モデル(Diffusion Model)」です。

ポイント

拡散モデル (Diffusion Model):ノイズ(ランダムな点々)だけの状態から、少しずつノイズを取り除いていくことで、最終的に鮮明な画像を生成する技術です。

1
ノイズを加える(フォワードプロセス)

綺麗な元画像に少しずつノイズ(砂嵐のようなザラザラ)を加え、最終的に元が何だったか分からないノイズだらけの画像にする

2
ノイズ除去を学習(リバースプロセス)

ノイズを正確に予測し除去することで元の画像を復元する訓練を何度も繰り返す

3
ノイズから新しい画像を生成

ランダムなノイズから、ユーザーの指示(プロンプト)を頼りに少しずつノイズを除去し、新しい画像を「浮かび上がらせる」

拡散モデルのイメージ:
「ノイズという砂の塊から、プロンプトという設計図を頼りに、少しずつ余計な部分を削り取って、理想の彫刻を掘り出していく彫刻家」

拡散モデルの仕組み図解

拡散モデルの仕組みイメージ

✏️ 確認クイズ

拡散モデル(Diffusion Model)が画像を生成する仕組みの説明として正しいものはどれ?

正解! 拡散モデルは「ノイズの除去」が核心技術です。砂の塊から彫刻を削り出すように、ランダムなノイズからプロンプト(指示)に合った画像を少しずつ「浮かび上がらせる」仕組みです。
💡 こんな場面で使える!

「AIの絵って、どこかからコピーしてるんでしょ?」と聞かれたとき、「実はノイズ(砂嵐)から新しい画像を生成しているんだよ。彫刻家が砂から像を削り出すようなイメージ」と正しく説明できます。

3. 他にもある、色々な生成AI

文章と画像だけでなく、生成AIの世界はさらに広がっています。

音楽を創るAI

Suno AIなどのサービスでは、歌詞やスタイルを指定するだけで、数分でボーカル付きの楽曲が完成。動画のBGM作成やゲームの効果音制作での活用が期待されています。

動画を創るAI

OpenAIの「Sora」は、テキストから数秒〜1分程度のリアルな動画を生成。映画制作、広告、教育コンテンツなど映像分野に大きな変化をもたらすと期待されています。

コードを書くAI

GitHub Copilotなどが代表的。自然言語で指示を出すだけで、実際に動作するプログラミングコードを生成。開発スピードの大幅向上に貢献しています。

その他の生成AI

3Dモデルを生成するAI、人間の話し声をリアルに再現する音声合成AIなど、生成AIの進化は多岐にわたり、可能性は広がり続けています。

💡 こんな場面で使える!

フリーランスのWebデザイナーとして、動画用BGMやSNS投稿用の画像素材など、これまで外注していた作業の一部を生成AIで効率化できる可能性があります。

4. 章末課題:生成AIの仕組み説明チャレンジ

あなたは、AIに全く詳しくない友人に「ChatGPTみたいな、文章を作るAIって、一体どうやって文章を考えてるの?」と質問されました。「高度な予測変換」という比喩を使って、友人にわかりやすく説明してみましょう。

説明のポイント

  • 専門用語を避ける — 「予測変換」「パターン学習」のようなわかりやすい言葉を使う
  • 具体的な例を挙げる — 「今日は良い天気なので、」のようなフレーズで言葉が繋がる様子を見せる
  • 「理解」との違いに触れる — 人間のように考えているわけではない、というニュアンスを伝える
ポイント

誰かに何かを説明するということは、自分自身の理解度を測る良い機会です。学んだことを自分の言葉で誰かに伝えてみることを意識してみてください。

まとめ
  • LLM(大規模言語モデル) — 「高度な予測変換」。次に来る確率が最も高い言葉を予測して繋げて文章を生成
  • ハルシネーション — LLMは「理解」しているわけではないため、事実と異なる情報を生成する可能性がある
  • 拡散モデル — ノイズから画像を「浮かび上がらせる」。砂の塊から彫刻を削り出す彫刻家のイメージ
  • 生成AIの広がり — 文章・画像のほか、音楽・動画・コード・3Dモデル・音声など多岐にわたる
理解度チェック(クリックして開く)
LLMの仕組みを「予測変換」の比喩で説明できる
LLMは膨大なテキストを学習し、入力に対して「次に来る確率が最も高い言葉」を予測して繋げることで文章を生成します。スマホの予測変換の超高度版です。
ハルシネーション(幻覚)とは何か説明できる
AIが事実と異なる情報を、あたかも真実であるかのように自然な文章で生成してしまう現象です。LLMは統計的な予測をしているだけで、「理解」しているわけではないために起こります。
拡散モデルの仕組みを「彫刻家」の比喩で説明できる
ランダムなノイズ(砂の塊)から、プロンプト(設計図)を頼りに、ノイズを除去(余計な部分を削り取る)することで、画像(彫刻作品)を浮かび上がらせます。
文章・画像以外の生成AIの種類を3つ挙げられる
音楽生成AI(Suno AI等)、動画生成AI(Sora等)、コード生成AI(GitHub Copilot等)、3Dモデル生成AI、音声合成AIなどがあります。