2章「生成AI」を徹底解剖

INDEX

前の章に戻る次の章に進む

2章「生成AI」を徹底解剖

この章の目安学習時間：35分

この章で到達できるゴール

テキストや画像がAIによって「創り出される」仕組みの概要を、比喩などを使ってイメージできるようになる
生成AIにはテキストや画像以外にも、様々な種類があることを知る

【2-1】文章が生まれる仕組み「LLM」

目安の学習時間：10分

LLM：超高性能な「予測変換」

ChatGPTをはじめとする文章生成AIの心臓部とも言えるのが、「LLM（Large Language Models：大規模言語モデル）」と呼ばれる技術です。
名前は難しそうですが、その基本的な仕組みは、実は私たちが普段スマートフォンなどで使っている「予測変換」の非常に高度なもの、とイメージすると分かりやすいかもしれません。

重要語句：LLM（大規模言語モデル）

LLM (Large Language Models)：大量のテキストデータを学習し、人間が使うような自然な言葉を理解したり、生成したりすることに特化したAIモデルの一種です。
「大規模」という名前の通り、非常に多くのパラメータ（学習によって調整される数値）を持ち、膨大な量の文章を学習しています。

LLMは、入力された文章に続く言葉として、「次にどの言葉が来る確率が最も高いか」をものすごい速さで予測し、それを繋げていくことで文章を生成しています。

例えば、「今日は良い天気なので、」という文章が入力されたとします。
するとLLMは、これまでに学習した膨大なテキストデータの中から、「今日は良い天気なので、」の次に続きそうな言葉の候補をたくさん思い浮かべます。

「公園に」
「洗濯物が」
「散歩に」
「気分が」

そして、それぞれの候補が続く確率を計算し、最も確率が高い（最もそれらしい）言葉を選びます。
仮に「公園に」が選ばれたとしましょう。

次に、「今日は良い天気なので、公園に」という文章に対して、さらに次に続く言葉を予測します。
「行きたい。」「行こう。」「ピクニックでも」など。

このプロセスを何度も繰り返すことで、自然な文章が組み立てられていくのです。

LLMは、インターネット上の膨大なウェブページ、書籍、記事などのテキストデータを「読む」ことで、言葉の繋がり方、文法、文脈、さらには様々な知識や表現のパターンを学習しています。
だからこそ、人間が書いたような自然で、時には創造的な文章を生成することができるのです。

コラム：LLMは本当に「理解」しているのか？

豆知識：LLMの「理解」の限界

LLMは、まるで人間のように自然な文章を生成するため、私たちが話す言葉の意味を本当に「理解」しているように見えることがあります。
しかし、現在のLLMは、人間が持つような深い意味での「理解」や「意識」「感情」を持っているわけではありません。
あくまで、学習データに基づいて、統計的に「次に来る確率が最も高い言葉」を選んでいるに過ぎない、という点は重要なポイントです。
そのため、LLMは時として、事実とは異なる情報や、文脈上は自然でも論理的に破綻した内容を、あたかも真実であるかのように堂々と生成してしまうことがあります。これは「ハルシネーション（幻覚）」と呼ばれ、生成AIを利用する上で注意すべき点の一つです。（ハルシネーションについては、3章で詳しく触れます）
LLMの能力は日々進化していますが、現時点ではその限界を理解し、生成された情報を鵜呑みにせず、批判的に吟味する姿勢が大切です。

【2-2】絵が生まれる仕組み「拡散モデル」

目安の学習時間：10分

拡散モデル：ノイズから絵を掘り出す彫刻家

文章だけでなく、驚くほど高品質な画像を生成するAIも登場し、大きな話題となっています。
MidjourneyやStable Diffusionといった画像生成AIの多くで採用されている主要な技術の一つが「拡散モデル（Diffusion Model）」です。

重要語句：拡散モデル（Diffusion Model）

拡散モデル (Diffusion Model)：画像生成AIで広く使われている技術の一つ。
ノイズ（ランダムな点々）だけの状態から、少しずつノイズを取り除いていくことで、最終的に鮮明な画像を生成します。

拡散モデルが画像を生成する仕組みは、少しユニークです。
大きく分けて以下のステップで学習し、画像を生成します。

フォワードプロセス（ノイズを加える過程）：
- まず、AIはたくさんの綺麗な元画像（例えば、猫の写真）に、少しずつランダムなノイズ（砂嵐のようなザラザラした点々）を加えていきます。
- 最終的には、元の画像が何だったのか全く分からない、ただのノイズだらけの画像になるまでノイズを加え続けます。
リバースプロセス（ノイズを除去する学習）：
- 次に、AIはノイズが加えられる前の各段階の画像と、加えられたノイズの情報をペアで学習します。
- そして、ノイズが加えられた画像から、加えられたノイズを正確に予測し、それを取り除くことで元の画像を復元できるように訓練されます。
- この「ノイズを除去する」訓練を何度も繰り返します。
生成（ノイズから新しい画像を創り出す）：
- 十分に学習が終わったAIは、今度は全くランダムなノイズ（誰かが用意した元画像ではない、ただの砂嵐）からスタートします。
- そして、ユーザーが与えた指示（「プロンプト」と呼ばれます。例えば「青い目の猫、サイバーパンク風」など）を頼りに、学習した「ノイズを除去する能力」を使って、あたかも、ノイズの奥に隠れていた画像を浮かび上がらせるように、少しずつノイズを取り除きながら指示に合った新しい画像を「復元」していきます。

このプロセスは、「ノイズという砂の塊から、プロンプトという指示書（設計図）を頼りに、少しずつ余計な部分を削り取って、理想の彫刻を掘り出していく彫刻家」のようなイメージで捉えると分かりやすいかもしれません。
最初はただの砂の塊（ノイズ）ですが、彫刻家（AI）が巧みにノミを振るう（ノイズを除去する）ことで、徐々に形が見え始め、最終的に素晴らしい作品（画像）が完成するのです。

【2-3】他にもある！色々な生成AI

目安の学習時間：10分

ここまで、文章を生成するLLMと、画像を生成する拡散モデルについて見てきました。
しかし、生成AIの世界はこれだけにとどまりません。
他にも様々な種類のデータを生成できるAIが開発され、注目を集めています。

音楽を創るAI

「悲しい雰囲気のバラードを」「アップテンポなダンスミュージックを」といった指示（プロンプト）や、参考となる音楽のジャンル、雰囲気、使用楽器などを指定するだけで、オリジナルの楽曲や効果音を自動で生成してくれるAIです。

例えば、Suno AIのようなサービスでは、歌詞を入力したり、曲のスタイルを指定したりするだけで、数分でボーカル付きの楽曲が完成します。
鼻歌から曲を生成したり、既存の曲の続きを生成したりする研究も進んでいます。
これまで専門的な知識や技術が必要だった作曲が、誰でも手軽に楽しめるようになる可能性を秘めています。
動画のBGM作成や、ゲームの効果音制作など、様々な分野での活用が期待されています。

動画を創るAI

テキストによる指示（プロンプト）や、入力された画像、既存の短い動画などを元に、全く新しい短い動画クリップを生成するAIも登場しています。

特にOpenAIが発表した「Sora (ソラ)」は、非常に高品質で現実と見紛うような動画を生成できるとして、世界中に衝撃を与えました。
例えば「東京の街を散歩するスタイリッシュな女性」といったテキストから、数秒～1分程度のリアルな動画を生成できます。
まだ開発途上の技術であり、一般ユーザーが自由に使えるようになるには時間がかかるかもしれませんが、映画制作、広告、教育コンテンツなど、映像が関わるあらゆる分野に革命をもたらす可能性を秘めています。

コードを書くAI

「こういう機能を持ったウェブサイトを作りたい」「この処理を自動化するPythonのプログラムを書いて」といった自然言語による指示（プロンプト）に基づいて、実際に動作するプログラミングコードを生成してくれるAIです。

GitHub Copilotなどが代表的で、プログラマーがコードを書く際に、次に書くべきコードを予測して提案したり、コメントから関数全体を自動生成したりしてくれます。
これにより、開発のスピードが大幅に向上したり、プログラミング初学者が学習の助けを得られたりといったメリットがあります。
一方で、生成されたコードの品質やセキュリティ、著作権の問題など、議論すべき点も存在します。
しかし、ソフトウェア開発のあり方を大きく変える可能性のある技術として、注目されています。

これらの他にも、3Dモデルを生成するAI、人間の話し声をリアルに再現する音声合成AIなど、生成AIの進化は多岐にわたっており、その可能性はますます広がっています。

【2-4】2章-章末課題- 生成AIの仕組み説明チャレンジ

目安の学習時間：5分

問題

あなたは、AIに全く詳しくない友人に「最近よく聞くChatGPTみたいな、文章を作るAIって、一体どうやって文章を考えてるの？本当に自分で考えてるの？」と質問されました。
この2章で学んだ、文章生成AI（LLM）の仕組みに関する「超高性能な予測変換」という比喩を使って、友人に分かりやすく説明する文章を考えてみてください。
専門用語は避け、相手が「なるほど！」とイメージできるような説明を心がけましょう。

解答

（この問題は自由記述のため、明確な解答はありません）

解答の方向性の例：

「ねえねえ、ChatGPTみたいな文章作るAIって、実はスマホとかで文字打つときに出てくる予測変換あるじゃない？あれの、ものすごーく賢いバージョンみたいなものなんだよ。

例えば、『今日は良い』って入力したら、次に『天気』が来そうだな、とか、『公園』が続きそうだな、とか、AIが今まで読んだたくさんの文章の中から、一番もっともらしい言葉をものすごい速さで選んで繋げてるんだって。

だから、AI自身が人間みたいに『よし、次はこう書こう！』って考えてるっていうよりは、膨大な量の文章を読んで『こういう言い回しが多いな』とか『この言葉の後にはこの言葉がよく来るな』っていうパターンをめちゃくちゃ学習してて、それを元に、次に一番自然な言葉を予測して出してる感じなんだ。統計的に一番それっぽい言葉を選んでる、って言った方が近いかもね。
だから、時々ちょっと変なこと言っちゃうのも、そういう仕組みだからなんだって。」

解説

比喩で伝えることの重要性

生成AIの仕組み説明チャレンジ、お疲れ様でした。

LLMの「超高性能な予測変換」という比喩は、AIに詳しくない人にも、その本質的な動きを直感的に理解してもらうのに役立ちます。複雑な技術も、身近なものに例えることで、ぐっと理解しやすくなりますね。

説明のポイントは以下の通りです。

専門用語を避ける：「大規模言語モデル」や「パラメータ」といった言葉ではなく、「予測変換」「パターン学習」のような比較的わかりやすい言葉を選ぶ。
具体的な例を挙げる：「今日は良い天気なので、」のような具体的なフレーズで、言葉が繋がっていく様子をイメージさせる。
「理解」との違いに触れる（任意）：解答例のように、人間のように「考えている」わけではない、というニュアンスを伝えることで、より正確な理解を促すことができます。

誰かに何かを説明するということは、自分自身の理解度を測る良い機会にもなります。今後も、学んだことを自分の言葉で誰かに伝えてみることを意識してみてください。

これで「2章主役登場！「生成AI」を徹底解剖」の解説を終わります。
次の章では、これらの生成AIが具体的に「何ができて、何が苦手なのか」について、さらに掘り下げて見ていきましょう。

前の章に戻る次の章に進む