2章生成AIの技術とモデル

前の章に戻る次の章に進む

2章生成AIの技術とモデル

この章の目安学習時間：3時間

この章で到達できるゴール：

生成AIを支えるTransformerと最新のGPTモデルを理解する
ChatGPT以外の主要な生成AIツールを把握する

【2-1】生成モデルの誕生と発展

目安の学習時間：60分

深層学習から生成AIへ

1章で学んだディープラーニング（深層学習）の進化により、データを分類するだけでなく、新しいデータを自ら作り出す生成AI（ジェネレーティブAI）が登場しました。
その進化の過程には、いくつかの重要な技術的ステップがあります。

重要語句：初期の生成アプローチ

ボルツマンマシン：物理学の法則を応用し、学習を行うニューラルネットワークの一種です。制限を加えた「制約付きボルツマンマシン」なども開発されました。
自己回帰モデル：過去のデータから次に続くデータを予測する仕組みで、現在の文章生成の基礎となっています。
CNN（畳み込みニューラルネットワーク）：画像認識で主に使われますが、画像生成の土台にもなりました。

畳み込み：画像などの入力データに対して「フィルタ」を重ね合わせ、端から順にずらしながら計算を行う処理のことです。これにより、画像から「エッジ（境界線）」や「模様」などの局所的な特徴を抽出します。
抽出された結果は「特徴マップ」と呼ばれ、AIが画像を理解するための重要なヒントになります。

2つの強力な生成手法：VAEとGAN

Transformerが登場する前、画像生成などの分野で主流だった2つの手法を理解しましょう。

手法名	仕組み	特徴
VAE（変分自己符号化器）	情報を一度凝縮（エンコーダ）し、そこから復元（デコーダ）するプロセスで「ノイズ」を混ぜる。	「潜在ベクトル」を操作することで、元のデータに似た新しいデータを生成できます。
GAN（敵対的生成ネットワーク）	「作る係（生成器）」と「見破る係（識別器）」が競い合う。	お互いに切磋琢磨することで、本物と見分けがつかないほど精巧なデータを作れます。

順序のあるデータを扱う仕組み

文章のように順番に意味があるシーケンスデータを扱うために、RNN（回帰型ニューラルネットワーク）が開発されました。

・リカレント層：過去の情報を「隠れ層」に保持し、次の処理に活かす層です。
・LSTM（長・短期記憶）：RNNの弱点だった「長い情報を覚えられない」点を改良したモデルです。

【2-2】TransformerとGPT

目安の学習時間：60分

革命児Transformer

2017年に発表されたTransformerモデルは、文章を端から順番に読むのではなく、文章全体を一度に処理できる「アーキテクチャ」を採用し、AIの世界を一変させました。

Transformerの核心技術

Attention層（自己注意力 / Self-Attention）：文章の中で「どの言葉とどの言葉が深く関係しているか」に注目する仕組みです。これにより、長い文章でも文脈を正確に捉えることが可能になりました。
位置エンコーディング：言葉の順番（位置情報）を数学的なベクトルとして付け加え、単語の並び順を正しく把握します。

また、Googleが開発したBERTモデルもTransformerをベースにしています。
文章の穴埋め問題である「MLM（Masked Language Model）」や、次の文章を予測する「NSP（Next Sentence Prediction）」によって、言葉の理解を深めました。
これを発展させた「RoBERTa」や軽量版の「ALBERT」も存在します。

GPTモデルの劇的な進化

OpenAIが開発したGPT（Generative Pre-trained Transformer）シリーズは、モデルの規模を拡大することで知能を飛躍させてきました。

GPT-1 / GPT-2：大規模なデータセットを用いた学習により、自然言語処理（NLP）の基盤を築きました。
GPT-3：パラメータ数が1750億個（GPT-2の約117倍）へと劇的に増加しました。これにより、わずかな例示で新しいタスクをこなす「Few-shot学習」が可能になりました。
- スケーリング則（スケーリング・ロー）：計算量、データ量、パラメータ数を増やすほど、AIの性能が予測通りに向上するという法則が注目されました。
InstructGPT：2022年1月、GPT-3をベースに、人間のフィードバックに基づいて出力を矯正する「RLHF」を採用して開発されたモデルです。モデルを人間の意図に合わせることは「アライメント（Alignment）」と呼ばれ、より人間にとって適切な回答や文章を生成できるよう設計されています。
GPT-3.5 / ChatGPT：2022年11月、GPT-3.5を対話向けに「ファインチューニング」したWebアプリケーションサービスであるChatGPTが登場しました。膨大なデータとRLHFの導入により実用的な会話能力を実現しましたが、初期のChatGPTには2021年9月までの情報しか提供できないという制約がありました。
※ファインチューニング：特定の用途のためにモデルを微調整すること

GPT-4の実力と多言語対応

最新の主力モデルであるGPT-4は、文字だけでなく画像も理解できるマルチモーダル機能を備え、その推論能力は専門家レベルに達しています。

評価項目	GPT-4の特徴と実績
専門的知識	アメリカの模擬司法試験において、受験者の上位10％（90パーセンタイル）に入るスコアで合格する実力を持っています。
多言語精度	検証された26言語中24言語において、前世代（GPT-3.5）の英語性能を上回る精度を記録しました。
日本語の特性	日本語でも高い精度を誇りますが、極めて専門的な問題では「一度英語に翻訳してから考えさせたほうが正解率が上がる」という傾向が依然として見られます。

考えてみよう！：ハルシネーションのリスク

生成AIが「もっともらしい嘘」をつく原因は、AIが言葉の意味を真に理解しているのではなく、過去のデータから「次に続く確率が高い言葉」を選んでいるからです。
この特性を知った上で、仕事でAIを使う際に、絶対に人間が関与しなければならないプロセスは何でしょうか？

解答例

出力された情報の正確性を、信頼できる一次情報（公的な統計や専門書など）と照らし合わせて確認するプロセスです。
また、倫理的に問題がないか、誰かを傷つける内容になっていないかの最終判断も、人間の責任で行う必要があります。

【2-3】主要な生成AIツール

目安の学習時間：30分

多彩な生成AIサービス

現在はChatGPT以外にも、世界的なテック企業が強力な生成AIを提供しています。
それぞれのツールの名前と開発元を把握しておきましょう。

ツール名	開発元	特徴
Gemini	Google	Google検索やGoogleドキュメント等との親和性が高いツールです。
Claude	Anthropic	安全性が高く、自然で知的な文章作成を得意としています。
Copilot	Microsoft	Office製品（Excel, PowerPoint等）への組み込みが強力です。

考えてみよう！：適切なツールの選択

生成AIパスポート有資格者には、各ツールの特徴（得手不得手）を理解し、適切なツールを選択することが期待されています。
例えば、最新のニュースに基づいた正確な情報を得たい場合、どのツールが適しているでしょうか？

解答例

Google検索と連携している「Gemini」や、ウェブ検索機能を備えた「ChatGPT（GPT-4oなど）」が適しています。
一方、小説のように情緒豊かな長文を書きたい場合は「Claude」が好まれることもあります。

【2-4】2章 -章末課題- 生成技術の理解

問題

2017年に発表され、現在の生成AIの爆発的進化のきっかけとなったモデルの名称を答えなさい。
ChatGPT（GPT-3.5以降）の性能が飛躍的に向上した要因として最も適切なものを次から選びなさい
A. 処理速度の向上　B. RLHFの導入　C. パラメータの削減
「生成器」と「識別器」の2つのネットワークを競わせる手法の名称を答えなさい。
AIがもっともらしい嘘をつく現象を何と呼びますか。

解答・解説

1. Transformerモデル：Attention Mechanism（注意機構）を軸とした画期的なアーキテクチャです。
2. B. RLHFの導入：人間のフィードバックを学習に取り入れることで、実用性が飛躍的に高まりました。
3. GAN（敵対的生成ネットワーク）：偽造者と鑑定士のように競わせる仕組みです。
4. ハルシネーション（Hallucination）：日本語では「幻覚」とも訳されます。

これで「生成AIの技術とモデル」の解説を終わります。
次の章に進みましょう。

前の章に戻る次の章に進む