INDEX
目次
2章 生成AIの技術とモデル
この章の目安学習時間:3時間
この章で到達できるゴール:
- 生成AIを支えるTransformerと最新のGPTモデルを理解する
- ChatGPT以外の主要な生成AIツールを把握する
【2-1】生成モデルの誕生と発展
目安の学習時間:60分
深層学習から生成AIへ
1章で学んだディープラーニング(深層学習)の進化により、データを分類するだけでなく、新しいデータを自ら作り出す生成AI(ジェネレーティブAI)が登場しました。
その進化の過程には、いくつかの重要な技術的ステップがあります。
その進化の過程には、いくつかの重要な技術的ステップがあります。
2つの強力な生成手法:VAEとGAN
Transformerが登場する前、画像生成などの分野で主流だった2つの手法を理解しましょう。
|
手法名
|
仕組み
|
特徴
|
|---|---|---|
|
VAE(変分自己符号化器)
|
情報を一度凝縮(エンコーダ)し、そこから復元(デコーダ)するプロセスで「ノイズ」を混ぜる。
|
「潜在ベクトル」を操作することで、元のデータに似た新しいデータを生成できます。
|
|
GAN(敵対的生成ネットワーク)
|
「作る係(生成器)」と「見破る係(識別器)」が競い合う。
|
お互いに切磋琢磨することで、本物と見分けがつかないほど精巧なデータを作れます。
|
順序のあるデータを扱う仕組み
文章のように順番に意味があるシーケンスデータを扱うために、RNN(回帰型ニューラルネットワーク)が開発されました。
・リカレント層:過去の情報を「隠れ層」に保持し、次の処理に活かす層です。
・LSTM(長・短期記憶):RNNの弱点だった「長い情報を覚えられない」点を改良したモデルです。
・LSTM(長・短期記憶):RNNの弱点だった「長い情報を覚えられない」点を改良したモデルです。
【2-2】TransformerとGPT
目安の学習時間:60分
革命児Transformer
2017年に発表されたTransformerモデルは、文章を端から順番に読むのではなく、文章全体を一度に処理できる「アーキテクチャ」を採用し、AIの世界を一変させました。
Transformerの核心技術
- Attention層(自己注意力 / Self-Attention):文章の中で「どの言葉とどの言葉が深く関係しているか」に注目する仕組みです。これにより、長い文章でも文脈を正確に捉えることが可能になりました。
- 位置エンコーディング:言葉の順番(位置情報)を数学的なベクトルとして付け加え、単語の並び順を正しく把握します。
また、Googleが開発したBERTモデルもTransformerをベースにしています。
文章の穴埋め問題である「MLM(Masked Language Model)」や、次の文章を予測する「NSP(Next Sentence Prediction)」によって、言葉の理解を深めました。
これを発展させた「RoBERTa」や軽量版の「ALBERT」も存在します。
文章の穴埋め問題である「MLM(Masked Language Model)」や、次の文章を予測する「NSP(Next Sentence Prediction)」によって、言葉の理解を深めました。
これを発展させた「RoBERTa」や軽量版の「ALBERT」も存在します。
GPTモデルの劇的な進化
OpenAIが開発したGPT(Generative Pre-trained Transformer)シリーズは、モデルの規模を拡大することで知能を飛躍させてきました。
- GPT-1 / GPT-2:大規模なデータセットを用いた学習により、自然言語処理(NLP)の基盤を築きました。
- GPT-3:パラメータ数が1750億個(GPT-2の約117倍)へと劇的に増加しました。これにより、わずかな例示で新しいタスクをこなす「Few-shot学習」が可能になりました。
- スケーリング則(スケーリング・ロー):計算量、データ量、パラメータ数を増やすほど、AIの性能が予測通りに向上するという法則が注目されました。
- InstructGPT:2022年1月、GPT-3をベースに、人間のフィードバックに基づいて出力を矯正する「RLHF」を採用して開発されたモデルです 。モデルを人間の意図に合わせることは「アライメント(Alignment)」と呼ばれ、より人間にとって適切な回答や文章を生成できるよう設計されています 。
- GPT-3.5 / ChatGPT:2022年11月、GPT-3.5を対話向けに「ファインチューニング」したWebアプリケーションサービスであるChatGPTが登場しました。膨大なデータとRLHFの導入により実用的な会話能力を実現しましたが、初期のChatGPTには2021年9月までの情報しか提供できないという制約がありました 。
※ファインチューニング: 特定の用途のためにモデルを微調整すること
GPT-4の実力と多言語対応
最新の主力モデルであるGPT-4は、文字だけでなく画像も理解できるマルチモーダル機能を備え、その推論能力は専門家レベルに達しています。
|
評価項目
|
GPT-4の特徴と実績
|
|---|---|
|
専門的知識
|
アメリカの模擬司法試験において、受験者の上位10%(90パーセンタイル)に入るスコアで合格する実力を持っています。
|
|
多言語精度
|
検証された26言語中24言語において、前世代(GPT-3.5)の英語性能を上回る精度を記録しました。
|
|
日本語の特性
|
日本語でも高い精度を誇りますが、極めて専門的な問題では「一度英語に翻訳してから考えさせたほうが正解率が上がる」という傾向が依然として見られます。
|
最新モデルと専門機能
OpenAIは現在も、特定の用途に特化した機能や、さらに高性能なモデルを次々と発表しています。
- 最新モデルの系譜:GPT-4o(オムニ)、推論に特化したGPT-o1、さらにその先のo3、o4、4.1、そして次世代のGPT-5へと開発が進んでいます。
- 専門的なツール群:
- Code Interpreter(高度なデータ分析):プログラムを書いて実行することで、複雑な計算やグラフ作成を行います。
- GPTs:特定の目的に合わせて、誰でも自分専用のChatGPTをカスタマイズできる機能です。
- Codex:プログラミングコードの生成に特化したモデルです。
- Image Generation(画像生成機能):GPT-4o等に統合された機能。従来の拡散モデルではなく「自己回帰モデル」を採用し、左上から順に生成を行います。複雑な画像構成や添付画像の参照に対応しています。
- 新たなメディア生成:動画生成AIの「Sora」や、コンピュータ操作を代行するエージェント機能「Operator」なども発表され、テキスト以外の領域へも広がっています。
考えてみよう!:ハルシネーションのリスク
生成AIが「もっともらしい嘘」をつく原因は、AIが言葉の意味を真に理解しているのではなく、過去のデータから「次に続く確率が高い言葉」を選んでいるからです。
この特性を知った上で、仕事でAIを使う際に、絶対に人間が関与しなければならないプロセスは何でしょうか?
この特性を知った上で、仕事でAIを使う際に、絶対に人間が関与しなければならないプロセスは何でしょうか?
解答例
出力された情報の正確性を、信頼できる一次情報(公的な統計や専門書など)と照らし合わせて確認するプロセスです。
また、倫理的に問題がないか、誰かを傷つける内容になっていないかの最終判断も、人間の責任で行う必要があります。
また、倫理的に問題がないか、誰かを傷つける内容になっていないかの最終判断も、人間の責任で行う必要があります。
【2-3】主要な生成AIツール
目安の学習時間:30分
多彩な生成AIサービス
現在はChatGPT以外にも、世界的なテック企業が強力な生成AIを提供しています。
それぞれのツールの名前と開発元を把握しておきましょう。
それぞれのツールの名前と開発元を把握しておきましょう。
|
ツール名
|
開発元
|
特徴
|
|---|---|---|
|
Gemini
|
Google
|
Google検索やGoogleドキュメント等との親和性が高いツールです。
|
|
Claude
|
Anthropic
|
安全性が高く、自然で知的な文章作成を得意としています。
|
|
Copilot
|
Microsoft
|
Office製品(Excel, PowerPoint等)への組み込みが強力です。
|
考えてみよう!:適切なツールの選択
生成AIパスポート有資格者には、各ツールの特徴(得手不得手)を理解し、適切なツールを選択することが期待されています。
例えば、最新のニュースに基づいた正確な情報を得たい場合、どのツールが適しているでしょうか?
例えば、最新のニュースに基づいた正確な情報を得たい場合、どのツールが適しているでしょうか?
解答例
Google検索と連携している「Gemini」や、ウェブ検索機能を備えた「ChatGPT(GPT-4oなど)」が適しています。
一方、小説のように情緒豊かな長文を書きたい場合は「Claude」が好まれることもあります。
一方、小説のように情緒豊かな長文を書きたい場合は「Claude」が好まれることもあります。
【2-4】2章 -章末課題- 生成技術の理解
問題
- 2017年に発表され、現在の生成AIの爆発的進化のきっかけとなったモデルの名称を答えなさい。
- ChatGPT(GPT-3.5以降)の性能が飛躍的に向上した要因として最も適切なものを次から選びなさい
A. 処理速度の向上 B. RLHFの導入 C. パラメータの削減 - 「生成器」と「識別器」の2つのネットワークを競わせる手法の名称を答えなさい。
- AIがもっともらしい嘘をつく現象を何と呼びますか。
解答・解説
1. Transformerモデル:Attention Mechanism(注意機構)を軸とした画期的なアーキテクチャです。
2. B. RLHFの導入:人間のフィードバックを学習に取り入れることで、実用性が飛躍的に高まりました。
3. GAN(敵対的生成ネットワーク):偽造者と鑑定士のように競わせる仕組みです。
4. ハルシネーション(Hallucination):日本語では「幻覚」とも訳されます。
2. B. RLHFの導入:人間のフィードバックを学習に取り入れることで、実用性が飛躍的に高まりました。
3. GAN(敵対的生成ネットワーク):偽造者と鑑定士のように競わせる仕組みです。
4. ハルシネーション(Hallucination):日本語では「幻覚」とも訳されます。
これで「生成AIの技術とモデル」の解説を終わります。
次の章に進みましょう。
次の章に進みましょう。
