AIを味方にするプロンプトエンジニアリングの基本
【任意/応用編】プロンプト思考を"画像生成"に活かす
INDEX
目次

【任意/応用編】プロンプト思考を"画像生成"に活かす

この章の目安学習時間:20分

この章で到達できるゴール

(※画像生成AI体験コース履修者向け)
  • テキスト生成で学んだプロンプトの4大構成要素や思考法が、画像生成AIのプロンプト作成にも効果的に応用できることを体験を通じて理解する
  • より具体的で、自分のイメージに近い画像を生成するための、基本的なプロンプトの組み立て方がわかる

【任意-1】テキストと画像、プロンプトの共通点と違い

目安の学習時間:5分

根っこは同じ!AIとのコミュニケーション

ここまで、主にChatGPTのような「テキスト生成AI」を対象に、プロンプトの考え方や技術を学んできました。では、MidjourneyやStable Diffusion、Canva AI、Adobe Fireflyといった「画像生成AI」の場合はどうでしょうか?

実は、画像生成AIも、テキスト生成AIと同様に「言葉による指示(プロンプト)」で動きます。 そのため、これまで学んできた良いプロンプトの基本的な考え方、すなわち、

明確さ:何を描いてほしいのか、具体的に伝える。
具体性:曖昧な表現を避け、詳細な情報を盛り込む。
文脈の重要性:どのような状況の画像か、背景などを伝える。

といった原則は、画像生成プロンプトにおいても非常に重要です。AIに「何を」「どのように」描いてほしいのかを的確に伝えるという点では、テキスト生成も画像生成も根っこは同じ「AIとのコミュニケーション」なのです。

画像特有の「伝え方」のコツ

ただし、テキスト生成プロンプトとは異なり、画像生成プロンプトには特有の「伝え方のコツ」や、指定すべき要素があります。絵画や写真で「何を」「どのように」表現するかを考えるのと同じように、AIにも詳細な指示を与える必要があります。

画像生成プロンプトでよく使われる指示要素の例:
指示要素
具体例
説明
被写体 (Subject)
  • a cute cat
  • a futuristic city
  • a samurai warrior
画像の中心となる「何を描いてほしいか」を具体的に記述します。
画風・スタイル (Style)
  • oil painting (油絵風)
  • watercolor (水彩画風)
  • anime style (アニメ風)
  • pixel art (ピクセルアート風)
  • photorealistic (写真のようにリアル)
  • cyberpunk (サイバーパンク調)
  • ukiyo-e (浮世絵風)
どのようなタッチや雰囲気の画像にしたいかを指定します。特定の画家の名前(例: Van Gogh style)を指定することも有効です。
構図・アングル (Composition/Angle)
  • close-up (クローズアップ)
  • wide shot (広角ショット)
  • bird's-eye view (俯瞰)
  • low angle (ローアングル)
  • dynamic angle (ダイナミックなアングル)
被写体をどの視点から、どのような範囲で描いてほしいかを指定します。
色彩・雰囲気 (Color/Mood)
  • vibrant colors (鮮やかな色彩)
  • monochromatic (モノクロ)
  • warm color palette (暖色系)
  • moody lighting (雰囲気のある照明)
  • sunset glow (夕焼けの輝き)
  • dark and mysterious (暗く神秘的な)
画像全体の色のトーンや、醸し出してほしい雰囲気を伝えます。
被写体の詳細 (Details of Subject)
  • wearing a red dress (赤いドレスを着ている)
  • smiling happily (嬉しそうに微笑んでいる)
  • running through a forest (森の中を走っている)
  • with glowing eyes (目が光っている)
被写体の服装、表情、ポーズ、行動など、より具体的な描写を加えます。
背景 (Background)
  • in a futuristic city (未来都市の中)
  • on a tropical beach (熱帯のビーチで)
  • with a starry night sky (星空を背景に)
  • simple white background (シンプルな白い背景)
被写体の周囲の環境や背景を指定します。
その他 (Others)
  • highly detailed (非常に詳細に)
  • cinematic lighting (映画のような照明)
  • 4K, 8K (高解像度)
  • trending on ArtStation (ArtStationで流行しているような)
画質、照明の質、特定のプラットフォームでの人気のスタイルなど、より高度な指定も可能です。
これらの要素を組み合わせることで、より自分のイメージに近い画像をAIに生成させることができます。テキスト生成プロンプトと同様に、試行錯誤しながら、AIがどのように言葉を解釈し、画像に反映するのかを掴んでいくことが重要です。

【任意-2】実践!旅行プランの「キービジュアル」をAIで描く

目安の学習時間:15分

シナリオ設定と準備

このパートでは、3章の章末課題で作成した「卒業旅行プラン」のキービジュアルとなる画像を、画像生成AI(例:Canva AI、Adobe Firefly、Microsoft Copilot Designerなど、画像生成AI体験コースで触れたツールを想定)で作成してみましょう。

準備:
1. 3章の章末課題で作成した「卒業旅行プラン」の内容を再確認します。
 ・どのようなコンセプトの旅行でしたか? (例:北海道で海鮮と自然を満喫するアクティブな旅)
 ・最も魅力的だと感じたシーンはどこですか? (例:雪山を背景に露天風呂、新鮮な海鮮丼を囲む笑顔)
 ・誰に(どのような人に)向けた旅行プランでしたか? (例:大学の卒業生、アクティブな若者グループ)
2. キービジュアルで表現したい「最も象徴的なシーン」や「伝えたい雰囲気」を言葉で整理します。
 例1:「北海道の雄大な自然の中で、友人たちと満面の笑みでカニやホタテなどの海鮮BBQを楽しんでいる、明る く爽やかで、友情を感じさせるシーン。」
 例2:「京都の美しい竹林の中、着物姿の友人たちと静かに散策している、落ち着いた、和やかで、少し幻想的な雰囲気のシーン。」

この「言葉によるイメージの整理」が、質の高い画像生成プロンプトを作成するための第一歩です。

プロンプト作成と画像生成チャレンジ

それでは、整理したイメージを基に、画像生成AIへのプロンプトを作成し、実際に画像を生成してみましょう。ここでは、Adobe Fireflyを例にプロンプトを考えてみますが、使用するAIツールに合わせて調整してください。

プロンプト例(Adobe Firefly向け):
「北海道の壮大な自然の中で、若者たちが楽しそうに海鮮BBQをしている、明るく爽やかな雰囲気のイラスト。アニメ風のスタイルで。背景には青い空とエメラルドグリーンの海、遠くには雪を頂いた山々が見える。手前には、七輪の上で新鮮なカニやホタテ、野菜が焼かれており、湯気が立ち上っている。若者たち(男性2名、女性2名)はカジュアルな服装で、お互いに顔を見合わせ、心からの笑顔で乾杯している。友情と卒業旅行のワクワク感を表現してほしい。全体のトーンは鮮やかで、太陽の光がキラキラと差し込んでいるイメージ。広角レンズで撮影したような、開放感のある構図で。」

プロンプトの構成要素(テキスト生成プロンプトの考え方を応用):

役割(暗黙的): Adobe Firefly自体が「画像生成の専門家」
指示: 「~のイラストを生成して」
文脈:
 ◦被写体: 若者たち(男女4名)、海鮮BBQ(カニ、ホタテ、野菜)、七輪、湯気
 ◦背景: 北海道の壮大な自然、青い空、エメラルドグリーンの海、雪山
 ◦状況: 卒業旅行、友情、ワクワク感 
 ◦表情・行動: 楽しそう、心からの笑顔、乾杯
出力形式(画像特有の要素):
 ◦スタイル: アニメ風
 ◦雰囲気: 明るく爽やか、鮮やかなトーン、太陽光キラキラ
 ◦構図: 広角レンズ、開放感
 ◦その他: カジュアルな服装
画像生成のポイント:
具体的に記述する:「美しい景色」よりも「夕焼けに染まる雪山の頂上」の方が、AIはイメージを掴みやすいです。
複数の要素を組み合わせる:被写体、背景、スタイル、雰囲気、構図などを組み合わせることで、より複雑でユニークな画像を生成できます。
英語の方が得意な場合も:画像生成AIの多くは英語のデータで学習されているため、日本語よりも英語のプロンプトの方が意図を正確に汲み取ってくれることがあります。可能であれば、翻訳ツールなどを活用して英語のプロンプトも試してみましょう。
試行錯誤を楽しむ:最初から完璧な画像が出てくることは稀です。プロンプトの言葉を少し変えたり、要素を追加・削除したりしながら、AIとの対話を通じて理想のイメージに近づけていきましょう。
コラム:ネガティブプロンプトの活用

多くの画像生成AIでは、「描いてほしくない要素」を指定する「ネガティブプロンプト」機能があります。

  • 例えば、「low quality (低品質)」「blurry (ぼやけた)」「disfigured (奇形)」「extra limbs (余分な手足)」などをネガティブプロンプトに指定することで、AIがそうした望ましくない特徴を持つ画像を生成するのを避けることができます。
  • また、「text (文字)」「watermark (透かしロゴ)」などを指定して、画像内に不要な文字やロゴが入るのを防ぐこともできます。

通常のプロンプトと合わせてネガティブプロンプトをうまく活用することで、生成される画像の品質や内容をより細かくコントロールできます。使用するAIツールのヘルプやコミュニティで情報を探してみましょう。

考えてみよう!

考えてみよう!
もし、上記のプロンプト例(北海道の海鮮BBQ)で生成された画像が「若者たちの表情が硬い」「楽しそうに見えない」と感じた場合、プロンプトにどのような言葉を追加・修正すれば、より自然で楽しそうな笑顔を引き出せるでしょうか? 具体的な言葉を3つ以上考えてみてください。
    WEBCOACH先生にフィードバックを貰おう!    
  • 完成した課題は、WEBCOACH先生に入力してフィードバックをもらいましょう!
  • 思いもよらない新しいアイデアや、別の切り口のヒントがもらえることもあります。
【ポイント】
  • 自分が考えた3つの言葉を伝えた上で、それ以外にも効果的な表現がないか尋ねてみましょう。
   
解答例
  • 「若者たちの表情は、心からの笑顔で、リラックスしており、友情を感じさせるシーン。」のように、具体的な感情や状態を表す言葉を追加する。
  • まるで卒業アルバムの1ページのような、自然で楽しげな雰囲気」といった、全体のシーンイメージを補強する言葉を加える。
  • 弾けるような笑顔」「笑い声が聞こえてきそうな」など、より感情豊かな表現を使う。
  • ネガティブプロンプトとして「硬い表情」「無表情」「作り笑顔は避けて」と追加する。
  • 幸せそうな表情」「喜びにあふれた」といったポジティブな感情表現を強調する。
解説:
画像生成AIは、プロンプト内の形容詞や感情を表す言葉に敏感に反応します。「笑顔」という指示だけでは、AIは様々な種類の笑顔を生成する可能性があります。より具体的な言葉で「どのような笑顔か」を伝えることで、AIは私たちのイメージに近い表情を描きやすくなります。

また、シーン全体の雰囲気や、登場人物の関係性を言葉で補足することも、間接的に表情の改善に繋がることがあります。
これで「【任意/応用編】プロンプト思考を"画像生成"に活かす」の解説を終わります。
テキスト生成で学んだプロンプトの思考法は、画像生成の世界でも強力な武器となります。ぜひ、この知識を活かして、あなたの頭の中にあるイメージを、AIと共に形にしてみてください。
大変お疲れ様でした!
WEBCOACH | キャリアチェンジまでの全てを学ぶマンツーマンWEBスクール
© 2020 by WEBCOACH