3章：【音声編】AIで創るプロ品質のナレーション

INDEX

前の章に戻る次の章に進む

3章：【音声編】AIで創るプロ品質のナレーション

この章の目安学習時間：60分

この章で到達できるゴール：

ElevenLabsを使い、動画の台本から感情や抑揚のこもった高品質なナレーション音声を生成できるようになる。
生成した音声のノイズ処理や音量調整を行い、聞きやすい状態に整えることができる。

【3-1】AI音声合成の最前線「ElevenLabs」とは？

目安の学習時間：20分

動画の品質を大きく左右するナレーション。このセクションでは、AI音声合成ツールの中でも特に自然で表現力豊かな音声を生成できることで世界的に評価の高い「ElevenLabs」について、その基本から解説します。

ElevenLabsの概要

ElevenLabsは、入力したテキストを元に、驚くほどリアルで感情のこもった人間の声のようなナレーションを生成できる、最先端のAI音声合成サービスです。

ElevenLabsの主な特徴

圧倒的に自然な品質：AIが生成したとは思えないほど、滑らかで人間らしい抑揚や「間」を表現できます。
豊富な声のバリエーション：多言語に対応し、性別、年齢、アクセントなど、様々なスタイルの声が「Voice Library」に用意されています。
声の複製（Voice Cloning）：自身の声をAIに学習させ、自分そっくりのAIナレーションを作ることも可能です（有料プラン）。

料金プランと商用利用の考え方

ElevenLabsには、無料プランと複数の有料プランがあります。
各プランの主な違いと、特に重要な商用利用の可否について理解しておきましょう。

プラン	月額料金（目安）	主な特徴	商用利用
Free（無料）	$0	・毎月10,000文字まで生成可・3つまでカスタムボイス作成可	不可（クレジット表記必須）
Starter（入門）	$5程度	・毎月30,000文字まで生成可・10個までカスタムボイス作成可	可能
Creator（クリエイター）	$22程度	・毎月100,000文字まで生成可・30個までカスタムボイス作成可・より高品質な音声を利用可	可能

商用利用に関する注意

クライアントワーク（副業案件など）で収益を得る目的で利用する場合は、商用利用にあたるため、Starterプラン以上の有料プランへの加入が必須となります。
無料プランで生成した音声は、SNSへの投稿など、収益が発生しない個人的な利用に限られます。その際も「elevenlabs.io」といったクレジット表記が義務付けられています。
本教材での学習や課題制作は、個人的な利用の範囲内ですので無料プランで問題ありません。

基本的な使い方と画面の見方

アカウント登録後、メインで使うことになるのが「Text to Speech」という音声生成画面です。
ここでテキストの入力や声の選択、設定の調整を行います。

これらの基本的な使い方を覚えた上で、次のセクションから、より高品質なナレーションを生成するための実践的なテクニックを学んでいきましょう。

【3-2】実践！感情豊かなナレーションを生成する

目安の学習時間：20分

基本的な使い方がわかったところで、実際にElevenLabsを操作し、動画の台本から感情豊かなナレーションを生成する具体的な手順とコツを学びます。

Voice Libraryから最適な声を探す

ElevenLabsの大きな特徴は、多種多様な声が登録されている「Voice Library」です。
ここから、動画の雰囲気やターゲットに合った声を探し出します。

Voice Libraryの操作手順

ElevenLabsにログインした状態で、左側のメニューから「Voices」→「Explore」をクリックします。
フィルター機能を使い、言語や性別、年齢などで好みの声を絞り込みます。今回は「Japanese」「Female（女性）」「Young Adult（若者）」などで検索してみましょう。
表示された声のリストの中から、サンプルを再生して声質を確認します。
気に入った声が見つかったら、「Add to My Voices」ボタンをクリックして、自身の声のライブラリに追加します。
左側メニューの「Voices」→「My voices」に移動し、声が追加されていることを確認します。

生成の質を高める設定とテキスト入力のコツ

良い声を選んだら、次は設定とテキスト入力の工夫で、さらに生成される音声の質を高めていきます。

「Settings」パネルでの調整：
- Stability (安定性)：このスライダーは、生成される音声の「表現力」と「安定性」のバランスを調整します。

Stabilityスライダーの三段階

Creative (左側)：より感情豊かで、抑揚に富んだ表現になります。時には歌うような、予期せぬ表現が生まれることもあります。
Natural (中央)：会話のような、自然なバランスの音声になります。まずはここから試すのがおすすめです。
Robust (右側)：正確で、安定し、予測可能な音声になります。安定性を最も重視する場合に選択します。

テキスト入力のコツ：
- 句読点と改行：読点（、）や句点（。）は「間」として認識されます。息継ぎさせたい箇所で改行を入れるのも効果的です。
- 読み方の指定：正しく読んでくれない専門用語や固有名詞は、ひらがなやカタカナで入力したり、括弧書きで読み方を指定したりします。（例：AI（エーアイ））

【実践】台本の一部を音声化してみよう

教材2で作成した「日帰りグランピング体験」の台本の冒頭部分を使い、実際にナレーションを生成してみましょう。
設定を少しずつ変えながら、何度か生成して出力の違いを体験することが、AI音声生成の感覚を掴む一番の近道です。

音声生成の基本手順

ElevenLabsの「Text to Speech」画面を開きます。
「VoiceLab」に追加した声の中から、今回使用する声を選択します。
右側の「Settings」パネルでスライダーを調整します。（まずはStabilityを50%あたりに設定）
テキスト入力欄に、台本「都会の喧騒を忘れて、特別な一日を。手ぶらでOK、初心者向け日帰りグランピング。」をペーストします。
「Generate」ボタンをクリックし、音声が生成されるのを待ちます。
生成された音声を再生して確認し、問題なければダウンロードボタンをクリックして音声ファイル（MP3）を保存します。

【3-3】生成した音声のクオリティアップ術

目安の学習時間：20分

ElevenLabsで生成した音声は高品質ですが、編集ソフトで一手間加えることで、さらにプロのレベルに近づけることができます。

基本的なノイズ処理

AIが生成した音声には、人間の耳ではほとんど聞こえないような、ごく微細なノイズが含まれていることがあります。
これをノイズ除去機能で取り除くことで、音声全体のクリアさが向上します。
Premiere Proの「スピーチを強調」、CapCutの「ノイズを除去」など、基本的な機能で十分効果があります。
適用しすぎると声がこもってしまうことがあるので、軽くかける程度を意識しましょう。

音量のノーマライズ（正規化）

複数の音声素材やBGMを動画内で使う場合、それぞれの音量レベルがバラバラだと、非常に聞きづらい動画になってしまいます。
そこで、ノーマライズ（正規化）という処理を行い、音声の最大音量を一定のレベルに揃えます。

ノーマライズ（正規化）

音声クリップ全体の音量を、最も大きい部分が指定したレベル（例：-3dB）になるように、均等に上げ下げする処理のことです。
これにより、動画内で使用するナレーションやインタビュー音声の音量レベルを簡単に統一できます。

ノーマライズの操作手順

【Premiere Pro編】

タイムライン上の音声クリップを右クリックします。
メニューから「オーディオゲイン」を選択します。
開いたウィンドウで「ノーマライズ（最大ピークをノーマライズ）」を選択し、値を「-3dB」に設定して「OK」をクリックします。

【CapCut編】

タイムライン上の音声クリップを選択します。
インスペクタの「オーディオ」→「ベーシック」にある「ラウドネスを正規化」のチェックボックスをオンにします。

CapCut「ラウドネスを正規化」

【3-4】3章 -章末課題- [マインドフルネスアプリ紹介ナレーションの作成]

問題

マインドフルネスアプリ「SereneMind」の20秒プロモーション動画で使用するナレーションを作成します。
以下の台本を使い、この章で学んだ方法で、動画のテーマ「忙しい日々に、5分間の心の静けさを」に合うような、穏やかで信頼感のあるナレーション音声を生成し、編集ソフトで適切な音量に調整してください。

【台本】
「情報に追われる毎日。少しだけ、立ち止まってみませんか。SereneMindは、心に、静かな時間を取り戻すお手伝いをします。1日5分から始める、新しい習慣を。」
※ 生成した素材は５章で使用するため保存しておいてください。

解答手順

操作手順

ElevenLabsを開き、Exploreから「穏やか」「落ち着きがある」「優しい」などのタグで、ナレーターに合う声を探し、My Voicesに追加します。
「Text to Speech」画面でその声を選択し、テキスト入力欄に上記の台本をペーストします。句読点の後のスペースや改行を調整し、適切な「間」が生まれるように工夫します。
「Settings」パネルのStabilityスライダーを少し低め（例：30%〜40%）に設定し、人間らしい自然な抑揚が生まれるように調整します。
音声を生成し、ダウンロードします。
編集ソフトに読み込み、タイムラインに配置します。音声クリップにノーマライズを適用し、音量を適切なレベル（例：最大ピークが-3dB）に整えます。

制作例

出力結果③【音声】

これで「3章：【音声編】AIで創るプロ品質のナレーション」の解説を終わります。
次の章に進みましょう。

前の章に戻る次の章に進む