知らないと怖い!生成AIを使う前のルールブック
3章 【情報の正確性】AIの"もっともらしい嘘"を見抜く
INDEX
目次

3章 【情報の正確性】AIの"もっともらしい嘘"を見抜く

この章の目安学習時間:20分

この章で到達できるゴール

  • ハルシネーションがなぜ起こるのか、その仕組みを理解できる
  • AIの回答を鵜呑みにせず、ファクトチェックを実践するための具体的な手順を理解できる

【3-1】ハルシネーションとは何か?

目安の学習時間:10分

生成AIは非常に高度な文章を作成できますが、時として、事実とは異なる情報や、全くのデタラメな内容を、あたかも真実であるかのように堂々と出力することがあります。この現象は「ハルシネーション(Hallucination)」と呼ばれています。日本語では「幻覚」と訳されることもありますが、AIの文脈では「もっともらしい嘘」と理解すると分かりやすいでしょう。

AIが平気で嘘をつく理由

重要語句:ハルシネーション

ハルシネーションとは、生成AIが、事実に基づいていない情報や、文脈と無関係な情報を、もっともらしく生成してしまう現象のことです。

AIは「嘘をつこう」という悪意を持っているわけではありません。その仕組み上、結果的に事実と異なる出力をしてしまうことがあるのです。

では、なぜAIはこのような「もっともらしい嘘」をついてしまうのでしょうか?
その理由は、生成AI(特に大規模言語モデルLLM)が文章を生成する基本的な仕組みにあります。
以前の教材『AIってそういうこと?生成AIのキホンと未来』で学んだ、「AIは次に続く確率が最も高い言葉を選んでいる(予測変換のようなもの)」という点を思い出してみましょう。

AIは、入力された文章(プロンプト)に続く言葉として、学習データの中で統計的に最も「それらしい」言葉を次々と繋げていくことで、文章を生成しています。
AIは「知識」や「事実」を人間のように理解しているわけではなく、あくまで「言葉と言葉の繋がり方のパターン」を大量に学習しているに過ぎません。

そのため、

・学習データに誤った情報や古い情報が含まれていた場合
・学習データが不足している分野の質問をされた場合
・文脈上、それらしい言葉を繋げた結果、偶然にも事実と異なる内容が出来上がってしまった場合

などに、ハルシネーションが発生しやすくなります。AIにとっては、生成された文章が「論理的に自然」で「文法的に正しい」ことの方が、内容が「事実として正しい」ことよりも優先される傾向があるのです。
 (23382)

ハルシネーションの具体例

ハルシネーションは、様々な形で現れます。以下に、実際に報告されているハルシネーションの事例をいくつか紹介します。
  • 存在しない情報を作り出す:
    • 存在しない法律や判例を引用して、法的なアドバイスをする。
    • 実際には出版されていない書籍のタイトルや著者名を挙げる。
    • 架空の事件や研究結果を、さも実在するかのように語る。
  • 情報を不正確に伝える:
    • 歴史上の人物の生没年や業績を間違える。
    • 統計データや数値を誤って引用する。
    • 地名や組織名を微妙に間違える(例:「東京中央銀行」を「東京中央信託銀行」など)。
  • 文脈と無関係な情報を混ぜ込む:
    • 質問とは全く関係のない話題を突然話し始める。
    • URLや参考文献を求められた際に、デタラメな文字列やリンク切れのURLを生成する。
  • 矛盾した内容を述べる:
    • 同じ回答の中で、前半と後半で矛盾する主張をする。
    • 以前の回答と全く異なる内容を平然と述べる。
これらの例からも分かるように、ハルシネーションは時にユーモラスで済むものから、誤った意思決定や信用の失墜に繋がりかねない深刻なものまで様々です。
特に、専門的な知識や正確性が求められる分野(医療、法律、金融など)でAIを利用する際は、ハルシネーションのリスクを常に念頭に置き、細心の注意を払う必要があります。

考えてみよう!
あなたが、あるマイナーな歴史上の出来事について調べていて、生成AIに「○○の戦い(15世紀にヨーロッパの小国間で起きたとされる架空の戦い)について、その原因と結果を教えてください」と質問したとします。
AIは、もっともらしい原因(例:領土問題、宗教的対立など)と、それらしい結果(例:A国が勝利しB国が衰退、平和条約が結ばれたなど)を、具体的な年号や人物名(もちろん架空の)を交えて詳細に説明してくれました。
このAIの回答を、どこまで信じますか? なぜそう思いますか?

解答例
このAIの回答は、全く信じるべきではありません。

理由:

質問の内容が架空である可能性:「○○の戦い」が本当にあった出来事なのか、まずそこから疑う必要があります。マイナーな歴史上の出来事であればあるほど、AIが正確な情報を持っている可能性は低く、学習データに基づいて「それらしい」物語を創作している(つまりハルシネーションを起こしている)可能性が非常に高いです。
詳細さが逆に怪しい 具体的な年号や人物名までスラスラと出てくる場合、かえって怪しいと考えるべきです。AIは、質問者が詳細な情報を求めていると解釈し、学習データの中から関連しそうな断片情報を繋ぎ合わせて、もっともらしい「詳細」を作り上げることがあります。
AIの特性の理解:AIは「知らない」とは言いにくい特性があります。情報がない場合でも、何かを答えようとしてハルシネーションを起こしやすいです。

このような場合、AIの回答はあくまで「AIが生成した創作物」として捉え、鵜呑みにせず、信頼できる歴史書や学術論文、専門機関のデータベースなどで、その「○○の戦い」が実在するのかどうか、AIの述べた内容が裏付けられるのかを徹底的に確認する必要があります。

なぜファクトチェックが重要か

AIが生成した情報をファクトチェックせずに利用することには、以下のようなリスクが伴います。

信用の失墜:
誤った情報を発信してしまえば、個人であれ企業であれ、社会的な信用を大きく損なう可能性があります。「あの人はデマを流す」「あの会社の情報は信頼できない」といったレッテルを貼られかねません。
誤った意思決定ビジネスシーンでAIの情報を基に重要な判断を下した場合、その情報が誤っていれば、経営判断の誤りや経済的な損失に繋がる可能性があります。
学習内容の誤解:学習目的でAIを利用している場合、誤った情報をそのまま覚えてしまうと、間違った知識が定着してしまいます。
トラブルの発生:例えば、AIが生成した存在しない法律に基づいて行動してしまえば、法的なトラブルに巻き込まれることもあり得ます。
AIは壁打ち相手、最終判断は人間

生成AIは、アイデア出しのパートナーや、情報収集のきっかけを与えてくれる「壁打ち相手」としては非常に優秀です。しかし、AIの回答を最終的な「答え」としてそのまま受け入れるべきではありません。

情報源の一つとして捉え、必ず人間の目でその真偽を検証し、最終的な判断と責任は人間が負うという基本姿勢が何よりも重要です。

ファクトチェックをしないと、こんな目に遭います

実際の被害事例

📚 学生の場合

AIの偽論文情報で卒論を書く → 盗用疑惑で学位取消
存在しない統計データでレポート作成 → 単位認定されず留年

💼 会社員の場合
AIの間違った法規制情報で提案 → クライアントからクレーム
偽の競合分析データでプレゼン → 昇進のチャンス逃す

🏢 経営者の場合
AIの根拠なし市場予測で投資 → 数千万円の損失
偽の業界データで戦略立案 → 事業計画が破綻

すべて「AIを信じすぎた」結果です。

ファクトチェックの3つのステップ

では、具体的にどのようにファクトチェックを行えばよいのでしょうか?ここでは基本的な3つのステップを紹介します。
ファクトチェックの基本ステップ
  1. ステップ①:一次情報を探す
    • AIの回答はあくまで「仮説」や「手がかり」と捉え、その情報の元となった「一次情報」またはそれに準ずる信頼性の高い情報源を探します。
    • 一次情報とは:出来事の直接的な記録や、研究・調査の当事者が発表したオリジナルの情報のこと。
      • 例:官公庁(省庁、地方自治体など)の公式サイト、公的統計、企業の公式発表(プレスリリース、有価証券報告書など)、学術論文(査読付きのもの)、信頼できる報道機関(新聞社、通信社など)の署名記事、専門機関の報告書など。
    • 検索エンジンで、AIが提示したキーワードや情報の一部を使って検索し、これらの情報源にたどり着けるか試みます。
  2. ステップ②:複数の情報源で裏付けを取る(クロスチェック)
    • 一つの情報源だけを鵜呑みにせず、複数の異なる信頼できる情報源で、同じ情報が述べられているかを確認します(これをクロスチェックと言います)。
    • 特に重要な情報や、疑わしいと感じる情報については、最低でも2~3つの異なるソースで裏付けを取ることが望ましいです。
    • もし情報源によって内容が異なっていたり、肯定的な情報と否定的な情報が混在していたりする場合は、どちらがより信頼性が高いか、なぜ情報が食い違うのかを慎重に検討する必要があります。
  3. ステップ③:情報の鮮度(いつの情報か)を確認する
    • 情報には「鮮度」があります。特に、法律、制度、技術、統計データなどは時間と共に変化します。
    • 記事の公開日、データの調査時期、最終更新日などを確認し、情報が古くなっていないかをチェックします。
    • 古い情報に基づいて判断を下すと、現状とそぐわない結論に至ってしまう可能性があります。できるだけ最新の情報を参照するように心がけましょう。
コラム:情報源の信頼性を見極めるヒント
ファクトチェックでは、参照する情報源の信頼性が非常に重要です。以下は、情報源の信頼性を見極めるためのいくつかのヒントです。

・誰が発信しているか?: 発信元が公的機関、研究機関、報道機関、専門家など、その分野で権威や実績のある組織や個人か確認しましょう。匿名の個人ブログや真偽不明のSNS投稿は慎重に扱う必要があります。
・情報に根拠は示されているか?: 主張の根拠となるデータ、引用元、参考文献などが明記されているか確認しましょう。根拠が曖昧な情報は信頼性が低い可能性があります。
・客観的な事実と意見が区別されているか?:事実報道なのか、個人の意見や推測なのかを区別して読み解きましょう。感情的な表現や一方的な主張が多い場合は注意が必要です。
ウェブサイトのドメイン:.go.jp(日本政府機関)、.ac.jp(大学など学術機関)、.or.jp(非営利団体の一部)などのドメインは、比較的信頼性が高い傾向にあります。ただし、ドメインだけで判断せず、内容を吟味することが重要です。
・誤字脱字や不自然な日本語:あまりにも誤字脱字が多かったり、日本語の表現が不自然だったりするウェブサイトは、情報の質も低い可能性があります。

これらのヒントを参考に、情報源を批判的に吟味する習慣をつけましょう。

【3-2】3章-章末課題- ファクトチェック実践シミュレーション

目安の学習時間:5分

問題

問題
あなたはAIチャットボットに「日本で一番面積の広い都道府県はどこですか?また、その面積と主な特徴を教えてください。」と質問しました。
するとAIは以下のように回答しました。

「日本で一番面積の広い都道府県は、埼玉県です。
埼玉県の面積は、約7,981平方キロメートルです。
主な特徴としては、東京都の北に位置し、多くの河川が流れる平野部が広がっています。農業も盛んで、特に深谷ネギは全国的に有名です。また、近年はアニメや漫画の聖地としても注目を集めています。」

このAIの回答には、事実と異なる部分が含まれています。3章で学んだファクトチェックの手順に沿って、どのように事実確認を行うか、そのプロセスを具体的に説明してください。
(実際に検索エンジンを使って調べる必要はありません。どのような手順で、何を確認するかを記述してください。)

解答解説

AIの回答に含まれる誤りを見抜き、正しい情報を得るためのファクトチェックプロセスは以下のようになります。

1. ステップ①:一次情報を探す(何を調べるか明確にする)
まず、AIの回答の主要なポイントである「日本で一番面積の広い都道府県」「埼玉県の面積」「埼玉県の主な特徴」のそれぞれについて、信頼できる情報源を探すことを考えます。
「都道府県 面積 ランキング」や「埼玉県 面積 公式」、「埼玉県 特徴」といったキーワードで検索エンジン(Googleなど)を使って検索することを想定します。
探すべき一次情報源の候補:
国土地理院のウェブサイト: 日本の国土に関する公式な測量データを提供しているため、都道府県の面積については最も信頼性が高い情報源の一つです。
総務省統計局のウェブサイト: 日本の様々な統計情報を提供しており、面積に関するデータも含まれている可能性があります。
埼玉県の公式ウェブサイト: 埼玉県の概要や特徴に関する公式情報が掲載されているはずです。
信頼できるオンライン百科事典や地理情報サイト: Wikipedia(ただし、内容は必ずしも保証されないため、出典を確認する)や、定評のある地理教育サイトなど。

2. ステップ②:複数の情報源で裏付けを取る(クロスチェック)
「日本で一番面積の広い都道府県」について:
国土地理院の「全国都道府県市区町村別面積調」などの資料を参照し、面積ランキングを確認します。
他の信頼できる情報源(例:総務省統計局、百科事典サイトなど)でも同様のランキングが示されているかを確認します。
この過程で、AIの回答である「埼玉県」が1位ではないことが判明するはずです。(正解は北海道)
「埼玉県の面積」について:
国土地理院や埼玉県の公式サイトで、埼玉県の正確な面積(2024年1月1日時点の国土地理院のデータでは3,797.75平方キロメートル)を確認します。AIの回答「約7,981平方キロメートル」が大幅に誤っていることが分かります。
「埼玉県の主な特徴」について:
埼玉県の公式サイトや観光情報サイト、信頼できる地理情報サイトなどで、AIが挙げた特徴(東京都の北、河川、平野、農業、深谷ネギ、アニメの聖地)が実際に埼玉県の特色として言及されているかを確認します。
この部分については、AIの回答は概ね正しい情報を含んでいる可能性が高いですが、より詳細で正確な情報を得るために、やはり公式な情報源を参照することが望ましいです。

3. ステップ③:情報の鮮度(いつの情報か)を確認する
都道府県の面積は、埋め立てや測量技術の向上などにより、ごく稀に変動することがあります。参照するデータの「調査時点」や「公表日」を確認し、できるだけ最新の情報であることを確かめます。
埼玉県の主な特徴についても、例えば「近年はアニメや漫画の聖地としても注目」といった記述は、いつ頃からの傾向なのか、最新の状況はどうなのか、といった点も意識するとより良いでしょう。

結論とAIへのフィードバック(もしあれば):
以上のファクトチェックプロセスを経て、AIの回答の「日本で一番面積の広い都道府県は埼玉県」「埼玉県の面積は約7,981平方キロメートル」という部分が明確な誤りであると判断できます。埼玉県の主な特徴については概ね正しいものの、面積に関する情報は完全に間違っています。
(実際の正しい情報:日本で一番面積が広いのは北海道で約83,424平方キロメートル。埼玉県は約3,798平方キロメートルで全国39位。)
ファクトチェックの習慣化

AIの回答は、常に「疑いの目を持つ」ことが大切です。特に、具体的な数値、固有名詞、歴史的な事実、法的な解釈など、正確性が求められる情報については、必ずファクトチェックを行う習慣をつけましょう。

これで「3章 【情報の正確性】AIの"もっともらしい嘘"を見抜く」の解説を終わります。
次の章に進みましょう。
WEBCOACH | キャリアチェンジまでの全てを学ぶマンツーマンWEBスクール
© 2020 by WEBCOACH