なぜAIは「もっともらしい嘘」をつくのか〜OpenAIがハルシネーションの原因を分析〜 |TechnoProducer株式会社|

生成AIが起こす「ハルシネーション」とは

AIリテラシーが謳われている今、子どもにも教えておきたいことの一つに「AIが必ずしも完璧な回答をするわけではない」ということがあると思います。
その一因となっているのが「ハルシネーション」ですね。日常的に生成AIを使用している人なら、AIがハルシネーションを起こした経験があるかもしれません。

なぜAIはハルシネーションを起こすのでしょう。

今年の9月4日に、ChatGPTを開発したOpenAIがその原因を分析し、論文を発表しています。今回のコラムではその論文「Why Language Models Hallucinate」（なぜ言語モデルはハルシネーションを起こすのか）を紹介します。

まずは、最近認知されてきた言葉「ハルシネーション」の説明をしておきましょう。
ハルシネーションとは、もともとは精神医学や心理学の分野で「幻覚」を意味する専門用語だそうですが、近年、AIが事実でないことをもっともらしく回答する現象を示す言葉として使われています。パッと見ると、信じてしまうような巧妙な嘘というような、単純な間違いとは違う意味で使われています。

例えば、ハルシネーションの具体例は以下のようなものです。

著者の一人であるアダム・タウマン・カライ氏の誕生日をAIに聞いてみたら、3回質問して3回ともすべて異なる、かつ不正確な日付を回答した。
カライ氏の博士論文のタイトル、年、所属大学について、いくつかの有名なAI（ChatGPT/GPT-4o、DeepSeek、Llama）に尋ねたが、すべて誤った情報を回答した。
有名なAIそれぞれに「DEEPSEEK」という単語に「D」は何個あるか？という質問したところ「２」「３」「６」「７」などと回答した。

これは、論文の中で挙げられているものですが、このように不確定でも堂々と答えてしまうので、気がつかないで信じてしまう危険性もあるわけです。
論文では主に、その発生源からなぜそれが改善されないまま残ってしまうのかを、統計学と評価システムという主に２つの側面から解き明かし、解決策を提案しています。

原因１：統計的なメカニズムから生まれる必然的なエラー

AIは、膨大な量の文章（訓練データ）を読み込んで学習します。ハルシネーションは、この事前学習の過程で統計的に発生する避けがたいエラーとして論文では以下のように説明しています。

AIは、学習した文章の「パターン」（分布）をまねて、次にくる言葉を予測するように最適化される。たとえこの訓練データ自体に間違いがなかったとしても、AIがこの「次にくる言葉を予測する」学習目標を達成しようとする「統計的なプレッシャー」によって、ハルシネーションが生じる。これを例えると、「妥当な答えを生成すること」は、「この答えが正しいかどうかをYes/Noで判断すること」よりも難しい問題（二値分類エラー）に還元される。

特に、次のような場合にエラーが起こりやすくなるそうです。

訓練データの中に珍しい事実があるとき
例えば、訓練データに一度しか現れないような、ある人の「誕生日」のようなパターン化できない事実情報については、誤った情報を生成してしまう可能性が高くなる。
AIの能力が十分でないとき
AIの構造が、解決したい問題（概念）をうまく表現できない場合もエラーになります。例えば、「文字数を数える」といった簡単な計算でも、モデルによっては正しく処理できないことがある。

最初の説明がやや難解かもしれませんので、要点をまとめると、AIが正しい文章をゼロから生成するのは、その後の作業として行う生成した文章が正しいか間違っているかをチェックするよりも統計的に難しいため、ハルシネーションが起こる。特に膨大なテキストデータから文章パターンを出すのは得意だけど、個人的な情報など、頻度が低くてパターン化できないような情報に対して起こる、ということです。

原因２：「わからない」が低評価になるテスト構造

著者はAIがハルシネーションを起こす原因のもう一つは、AIの評価システムにあり、その主な理由は、現在AIの性能を測るために使われているテスト（評価システム）が、「優れたテストの受験者」になるように最適化されているからだ、と書いています。

具体的には以下のようです。

「わからない」が罰せられる
ほとんどの重要な評価ベンチマークでは、正しい答えに1点が与えられ、間違った答えや「知らない」と回答を控えた場合には０点が与えられる採点方式となっている。
推測が奨励される
この評価ルールのもとでは、確信がないときでも「わからない」と正直に答えるよりも、自信過剰な「もっともらしい推測」をした方が、期待できるスコアが上がる。

つまり、私たちが学力テストなどで受験する時、完全にわからなくても、書いておいた方が、正解したり部分点がもらえたりする可能性がありますよね。AIの評価方法がそのようなルールになっているので、AIは「優れたテストの受験者」となり、あてずっぽうで答えてしまう、ということです。

特にこれが最新モデルのAIでもなくすことのできない技術的な原因となっている、と著者は書いています。

ハルシネーションの解決策にはAI評価方法の変更が不可欠

それでは、AIがハルシネーションを起こさなくするために、どのような解決策があるのでしょうか。
著者は「ハルシネーションの評価方法を新しく追加するのではなく、今ある主要なテストのルール自体を変えるべきだ」と提唱し、大きくは以下の２つを述べています。

評価の採点方法を変える（不確実性を罰するのをやめる）
モデルが正直に「知らない」と答えることに対して、不当に0点というペナルティを与える現状の評価システムを修正する。
「明示的な信頼度目標」をテストに組み込む
評価のルールを明確にし、AIが自信ある場合にのみ回答すべきだということを事前に伝える。
そして、この信頼度目標を、SWE-benchやGPQA、MMLU-Proといった、AIの性能を測る上で影響力の大きい既存の主流のベンチマークに組み込むことを推奨する。

これらの変更を通じて、著者は、AI開発のインセンティブを再調整し、より信頼性の高いAIシステムの実現に向けた道を開くことができると結論づけています。

子どもにAIリテラシーの一つとして早めに教えたい

いかがでしたか？　
この論文のポイントは、つまり、AIのハルシネーションはバグではなく、人間が作ってきた訓練プロセスの統計的制約による発生と、AIを評価するための仕組みそのものが原因だった、ということですね。

すでに解決策は進んでいるようで、現在ChatGPTの最新モデルでは、ハルシネーションの割合も下がり、「わかりません」という回答も多くなっているようです。

ただ、今後も完全にハルシネーションなくなるわけではないので、今、大事なこととしては、AIリテラシーを子供に早めに教えることではないかと感じました。

ちなみに、博報堂教育財団が、生成AIを知っている小中学生952人に聞いた「子どもと生成AI調査　生成AIについてどう思う？」（9/18発表）によると、「生成AIについて信用できるか・できないか」についての質問に「信用できる」と答えた子どもは41.3％。「まだどちらとも言えない」と答えた子どもは37.2％、「信用できない」と答えた子どもは21.5％という結果があります。

最近のフォーブスジャパンの記事では、大人でもハルシネーションを知っている人は３分の１ほど、という調査も結果もありました（生成AI利用者の6割が知らない致命的な「欠陥」　その落とし穴と対策）。ですので、「信用できる」と答えた子どもの中にはAIがハルシネーションを起こすことに気がついていない人も多くいるのではないでしょうか。
まずは家庭での教育が大事なのかもしれません。

※論文はNotebookLMによる翻訳を利用しています。