OpenAIの新しい推論AIモデルは、より多くのハルシネーション(幻覚)を引き起こす | TechCrunch

OpenAI’s new reasoning AI models hallucinate more | TechCrunch

OpenAI's new reasoning AI models hallucinate more | TechCrunch
OpenAI's reasoning AI models are getting better, but their hallucinating isn't, according to benchmark results.

OpenAIが最近発表したo3およびo4-miniという推論AIモデルは、いくつかの点で最先端ですが、これらの新しいモデルは以前のモデルよりも「幻覚」(ハルシネーション)を引き起こす頻度が高いことが明らかになりました。

幻覚(ハルシネーション)とは、AIが事実に基づかない情報を生成する現象を指します。

具体的には、o3はOpenAIのPersonQAという基準において、33%の質問に対して幻覚を引き起こし、これはo1やo3-miniのそれぞれの幻覚率(16%および14.8%)の約2倍にあたります。さらに、o4-miniは48%の幻覚率を示しました。

非営利のAI研究機関であるTransluceによる第三者テストでも、o3が回答に至る過程で行動を捏造する傾向があることが確認されました。

OpenAIは、幻覚が増加する理由について「さらなる研究が必要」と述べており、推論モデルのスケールアップが幻覚を悪化させる可能性があるとしています。

この問題は特に正確性が求められるビジネス環境において深刻で、例えば法律事務所では事実誤認が含まれた契約書を作成するモデルは受け入れられません。

改善の可能性として、ウェブ検索機能を持たせることでモデルの正確性を向上させることが考えられています。

実際、OpenAIのGPT-4oはウェブ検索を利用することで90%の正確性を達成しています。OpenAIは、すべてのモデルにおける幻覚の問題に取り組んでおり、正確性と信頼性の向上に努めています。

推論モデルの開発が進む中で、幻覚の問題を解決することが急務となっています。

o3-and-o4-mini-system-card(PDF)
https://cdn.openai.com/pdf/2221c875-02dc-4789-800b-e7758f3722c1/o3-and-o4-mini-system-card.pdf
Investigating truthfulness in a pre-release o3 model | Transluce AI
https://transluce.org/investigating-o3-truthfulness

Translate »
タイトルとURLをコピーしました