Googleは、大規模言語モデル(LLM)が抱える「幻覚」と呼ばれる問題、つまり事実と異なる情報を生成してしまう問題に対処するため、新たなモデル「DataGemma」を開発しました。DataGemmaは、Googleが構築した膨大な実世界のデータセットである「Data Commons」とLLMを連携させることで、生成される情報の正確性を高めます。
Data Commonsは、国連やWHOなどの信頼できる機関から収集された、健康、経済、人口統計など、多岐にわたる分野の2400億以上のデータポイントを含んでいます。DataGemmaは、このData Commonsの情報を活用し、LLMが生成する情報が事実と一致しているかを検証します。
DataGemmaは、主に2つの手法を用いてLLMの信頼性を高めます。一つ目は「RIG(Retrieval-Interleaved Generation)」と呼ばれる手法で、LLMが生成した情報に対して、Data Commonsから関連する情報を検索し、照合することで、生成された情報の正確性を確認します。二つ目は「RAG(Retrieval-Augmented Generation)」と呼ばれる手法で、LLMが生成する前に、Data Commonsから関連する情報を取得し、その情報を元に生成を行うことで、より文脈に合った、正確な情報を生成します。
例えば、「世界の再生可能エネルギーの利用量は増加しているか?」という質問に対して、DataGemmaはData Commonsから関連するデータを取得し、そのデータに基づいて「はい、増加しています」という回答を生成し、さらに具体的なデータを示すこともできます。
Googleは、DataGemmaをオープンソースとして公開し、研究者や開発者が自由に利用できるようにすることで、LLMの信頼性向上に貢献したいと考えています。
具体例
- 医療分野: 患者からの質問に対して、DataGemmaは最新の医学論文や臨床データに基づいた正確な情報を提供できる。
- 金融分野: 金融商品のリスク評価や投資戦略の策定において、DataGemmaは経済指標や企業データに基づいた客観的な情報を提供できる。
- 環境分野: 気候変動に関する質問に対して、DataGemmaは最新の気候データや研究結果に基づいた正確な情報を提供できる。
課題
- データの偏り: Data Commonsに含まれるデータは、必ずしも完全なものではなく、偏りがある可能性がある。
- 計算コスト: Data Commonsから情報を検索し、照合する処理には、計算コストがかかる。
- プライバシー: 個人情報を含むデータがData Commonsに含まれている場合、プライバシー問題が発生する可能性がある。
これらの課題を解決するためには、今後も継続的な研究開発が必要とされます。