DEV Community

Tutty
Tutty

Posted on • Edited on

Can LLMs Produce Faithful Explanations For Fact-checking? Towards Faithful Explainable Fact-Checking via Multi-Agent Debate

選定理由

Alibabaグループの研究、ACLで under review。LLMのMulti-agentが流行りかつ、事実検証タスクは産業面からも需要がありそう。

Paper: https://arxiv.org/abs/2402.07401
Code: N/A

複数の異なるLLM間でロールを与えて議論させると1つのLLMで自己批判的に議論を積み重ねる(self-Refine)より精度が向上したという研究。ディスカッションでロジックが前進していくのは人間と同じで興味深い。

概要

【社会課題】
事実検証タスクはfact-checking, verification of claims などと表現され、複数のエビデンスに基づく多段論理の事実検証の場合は特に正しい説明文の生成が重要となる。しかし、このタスクにおいてもハルシネーションの課題は以前として解決されていない。

【技術課題】
ハルシネーションを低減する技術は数多く提案されているが、fact-checkingにおける効力は不十分である。これは大規模言語モデルが十分な論理性を持っていない回答をしたり、長いコンテキストを忘れてしまう問題(lost-in-the-middle)に起因する[Zhao2024]。

【提案】
まず事実検証タスクでのエラー種を分類し、それを元に複数のLLM間で議論させることでハルシネーションを低減するMADRを提案。MADRは複数のLLMに役割をもたせ、反復的に議論と修正を繰り返すことで論理展開を洗練する。事実検証におけるLLMのマルチエージェントの活用は初である。

【効果】
MADRはベースラインよりも証拠に基づいた忠実な説明を生成する上で高いパフォーマンスを示し、主観評価実験でも高い精度となった。

【類似研究】
[Sun2024]が似ているが、Debaterにも懐疑論者を混ぜるなど細かく役割を分けている点が異なる。

Multi-Agent Debate Refinement

初期説明生成

最初にLLMを使って主張に対する初期の説明を生成する。この説明は、ファクトチェック対象の主張と証拠に基づいて作成される。

役割分担

  • ディベーター1:事前に定義されたエラー分類(例えば、固有名詞エラー、出来事の誤表現エラー、推論の不整合など)に基づいて説明を精査し、エラーを特定する。
  • ディベーター2:定義されたエラー分類に頼らずに説明を検証し、忠実性に影響を与えそうな潜在的なエラーを見つける。この方法により、エラー分類に依存しない発見が可能になる。

反復的なフィードバックと修正

各エージェントは、自分のフィードバックを基に説明の修正提案を作成する。次に、相互のフィードバックを比較・検証し、不足や誤りがあれば修正する。議論は、エージェント間でフィードバックの一致が確認されるまで繰り返される。フィードバックが合意に達すると、これを元に最終的な説明の修正が行われる。

最終説明の生成

エージェントのフィードバックを基に説明をリファインし、忠実性を高めた最終的な説明を生成する。

fig1

実験

実験設定

複雑な推論を要する「PolitiHop」というマルチホップ事実検証(複数の証拠を関連づけて推論を行い、主張の真偽を検証するタスク)のデータセットが使われた。このデータセットには445件のテストセットが含まれ、各インスタンスには主張と複数の証拠が含まれており、複数の証拠をもとに真偽を判断する必要がある。

評価には、GPT-4 Turboベースの「G-Eval」というメトリックが用いられ、生成された説明が証拠にどれだけ忠実かを文レベルおよび文書レベルで評価した。評価プロトコルには、エラー分類(例:固有名詞エラー、推論一貫性エラーなど)も組み込まれており、LLMが生成した説明の信頼性を精密に検証できるようになっている。

実験結果

自動評価(表2):G-Evalを使った自動評価で、MADRは文書レベルおよび文レベルの評価スコアにおいて最も高い忠実性を示した。特に、MADRはエラー分類を含む評価プロトコルで高スコアを記録し、zero-shot や CoT、Self-Refineといった他の手法よりも優れていることが確認された。

tb2

人間評価(表3):20件のPolitiHopデータサンプルに基づく評価では、MADRが生成した説明の30%が忠実な説明と評価され、他の手法の平均20%と比較して優位だった。さらに、MADRの生成する説明はエラー数も少なく、例えばゼロショットやSelf-Refineで生じたエラーの多くがMADRでは改善されている。

tb3

エラーの種類と頻度:MADRは、特に「固有名詞エラー」や「出来事の誤表現エラー」などに対して効果的で、こうしたエラーの頻度が他の手法よりも低かった。また、MADRのデバートエージェント間での議論と反復修正により、自己修正(Self-Refine)で見逃されがちなエラーも改善された。

Top comments (0)