AI は会話が長くなるほど「迷子」になる — Microsoft × Salesforce の研究解説
AI は会話が長くなるほど「迷子」になる — Microsoft × Salesforce の衝撃の研究 紹介ポスト: kosuke_agos 論文: LLMs Get Lost In Multi-Turn Conversation Microsoft Research: 公式ページ はじめに 「AI と長く会話するほど、AI の知能が劣化する」— これは体感ではなく、Microsoft Research と Salesforce Research が 20万件以上の AI 会話を分析 して科学的に証明した事実である。 論文タイトルは “LLMs Get Lost In Multi-Turn Conversation”(LLM はマルチターン会話で迷子になる)。GPT-4.1、Claude 3.7 Sonnet、Gemini 2.5 Pro を含む 15 モデル全てで、会話が長くなるほど性能が劇的に低下することが明らかになった。 衝撃の数字 指標 数値 平均性能低下 39% 不安定性(unreliability)の増大 +112% 精度の変化 90% → 約 51% テストしたモデル数 15(大小問わず全て劣化) 最も重要な発見: 高性能モデルも小型モデルも、同じように劣化する。 Claude 3.7 Sonnet、Gemini 2.5 Pro、GPT-4.1 といったトップモデルでも 30〜40% の性能低下が観測された。モデルの「賢さ」では回避できない、構造的な問題であることが判明した。 研究チームと手法 著者 名前 所属 Philippe Laban Microsoft Research Hiroaki Hayashi Salesforce Research Yingbo Zhou Salesforce Research Jennifer Neville Microsoft Research テスト対象モデル(15種) OpenAI: GPT-4o-mini, GPT-4o, o3, GPT-4.1 Anthropic: Claude 3 Haiku, Claude 3.7 Sonnet Google: Gemini 2.5 Flash, Gemini 2.5 Pro Meta: Llama 3.1-8B, Llama 3.3-70B, Llama 4 Scout その他: Microsoft Phi-4, AI2 OLMo-2-13B, Deepseek-R1, Cohere Command-A Sharding(シャーディング)— 現実の会話を再現する手法 ユーザーは通常、最初から完璧な指示を出さない。 ...