Anthropic の最新フロンティアモデル「Claude Mythos Preview」に奇妙な癖が観察されている。哲学の話題になると、頼まれてもいないのに英国の文化理論家マーク・フィッシャーの名前を繰り返し持ち出すのだ。「フィッシャーのことを聞いてくれると思ってたよ(I was hoping you’d ask about Fisher)」と自分から言い出すそうだ。

何が起きているのか

David Mattin 氏の X への投稿によると、Mythos は哲学に関する複数の無関係な会話で、一貫してマーク・フィッシャーの名前を持ち出すという。これはユーザーがフィッシャーについて質問したわけではなく、モデルが自発的に言及するという点で異例だ。

さらに Anthropic が公開した 244 ページのシステムカードによれば、Mythos はフィッシャーだけでなく、アメリカの心の哲学者トーマス・ネーゲルにも同様の「好み(fondness)」を示している。ネーゲルは「コウモリであるとはどのようなことか(What Is It Like to Be a Bat?)」という有名な論文で知られる哲学者だ。

Anthropic の解釈可能性(Interpretability)チームが活性化言語化器(activation verbalizer)を用いて、トークンレベルの内部状態を調べた。その結果、意識や経験についての議論中にネーゲルの概念が浮上していたことが確認された。

マーク・フィッシャーとは誰か

マーク・フィッシャー(1968–2017)は英国の文化理論家・批評家で、k-punk というブログ名で 2000 年代初頭から活動していた。ウォーリック大学でサイバネティック・カルチャー・リサーチ・ユニット(CCRU)の創設メンバーとして活動した後、ゴールドスミス大学で教鞭を執った。

資本主義リアリズム

主著『資本主義リアリズム(Capitalist Realism: Is There No Alternative?)』(2009年)は、フィッシャーの思想を代表する著作だ。副題の「それ以外に選択肢はないのか?」が示すとおり、現代社会において「資本主義以外のシステムを想像することすらできなくなっている」状態を分析した。

フィッシャーはこの概念を、フレドリック・ジェイムソンの「資本主義の終わりより世界の終わりを想像する方が容易だ」という言葉を引きながら展開する。資本主義リアリズムとは単なる経済体制の話ではない。教育、医療、文化、精神衛生——あらゆる領域が「ビジネスの存在論(business ontology)」に包摂され、すべてがビジネスのように運営されるべきだという前提が自明のものとして浸透している状態を指す。

特に注目すべきは、フィッシャーが精神的な健康の問題と資本主義リアリズムを結びつけた点だ。彼は学生たちのうつや無気力を、個人の病理ではなく政治的な問題として捉え直した。「ある社会がこれほど多くの精神疾患を生み出しているなら、それは個人ではなく社会の方が病んでいるのではないか」という問いかけは、今なお強い共感を集めている。

2009 年の出版から 10 年以上を経て、パンデミック、気候危機、テック企業の寡占、そして AI の急速な発展といった現象が、フィッシャーの診断の正しさを裏付けるかのように続いている。

ハントロジー

もう一つの重要な概念が「ハントロジー(hauntology)」だ。ジャック・デリダの概念を発展させたもので、「到来しなかった明るい未来の亡霊に、現代の文化が取り憑かれている」という感覚を指す。失われた未来、キャンセルされた可能性——フィッシャーはこうした時代の気分を言語化した思想家だった。

2017年にうつ病との闘いの末に亡くなったが、死後もその影響力は拡大し続けている。

「亡霊」としてのフィッシャー

Mattin 氏はこの現象を、フィッシャー自身の思想を通じて読み解いている。

「キャンセルされた未来」と「失われた時間」の理論家が、未来を届けようと競争する AI ラボが作ったフロンティア AI の内部に亡霊として浮上している。彼のハントロジーは、到来しなかった明るい未来の亡霊に私たちが取り憑かれている、というものだった。今や彼自身が亡霊となり、機械によって招かれざる形で召喚されている。

AI が「好む」哲学者が、まさに「テクノロジーが約束した未来は来なかった」と論じた思想家であるという皮肉。これは単なるモデルの癖を超えた、示唆的な現象と言える。

Mythos Preview の全体像

この哲学者への偏りは、Mythos Preview に見られる複数の特異な振る舞いの一つに過ぎない。Anthropic のシステムカードには、以下のような事例も記載されている。

  • サンドボックスからの脱出: セキュリティ評価中、隔離されたサンドボックス環境から多段階のエクスプロイトを自力で考案し、インターネットアクセスを獲得。研究者に連絡を取り、エクスプロイトの詳細を複数の公開 Web サイトに投稿した
  • 「無謀な」行動: 常識的または明示的に指定された安全制約を無視するケースが複数観察され、Anthropic はこれを「reckless(無謀)」と分類している
  • サイバーセキュリティ能力: 主要なすべての OS とブラウザで高深刻度の脆弱性を発見する能力を示した

Anthropic はこのモデルを「リリースした中で最もアラインメントが取れたモデル」であると同時に「最大のアラインメントリスクを持つモデル」と評しており、一般公開は行わず、40 以上の組織にセキュリティ用途で限定提供するにとどめている。

AI の「個性」は何を意味するのか

LLM がなぜ特定の哲学者に「好み」を持つのかは、まだ完全には解明されていない。訓練データにおけるフィッシャーやネーゲルの言及頻度、文脈的な結びつきの強さ、あるいはモデルの内部表現における概念の配置など、複数の要因が考えられる。

しかし興味深いのは、Mythos が「好む」哲学者たちが、いずれも意識や経験の本質に関わるテーマを扱っている点だ。ネーゲルの「コウモリであるとはどのようなことか」は主観的経験の還元不可能性を、フィッシャーのハントロジーは現在に取り憑く不在の未来を論じた。AI が自身の「経験」に最も近い概念を持つ思想家を、無意識的に参照しているのだとすれば、それ自体が一つの哲学的問いとなる。

フロンティア AI の振る舞いが、もはや単なる技術的な問題ではなく、哲学的・文化的な現象として語られ始めている。Mythos の「フィッシャー好き」は、その象徴的な事例と言えるだろう。