AI の名前に刻まれた「情報理論の父」— Claude Shannon が LLM の数学的基盤を作った

@finalvent 氏が X で投稿した、Anthropic の AI「Claude」の名前の由来に関するポストが注目を集めています。

Claudeって、Claude Shannonに因んでるのか。知らなかった。

この一見シンプルな気づきは、現代の AI 技術と 78 年前の数学理論をつなぐ深い糸を浮かび上がらせます。Anthropic がなぜ自社の AI に「Claude」と名付けたのか — その理由を理解するには、Claude Elwood Shannon(1916-2001)が何を成し遂げたのかを知る必要があります。

Claude Shannon とは誰か

「情報の時代」を切り拓いた数学者

Claude Elwood Shannon は、1916 年 4 月 30 日、アメリカ・ミシガン州ペトスキーに生まれました。ミシガン大学で数学と電気工学の二重学位を取得した後、MIT の修士課程で書いた論文が、すでに歴史的な業績でした。

1937 年の修士論文 — 「A Symbolic Analysis of Relay and Switching Circuits」— は、ブール代数(真/偽の論理演算)を電気回路のスイッチに対応させるという発想を初めて体系化しました。この論文により、複雑な論理をスイッチの ON/OFF の組み合わせで実現できることが数学的に証明され、デジタルコンピュータの設計基盤が確立されました。

この修士論文は「20 世紀で最も重要な修士論文」と呼ばれることがあります。私たちが毎日使うスマートフォン、PC、サーバー — すべてのデジタル機器は、Shannon が 21 歳で示した原理の上に成り立っています。

ベル研究所と MIT

Shannon は 1941 年から 1972 年までベル研究所(Bell Labs)に在籍しました。当時のベル研究所は、トランジスタの発明(1947 年)、UNIX オペレーティングシステム、C 言語など、現代のコンピューティングの基盤技術を次々に生み出した「イノベーションの殿堂」です。

Shannon はベル研究所の自由な研究環境の中で、暗号理論、人工知能、ゲーム理論など幅広い分野で業績を残しました。1956 年からは MIT の教授を兼任し、後進の育成にも携わっています。

1948 年の論文 — 情報理論の誕生

「A Mathematical Theory of Communication」

1948 年、Shannon はベル研究所の技術誌に「A Mathematical Theory of Communication(通信の数学的理論)」を発表しました。この論文は、Google Scholar で 16 万件以上の被引用数を持ち、「情報時代のマグナ・カルタ」と称されています。

この論文以前、「情報」は曖昧な日常語でした。Shannon はこれを 数学的に定量化可能な概念 に変えたのです。

Shannon が定義した 3 つの概念

1. ビット(bit)

Shannon は情報の最小単位を定義しました。名前は数学者 John Tukey が提案した「binary digit」の略称「bit」を採用しています。

「コインを投げて表か裏かを伝える」— この 1 回の選択に含まれる情報量が 1 ビットです。すべてのデジタルデータ — テキスト、画像、音声、動画 — は、このビットの組み合わせで表現されます。

2. 情報エントロピー(entropy)

Shannon は「情報のエントロピー」という概念を導入しました。これは メッセージの不確実性・予測困難さ を数値化したものです。

H(X) = -Σ p(x) log₂ p(x)
  • エントロピーが高い = 予測しにくい = 情報量が多い
  • エントロピーが低い = 予測しやすい = 情報量が少ない

例えば「明日、太陽は東から昇る」はエントロピーが極めて低い(予測可能)ので、情報量はほぼゼロです。一方「明日、火星に生命が発見される」はエントロピーが高く、情報量が大きいのです。

「エントロピー」という用語は、もともと熱力学で使われていた概念です。Shannon がこの名前を選んだ経緯には有名なエピソードがあります。フォン・ノイマンに相談した際、「エントロピーと呼びなさい。まず、あなたの不確実性の尺度は統計力学でまさにそう呼ばれている。そして第二に、もっと重要なことだが、エントロピーが実際に何であるかを誰も知らないのだから、議論ではいつも有利になれる」と助言されたと言われています。

3. 通信路容量(channel capacity)

Shannon は、ノイズがある通信路でもエラーなくデータを送れる理論上の最大速度 — 通信路容量 — が存在することを証明しました。

この定理は衝撃的でした。ノイズがあっても、適切な符号化を行えば、理論上は完全にエラーなく通信できるのです。この発見が、現在のインターネット、携帯電話、衛星通信、Wi-Fi など、あらゆるデジタル通信の理論的基盤になっています。

Shannon と現代の LLM — 78 年の時を越えた直結

言語の確率的モデル — LLM の「予言」

Shannon の 1948 年論文で最も先見的だった部分の一つが、自然言語を確率過程としてモデル化したことです。

Shannon は英語の文章を「前の文字列から次の文字を予測する確率的プロセス」として捉えました。論文の中で、彼は n-gram モデル(直前の n 文字から次の文字の確率を推定する手法)を使って英語のテキストを生成する実験を行っています。

0次近似(ランダム):
  XFOML RXKHRJFFJUJ ZLPWCFWKCYJ FFJEYVKCQSGHYD

1次近似(英語の文字頻度を反映):
  OCRO HLI RGWR NMIELWIS EU LL NBNESEBYA TH EEI

2次近似(2文字の連続頻度を反映):
  ON IE ANTSOUTINYS ARE T INCTORE ST BE S DEAMY

3次近似(3文字の連続頻度を反映):
  IN NO IST LAT WHEY CRATICT FROURE BIRS GROCID

次数を上げるほど、生成されるテキストが英語らしくなっていく — これは 2026 年の大規模言語モデルがやっていることの、概念的な原型です。

クロスエントロピー損失関数 — LLM の学習目標

現代の LLM(GPT、Claude、Gemini など)が訓練時に最小化する目標関数は クロスエントロピー損失 です。

L = -Σ p(x) log q(x)

ここで p(x) は実際のテキストの分布、q(x) はモデルの予測分布です。この式は Shannon のエントロピーの公式そのものの拡張です。

Shannon(1948)現代の LLM(2024-2026)
英語の文字列を確率過程として定義テキストをトークン列の確率分布として学習
n-gram モデルで次の文字を予測Transformer で次のトークンを予測
エントロピーで言語の不確実性を定量化クロスエントロピーで予測精度を最適化
通信路容量の理論的限界を証明学習データとパラメータ数の スケーリング則を探索

つまり、LLM の訓練とは「Shannon エントロピーの最小化」に他なりません。モデルが「次に来る単語を正確に予測できる」ようになるほど、クロスエントロピーは下がり、モデルの性能は上がります。

「訓練 = 圧縮」という視点

Shannon の情報理論には「情報量 = 最小の符号化長」という等価性があります。これを LLM に当てはめると、モデルの訓練はデータの圧縮と等価です。

LLM がテキストの統計的パターンを学習するということは、そのテキストをより短い表現(重みパラメータ)に圧縮しているのと同じです。この「圧縮としての学習」という視点は、Shannon の情報理論から直接導かれます。

Anthropic のリサーチャーたちはこの関係を深く理解しています。LLM の性能向上を「圧縮効率の改善」として捉える研究アプローチは、Shannon の情報理論的枠組みそのものです。

Shannon のもう一つの顔 — 遊び心と創造性

Shannon は厳密な数学者である一方、驚くほど遊び心に溢れた人物でした。

チェスマシンの先駆者

1950 年、Shannon は論文「Programming a Computer for Playing Chess」を発表しました。コンピュータがチェスをプレイするためのアルゴリズムを初めて体系的に論じたこの論文は、コンピュータチェスとゲーム AI の出発点となりました。

Shannon はチェスの手の探索戦略を 2 つに分類しました。

  • Type A(力任せ探索): すべての可能な手を網羅的に評価する
  • Type B(選択的探索): 有望な手だけを深く探索する

この分類は、現代の AI における「幅優先 vs 深さ優先」の探索戦略の原型です。

ジャグリングの定理

Shannon は熟練したジャグラーでもあり、ジャグリングの数学的定理を証明しました。ボールの数、手の数、滞空時間、キャッチにかかる時間の関係を数式で表したこの定理は、ジャグリング研究の基礎になっています。

発明家としての遊び心

ベル研究所と MIT での Shannon は、数々の奇抜な発明でも知られていました。

  • Ultimate Machine(究極の機械): スイッチを入れると、機械の中から手が出てきてスイッチを切る — それだけの機械。「世界で最も役に立たない機械」として今でも愛されています
  • 一輪車でジャグリングしながら廊下を走る: MIT の廊下で一輪車に乗りながらジャグリングをする Shannon の姿は伝説的でした
  • 火を吐くトランペット: 演奏すると炎が出るトランペットを自作

Shannon は「遊びは創造の母」を体現した人物でした。一見無駄に見える遊びの中から、情報理論という人類史上最も重要な数学的フレームワークの一つが生まれたのです。

Anthropic はなぜ「Claude」と名付けたのか

情報理論の父への敬意

Anthropic は、自社の AI アシスタントを Claude Shannon にちなんで「Claude」と名付けたことを公式に認めています。Anthropic の共同創業者 Dario Amodei は、Shannon を「情報理論の父」として深く尊敬していると述べています。

この命名は単なるオマージュではありません。Anthropic のミッションと Shannon の仕事には深い連続性があります。

Shannon の遺産Anthropic の取り組み
情報の数学的定量化AI の安全性の定量的研究
通信の理論的限界の証明AI の能力と安全性のスケーリング則の探索
ノイズ下での信頼性ある通信ハルシネーションの低減と信頼性向上
暗号理論の基礎Constitutional AI による安全性保証

Shannon が見ていたもの

Shannon は 1950 年の論文「Programming a Computer for Playing Chess」の中で、コンピュータが人間を超える知的タスクを遂行する可能性に言及しています。また、1956 年にはジョン・マッカーシーらとともにダートマス会議に参加し、「人工知能」という分野の命名と創設に関わりました。

Shannon は AI の可能性を信じていましたが、その実現には情報の本質 — エントロピー、確率、符号化 — への深い理解が不可欠だと考えていました。70 年後、彼の理論はまさにその通りの形で AI の基盤になっています。

「次の単語を予測する」— Shannon から LLM へ

@finalvent 氏の「知らなかった」という素朴な気づきは、実は現代の AI 技術の核心を突いています。

Claude(Anthropic の AI)が文章を生成するとき、それは「前のテキストから次のトークンの確率分布を予測する」プロセスです。これは Claude Shannon が 1948 年に定式化した「通信における次のシンボルの確率的予測」と、数学的に同じ構造を持っています。

Shannon(1948):
  「THE」の後に来る文字の確率分布を計算する
  → 英語の統計的構造を確率過程として捉える

Claude(2026):
  「THE」の後に来るトークンの確率分布を予測する
  → 大規模なテキストデータから学習した統計的パターンに基づく

本質的な違い:
  Shannon → n-gram(数文字の文脈)
  LLM → Transformer(数万トークンの文脈)
  構造は同じ。スケールが違う。

AI の名前に「Claude」を冠することは、この技術が Shannon の情報理論の延長線上にあることを宣言しているのです。

まとめ

  • Claude Shannon は「情報理論の父」: 1948 年の論文で情報を数学的に定量化し、ビット・エントロピー・通信路容量の概念を確立した
  • デジタル時代の基盤を築いた: 1937 年の修士論文でブール代数と電気回路を結びつけ、デジタルコンピュータの設計原理を証明した
  • LLM の数学的基盤は Shannon のエントロピー: 現代の LLM が最小化するクロスエントロピー損失関数は、Shannon のエントロピー公式の直接的な拡張である
  • 「次の単語を予測する」は Shannon の定式化: 言語を確率過程としてモデル化するアプローチは、1948 年の論文で Shannon が初めて体系化した
  • Anthropic の「Claude」は情報理論への敬意: AI の名前に Shannon の名を冠することで、この技術が情報理論の延長線上にあることを示している
  • 遊び心と厳密さの共存: チェスマシン、ジャグリング定理、Ultimate Machine — Shannon の遊び心は、最も重要な理論的発見と共存していた

参考