Karpathy の autoresearch — AIが寝ている間に100回実験を回す仕組み
Andrej Karpathy が公開した autoresearch は、AI エージェントが単一 GPU 上で自律的に ML 実験を繰り返すツールです。わずか約630行の Python コードで「コード修正 → 学習 → 評価 → 改善」のループを自動化し、研究の競争軸を「コード品質」から「改善ループの速度」へと変えようとしています。 autoresearch とは autoresearch のコンセプトはシンプルです: AIエージェントに小さいが本物の LLM トレーニング環境を渡し、一晩中自律的に実験させる エージェントはトレーニングコード(train.py)を自動修正し、5分間のトレーニングを実行、検証損失(val_bpb)が改善したかを確認し、結果に基づいて次の実験に進みます。 プロジェクト構成 autoresearch はたった3つのファイルで構成されています: ファイル 役割 編集者 prepare.py データ準備・ランタイムユーティリティ 変更不可 train.py モデル・オプティマイザ・学習ループ AIエージェント program.md エージェントへの指示書 人間 従来のML研究では Python ファイルを直接編集しますが、autoresearch では Markdown ファイル(program.md)でエージェントに指示を与える という設計になっています。人間が行うのは「プログラムのプログラミング」です。 固定時間予算という設計判断 autoresearch の重要な設計判断は、全てのトレーニングを ちょうど5分間 に固定していることです: 1時間あたり約12回の実験が可能 一晩(8時間)で約100回の実験を自動実行 プラットフォームに依存せず公平な比較が可能 1 2 3 4 5 6 # セットアップ uv sync uv run prepare.py # データ準備(初回のみ、約2分) # 単一実験の実行 uv run train.py # 約5分で完了 エージェントの起動は、Claude などの AI に対して以下のように指示するだけです: ...