ElevenLabs

概要 browser-use チームが開発した、Claude Code のスキルとして動作する動画編集自動化ツール。GitHub リポジトリ browser-use/video-use で公開。カメラに向かって話した素材を Claude に渡すだけで final.mp4 を生成できる。設計の核心: LLM は動画を「見ない」従来の素朴なアプローチ（30,000 フレーム × 1,500 トークン = 4,500 万トークン）の代わりに、2 層の情報表現を採用する: 層内容容量 Layer 1（常時ロード） ElevenLabs Scribe による音声トランスクリプト（takes_packed.md）約 12KB Layer 2（必要時のみ）フィルムストリップ + 波形 + ワードラベルの PNG 判断が必要な場合のみ生成 browser-use が LLM に DOM を渡すのと同じ発想で、動画に対しては「テキスト + 必要時の画像」という形で情報を渡す。主な機能フィラーワード自動カット: 「えー」「あの」「umm」「uh」などと無音部分を自動除去自動カラーグレーディング: セグメントごとにプリセットまたはカスタム ffmpeg チェーンを適用字幕自動生成: デフォルトは 2 ワードの大文字チャンク形式 30ms オーディオフェード: すべてのカット点で自動適用アニメーションオーバーレイ: Manim / Remotion / PIL によるアニメーションをサブエージェントで並列生成自己評価ループ: レンダリング後に全カット境界を自動チェック、最大 3 回まで自動修正セッションメモリ: project.md に状態を保存して次回セッションで継続セットアップ 1 2 3 4 5 git clone https://github.com/browser-use/video-use ln -s "$(pwd)/video-use" ~/.claude/skills/video-use pip install -e video-use brew install ffmpeg # .env に ELEVENLABS_API_KEY を設定使い方動画素材フォルダに移動して Claude Code を起動し、自然言語で指示するだけ。出力はすべて <videos_dir>/edit/ に格納される。 ...