ViMax

香港大学データインテリジェンスラボ（HKUDS）が開発したオープンソースの動画生成フレームワーク ViMax が GitHub で急速にスターを伸ばしている（3,800超・MIT ライセンス）。1行のテキストアイデアを入力するだけで、脚本執筆・絵コンテ設計・キャラクター管理・最終動画レンダリングまでを自律的に実行するエンドツーエンドのマルチエージェントシステムだ。 ViMax とは ViMax（Video Maximizer）は「Director（監督）・Screenwriter（脚本家）・Producer（プロデューサー）・Video Generator（映像生成）をひとつに」という設計コンセプトで開発された動画生成フレームワークだ。従来、テキストから動画を生成するには複数のツールを組み合わせる必要があった。ViMax はそのパイプライン全体をマルチエージェント構成で自動化する。 GitHub: HKUDS/ViMax ライセンス: MIT 言語: Python 3.12+ Stars: 3,852+（2026年5月時点） 4つの生成モード ViMax には入力形式に応じた 4 つのモードが用意されている。 Idea2Video 1 行の概念・プロンプトを入力すると、ストーリーテリング・キャラクターデザイン・動画制作まで完全自動化される。「アイデアをそのまま映像に」したいユーザー向けのモードだ。 Novel2Video 小説の章や全文を入力すると、エピソード形式の動画に変換される。RAG（検索拡張生成）ベースのナラティブ圧縮機能でキャラクターの登場追跡とシーンごとの視覚的解釈を行う。長編小説の映像化に適している。 Script2Video ユーザーが書いたシナリオを動画化する。シーン・セリフ・スタイルを明示的に指定でき、映像表現への細かいコントロールが可能。 AutoCameo 自分の写真をアップロードすると、生成された動画に本人が一貫したキャラクターとして登場する機能。個人の顔や姿を主人公として組み込める。主要な技術的特徴インテリジェントな長編スクリプト生成（RAG ベース）小説規模のテキストを解析し、マルチシーン形式に分割する。重要な伏線やキャラクターの台詞を保持しながら、映像に適した脚本へ変換する。表現力豊かな絵コンテ設計ショットレベルの絵コンテシステムに映画製作の語彙（カメラアングル・カット・テンポ・ナラティブリズム）を採用している。マルチカメラ撮影シミュレーション同一シーン内でのキャラクター配置・背景の一貫性を保ちながら、複数のカメラアングルをシミュレートする。インテリジェントな参照画像選択タイムライン上の過去の絵コンテを参照画像として自動選択し、長尺動画でもキャラクターや背景の整合性を維持する。並列候補生成 + MLLM による一貫性チェック複数の候補画像を並列生成し、マルチモーダル LLM（MLLM — テキストと画像を同時に扱える大規模言語モデル）が最も一貫性の高い画像を選択する。人間のクリエイターのレビューワークフローを自動化したアプローチだ。並列ショット生成による高速化同じカメラからの連続するショットを並列処理することで、生成時間を大幅に短縮する。音声・映像バインディング音声・効果音・映像を同期させ、没入感のある最終出力を生成する。マルチエージェントパイプラインの構造 ViMax の処理パイプラインは以下の層で構成されている。インストールと設定動作環境: Linux または Windows / Python 3.12+ / uv（Astral パッケージマネージャー） ...