香港大学データインテリジェンスラボ(HKUDS)が開発したオープンソースの動画生成フレームワーク ViMax が GitHub で急速にスターを伸ばしている(3,800超・MIT ライセンス)。1行のテキストアイデアを入力するだけで、脚本執筆・絵コンテ設計・キャラクター管理・最終動画レンダリングまでを自律的に実行するエンドツーエンドのマルチエージェントシステムだ。
ViMax とは
ViMax(Video Maximizer)は「Director(監督)・Screenwriter(脚本家)・Producer(プロデューサー)・Video Generator(映像生成)をひとつに」という設計コンセプトで開発された動画生成フレームワークだ。従来、テキストから動画を生成するには複数のツールを組み合わせる必要があった。ViMax はそのパイプライン全体をマルチエージェント構成で自動化する。
- GitHub: HKUDS/ViMax
- ライセンス: MIT
- 言語: Python 3.12+
- Stars: 3,852+(2026年5月時点)
4つの生成モード
ViMax には入力形式に応じた 4 つのモードが用意されている。
Idea2Video
1 行の概念・プロンプトを入力すると、ストーリーテリング・キャラクターデザイン・動画制作まで完全自動化される。「アイデアをそのまま映像に」したいユーザー向けのモードだ。
Novel2Video
小説の章や全文を入力すると、エピソード形式の動画に変換される。RAG(検索拡張生成)ベースのナラティブ圧縮機能でキャラクターの登場追跡とシーンごとの視覚的解釈を行う。長編小説の映像化に適している。
Script2Video
ユーザーが書いたシナリオを動画化する。シーン・セリフ・スタイルを明示的に指定でき、映像表現への細かいコントロールが可能。
AutoCameo
自分の写真をアップロードすると、生成された動画に本人が一貫したキャラクターとして登場する機能。個人の顔や姿を主人公として組み込める。
主要な技術的特徴
インテリジェントな長編スクリプト生成(RAG ベース)
小説規模のテキストを解析し、マルチシーン形式に分割する。重要な伏線やキャラクターの台詞を保持しながら、映像に適した脚本へ変換する。
表現力豊かな絵コンテ設計
ショットレベルの絵コンテシステムに映画製作の語彙(カメラアングル・カット・テンポ・ナラティブリズム)を採用している。
マルチカメラ撮影シミュレーション
同一シーン内でのキャラクター配置・背景の一貫性を保ちながら、複数のカメラアングルをシミュレートする。
インテリジェントな参照画像選択
タイムライン上の過去の絵コンテを参照画像として自動選択し、長尺動画でもキャラクターや背景の整合性を維持する。
並列候補生成 + MLLM による一貫性チェック
複数の候補画像を並列生成し、マルチモーダル LLM(MLLM — テキストと画像を同時に扱える大規模言語モデル)が最も一貫性の高い画像を選択する。人間のクリエイターのレビューワークフローを自動化したアプローチだ。
並列ショット生成による高速化
同じカメラからの連続するショットを並列処理することで、生成時間を大幅に短縮する。
音声・映像バインディング
音声・効果音・映像を同期させ、没入感のある最終出力を生成する。
マルチエージェントパイプラインの構造
ViMax の処理パイプラインは以下の層で構成されている。

インストールと設定
動作環境: Linux または Windows / Python 3.12+ / uv(Astral パッケージマネージャー)
uv が未インストールの場合は先にインストールする:
| |
| |
必要な API キー(3つの外部サービス):
- チャットモデル — デフォルト:
google/gemini-2.5-flash-lite-preview-09-2025(OpenRouter 経由)。代替として MiniMax-M2.7(100万トークンコンテキスト)や MiniMax-M2.5 も利用可能。 - 画像生成 — Google Nanobanana API キー
- 動画生成 — Google Veo API キー
設定ファイル(configs/idea2video.yaml の例):
| |
実行エントリポイント:
main_idea2video.py— Idea2Video モードmain_script2video.py— Script2Video モード
Script2Video の使用例:
| |
スタイルプリセット: Cartoon、Cinematic、Modern Tech、Animate Style など
注意点・制限事項
- 対応 OS: Linux と Windows のみ。macOS はサポート外
- 外部 API 必須: チャットモデル(OpenRouter)・画像生成(Nanobanana)・動画生成(Google Veo)の3種類の API キーが必要で、それぞれ利用コストが発生する
- Python 3.12+: システムの Python バージョンが 3.12 未満の場合は事前アップグレードが必要
- 生成時間: 複数のエージェントが直列・並列で動作するため、動画1本の生成に数分〜数十分かかる場合がある
- モデル名の変動: デフォルトのチャットモデル
google/gemini-2.5-flash-lite-preview-09-2025はプレビュー版のため、今後変更される可能性がある(2026年5月時点)
活用シーン
ViMax が特に効果を発揮する用途は以下のとおり:
- コンテンツクリエイター・個人メディア: SNS 用の動画を効率的に量産
- 小説家・物語作家: 執筆した小説を映像化してプレビュー
- 広告・マーケティングチーム: コンセプト動画の高速プロトタイピング
- 教育コンテンツ制作者: 授業動画や説明動画の作成
- インディーズ映像制作者: 映画・ゲームのシネマティック映像
まとめ
ViMax は「1行書くだけで動画ができる」というコンセプトを、マルチエージェントアーキテクチャと RAG ベースの一貫性管理によって実用レベルで実現したフレームワークだ。Runway や HeyGen のような商用サービスの機能をオープンソースで統合した点が際立っており、コンテンツ制作の自動化を検討している開発者やクリエイターにとって試す価値がある。
AutoCameo や Novel2Video など独自機能のロードマップも活発に進んでおり、今後のアップデートにも注目したい。