ViMax — 1行のアイデアから脚本・絵コンテ・動画まで自動生成する香港大学発マルチエージェントフレームワーク

香港大学データインテリジェンスラボ(HKUDS)が開発したオープンソースの動画生成フレームワーク ViMax が GitHub で急速にスターを伸ばしている(3,800超・MIT ライセンス)。1行のテキストアイデアを入力するだけで、脚本執筆・絵コンテ設計・キャラクター管理・最終動画レンダリングまでを自律的に実行するエンドツーエンドのマルチエージェントシステムだ。 ViMax とは ViMax(Video Maximizer)は「Director(監督)・Screenwriter(脚本家)・Producer(プロデューサー)・Video Generator(映像生成)をひとつに」という設計コンセプトで開発された動画生成フレームワークだ。従来、テキストから動画を生成するには複数のツールを組み合わせる必要があった。ViMax はそのパイプライン全体をマルチエージェント構成で自動化する。 GitHub: HKUDS/ViMax ライセンス: MIT 言語: Python 3.12+ Stars: 3,852+(2026年5月時点) 4つの生成モード ViMax には入力形式に応じた 4 つのモードが用意されている。 Idea2Video 1 行の概念・プロンプトを入力すると、ストーリーテリング・キャラクターデザイン・動画制作まで完全自動化される。「アイデアをそのまま映像に」したいユーザー向けのモードだ。 Novel2Video 小説の章や全文を入力すると、エピソード形式の動画に変換される。RAG(検索拡張生成)ベースのナラティブ圧縮機能でキャラクターの登場追跡とシーンごとの視覚的解釈を行う。長編小説の映像化に適している。 Script2Video ユーザーが書いたシナリオを動画化する。シーン・セリフ・スタイルを明示的に指定でき、映像表現への細かいコントロールが可能。 AutoCameo 自分の写真をアップロードすると、生成された動画に本人が一貫したキャラクターとして登場する機能。個人の顔や姿を主人公として組み込める。 主要な技術的特徴 インテリジェントな長編スクリプト生成(RAG ベース) 小説規模のテキストを解析し、マルチシーン形式に分割する。重要な伏線やキャラクターの台詞を保持しながら、映像に適した脚本へ変換する。 表現力豊かな絵コンテ設計 ショットレベルの絵コンテシステムに映画製作の語彙(カメラアングル・カット・テンポ・ナラティブリズム)を採用している。 マルチカメラ撮影シミュレーション 同一シーン内でのキャラクター配置・背景の一貫性を保ちながら、複数のカメラアングルをシミュレートする。 インテリジェントな参照画像選択 タイムライン上の過去の絵コンテを参照画像として自動選択し、長尺動画でもキャラクターや背景の整合性を維持する。 並列候補生成 + MLLM による一貫性チェック 複数の候補画像を並列生成し、マルチモーダル LLM(MLLM — テキストと画像を同時に扱える大規模言語モデル)が最も一貫性の高い画像を選択する。人間のクリエイターのレビューワークフローを自動化したアプローチだ。 並列ショット生成による高速化 同じカメラからの連続するショットを並列処理することで、生成時間を大幅に短縮する。 音声・映像バインディング 音声・効果音・映像を同期させ、没入感のある最終出力を生成する。 マルチエージェントパイプラインの構造 ViMax の処理パイプラインは以下の層で構成されている。 インストールと設定 動作環境: Linux または Windows / Python 3.12+ / uv(Astral パッケージマネージャー) ...

2026年5月11日 · 2 分