ViMax — 1行のアイデアから脚本・絵コンテ・動画まで自動生成する香港大学発マルチエージェントフレームワーク

香港大学データインテリジェンスラボ(HKUDS)が開発したオープンソースの動画生成フレームワーク ViMax が GitHub で急速にスターを伸ばしている(3,800超・MIT ライセンス)。1行のテキストアイデアを入力するだけで、脚本執筆・絵コンテ設計・キャラクター管理・最終動画レンダリングまでを自律的に実行するエンドツーエンドのマルチエージェントシステムだ。 ViMax とは ViMax(Video Maximizer)は「Director(監督)・Screenwriter(脚本家)・Producer(プロデューサー)・Video Generator(映像生成)をひとつに」という設計コンセプトで開発された動画生成フレームワークだ。従来、テキストから動画を生成するには複数のツールを組み合わせる必要があった。ViMax はそのパイプライン全体をマルチエージェント構成で自動化する。 GitHub: HKUDS/ViMax ライセンス: MIT 言語: Python 3.12+ Stars: 3,852+(2026年5月時点) 4つの生成モード ViMax には入力形式に応じた 4 つのモードが用意されている。 Idea2Video 1 行の概念・プロンプトを入力すると、ストーリーテリング・キャラクターデザイン・動画制作まで完全自動化される。「アイデアをそのまま映像に」したいユーザー向けのモードだ。 Novel2Video 小説の章や全文を入力すると、エピソード形式の動画に変換される。RAG(検索拡張生成)ベースのナラティブ圧縮機能でキャラクターの登場追跡とシーンごとの視覚的解釈を行う。長編小説の映像化に適している。 Script2Video ユーザーが書いたシナリオを動画化する。シーン・セリフ・スタイルを明示的に指定でき、映像表現への細かいコントロールが可能。 AutoCameo 自分の写真をアップロードすると、生成された動画に本人が一貫したキャラクターとして登場する機能。個人の顔や姿を主人公として組み込める。 主要な技術的特徴 インテリジェントな長編スクリプト生成(RAG ベース) 小説規模のテキストを解析し、マルチシーン形式に分割する。重要な伏線やキャラクターの台詞を保持しながら、映像に適した脚本へ変換する。 表現力豊かな絵コンテ設計 ショットレベルの絵コンテシステムに映画製作の語彙(カメラアングル・カット・テンポ・ナラティブリズム)を採用している。 マルチカメラ撮影シミュレーション 同一シーン内でのキャラクター配置・背景の一貫性を保ちながら、複数のカメラアングルをシミュレートする。 インテリジェントな参照画像選択 タイムライン上の過去の絵コンテを参照画像として自動選択し、長尺動画でもキャラクターや背景の整合性を維持する。 並列候補生成 + MLLM による一貫性チェック 複数の候補画像を並列生成し、マルチモーダル LLM(MLLM — テキストと画像を同時に扱える大規模言語モデル)が最も一貫性の高い画像を選択する。人間のクリエイターのレビューワークフローを自動化したアプローチだ。 並列ショット生成による高速化 同じカメラからの連続するショットを並列処理することで、生成時間を大幅に短縮する。 音声・映像バインディング 音声・効果音・映像を同期させ、没入感のある最終出力を生成する。 マルチエージェントパイプラインの構造 ViMax の処理パイプラインは以下の層で構成されている。 インストールと設定 動作環境: Linux または Windows / Python 3.12+ / uv(Astral パッケージマネージャー) ...

2026年5月11日 · 2 分

DeepSeek-V4 Preview — Claude Opus 4.6 匹敵・100万トークン対応のオープンソース LLM が無償公開

DeepSeek-AI が 2026 年 4 月 24 日、100 万トークンのコンテキスト長に対応したオープンソース AI モデル「DeepSeek-V4 Preview」を公開した。コーディング競技プラットフォーム Codeforces では GPT-5.4 を上回るレーティングを記録。コーディングベンチマークでは Claude Opus 4.6 にほぼ匹敵する性能を持ちながら MIT ライセンスで無償公開されるという、衝撃的なリリースとなった。 DeepSeek-V4 の概要 DeepSeek-V4 Preview は Pro と Flash の 2 バリアントで構成される。 モデル 総パラメータ数 推論時アクティブパラメータ数 DeepSeek-V4-Pro 1 兆 6,000 億 490 億 DeepSeek-V4-Flash 2,840 億 130 億 いずれも Mixture-of-Experts(MoE)アーキテクチャを採用しており、推論時には全パラメータの一部のみを活性化することで高い効率を実現している。 アーキテクチャの革新:ハイブリッドアテンション DeepSeek-V4 の技術的な目玉は「ハイブリッドアテンション機構」だ。トークン単位の圧縮と DSA(DeepSeek Sparse Attention) を組み合わせることで、前世代と比較して: 推論演算量を約 73% 削減 KV キャッシュサイズを約 90% 削減 これにより、100 万トークンという非常に長いコンテキストをより少ないリソースで扱えるようになった。実用上は長い会話履歴・大きなコードベース・長文ドキュメントを一度のプロンプトに収められるため、エージェント系ユースケースとの相性が良い。 ベンチマーク性能 Codeforces で GPT-5.4 超え コーディング競技プラットフォーム Codeforces でのレーティングは 3,206(V4-Pro)を記録し、GPT-5.4 の 3,168 を上回るスコアを達成した。コーディング能力においてオープンソースモデルとして最先端の水準に到達した形だ。 ...

2026年4月25日 · 1 分

Infisical

概要 Infisical はシークレット(API キー・パスワード・証明書)をランタイム時に取得する設計のオープンソースプラットフォーム。.env ファイルのようにディスクに保存しないため、ファイルベースの漏洩リスクを根本から排除する。GitHub 26,000 スター超(2026年4月時点)で HashiCorp Vault の OSS 代替として注目されている。 主な機能 シークレット管理: プロジェクト・環境ごとの管理、バージョン履歴、自動ローテーション、監査ログ 証明書管理(PKI): プライベート CA 構築、ACME 対応、証明書自動更新 Machine Identity: AI エージェント・CI/CD・サービスアカウント向けの非人間アクター認証 統合: CLI・SDK(Node.js/Python/Go/Java)・Kubernetes・GitHub Actions・AWS/GCP/Azure CLI の基本操作 1 2 3 4 5 6 7 8 9 10 # インストール (macOS) brew install infisical/get-cli/infisical # ログイン・プロジェクト紐付け infisical login infisical init # シークレットを注入してコマンド実行 infisical run -- node app.js infisical run --env=staging -- python manage.py runserver AI エージェント時代との関連 Machine Identity により、AI エージェントや MCP サーバーが必要なシークレットだけをランタイムで動的取得できる。最小権限の原則を実装しやすく、シャドーAI・バイブコーディングで問題になる認証情報の平文保存リスクを排除する。 ...

2026年4月23日 · 1 分

Video Use

概要 browser-use チームが開発した、Claude Code のスキルとして動作する動画編集自動化ツール。GitHub リポジトリ browser-use/video-use で公開。カメラに向かって話した素材を Claude に渡すだけで final.mp4 を生成できる。 設計の核心: LLM は動画を「見ない」 従来の素朴なアプローチ(30,000 フレーム × 1,500 トークン = 4,500 万トークン)の代わりに、2 層の情報表現を採用する: 層 内容 容量 Layer 1(常時ロード) ElevenLabs Scribe による音声トランスクリプト(takes_packed.md) 約 12KB Layer 2(必要時のみ) フィルムストリップ + 波形 + ワードラベルの PNG 判断が必要な場合のみ生成 browser-use が LLM に DOM を渡すのと同じ発想で、動画に対しては「テキスト + 必要時の画像」という形で情報を渡す。 主な機能 フィラーワード自動カット: 「えー」「あの」「umm」「uh」などと無音部分を自動除去 自動カラーグレーディング: セグメントごとにプリセットまたはカスタム ffmpeg チェーンを適用 字幕自動生成: デフォルトは 2 ワードの大文字チャンク形式 30ms オーディオフェード: すべてのカット点で自動適用 アニメーションオーバーレイ: Manim / Remotion / PIL によるアニメーションをサブエージェントで並列生成 自己評価ループ: レンダリング後に全カット境界を自動チェック、最大 3 回まで自動修正 セッションメモリ: project.md に状態を保存して次回セッションで継続 セットアップ 1 2 3 4 5 git clone https://github.com/browser-use/video-use ln -s "$(pwd)/video-use" ~/.claude/skills/video-use pip install -e video-use brew install ffmpeg # .env に ELEVENLABS_API_KEY を設定 使い方 動画素材フォルダに移動して Claude Code を起動し、自然言語で指示するだけ。出力はすべて <videos_dir>/edit/ に格納される。 ...

2026年4月23日 · 1 分

Video Use — Claude Code で動画編集を完全自動化するオープンソーススキル

Claude Code で動画編集が完全自動化できる「Video Use」が公開されました。browser-use チームが開発したオープンソーススキルです。カメラに向かって話した素材を Claude に渡すだけで final.mp4 が完成します。 Video Use とは Video Use は、Claude Code のスキルとして動作する動画編集自動化ツールです。GitHub リポジトリ browser-use/video-use で公開されており、100% オープンソースで利用できます(ただし ElevenLabs API キーが必要です)。 ブラウザ操作を自動化する browser-use を開発したチームが作成したもので、同じ「LLM に情報を読ませる」思想が動画編集に応用されています。 主な機能 フィラーワード自動カット — 「えー」「あの」「umm」「uh」などの無駄な言葉や、テイク間の無音部分を自動で除去 自動カラーグレーディング — セグメントごとにカラーグレード(ウォームシネマティック、ニュートラルパンチ、カスタム ffmpeg チェーンなど)を適用 字幕自動生成 — デフォルトでは 2 ワードの大文字チャンク形式。スタイルは完全カスタマイズ可能 30ms オーディオフェード — すべてのカット点で自動的に適用され、ポップノイズを防止 アニメーションオーバーレイ — Manim / Remotion / PIL によるアニメーションをサブエージェントで並列生成して追加可能 自己評価ループ — レンダリング後にすべてのカット境界を自動チェック。問題があれば最大 3 回まで自動修正 セッションメモリ — project.md に状態を保存し、次回セッションで継続作業が可能 なぜ LLM で動画編集できるのか Video Use の設計で興味深いのは、LLM は動画を「見ない」 という点です。 Naive approach: 30,000 frames × 1,500 tokens = 45M tokens of noise. Video Use: 12KB text + a handful of PNGs. ...

2026年4月17日 · 2 分

Onyx(旧 Danswer)

概要 旧称 Danswer から改名されたオープンソースの企業向け AI アシスタント&検索プラットフォーム。Slack・GitHub・Confluence・Google Drive など 50 以上のコネクタで社内ナレッジを統合し、自然言語で検索・質問できる。GitHub スター数 22,000 超。 ライセンス: Community Edition (CE) は MIT ライセンスで無料 GitHub: onyx-dot-app/onyx 主な機能 機能 内容 ハイブリッド検索 ベクトル検索 + キーワード検索の組み合わせ Agentic RAG エージェントが自律的に多段階検索 Deep Research 複数ステップのリサーチでレポート生成 カスタムエージェント 独自の指示・知識・アクションを持つエージェント 50 以上のコネクタ Slack・GitHub・Notion・Jira・Linear など MCP 対応 MCP 経由のカスタムコネクタも可 セルフホスト手順 Docker と Docker Compose があれば数分でデプロイ可能: 1 2 3 curl -fsSL https://raw.githubusercontent.com/onyx-dot-app/onyx/main/deployment/docker_compose/install.sh > install.sh chmod +x install.sh ./install.sh 対応 LLM クラウド LLM(OpenAI・Anthropic・Gemini)とローカル LLM(Ollama・vLLM・LiteLLM)の両方に対応。完全オンプレミス構成で外部 API なしの運用も可能。 ...

2026年4月16日 · 1 分

MemPalace

概要 2026年4月に GitHub で急速に注目を集めた AI メモリシステム。LongMemEval ベンチマークで 96.6% を公表し、1週間で 45,000 スター以上を獲得した。古代の記憶術「記憶の宮殿(Method of Loci)」にインスパイアされた階層構造で会話データを管理する。MIT ライセンスのオープンソース(Python)。 アーキテクチャ:宮殿の構造 階層 役割 Wing(翼) トピックやプロジェクトをグループ化 Hall(ホール) メモリの種類を分類 Room(部屋) 特定の知識やアイデアを保持 Closet / Drawer さらに細かい情報の格納 Tunnel(トンネル) 異なる Room 間の関連を結ぶナレッジグラフ 主な技術的特徴 完全ローカル動作: SQLite + ChromaDB でローカルに永続化、外部 API 不要 MCP 対応: Claude Code、ChatGPT、Cursor など主要 AI ツールと統合可能 AAAK 圧縮: 独自の省略圧縮方式(ただし有効時はスコアが低下、後述) ベンチマークと論争 公表された「96.6%」スコアは、MemPalace の宮殿構造ではなく ChromaDB のデフォルト埋め込み(all-MiniLM-L6-v2)による Recall@5 の数値であることが指摘されている。また 100% スコアはテストセットへのオーバーフィッティング、AAAK 圧縮を有効にするとスコアは 84.2% に低下するという問題が確認された。開発チームはこれらを認め README を修正している。 導入が有効なケース 記憶の仕組みを持たない AI ツールに永続メモリを追加したい場合 複数の AI ツール間でメモリを共有したい場合 既に Claude Code の auto-memory や CLAUDE.md / MEMORY.md を活用している場合は重複する可能性が高い。 ...

2026年4月14日 · 1 分

claude-mem

概要 thedotmack/claude-mem は Claude Code にセッションをまたいだ記憶を持たせる MCP(Model Context Protocol)ベースのオープンソースプラグイン。公開から48時間で46,000スターを獲得し、「トークン消費95%削減」「コンテキスト上限に到達しない」「前回の続きから再開できる」という特徴が開発者の注目を集めた。 主な特徴 特徴 内容 トークン削減 セッションあたり約95% ストレージ ローカル SQLite + Chroma インストール npx claude-mem install(1コマンド) ライセンス オープンソース・完全無料 3層検索フロー 関連する記憶を効率よく取り出すために、以下の段階的なフィルタリングを採用する: キーワード検索 (search) — テキストマッチで候補を絞り込む タイムライン確認 (timeline) — 時系列で文脈を絞り込む 詳細取得 (get_observations) — 必要な記憶だけを取得する 先に絞り込んでから詳細取得することで不要なトークン消費を防ぐ。この仕組みが「95%削減」の源泉。 記憶の保存と圧縮 Claude Code のセッション中の操作を自動キャプチャ AI を使って記憶を圧縮・要約(Claude Agent SDK を使用) ローカルの SQLite データベースに永続化 Chroma によるベクトル埋め込み検索で意味的に類似した記憶を検索 インストール 1 npx claude-mem install 特別な API キーや外部サービスの登録は不要。完全ローカルで動作する。 MemPalace との比較 観点 claude-mem MemPalace 対象 Claude Code 専用 複数 AI ツール対応 インストール 1コマンド Python セットアップ 公表スコア トークン95%削減 LongMemEval 96.6%(論争あり) アーキテクチャ 3層検索 宮殿構造(Wing/Hall/Room) 関連ページ MemPalace — 別アプローチの AI メモリシステム エージェントメモリのロックイン — メモリ管理の設計上の課題 Claude Code — claude-mem の動作環境 MCP — プラグインの接続プロトコル

2026年4月13日 · 1 分

Rowboat:100%ローカルで動くオープンソースAI同僚ツール

完全オープンソースで動く AI 同僚ツール「Rowboat」が注目を集めている。音声制御、MCP ツール連携、バックグラウンドエージェントなど、有料 AI アシスタントサービスに相当する機能を、データをローカルに保ったまま利用できる点が特徴だ。 Rowboat とは Rowboat(rowboatlabs/rowboat)は「Open-source AI coworker, with memory」を謳う AI 同僚ツール。GitHub スター数は 12,000 以上(2026年4月時点)に達しており、急速に注目が高まっている。 主な特徴は以下の通り。 100% ローカル動作 — データが外部に出ない 音声制御 — リアルなアシスタントのように話しかけられる 任意の LLM に接続可能 — Claude、GPT-4 系などを選択できる MCP ツール + Obsidian ブレイン — ナレッジグラフと外部ツールを組み合わせた記憶管理 バックグラウンド自律エージェント — 裏側で自律的にタスクをこなすエージェント群 知識グラフの自動構築 — 会話・作業履歴から知識を蓄積 ローカルで動く AI 同僚のインパクト これまでの AI アシスタントの多くはクラウド型であり、プロンプト・ドキュメントなどのデータが外部サーバーに送信される仕組みだった。Rowboat はすべてローカルで処理するため、機密情報を扱う業務でも安心して利用できる。 また、任意の LLM を接続できる柔軟性も魅力だ。Anthropic の Claude を接続しながら推論はローカルで完結させるといった構成も可能で、API コストの制御がしやすい。 MCP ツール連携と Obsidian ブレイン Rowboat が対応している MCP(Model Context Protocol)は、AI ツールが外部サービスや情報源と標準化されたインターフェースで通信するためのプロトコルだ。これにより、ファイルシステム、Web 検索、カレンダーなど様々なツールをエージェントに組み込める。 ...

2026年4月12日 · 1 分

Ollama

概要 llama.cpp ベースで Mac/Linux/Windows で LLM をローカル実行。モデル管理・メモリ最適化を簡潔に実現。Ollama + Claude Code で無料 AI エージェント環境を構築可能。Kali Linux + MCP との統合でローカルペンテスト環境も構築可能。 関連ページ Claude Code — Ollama と組み合わせて無料環境構築 MCP — Ollama を MCP 経由で利用 ソース記事 Claude Code + Ollama ローカル無料環境 — 2026-03 Kali × Ollama × MCP — 2026-03

2026年4月6日 · 1 分