Microsoft VibeVoice 徹底解説 — 60分の文字起こしと長尺音声合成をローカル無料で(OSS音声AI)

VibeVoice は、60 分の長尺 ASR(音声認識)と 90 分のマルチ話者 TTS(音声合成)をローカル無料で実現する Microsoft 製の OSS 音声 AI。本記事では特徴・モデル構成・TTS コード削除の経緯を解説する。 microsoft/VibeVoice は GitHub スター数 45,000 超(2026-04-29 時点)。ICLR 2026 に Oral 採択されたペーパーも公開されており、ASR・TTS の両領域で「フロンティア級」と呼べる性能を、軽量モデルで提供している。一方で、後述のとおり利用可能性については重要な注意点がある。 VibeVoice とは何か VibeVoice は、TTS と ASR を統合した「音声 AI モデルファミリー」として Microsoft Research が公開している OSS。中核のイノベーションは、7.5 Hz という超低フレームレートで動作する連続音声トークナイザー(Acoustic + Semantic)を用いて、長尺音声の処理効率と忠実度を両立した点にある。 LLM(Qwen2.5 1.5B ベース)が文脈・対話の流れを理解し、Diffusion ヘッドで高品質な音響細部を生成する next-token diffusion フレームワークを採用している。 モデルラインナップ モデル パラメータ 用途 状態 VibeVoice-ASR-7B 7B 60分対応の話者識別付き音声認識 ✅ 利用可能 VibeVoice-TTS-1.5B 1.5B 90分・最大4話者の長尺TTS ⚠️ コード削除済み VibeVoice-Realtime-0.5B 0.5B 約300ms の低遅延ストリーミングTTS ✅ 利用可能 1. VibeVoice-ASR — 60分の長尺音声認識(文字起こし) 従来の ASR は音声を短いチャンクに分割するため、長尺になると話者識別や文脈の一貫性が失われやすい。VibeVoice-ASR は 64K トークン長で最大 60 分の連続音声を 1 パスで処理できる。 ...

2026年4月29日 · 7 分

VibeVoice

概要 VibeVoice は Microsoft Research が公開している OSS の音声 AI モデルファミリーで、長尺音声の文字起こし(ASR)と音声合成(TTS)を統合的に扱える。中核は 7.5 Hz の超低フレームレート連続音声トークナイザー + Qwen2.5 1.5B ベースの next-token diffusion フレームワーク。 GitHub リポジトリ: microsoft/VibeVoice モデル構成(2026-04-29 時点) モデル パラメータ 用途 状態 VibeVoice-ASR-7B 7B 60分1パスの長尺音声認識(話者識別+タイムスタンプ+50言語+ホットワード対応) ✅ 利用可 VibeVoice-Realtime-0.5B 0.5B 約300ms レイテンシのストリーミング TTS(9 言語ボイス) ✅ 利用可 VibeVoice-TTS-1.5B 1.5B 90分・最大4話者の長尺 TTS ⚠️ 2025-09-05 にコード削除(悪用報告のため) ASR は 64K トークン長で 60 分の連続音声を 1 パスで処理でき、Who(話者)/ When(タイムスタンプ)/ What(内容)の構造化出力に対応する。 特徴 構造化トランスクリプト: ASR + ダイアライゼーション + タイムスタンプを同時実行 カスタムホットワード: 固有名詞・専門用語を事前指定して認識精度を向上 vLLM 高速推論: PyTorch / Transformers 統合に加え vLLM 経由の推論にも対応 多言語: ASR は 50 言語以上、Realtime TTS は 9 言語ボイス(日本語含む) Hugging Face Transformers 統合: 2026-03-06 リリースで transformers ライブラリから直接呼び出せる 利用形態 実装言語: Python 100%(公式バインディングなし) ...

2026年4月29日 · 1 分