Microsoft VibeVoice 徹底解説 — 60分の文字起こしと長尺音声合成をローカル無料で（OSS音声AI）

Wed, 29 Apr 2026 00:00:00 +0000

VibeVoice は、60 分の長尺 ASR（音声認識）と 90 分のマルチ話者 TTS（音声合成）をローカル無料で実現する Microsoft 製の OSS 音声 AI。本記事では特徴・モデル構成・TTS コード削除の経緯を解説する。

microsoft/VibeVoice は GitHub スター数 45,000 超（2026-04-29 時点）。ICLR 2026 に Oral 採択されたペーパーも公開されており、ASR・TTS の両領域で「フロンティア級」と呼べる性能を、軽量モデルで提供している。一方で、後述のとおり利用可能性については重要な注意点がある。

VibeVoice とは何か

VibeVoice は、TTS と ASR を統合した「音声 AI モデルファミリー」として Microsoft Research が公開している OSS。中核のイノベーションは、7.5 Hz という超低フレームレートで動作する連続音声トークナイザー（Acoustic + Semantic）を用いて、長尺音声の処理効率と忠実度を両立した点にある。

LLM（Qwen2.5 1.5B ベース）が文脈・対話の流れを理解し、Diffusion ヘッドで高品質な音響細部を生成する next-token diffusion フレームワークを採用している。

モデルラインナップ

モデル	パラメータ	用途	状態
VibeVoice-ASR-7B	7B	60分対応の話者識別付き音声認識	✅ 利用可能
VibeVoice-TTS-1.5B	1.5B	90分・最大4話者の長尺TTS	⚠️ コード削除済み
VibeVoice-Realtime-0.5B	0.5B	約300ms の低遅延ストリーミングTTS	✅ 利用可能

1. VibeVoice-ASR — 60分の長尺音声認識（文字起こし）

従来の ASR は音声を短いチャンクに分割するため、長尺になると話者識別や文脈の一貫性が失われやすい。VibeVoice-ASR は 64K トークン長で最大 60 分の連続音声を 1 パスで処理できる。

VibeVoice