Microsoft VibeVoice 徹底解説 — 60分の文字起こしと長尺音声合成をローカル無料で(OSS音声AI)

VibeVoice は、60 分の長尺 ASR(音声認識)と 90 分のマルチ話者 TTS(音声合成)をローカル無料で実現する Microsoft 製の OSS 音声 AI。本記事では特徴・モデル構成・TTS コード削除の経緯を解説する。 microsoft/VibeVoice は GitHub スター数 45,000 超(2026-04-29 時点)。ICLR 2026 に Oral 採択されたペーパーも公開されており、ASR・TTS の両領域で「フロンティア級」と呼べる性能を、軽量モデルで提供している。一方で、後述のとおり利用可能性については重要な注意点がある。 VibeVoice とは何か VibeVoice は、TTS と ASR を統合した「音声 AI モデルファミリー」として Microsoft Research が公開している OSS。中核のイノベーションは、7.5 Hz という超低フレームレートで動作する連続音声トークナイザー(Acoustic + Semantic)を用いて、長尺音声の処理効率と忠実度を両立した点にある。 LLM(Qwen2.5 1.5B ベース)が文脈・対話の流れを理解し、Diffusion ヘッドで高品質な音響細部を生成する next-token diffusion フレームワークを採用している。 モデルラインナップ モデル パラメータ 用途 状態 VibeVoice-ASR-7B 7B 60分対応の話者識別付き音声認識 ✅ 利用可能 VibeVoice-TTS-1.5B 1.5B 90分・最大4話者の長尺TTS ⚠️ コード削除済み VibeVoice-Realtime-0.5B 0.5B 約300ms の低遅延ストリーミングTTS ✅ 利用可能 1. VibeVoice-ASR — 60分の長尺音声認識(文字起こし) 従来の ASR は音声を短いチャンクに分割するため、長尺になると話者識別や文脈の一貫性が失われやすい。VibeVoice-ASR は 64K トークン長で最大 60 分の連続音声を 1 パスで処理できる。 ...

2026年4月29日 · 7 分