Microsoft VibeVoice 徹底解説 — 60分の文字起こしと長尺音声合成をローカル無料で(OSS音声AI)

VibeVoice は、60 分の長尺 ASR(音声認識)と 90 分のマルチ話者 TTS(音声合成)をローカル無料で実現する Microsoft 製の OSS 音声 AI。本記事では特徴・モデル構成・TTS コード削除の経緯を解説する。 microsoft/VibeVoice は GitHub スター数 45,000 超(2026-04-29 時点)。ICLR 2026 に Oral 採択されたペーパーも公開されており、ASR・TTS の両領域で「フロンティア級」と呼べる性能を、軽量モデルで提供している。一方で、後述のとおり利用可能性については重要な注意点がある。 VibeVoice とは何か VibeVoice は、TTS と ASR を統合した「音声 AI モデルファミリー」として Microsoft Research が公開している OSS。中核のイノベーションは、7.5 Hz という超低フレームレートで動作する連続音声トークナイザー(Acoustic + Semantic)を用いて、長尺音声の処理効率と忠実度を両立した点にある。 LLM(Qwen2.5 1.5B ベース)が文脈・対話の流れを理解し、Diffusion ヘッドで高品質な音響細部を生成する next-token diffusion フレームワークを採用している。 モデルラインナップ モデル パラメータ 用途 状態 VibeVoice-ASR-7B 7B 60分対応の話者識別付き音声認識 ✅ 利用可能 VibeVoice-TTS-1.5B 1.5B 90分・最大4話者の長尺TTS ⚠️ コード削除済み VibeVoice-Realtime-0.5B 0.5B 約300ms の低遅延ストリーミングTTS ✅ 利用可能 1. VibeVoice-ASR — 60分の長尺音声認識(文字起こし) 従来の ASR は音声を短いチャンクに分割するため、長尺になると話者識別や文脈の一貫性が失われやすい。VibeVoice-ASR は 64K トークン長で最大 60 分の連続音声を 1 パスで処理できる。 ...

2026年4月29日 · 7 分

VibeVoice

概要 VibeVoice は Microsoft Research が公開している OSS の音声 AI モデルファミリーで、長尺音声の文字起こし(ASR)と音声合成(TTS)を統合的に扱える。中核は 7.5 Hz の超低フレームレート連続音声トークナイザー + Qwen2.5 1.5B ベースの next-token diffusion フレームワーク。 GitHub リポジトリ: microsoft/VibeVoice モデル構成(2026-04-29 時点) モデル パラメータ 用途 状態 VibeVoice-ASR-7B 7B 60分1パスの長尺音声認識(話者識別+タイムスタンプ+50言語+ホットワード対応) ✅ 利用可 VibeVoice-Realtime-0.5B 0.5B 約300ms レイテンシのストリーミング TTS(9 言語ボイス) ✅ 利用可 VibeVoice-TTS-1.5B 1.5B 90分・最大4話者の長尺 TTS ⚠️ 2025-09-05 にコード削除(悪用報告のため) ASR は 64K トークン長で 60 分の連続音声を 1 パスで処理でき、Who(話者)/ When(タイムスタンプ)/ What(内容)の構造化出力に対応する。 特徴 構造化トランスクリプト: ASR + ダイアライゼーション + タイムスタンプを同時実行 カスタムホットワード: 固有名詞・専門用語を事前指定して認識精度を向上 vLLM 高速推論: PyTorch / Transformers 統合に加え vLLM 経由の推論にも対応 多言語: ASR は 50 言語以上、Realtime TTS は 9 言語ボイス(日本語含む) Hugging Face Transformers 統合: 2026-03-06 リリースで transformers ライブラリから直接呼び出せる 利用形態 実装言語: Python 100%(公式バインディングなし) ...

2026年4月29日 · 1 分

Mistral Voxtral TTS: ElevenLabs に匹敵するオープンウェイト音声AI

Mistral AI が 2026年3月26日にリリースした Voxtral TTS(Text-to-Speech)は、オープンウェイトで公開された音声合成モデルです。ElevenLabs に匹敵する品質を持ちながら、ローカル環境で動作するのが最大の特徴です。 Voxtral TTS の概要 Voxtral TTS は Mistral AI 初のテキスト読み上げモデルで、4B(40億)パラメータの軽量設計です。Hugging Face で mistralai/Voxtral-4B-TTS-2603 として公開されています。 主な特徴: オープンウェイト: モデル重みが公開されており、自社サーバーやローカル PC で実行可能 9言語対応: 英語、フランス語、ドイツ語、スペイン語、オランダ語、ポルトガル語、イタリア語、ヒンディー語、アラビア語(日本語は未対応) 低遅延: 500文字・10秒のサンプルに対して TTFA(Time-to-First-Audio)90ms リアルタイム性能: RTF(Real-Time Factor)6x、つまりリアルタイムの約6倍の速度で生成(10秒のクリップを約1.6秒で出力) 音声クローン: わずか3秒のサンプルからアクセント・抑揚・話し方の癖を再現 20種類のプリセット音声: すぐに使える多様な声質 ElevenLabs との比較 Mistral の公式ベンチマークによると、Voxtral TTS は: ElevenLabs Flash v2.5 より優れた自然さを実現(同等の TTFA を維持) ElevenLabs v3 と同等の音質を達成 従来は従量課金制の商用サービスに頼るしかなかった高品質音声合成が、オープンウェイトで利用できるようになりました。 動作要件 項目 仕様 パラメータ数 4B モデルサイズ 約 8 GB(BF16) GPU メモリ 16 GB 以上推奨 出力形式 WAV, PCM, FLAC, MP3, AAC, Opus サンプリングレート 24 kHz BF16 版は GPU 16GB 以上が必要ですが、量子化バージョン(mlx-community/Voxtral-4B-TTS-2603-mlx-4bit)も公開されており、Apple Silicon Mac などでより少ないメモリで実行可能です。Mistral はスマートフォンなどのエッジデバイスでの動作も想定した設計としています。 ...

2026年3月30日 · 1 分