Asr | hdknr blog

VibeVoice は、60 分の長尺 ASR（音声認識）と 90 分のマルチ話者 TTS（音声合成）をローカル無料で実現する Microsoft 製の OSS 音声 AI。本記事では特徴・モデル構成・TTS コード削除の経緯を解説する。 microsoft/VibeVoice は GitHub スター数 45,000 超（2026-04-29 時点）。ICLR 2026 に Oral 採択されたペーパーも公開されており、ASR・TTS の両領域で「フロンティア級」と呼べる性能を、軽量モデルで提供している。一方で、後述のとおり利用可能性については重要な注意点がある。 VibeVoice とは何か VibeVoice は、TTS と ASR を統合した「音声 AI モデルファミリー」として Microsoft Research が公開している OSS。中核のイノベーションは、7.5 Hz という超低フレームレートで動作する連続音声トークナイザー（Acoustic + Semantic）を用いて、長尺音声の処理効率と忠実度を両立した点にある。 LLM（Qwen2.5 1.5B ベース）が文脈・対話の流れを理解し、Diffusion ヘッドで高品質な音響細部を生成する next-token diffusion フレームワークを採用している。モデルラインナップモデルパラメータ用途状態 VibeVoice-ASR-7B 7B 60分対応の話者識別付き音声認識 ✅ 利用可能 VibeVoice-TTS-1.5B 1.5B 90分・最大4話者の長尺TTS ⚠️ コード削除済み VibeVoice-Realtime-0.5B 0.5B 約300ms の低遅延ストリーミングTTS ✅ 利用可能 1. VibeVoice-ASR — 60分の長尺音声認識（文字起こし）従来の ASR は音声を短いチャンクに分割するため、長尺になると話者識別や文脈の一貫性が失われやすい。VibeVoice-ASR は 64K トークン長で最大 60 分の連続音声を 1 パスで処理できる。 ...

概要 VibeVoice は Microsoft Research が公開している OSS の音声 AI モデルファミリーで、長尺音声の文字起こし（ASR）と音声合成（TTS）を統合的に扱える。中核は 7.5 Hz の超低フレームレート連続音声トークナイザー + Qwen2.5 1.5B ベースの next-token diffusion フレームワーク。 GitHub リポジトリ: microsoft/VibeVoice モデル構成（2026-04-29 時点）モデルパラメータ用途状態 VibeVoice-ASR-7B 7B 60分1パスの長尺音声認識（話者識別＋タイムスタンプ＋50言語＋ホットワード対応） ✅ 利用可 VibeVoice-Realtime-0.5B 0.5B 約300ms レイテンシのストリーミング TTS（9 言語ボイス） ✅ 利用可 VibeVoice-TTS-1.5B 1.5B 90分・最大4話者の長尺 TTS ⚠️ 2025-09-05 にコード削除（悪用報告のため） ASR は 64K トークン長で 60 分の連続音声を 1 パスで処理でき、Who（話者）/ When（タイムスタンプ）/ What（内容）の構造化出力に対応する。特徴構造化トランスクリプト: ASR + ダイアライゼーション + タイムスタンプを同時実行カスタムホットワード: 固有名詞・専門用語を事前指定して認識精度を向上 vLLM 高速推論: PyTorch / Transformers 統合に加え vLLM 経由の推論にも対応多言語: ASR は 50 言語以上、Realtime TTS は 9 言語ボイス（日本語含む） Hugging Face Transformers 統合: 2026-03-06 リリースで transformers ライブラリから直接呼び出せる利用形態実装言語: Python 100%（公式バインディングなし） ...