Microsoft

Microsoft VibeVoice 徹底解説 — 60分の文字起こしと長尺音声合成をローカル無料で（OSS音声AI）

VibeVoice は、60 分の長尺 ASR（音声認識）と 90 分のマルチ話者 TTS（音声合成）をローカル無料で実現する Microsoft 製の OSS 音声 AI。本記事では特徴・モデル構成・TTS コード削除の経緯を解説する。 microsoft/VibeVoice は GitHub スター数 45,000 超（2026-04-29 時点）。ICLR 2026 に Oral 採択されたペーパーも公開されており、ASR・TTS の両領域で「フロンティア級」と呼べる性能を、軽量モデルで提供している。一方で、後述のとおり利用可能性については重要な注意点がある。 VibeVoice とは何か VibeVoice は、TTS と ASR を統合した「音声 AI モデルファミリー」として Microsoft Research が公開している OSS。中核のイノベーションは、7.5 Hz という超低フレームレートで動作する連続音声トークナイザー（Acoustic + Semantic）を用いて、長尺音声の処理効率と忠実度を両立した点にある。 LLM（Qwen2.5 1.5B ベース）が文脈・対話の流れを理解し、Diffusion ヘッドで高品質な音響細部を生成する next-token diffusion フレームワークを採用している。モデルラインナップモデルパラメータ用途状態 VibeVoice-ASR-7B 7B 60分対応の話者識別付き音声認識 ✅ 利用可能 VibeVoice-TTS-1.5B 1.5B 90分・最大4話者の長尺TTS ⚠️ コード削除済み VibeVoice-Realtime-0.5B 0.5B 約300ms の低遅延ストリーミングTTS ✅ 利用可能 1. VibeVoice-ASR — 60分の長尺音声認識（文字起こし）従来の ASR は音声を短いチャンクに分割するため、長尺になると話者識別や文脈の一貫性が失われやすい。VibeVoice-ASR は 64K トークン長で最大 60 分の連続音声を 1 パスで処理できる。 ...

VibeVoice

概要 VibeVoice は Microsoft Research が公開している OSS の音声 AI モデルファミリーで、長尺音声の文字起こし（ASR）と音声合成（TTS）を統合的に扱える。中核は 7.5 Hz の超低フレームレート連続音声トークナイザー + Qwen2.5 1.5B ベースの next-token diffusion フレームワーク。 GitHub リポジトリ: microsoft/VibeVoice モデル構成（2026-04-29 時点）モデルパラメータ用途状態 VibeVoice-ASR-7B 7B 60分1パスの長尺音声認識（話者識別＋タイムスタンプ＋50言語＋ホットワード対応） ✅ 利用可 VibeVoice-Realtime-0.5B 0.5B 約300ms レイテンシのストリーミング TTS（9 言語ボイス） ✅ 利用可 VibeVoice-TTS-1.5B 1.5B 90分・最大4話者の長尺 TTS ⚠️ 2025-09-05 にコード削除（悪用報告のため） ASR は 64K トークン長で 60 分の連続音声を 1 パスで処理でき、Who（話者）/ When（タイムスタンプ）/ What（内容）の構造化出力に対応する。特徴構造化トランスクリプト: ASR + ダイアライゼーション + タイムスタンプを同時実行カスタムホットワード: 固有名詞・専門用語を事前指定して認識精度を向上 vLLM 高速推論: PyTorch / Transformers 統合に加え vLLM 経由の推論にも対応多言語: ASR は 50 言語以上、Realtime TTS は 9 言語ボイス（日本語含む） Hugging Face Transformers 統合: 2026-03-06 リリースで transformers ライブラリから直接呼び出せる利用形態実装言語: Python 100%（公式バインディングなし） ...

BitNet

概要 Microsoft Research が開発し 2026年にオープンソース（MIT ライセンス）化した 1-bit LLM 専用推論フレームワーク。すべての重みを -1、0、+1 の3値（log2(3) ≒ 1.58bit）で表現し、GPU なしで CPU 上での実用的な LLM 推論を実現する。GitHub では 37,000 以上のスターを獲得している。主な特徴 GPU 不要の CPU 推論 llama.cpp をベースに 1-bit 推論向けに最適化した C++ フレームワーク（bitnet.cpp）。専用カーネルにより CPU 上で高速に動作する。 x86 CPU: 従来比 2.37〜6.17 倍の高速化 ARM CPU（Apple Silicon 含む）: 従来比 1.37〜5.07 倍の高速化 100B パラメータモデルを単一 CPU で 5〜7 トークン/秒で処理可能省メモリ・省エネルギー BitNet b1.58 2B-4T モデルのメモリ使用量: わずか 0.4GB（同規模通常モデルの 1/7〜1/20）エネルギー削減: x86 で最大 82.2%、ARM で最大 70.0% 主要モデル：BitNet b1.58 2B-4T Hugging Face で公開されている初のオープンソースネイティブ 1-bit LLM。2.4B パラメータ、4T トークンで学習。同規模フル精度モデルと同等の性能（MMLU 約 52%）を達成。 ...

Microsoft BitNet完全オープンソース化：GPUなしで1000億パラメータLLMをCPUで動かす時代へ

Microsoftが開発した1-bit LLM推論フレームワーク「BitNet」が完全にオープンソース化されました。bitnet.cppを使えば、1000億パラメータ規模のLLMをGPUなしでCPU上で実行できます。 BitNetとは BitNetは、Microsoft Researchが開発した1-bit LLM（大規模言語モデル）専用の推論フレームワークです。従来のLLMが16bitや32bitの浮動小数点で重みを保持するのに対し、BitNetではすべての重みを -1、0、+1の3値（log2(3) ≒ 1.58bit）で表現します。 GitHub: microsoft/BitNet（37,000+スター）ライセンス: MIT License 技術レポート: BitNet b1.58 2B4T Technical Report 主な特徴 GPU不要のCPU推論 bitnet.cppは、llama.cpp（LLM向け軽量推論エンジン）をベースに1-bit推論向けに最適化されたC++フレームワークです。専用カーネルにより、ternary演算（3値演算）をCPU上で高速に実行します。 x86 CPU: 従来比 2.37〜6.17倍の高速化 ARM CPU: 従来比 1.37〜5.07倍の高速化 2026年1月のアップデートでさらに 1.15〜2.1倍の追加高速化を達成省エネルギー・省メモリエネルギー削減: x86 CPUで 71.9%〜82.2%、ARM CPUで 55.4%〜70.0% の削減メモリ使用量: BitNet b1.58 2B-4Tモデルはわずか 0.4GB（同規模の通常モデルは1.4〜4.8GB） BitNet b1.58 2B-4T モデル Microsoftが公開した初のオープンソースのネイティブ1-bit LLMです。パラメータ数: 24億（2.4B）学習データ: 4兆トークン（4T）アーキテクチャ: BitLinearレイヤーを組み込んだTransformerベース主な技術: RoPE（回転位置埋め込み）、Squared ReLU活性化関数、subln（サブレイヤー正規化）重み: ネイティブ1.58bit、活性化は8bit（W1.58A8）同規模のフル精度モデルと同等の性能を達成しています。なぜ重要なのかローカルAI・エッジコンピューティングの民主化これまで大規模LLMの実行には高価なGPUが必須でしたが、BitNetにより一般的なPCやエッジデバイスでも実用的な推論が可能になります。 GPU依存からの脱却 NVIDIA GPUへの依存度を大幅に下げられることで、AI開発・運用のコスト構造が変わる可能性があります。特に中小企業やスタートアップにとって、AIの導入障壁が大きく下がります。 ...