<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>音声認識 on hdknr blog</title><link>https://hdknr.github.io/blogs/tags/%E9%9F%B3%E5%A3%B0%E8%AA%8D%E8%AD%98/</link><description>Recent content in 音声認識 on hdknr blog</description><generator>Hugo -- 0.157.0</generator><language>ja</language><lastBuildDate>Wed, 29 Apr 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://hdknr.github.io/blogs/tags/%E9%9F%B3%E5%A3%B0%E8%AA%8D%E8%AD%98/index.xml" rel="self" type="application/rss+xml"/><item><title>Microsoft VibeVoice 徹底解説 — 60分の文字起こしと長尺音声合成をローカル無料で（OSS音声AI）</title><link>https://hdknr.github.io/blogs/posts/2026/04/microsoft-vibevoice-%E5%BE%B9%E5%BA%95%E8%A7%A3%E8%AA%AC-60%E5%88%86%E3%81%AE%E6%96%87%E5%AD%97%E8%B5%B7%E3%81%93%E3%81%97%E3%81%A8%E9%95%B7%E5%B0%BA%E9%9F%B3%E5%A3%B0%E5%90%88%E6%88%90%E3%82%92%E3%83%AD%E3%83%BC%E3%82%AB%E3%83%AB%E7%84%A1%E6%96%99%E3%81%A7oss%E9%9F%B3%E5%A3%B0ai/</link><pubDate>Wed, 29 Apr 2026 00:00:00 +0000</pubDate><guid>https://hdknr.github.io/blogs/posts/2026/04/microsoft-vibevoice-%E5%BE%B9%E5%BA%95%E8%A7%A3%E8%AA%AC-60%E5%88%86%E3%81%AE%E6%96%87%E5%AD%97%E8%B5%B7%E3%81%93%E3%81%97%E3%81%A8%E9%95%B7%E5%B0%BA%E9%9F%B3%E5%A3%B0%E5%90%88%E6%88%90%E3%82%92%E3%83%AD%E3%83%BC%E3%82%AB%E3%83%AB%E7%84%A1%E6%96%99%E3%81%A7oss%E9%9F%B3%E5%A3%B0ai/</guid><description>&lt;p&gt;VibeVoice は、60 分の長尺 ASR（音声認識）と 90 分のマルチ話者 TTS（音声合成）をローカル無料で実現する Microsoft 製の OSS 音声 AI。本記事では特徴・モデル構成・TTS コード削除の経緯を解説する。&lt;/p&gt;
&lt;p&gt;&lt;a href="https://github.com/microsoft/VibeVoice"&gt;microsoft/VibeVoice&lt;/a&gt; は GitHub スター数 &lt;strong&gt;45,000 超&lt;/strong&gt;（2026-04-29 時点）。ICLR 2026 に Oral 採択されたペーパーも公開されており、ASR・TTS の両領域で「フロンティア級」と呼べる性能を、軽量モデルで提供している。一方で、後述のとおり利用可能性については&lt;strong&gt;重要な注意点&lt;/strong&gt;がある。&lt;/p&gt;
&lt;h2 id="vibevoice-とは何か"&gt;VibeVoice とは何か&lt;/h2&gt;
&lt;p&gt;VibeVoice は、TTS と ASR を統合した「音声 AI モデルファミリー」として Microsoft Research が公開している OSS。中核のイノベーションは、&lt;strong&gt;7.5 Hz という超低フレームレートで動作する連続音声トークナイザー&lt;/strong&gt;（Acoustic + Semantic）を用いて、長尺音声の処理効率と忠実度を両立した点にある。&lt;/p&gt;
&lt;p&gt;LLM（Qwen2.5 1.5B ベース）が文脈・対話の流れを理解し、Diffusion ヘッドで高品質な音響細部を生成する &lt;strong&gt;next-token diffusion&lt;/strong&gt; フレームワークを採用している。&lt;/p&gt;
&lt;h2 id="モデルラインナップ"&gt;モデルラインナップ&lt;/h2&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;モデル&lt;/th&gt;
&lt;th&gt;パラメータ&lt;/th&gt;
&lt;th&gt;用途&lt;/th&gt;
&lt;th&gt;状態&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;VibeVoice-ASR-7B&lt;/td&gt;
&lt;td&gt;7B&lt;/td&gt;
&lt;td&gt;60分対応の話者識別付き音声認識&lt;/td&gt;
&lt;td&gt;✅ 利用可能&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;VibeVoice-TTS-1.5B&lt;/td&gt;
&lt;td&gt;1.5B&lt;/td&gt;
&lt;td&gt;90分・最大4話者の長尺TTS&lt;/td&gt;
&lt;td&gt;⚠️ コード削除済み&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;VibeVoice-Realtime-0.5B&lt;/td&gt;
&lt;td&gt;0.5B&lt;/td&gt;
&lt;td&gt;約300ms の低遅延ストリーミングTTS&lt;/td&gt;
&lt;td&gt;✅ 利用可能&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id="1-vibevoice-asr--60分の長尺音声認識文字起こし"&gt;1. VibeVoice-ASR — 60分の長尺音声認識（文字起こし）&lt;/h3&gt;
&lt;p&gt;従来の ASR は音声を短いチャンクに分割するため、長尺になると話者識別や文脈の一貫性が失われやすい。VibeVoice-ASR は &lt;strong&gt;64K トークン長で最大 60 分の連続音声を 1 パスで処理&lt;/strong&gt;できる。&lt;/p&gt;</description></item><item><title>VibeVoice</title><link>https://hdknr.github.io/blogs/wiki/tools/vibevoice/</link><pubDate>Wed, 29 Apr 2026 00:00:00 +0000</pubDate><guid>https://hdknr.github.io/blogs/wiki/tools/vibevoice/</guid><description>Microsoft が公開する OSS の音声 AI ファミリー（ASR・TTS・リアルタイム TTS）</description></item></channel></rss>