Oss | hdknr blog

Microsoft VibeVoice 徹底解説 — 60分の文字起こしと長尺音声合成をローカル無料で（OSS音声AI）

VibeVoice は、60 分の長尺 ASR（音声認識）と 90 分のマルチ話者 TTS（音声合成）をローカル無料で実現する Microsoft 製の OSS 音声 AI。本記事では特徴・モデル構成・TTS コード削除の経緯を解説する。 microsoft/VibeVoice は GitHub スター数 45,000 超（2026-04-29 時点）。ICLR 2026 に Oral 採択されたペーパーも公開されており、ASR・TTS の両領域で「フロンティア級」と呼べる性能を、軽量モデルで提供している。一方で、後述のとおり利用可能性については重要な注意点がある。 VibeVoice とは何か VibeVoice は、TTS と ASR を統合した「音声 AI モデルファミリー」として Microsoft Research が公開している OSS。中核のイノベーションは、7.5 Hz という超低フレームレートで動作する連続音声トークナイザー（Acoustic + Semantic）を用いて、長尺音声の処理効率と忠実度を両立した点にある。 LLM（Qwen2.5 1.5B ベース）が文脈・対話の流れを理解し、Diffusion ヘッドで高品質な音響細部を生成する next-token diffusion フレームワークを採用している。モデルラインナップモデルパラメータ用途状態 VibeVoice-ASR-7B 7B 60分対応の話者識別付き音声認識 ✅ 利用可能 VibeVoice-TTS-1.5B 1.5B 90分・最大4話者の長尺TTS ⚠️ コード削除済み VibeVoice-Realtime-0.5B 0.5B 約300ms の低遅延ストリーミングTTS ✅ 利用可能 1. VibeVoice-ASR — 60分の長尺音声認識（文字起こし）従来の ASR は音声を短いチャンクに分割するため、長尺になると話者識別や文脈の一貫性が失われやすい。VibeVoice-ASR は 64K トークン長で最大 60 分の連続音声を 1 パスで処理できる。 ...

VibeVoice

概要 VibeVoice は Microsoft Research が公開している OSS の音声 AI モデルファミリーで、長尺音声の文字起こし（ASR）と音声合成（TTS）を統合的に扱える。中核は 7.5 Hz の超低フレームレート連続音声トークナイザー + Qwen2.5 1.5B ベースの next-token diffusion フレームワーク。 GitHub リポジトリ: microsoft/VibeVoice モデル構成（2026-04-29 時点）モデルパラメータ用途状態 VibeVoice-ASR-7B 7B 60分1パスの長尺音声認識（話者識別＋タイムスタンプ＋50言語＋ホットワード対応） ✅ 利用可 VibeVoice-Realtime-0.5B 0.5B 約300ms レイテンシのストリーミング TTS（9 言語ボイス） ✅ 利用可 VibeVoice-TTS-1.5B 1.5B 90分・最大4話者の長尺 TTS ⚠️ 2025-09-05 にコード削除（悪用報告のため） ASR は 64K トークン長で 60 分の連続音声を 1 パスで処理でき、Who（話者）/ When（タイムスタンプ）/ What（内容）の構造化出力に対応する。特徴構造化トランスクリプト: ASR + ダイアライゼーション + タイムスタンプを同時実行カスタムホットワード: 固有名詞・専門用語を事前指定して認識精度を向上 vLLM 高速推論: PyTorch / Transformers 統合に加え vLLM 経由の推論にも対応多言語: ASR は 50 言語以上、Realtime TTS は 9 言語ボイス（日本語含む） Hugging Face Transformers 統合: 2026-03-06 リリースで transformers ライブラリから直接呼び出せる利用形態実装言語: Python 100%（公式バインディングなし） ...

Claude Harness

概要 Claude Code の拡張機構（hooks / permissions / plugin system / skills / MCP）を AI エンジニアが自作で組むと数日かかる設定を、インストール 1 回で手元に落とせる外装プラグイン。GitHub リポジトリ: Chachamaru127/claude-code-harness Claude Code には強力な拡張機構があるが、plugin.json / hooks.json / settings.json / .mcp.json / .claude-plugin/hooks.json の 5〜6 本の JSON を整合させながら自律運用のワークフローを組むのは現実的でない。Harness はこれを 1 パッケージで提供する。 v4.0.0 “Hokage” の主な変更点（2026-04-14）改善点 Before After フック実行速度 ~300ms（bash → Node.js → TypeScript 3段ロケット） ~10ms（Go バイナリ 1 本、30 倍速）設定ファイル数 5〜6 本を手動整合 harness.toml 1 本（SSOT）ガードレール R12 warn deny + Bash bypass 二重防御 Node.js 必要不要（ネイティブバイナリ 3 本で配布） Go ネイティブ化の詳細 pure-Go SQLite（modernc.org/sqlite）採用で Node.js ランタイム要件を完全排除 bin/harness が hooks.json から直接呼ばれ、フック 1 回 ~10ms bin/harness sync で plugin.json / hooks.json / settings.json が全整合 harness.toml による SSOT 1 2 3 # harness.toml を書いて $ bin/harness sync # plugin.json / hooks.json / settings.json が全て整合ガードレール強化 R12（保護ブランチへの直接 push）を deny に格上げ Claude Code 2.1.98 で発見された Bash permission bypass 2 種をハーネス側で二層目として塞ぐ defense in depth: CC 本体が塞いだ穴を Harness が再度塞ぐ構造インストール Claude Code v2.1.92 以上が必要。 ...

Open Notebook

概要 Open Notebook は、Google NotebookLM のような「ノートにソース文書を集約 → AI に質問」型のリサーチツールを OSS で実装したプロジェクト。プライベートな文書や機密データを外部 SaaS にアップロードしたくないユースケースで、ローカル LLM や任意の API バックエンドと組み合わせて使える点が特徴。 NotebookLM との関係 NotebookLM は Google が提供するソース駆動の AI ノートで、PDF・Web・YouTube などをノートに追加すると LLM が文脈を理解した回答を返す。Open Notebook はそのオープンソース版として、機能を再現しつつバックエンド LLM を差し替えられる柔軟性を持つ。想定ユースケース機密文書の要約・QA: 社外秘・クライアント文書を外部にアップロードせず分析研究ノート: 論文・ノート・実験ログを統合してエージェント風に質問個人の知識ベース: Obsidian や Markdown ファイル群と連携した「自分専用 NotebookLM」関連ページ RAG — 同じ「文書集約 + 質問応答」のパターンの背景概念 Obsidian — 個人ノートとの組み合わせ候補 Ollama — ローカル LLM バックエンドソース記事 Open Notebook — NotebookLM の OSS 代替 — 2026-04-22

Claude Harness v4.0.0 "Hokage" — Go ネイティブ化で 30 倍速、設定が harness.toml 1 本に

Claude Code の拡張 OSS「Claude Harness」が v4.0.0 “Hokage” をリリースした。コア全体を Go ネイティブに書き換え、フック実行速度が約 30 倍に向上。設定ファイルも harness.toml 1 本に集約され、大幅に扱いやすくなった。 Claude Code の拡張機構とは Claude Code には最初から強力な拡張機構が備わっている。 hooks — PreToolUse / PostToolUse / SessionStart などのイベントでスクリプトを差し込める permissions — settings.json の deny ルールで危険なコマンドを事前ブロックできる plugin system — plugin.json で自作プラグインを作り、チーム配布できる skills — スラッシュコマンドで自作ワークフローを走らせられる MCP — 外部ツール（DB・Slack・GitHub…）をネイティブ連携できる「AI がやらかしそうなこと」「自律運用のワークフロー」「危ないコマンドのブロック」はほぼ全部、Claude Code の機能で実現できる。自分で全部セッティングするのは無理ゲー強力だからといって、簡単ではない。自作で「AI に危ないコマンドを通させない」ワークフローを組もうとすると、以下を理解しておかなければならない。 plugin.json — プラグインマニフェスト hooks.json — PreToolUse に走らせるスクリプトを宣言 settings.json — deny ルールを人力で組み立てる .mcp.json — MCP サーバー設定 .claude-plugin/hooks.json — プラグイン経由のフックも別途整合させる JSON が 5〜6 本。どれか 1 つを直すと別がズレる。さらに「Plan → Work → Review の自律運用」を乗せようとすると以下も必要になる。 ...

Paperclip オープンソース化：0人会社を動かすエージェントオーケストレーション層

AIエージェントを使った「0人会社（zero-human company）」のコンセプトが現実に近づいている。 Paperclip は、そのためのオーケストレーション基盤としてオープンソース化されたツールだ。 Paperclip とは Paperclip は「ゼロヒューマン企業」を動かすためのオーケストレーション層（orchestration layer）。人間なしで自律的に業務が進む組織を設計・運用するための基盤として設計されている。 GitHubリポジトリ: paperclipai/paperclip リリース後またたく間にスターが集まり、2026年3月時点で 53,000スター超を記録している。主な機能 Paperclip が提供する機能は次の通り: 組織図（Org Charts） — エージェントの役割と階層を定義する目標整合（Goal Alignment） — 組織全体の目標を各エージェントのタスクに紐付けるタスクの責任者（Task Ownership） — どのエージェントが何を担うかを明確に割り当てる予算管理（Budgets） — エージェントが使用できるリソースや費用に上限を設定するエージェントテンプレート（Agent Templates） — 役割ごとの標準的なエージェント設定を再利用するこれらの仕組みにより、人間のオペレーターが常時介在しなくても「自律的に仕事が進む会社」を実現できる。クイックスタートセットアップは npx で1コマンド: 1 npx paperclipai onboard このコマンドを実行すると、初期の組織設計のガイドが始まる。TypeScript 製で、Node.js 環境があればすぐに試せる。なぜ注目されるのか従来の AI エージェントフレームワークの多くは、単一エージェントまたは単純なマルチエージェントの連携を想定している。Paperclip が異なるのは、企業・組織レベルの構造をファーストクラスの概念として扱っている点だ。単なるタスクキューではなく、組織図と権限委譲を持つエージェント同士の目標が整合されていることを保証する仕組みがある予算制約により無限ループや暴走を防ぐ設計になっている「AIエージェントに会社を任せる」という考えを本格的にサポートするインフラとして、エンジニアコミュニティの注目を集めている。参考リンク paperclipai/paperclip - GitHub オープンソース化を告知したツイート（@dotta）