QwenVoice — Mac でボイスクローニング・感情表現・音声デザインを完全オフラインで実現する Qwen3-TTS アプリ
@ai_hakase_ 氏が X で紹介した、Mac 向け音声生成アプリ「QwenVoice」が注目を集めています。
【Mac で革命】Qwen3-TTS 搭載の最強音声生成アプリ「QwenVoice」。ボイスクローニングや感情表現が Mac で爆速!Apple Silicon 最適化でオフライン動作も完璧です。面倒な設定なしでプロ級のナレーションを生成可能。
QwenVoice は、Alibaba Cloud の Qwen チームが開発したオープンソース TTS モデル「Qwen3-TTS」を Apple Silicon Mac でネイティブに動かす GUI アプリです。Python のインストールもターミナル操作も不要で、ドラッグ & ドロップだけで使い始められます。本記事では、QwenVoice の機能と Qwen3-TTS の技術的な仕組みを解説します。
QwenVoice の概要
何ができるのか
QwenVoice は 3 つの音声生成モードを提供します。
| モード | 機能 | 使い方 |
|---|---|---|
| Custom Voice | プリセット音声で読み上げ | 4 種類の英語話者(Ryan, Aiden, Serena, Vivian)から選択 |
| Voice Design | 自然言語で新しい声を作る | 「落ち着いた男性の低い声」のようにテキストで指示 |
| Voice Cloning | 既存の声を複製 | 5〜10 秒の音声サンプルから声を再現 |
3 つのモードすべてが 100% オフラインで動作します。音声データがクラウドに送信されることはありません。
システム要件
| 要件 | スペック |
|---|---|
| OS | macOS 14.0(Sonoma)以上 |
| プロセッサ | Apple Silicon(M1 / M2 / M3 / M4) |
| メモリ | 8 GB 以上推奨 |
インストール手順
| |
Python 環境の構築やライブラリのインストールはアプリが自動で行います。ユーザーが触るのは GUI だけです。
3 つの音声生成モード
1. Custom Voice — プリセット音声
4 種類の英語話者から選んでテキストを読み上げます。感情やトーンは自然言語の指示で制御できます。
テキスト: "Welcome to today's presentation."
指示: "Speak with enthusiasm and energy"
→ 明るく元気な読み上げが生成される
指示: "Speak slowly and thoughtfully"
→ ゆっくり考えながら話す調子で生成される
スライダーや SSML タグは不要です。モデルがプロンプトを解釈し、息遣い・ピッチ・共鳴・感情を自動調整します。
2. Voice Design — テキストから声を作る
自然言語の説明だけで、完全に新しい声を生成できます。
指示例:
"A warm, mature female voice with a slight British accent"
"若い男性の明るい声、やや高めのピッチ"
"稚嫩の女性声、音調偏高で起伏が明らか"
→ 説明に合った声が新規生成される
この機能は VoiceDesign 専用モデル(Qwen3-TTS-12Hz-1.7B-VoiceDesign)を使用します。既存の声をコピーするのではなく、テキスト指示から完全にオリジナルの声を合成します。
3. Voice Cloning — 声の複製
5〜10 秒の音声サンプルから、その人の声を複製して新しいテキストを読み上げます。
入力:
参照音声: sample.wav(5〜10 秒の音声ファイル)
参照テキスト: "こんにちは、今日は天気がいいですね"(任意、精度向上用)
生成テキスト: "明日の会議は 10 時からです"
対応形式: WAV, MP3, AIFF, M4A, FLAC, OGG
出力:
参照音声と同じ声質で新しいテキストを読み上げた音声
参照テキスト(音声サンプルの文字起こし)を提供すると精度が向上します。
Qwen3-TTS — 背後のモデル
モデルファミリー
QwenVoice の音声エンジンは、Alibaba Cloud の Qwen チームが 2026 年 1 月にリリースした Qwen3-TTS です。
| モデル | パラメータ | 用途 |
|---|---|---|
| Qwen3-TTS-12Hz-1.7B-CustomVoice | 17 億 | プリセット音声(9 種類) |
| Qwen3-TTS-12Hz-1.7B-VoiceDesign | 17 億 | 自然言語からの音声生成 |
| Qwen3-TTS-12Hz-1.7B-Base | 17 億 | ボイスクローニング |
| Qwen3-TTS-12Hz-0.6B-CustomVoice | 6 億 | 軽量版(プリセット) |
| Qwen3-TTS-12Hz-0.6B-Base | 6 億 | 軽量版(クローニング) |
QwenVoice では 1.7B モデルの 8 ビット量子化版を使用しており、メモリ効率と品質のバランスが取られています。
対応言語
10 言語に対応しています。
- 中国語、英語、日本語、韓国語
- ドイツ語、フランス語、ロシア語
- ポルトガル語、スペイン語、イタリア語
日本語の品質についても、Apple Silicon M3 上での検証で「驚くほど高品質」との報告があります。
技術的な特徴
Qwen3-TTS のアーキテクチャ:
離散マルチコードブック LM アーキテクチャ
→ 従来の LM + DiT 方式より情報ボトルネックを削減
Dual-Track ハイブリッドストリーミング
→ 単一モデルでストリーミング/非ストリーミング両対応
エンドツーエンド合成レイテンシー: 97ms
→ 最初の 1 文字入力後すぐに音声出力開始
独自音声トークナイザー(Qwen3-TTS-Tokenizer-12Hz)
→ 12Hz のトークン化で効率的な音声表現
感情・プロソディ制御
1.7B モデルは 0.6B モデルよりも感情制御が強力です。テキストの意味を深く理解し、トーン・リズム・感情表現を適応的に調整します。
QwenVoice のアーキテクチャ
2 プロセス設計
QwenVoice は SwiftUI フロントエンドと Python バックエンドの 2 プロセスで構成されています。
SwiftUI フロントエンド(Swift 52.6%)
├── UI 管理
├── SQLite 履歴(GRDB.swift)
├── モデルダウンロード(HuggingFace)
└── 音声再生(AVFoundation + vDSP 波形表示)
↕ JSON-RPC 2.0(stdin/stdout)
Python バックエンド(Python 29.6%)
├── MLX 推論エンジン
├── mlx-audio(音声処理)
└── transformers(トークナイザー)
Python 環境はアプリが自動で venv を作成・管理します。ユーザーが Python をインストールする必要はありません。
主な UI 機能
- モデルマネージャー: HuggingFace からのダウンロードを GUI で管理
- 生成履歴: SQLite による検索可能な履歴
- バッチ生成: 複数テキストの一括生成
- 波形表示: vDSP による音声波形の可視化
- キーボードショートカット: Cmd+Return で生成、Space で再生/一時停止
- Temperature / Token 制御: 生成パラメータの調整
商用利用とライセンス
QwenVoice アプリ
QwenVoice 自体はオープンソースで公開されています。
Qwen3-TTS モデル
Qwen3-TTS は Apache 2.0 ライセンスで公開されており、商用利用が可能です。ただし、ボイスクローニング機能を使う場合は、参照音声の権利に注意が必要です。
権利フリー音声の作成
Voice Design モードを使えば、既存の声をコピーせずに完全オリジナルの音声を生成できます。著作権や肖像権の問題を回避したい場合に有効です。
競合との比較
| 項目 | QwenVoice | ElevenLabs | VOICEVOX |
|---|---|---|---|
| 動作環境 | Mac(オフライン) | クラウド | Windows / Mac / Linux |
| ボイスクローニング | 5〜10 秒のサンプル | 対応(有料) | 非対応 |
| Voice Design | 自然言語で新規作成 | 非対応 | 非対応 |
| 感情制御 | 自然言語指示 | プリセット | キャラクター別 |
| 対応言語 | 10 言語 | 32 言語以上 | 日本語中心 |
| 料金 | 無料(OSS) | 月額 $5〜 | 無料(OSS) |
| プライバシー | 完全オフライン | クラウド送信 | ローカル |
まとめ
- QwenVoice は Mac 向けの完全オフライン音声生成アプリ: Python インストール不要、GUI 操作だけで使える。Apple Silicon(M1〜M4)に最適化
- 3 つの音声生成モード: プリセット音声、自然言語からの Voice Design、5〜10 秒の音声サンプルからのボイスクローニング
- Qwen3-TTS がエンジン: Alibaba Cloud が開発した 1.7B パラメータの TTS モデル。10 言語対応、97ms の低レイテンシー、Apache 2.0 ライセンス
- 感情・プロソディの自然言語制御: SSML やスライダーを使わず、テキスト指示だけで息遣い・ピッチ・感情を調整
- プライバシー完全保護: 全処理がローカルで完結し、音声データがクラウドに送信されることはない
- Voice Design で権利フリー音声を作成可能: 既存の声をコピーせず、テキスト指示から完全オリジナルの声を合成できる