QwenVoice — Mac でボイスクローニング・感情表現・音声デザインを完全オフラインで実現する Qwen3-TTS アプリ

@ai_hakase_ 氏が X で紹介した、Mac 向け音声生成アプリ「QwenVoice」が注目を集めています。

【Mac で革命】Qwen3-TTS 搭載の最強音声生成アプリ「QwenVoice」。ボイスクローニングや感情表現が Mac で爆速！Apple Silicon 最適化でオフライン動作も完璧です。面倒な設定なしでプロ級のナレーションを生成可能。

QwenVoice は、Alibaba Cloud の Qwen チームが開発したオープンソース TTS モデル「Qwen3-TTS」を Apple Silicon Mac でネイティブに動かす GUI アプリです。Python のインストールもターミナル操作も不要で、ドラッグ & ドロップだけで使い始められます。本記事では、QwenVoice の機能と Qwen3-TTS の技術的な仕組みを解説します。

QwenVoice の概要

何ができるのか

QwenVoice は 3 つの音声生成モードを提供します。

モード	機能	使い方
Custom Voice	プリセット音声で読み上げ	4 種類の英語話者（Ryan, Aiden, Serena, Vivian）から選択
Voice Design	自然言語で新しい声を作る	「落ち着いた男性の低い声」のようにテキストで指示
Voice Cloning	既存の声を複製	5〜10 秒の音声サンプルから声を再現

3 つのモードすべてが 100% オフラインで動作します。音声データがクラウドに送信されることはありません。

システム要件

要件	スペック
OS	macOS 14.0（Sonoma）以上
プロセッサ	Apple Silicon（M1 / M2 / M3 / M4）
メモリ	8 GB 以上推奨

インストール手順

1
2
3
4
5
# 1. GitHub Releases から QwenVoice.dmg をダウンロード
# 2. /Applications にドラッグ
# 3. 検疫属性を解除（署名なしのため）
xattr -cr "/Applications/QwenVoice.app"
# 4. アプリを起動 → Models タブ → モデルをダウンロード → 生成開始

Python 環境の構築やライブラリのインストールはアプリが自動で行います。ユーザーが触るのは GUI だけです。

3 つの音声生成モード

1. Custom Voice — プリセット音声

4 種類の英語話者から選んでテキストを読み上げます。感情やトーンは自然言語の指示で制御できます。

テキスト: "Welcome to today's presentation."
指示: "Speak with enthusiasm and energy"
→ 明るく元気な読み上げが生成される

指示: "Speak slowly and thoughtfully"
→ ゆっくり考えながら話す調子で生成される

スライダーや SSML タグは不要です。モデルがプロンプトを解釈し、息遣い・ピッチ・共鳴・感情を自動調整します。

2. Voice Design — テキストから声を作る

自然言語の説明だけで、完全に新しい声を生成できます。

指示例:
  "A warm, mature female voice with a slight British accent"
  "若い男性の明るい声、やや高めのピッチ"
  "稚嫩の女性声、音調偏高で起伏が明らか"

→ 説明に合った声が新規生成される

この機能は VoiceDesign 専用モデル（Qwen3-TTS-12Hz-1.7B-VoiceDesign）を使用します。既存の声をコピーするのではなく、テキスト指示から完全にオリジナルの声を合成します。

3. Voice Cloning — 声の複製

5〜10 秒の音声サンプルから、その人の声を複製して新しいテキストを読み上げます。

入力:
  参照音声: sample.wav（5〜10 秒の音声ファイル）
  参照テキスト: "こんにちは、今日は天気がいいですね"（任意、精度向上用）
  生成テキスト: "明日の会議は 10 時からです"

対応形式: WAV, MP3, AIFF, M4A, FLAC, OGG

出力:
  参照音声と同じ声質で新しいテキストを読み上げた音声

参照テキスト（音声サンプルの文字起こし）を提供すると精度が向上します。

Qwen3-TTS — 背後のモデル

モデルファミリー

QwenVoice の音声エンジンは、Alibaba Cloud の Qwen チームが 2026 年 1 月にリリースした Qwen3-TTS です。

モデル	パラメータ	用途
Qwen3-TTS-12Hz-1.7B-CustomVoice	17 億	プリセット音声（9 種類）
Qwen3-TTS-12Hz-1.7B-VoiceDesign	17 億	自然言語からの音声生成
Qwen3-TTS-12Hz-1.7B-Base	17 億	ボイスクローニング
Qwen3-TTS-12Hz-0.6B-CustomVoice	6 億	軽量版（プリセット）
Qwen3-TTS-12Hz-0.6B-Base	6 億	軽量版（クローニング）

QwenVoice では 1.7B モデルの 8 ビット量子化版を使用しており、メモリ効率と品質のバランスが取られています。

対応言語

10 言語に対応しています。

中国語、英語、日本語、韓国語
ドイツ語、フランス語、ロシア語
ポルトガル語、スペイン語、イタリア語

日本語の品質についても、Apple Silicon M3 上での検証で「驚くほど高品質」との報告があります。

技術的な特徴

Qwen3-TTS のアーキテクチャ:
  離散マルチコードブック LM アーキテクチャ
  → 従来の LM + DiT 方式より情報ボトルネックを削減

  Dual-Track ハイブリッドストリーミング
  → 単一モデルでストリーミング/非ストリーミング両対応

  エンドツーエンド合成レイテンシー: 97ms
  → 最初の 1 文字入力後すぐに音声出力開始

  独自音声トークナイザー（Qwen3-TTS-Tokenizer-12Hz）
  → 12Hz のトークン化で効率的な音声表現

感情・プロソディ制御

1.7B モデルは 0.6B モデルよりも感情制御が強力です。テキストの意味を深く理解し、トーン・リズム・感情表現を適応的に調整します。

QwenVoice のアーキテクチャ

2 プロセス設計

QwenVoice は SwiftUI フロントエンドと Python バックエンドの 2 プロセスで構成されています。

SwiftUI フロントエンド（Swift 52.6%）
  ├── UI 管理
  ├── SQLite 履歴（GRDB.swift）
  ├── モデルダウンロード（HuggingFace）
  └── 音声再生（AVFoundation + vDSP 波形表示）
       ↕ JSON-RPC 2.0（stdin/stdout）
Python バックエンド（Python 29.6%）
  ├── MLX 推論エンジン
  ├── mlx-audio（音声処理）
  └── transformers（トークナイザー）

Python 環境はアプリが自動で venv を作成・管理します。ユーザーが Python をインストールする必要はありません。

主な UI 機能

モデルマネージャー: HuggingFace からのダウンロードを GUI で管理
生成履歴: SQLite による検索可能な履歴
バッチ生成: 複数テキストの一括生成
波形表示: vDSP による音声波形の可視化
キーボードショートカット: Cmd+Return で生成、Space で再生/一時停止
Temperature / Token 制御: 生成パラメータの調整

商用利用とライセンス

QwenVoice アプリ

QwenVoice 自体はオープンソースで公開されています。

Qwen3-TTS モデル

Qwen3-TTS は Apache 2.0 ライセンスで公開されており、商用利用が可能です。ただし、ボイスクローニング機能を使う場合は、参照音声の権利に注意が必要です。

権利フリー音声の作成

Voice Design モードを使えば、既存の声をコピーせずに完全オリジナルの音声を生成できます。著作権や肖像権の問題を回避したい場合に有効です。

競合との比較

項目	QwenVoice	ElevenLabs	VOICEVOX
動作環境	Mac（オフライン）	クラウド	Windows / Mac / Linux
ボイスクローニング	5〜10 秒のサンプル	対応（有料）	非対応
Voice Design	自然言語で新規作成	非対応	非対応
感情制御	自然言語指示	プリセット	キャラクター別
対応言語	10 言語	32 言語以上	日本語中心
料金	無料（OSS）	月額 $5〜	無料（OSS）
プライバシー	完全オフライン	クラウド送信	ローカル

まとめ

QwenVoice は Mac 向けの完全オフライン音声生成アプリ: Python インストール不要、GUI 操作だけで使える。Apple Silicon（M1〜M4）に最適化
3 つの音声生成モード: プリセット音声、自然言語からの Voice Design、5〜10 秒の音声サンプルからのボイスクローニング
Qwen3-TTS がエンジン: Alibaba Cloud が開発した 1.7B パラメータの TTS モデル。10 言語対応、97ms の低レイテンシー、Apache 2.0 ライセンス
感情・プロソディの自然言語制御: SSML やスライダーを使わず、テキスト指示だけで息遣い・ピッチ・感情を調整
プライバシー完全保護: 全処理がローカルで完結し、音声データがクラウドに送信されることはない
Voice Design で権利フリー音声を作成可能: 既存の声をコピーせず、テキスト指示から完全オリジナルの声を合成できる

QwenVoice --- Mac でボイスクローニング・感情表現・音声デザインを完全オフラインで実現する Qwen3-TTS アプリ

QwenVoice — Mac でボイスクローニング・感情表現・音声デザインを完全オフラインで実現する Qwen3-TTS アプリ

QwenVoice の概要

何ができるのか

システム要件

インストール手順

3 つの音声生成モード

1. Custom Voice — プリセット音声

2. Voice Design — テキストから声を作る

3. Voice Cloning — 声の複製

Qwen3-TTS — 背後のモデル

モデルファミリー

対応言語

技術的な特徴

感情・プロソディ制御

QwenVoice のアーキテクチャ

2 プロセス設計

主な UI 機能

商用利用とライセンス

QwenVoice アプリ

Qwen3-TTS モデル

権利フリー音声の作成

競合との比較

まとめ

参考

QwenVoice — Mac でボイスクローニング・感情表現・音声デザインを完全オフラインで実現する Qwen3-TTS アプリ#

QwenVoice の概要#

何ができるのか#

システム要件#

インストール手順#

3 つの音声生成モード#

1. Custom Voice — プリセット音声#

2. Voice Design — テキストから声を作る#

3. Voice Cloning — 声の複製#

Qwen3-TTS — 背後のモデル#

モデルファミリー#

対応言語#

技術的な特徴#

感情・プロソディ制御#

QwenVoice のアーキテクチャ#

2 プロセス設計#

主な UI 機能#

商用利用とライセンス#

QwenVoice アプリ#

Qwen3-TTS モデル#

権利フリー音声の作成#

競合との比較#

まとめ#

参考#

QwenVoice — Mac でボイスクローニング・感情表現・音声デザインを完全オフラインで実現する Qwen3-TTS アプリ

QwenVoice の概要

何ができるのか

システム要件

インストール手順

3 つの音声生成モード

1. Custom Voice — プリセット音声

2. Voice Design — テキストから声を作る

3. Voice Cloning — 声の複製

Qwen3-TTS — 背後のモデル

モデルファミリー

対応言語

技術的な特徴

感情・プロソディ制御

QwenVoice のアーキテクチャ

2 プロセス設計

主な UI 機能

商用利用とライセンス

QwenVoice アプリ

Qwen3-TTS モデル

権利フリー音声の作成

競合との比較

まとめ

参考