QwenVoice — Mac でボイスクローニング・感情表現・音声デザインを完全オフラインで実現する Qwen3-TTS アプリ

@ai_hakase_ 氏が X で紹介した、Mac 向け音声生成アプリ「QwenVoice」が注目を集めています。

【Mac で革命】Qwen3-TTS 搭載の最強音声生成アプリ「QwenVoice」。ボイスクローニングや感情表現が Mac で爆速!Apple Silicon 最適化でオフライン動作も完璧です。面倒な設定なしでプロ級のナレーションを生成可能。

QwenVoice は、Alibaba Cloud の Qwen チームが開発したオープンソース TTS モデル「Qwen3-TTS」を Apple Silicon Mac でネイティブに動かす GUI アプリです。Python のインストールもターミナル操作も不要で、ドラッグ & ドロップだけで使い始められます。本記事では、QwenVoice の機能と Qwen3-TTS の技術的な仕組みを解説します。

QwenVoice の概要

何ができるのか

QwenVoice は 3 つの音声生成モードを提供します。

モード機能使い方
Custom Voiceプリセット音声で読み上げ4 種類の英語話者(Ryan, Aiden, Serena, Vivian)から選択
Voice Design自然言語で新しい声を作る「落ち着いた男性の低い声」のようにテキストで指示
Voice Cloning既存の声を複製5〜10 秒の音声サンプルから声を再現

3 つのモードすべてが 100% オフラインで動作します。音声データがクラウドに送信されることはありません。

システム要件

要件スペック
OSmacOS 14.0(Sonoma)以上
プロセッサApple Silicon(M1 / M2 / M3 / M4)
メモリ8 GB 以上推奨

インストール手順

1
2
3
4
5
# 1. GitHub Releases から QwenVoice.dmg をダウンロード
# 2. /Applications にドラッグ
# 3. 検疫属性を解除(署名なしのため)
xattr -cr "/Applications/QwenVoice.app"
# 4. アプリを起動 → Models タブ → モデルをダウンロード → 生成開始

Python 環境の構築やライブラリのインストールはアプリが自動で行います。ユーザーが触るのは GUI だけです。

3 つの音声生成モード

1. Custom Voice — プリセット音声

4 種類の英語話者から選んでテキストを読み上げます。感情やトーンは自然言語の指示で制御できます。

テキスト: "Welcome to today's presentation."
指示: "Speak with enthusiasm and energy"
→ 明るく元気な読み上げが生成される

指示: "Speak slowly and thoughtfully"
→ ゆっくり考えながら話す調子で生成される

スライダーや SSML タグは不要です。モデルがプロンプトを解釈し、息遣い・ピッチ・共鳴・感情を自動調整します。

2. Voice Design — テキストから声を作る

自然言語の説明だけで、完全に新しい声を生成できます。

指示例:
  "A warm, mature female voice with a slight British accent"
  "若い男性の明るい声、やや高めのピッチ"
  "稚嫩の女性声、音調偏高で起伏が明らか"

→ 説明に合った声が新規生成される

この機能は VoiceDesign 専用モデル(Qwen3-TTS-12Hz-1.7B-VoiceDesign)を使用します。既存の声をコピーするのではなく、テキスト指示から完全にオリジナルの声を合成します。

3. Voice Cloning — 声の複製

5〜10 秒の音声サンプルから、その人の声を複製して新しいテキストを読み上げます。

入力:
  参照音声: sample.wav(5〜10 秒の音声ファイル)
  参照テキスト: "こんにちは、今日は天気がいいですね"(任意、精度向上用)
  生成テキスト: "明日の会議は 10 時からです"

対応形式: WAV, MP3, AIFF, M4A, FLAC, OGG

出力:
  参照音声と同じ声質で新しいテキストを読み上げた音声

参照テキスト(音声サンプルの文字起こし)を提供すると精度が向上します。

Qwen3-TTS — 背後のモデル

モデルファミリー

QwenVoice の音声エンジンは、Alibaba Cloud の Qwen チームが 2026 年 1 月にリリースした Qwen3-TTS です。

モデルパラメータ用途
Qwen3-TTS-12Hz-1.7B-CustomVoice17 億プリセット音声(9 種類)
Qwen3-TTS-12Hz-1.7B-VoiceDesign17 億自然言語からの音声生成
Qwen3-TTS-12Hz-1.7B-Base17 億ボイスクローニング
Qwen3-TTS-12Hz-0.6B-CustomVoice6 億軽量版(プリセット)
Qwen3-TTS-12Hz-0.6B-Base6 億軽量版(クローニング)

QwenVoice では 1.7B モデルの 8 ビット量子化版を使用しており、メモリ効率と品質のバランスが取られています。

対応言語

10 言語に対応しています。

  • 中国語、英語、日本語、韓国語
  • ドイツ語、フランス語、ロシア語
  • ポルトガル語、スペイン語、イタリア語

日本語の品質についても、Apple Silicon M3 上での検証で「驚くほど高品質」との報告があります。

技術的な特徴

Qwen3-TTS のアーキテクチャ:
  離散マルチコードブック LM アーキテクチャ
  → 従来の LM + DiT 方式より情報ボトルネックを削減

  Dual-Track ハイブリッドストリーミング
  → 単一モデルでストリーミング/非ストリーミング両対応

  エンドツーエンド合成レイテンシー: 97ms
  → 最初の 1 文字入力後すぐに音声出力開始

  独自音声トークナイザー(Qwen3-TTS-Tokenizer-12Hz)
  → 12Hz のトークン化で効率的な音声表現

感情・プロソディ制御

1.7B モデルは 0.6B モデルよりも感情制御が強力です。テキストの意味を深く理解し、トーン・リズム・感情表現を適応的に調整します。

QwenVoice のアーキテクチャ

2 プロセス設計

QwenVoice は SwiftUI フロントエンドと Python バックエンドの 2 プロセスで構成されています。

SwiftUI フロントエンド(Swift 52.6%)
  ├── UI 管理
  ├── SQLite 履歴(GRDB.swift)
  ├── モデルダウンロード(HuggingFace)
  └── 音声再生(AVFoundation + vDSP 波形表示)
       ↕ JSON-RPC 2.0(stdin/stdout)
Python バックエンド(Python 29.6%)
  ├── MLX 推論エンジン
  ├── mlx-audio(音声処理)
  └── transformers(トークナイザー)

Python 環境はアプリが自動で venv を作成・管理します。ユーザーが Python をインストールする必要はありません。

主な UI 機能

  • モデルマネージャー: HuggingFace からのダウンロードを GUI で管理
  • 生成履歴: SQLite による検索可能な履歴
  • バッチ生成: 複数テキストの一括生成
  • 波形表示: vDSP による音声波形の可視化
  • キーボードショートカット: Cmd+Return で生成、Space で再生/一時停止
  • Temperature / Token 制御: 生成パラメータの調整

商用利用とライセンス

QwenVoice アプリ

QwenVoice 自体はオープンソースで公開されています。

Qwen3-TTS モデル

Qwen3-TTS は Apache 2.0 ライセンスで公開されており、商用利用が可能です。ただし、ボイスクローニング機能を使う場合は、参照音声の権利に注意が必要です。

権利フリー音声の作成

Voice Design モードを使えば、既存の声をコピーせずに完全オリジナルの音声を生成できます。著作権や肖像権の問題を回避したい場合に有効です。

競合との比較

項目QwenVoiceElevenLabsVOICEVOX
動作環境Mac(オフライン)クラウドWindows / Mac / Linux
ボイスクローニング5〜10 秒のサンプル対応(有料)非対応
Voice Design自然言語で新規作成非対応非対応
感情制御自然言語指示プリセットキャラクター別
対応言語10 言語32 言語以上日本語中心
料金無料(OSS)月額 $5〜無料(OSS)
プライバシー完全オフラインクラウド送信ローカル

まとめ

  • QwenVoice は Mac 向けの完全オフライン音声生成アプリ: Python インストール不要、GUI 操作だけで使える。Apple Silicon(M1〜M4)に最適化
  • 3 つの音声生成モード: プリセット音声、自然言語からの Voice Design、5〜10 秒の音声サンプルからのボイスクローニング
  • Qwen3-TTS がエンジン: Alibaba Cloud が開発した 1.7B パラメータの TTS モデル。10 言語対応、97ms の低レイテンシー、Apache 2.0 ライセンス
  • 感情・プロソディの自然言語制御: SSML やスライダーを使わず、テキスト指示だけで息遣い・ピッチ・感情を調整
  • プライバシー完全保護: 全処理がローカルで完結し、音声データがクラウドに送信されることはない
  • Voice Design で権利フリー音声を作成可能: 既存の声をコピーせず、テキスト指示から完全オリジナルの声を合成できる

参考