Qwen3.5-0.8B を日本語SFTしたモデル公開 — スマホで動く0.8Bパラメータの実力と小規模LLMの現在地
@Holy_fox_LLM 氏(ほーりーふぉっくす)のポストが、Qwen3.5-0.8B を約10万件の日本語データでフルパラメータ SFT したモデルを Hugging Face で公開しています。
Qwen3.5 0.8Bに対して約10万件超のデータを用いてフルパラでSFTしたモデルを公開しました!スマホなどの推論に最適なモデルとなっています
ポストは440いいね、69リツイートと高い反響を集めています。Qwen3.5 Small シリーズが2026年3月2日にリリースされた直後のタイミングで、日本語コミュニティの素早い対応として注目されています。
Qwen3.5 Small シリーズ — 0.8B でもマルチモーダル
リリースの概要
2026年3月2日、Alibaba の Qwen チームが Qwen3.5 Small シリーズを Apache 2.0 ライセンスで公開しました。0.8B、2B、4B、9B の4サイズで構成されています。
| モデル | パラメータ | VRAM(FP16) | 主な用途 |
|---|---|---|---|
| Qwen3.5-0.8B | 8億 | 約1.6GB | スマホ、IoT、エッジデバイス |
| Qwen3.5-2B | 20億 | 約4GB | 軽量サーバー、タブレット |
| Qwen3.5-4B | 40億 | 約8GB | ローカル PC |
| Qwen3.5-9B | 90億 | 約18GB | デスクトップ、サーバー |
注目すべきは、9B モデルが OpenAI の gpt-oss-120B(13.5倍のサイズ)を GPQA Diamond ベンチマークで上回ったことです(81.7 vs 71.5)。
Gated DeltaNet アーキテクチャ
Qwen3.5 Small シリーズの技術的な特徴は、Gated DeltaNet ハイブリッドアーキテクチャです。
従来の Transformer:
全層がフルアテンション → メモリ使用量がコンテキスト長の2乗で増加
Qwen3.5 Small の Gated DeltaNet:
線形アテンション(Gated DeltaNet): フルアテンション = 3 : 1
→ 線形アテンション層は定数メモリで動作
→ 0.8B でも 262K コンテキストを実現
| 項目 | Qwen3.5-0.8B |
|---|---|
| アーキテクチャ | Gated DeltaNet ハイブリッド(3:1 比率) |
| レイヤー数 | 24 |
| 隠れ層次元 | 1,024 |
| FFN 次元 | 3,584 |
| コンテキスト長 | 262K トークン |
| 語彙数 | 248K トークン(201言語対応) |
| モダリティ | テキスト + 画像 + 動画(ネイティブ) |
0.8B でありながらネイティブマルチモーダルです。アダプターや別モデルなしで、テキスト・画像・動画を同一アーキテクチャで処理します。スマートフォン上で動画を処理できるレベルです。
ベンチマーク
| ベンチマーク | Qwen3.5-0.8B | 評価 |
|---|---|---|
| MathVista | 62.2 | 0.8B としては高い数学的推論能力 |
| VideoMME | 63.8 | 動画理解が可能 |
| OCRBench | 74.5 | 文字認識に実用的な精度 |
| MMLU-Pro | 29.7 | 言語理解はサブ10億パラメータの限界あり |
Holy-fox/Qwen3.5-0.8B-JP — 日本語SFTモデルの詳細
学習構成
| 項目 | 詳細 |
|---|---|
| ベースモデル | Qwen/Qwen3.5-0.8B |
| 学習データ | DataPilot/Zero_SFT_Ja_v3.5(約108K件) |
| 学習方法 | フルパラメータ SFT(LoRA ではない) |
| 学習フレームワーク | Unsloth |
| 学習ハードウェア | NVIDIA RTX 5090 |
| ライセンス | Apache 2.0 |
フルパラメータ SFT を選んだ意味
一般的に小規模モデルのファインチューニングには LoRA(低ランク適応)が使われますが、このモデルはフルパラメータ SFTを採用しています。
| 方式 | フルパラメータ SFT | LoRA |
|---|---|---|
| 更新パラメータ | 全パラメータ(0.8B 全体) | 一部パラメータのみ(数%) |
| 学習の深さ | モデル全体の知識を書き換え可能 | 表層的な適応が中心 |
| VRAM 要件 | 高い(RTX 5090 の 32GB が活きる) | 低い(RTX 4060 でも可能) |
| 日本語の定着度 | 深い(内部表現レベルで変化) | 浅い(プロンプト依存が残る) |
0.8B という小さなモデルだからこそ、フルパラメータ SFT が現実的に実行可能です。RTX 5090 の 32GB VRAM があれば、0.8B モデル全体をメモリに載せてフルパラメータで学習できます。
DataPilot/Zero_SFT_Ja_v3.5 データセット
学習に使用された Zero_SFT_Ja_v3.5 は、約108K件の日本語インストラクションデータセットです。
- フォーマット: OpenAI API 形式(messages)と ShareGPT 形式(conversations)の両方に対応
- ライセンス: ODC-BY
- サイズ: 約1.18GB
- 関連研究: BARE(“Combining Base and Instruction-Tuned Language Models for Better Synthetic Data Generation”, arXiv:2502.01697)
使い方
| |
| |
重要なポイントは presence_penalty=2.0 です。小規模モデルは繰り返し出力に陥りやすいため、ペナルティを高めに設定します。
制限事項
- Non-thinking モード専用: Qwen3 系の
/thinkトークンは非推奨 - 複雑な推論には限界: 長文の一貫性や高度な論理推論は大規模モデルに劣る
- 日本語特化: 英語やその他の言語でのパフォーマンスは保証なし
Unsloth — 学習速度2倍、VRAM 使用量80%削減
このモデルの学習に使われた Unsloth は、LLM のファインチューニングを高速化するフレームワークです。
| 項目 | Unsloth の効果 |
|---|---|
| 学習速度 | 約2倍に向上 |
| VRAM 使用量 | 最大80%削減 |
| 互換性 | Hugging Face Transformers と完全互換 |
| 対応手法 | SFT、DPO、RLHF、LoRA、フルパラメータ |
RTX 5090(32GB VRAM)との組み合わせで、0.8B のフルパラメータ SFT が個人の GPU 1枚で完結します。
RTX 5090 の SFT 性能
| GPU | LoRA 速度(Llama 3 13B) | VRAM |
|---|---|---|
| RTX 4090 | 約65.8 tok/s | 24GB |
| RTX 5090 | 約104.5 tok/s | 32GB |
| 向上率 | +58% | +33% |
RTX 5090 の 32GB VRAM は、バッチサイズの拡大とスワップ発生の解消により、特にフルパラメータ SFT で大きなメリットがあります。
小規模 LLM の現在地 — 2026年のエッジ AI
なぜ小さいモデルが重要なのか
クラウド LLM(100B+):
├── 高品質だが高コスト
├── レイテンシーがネットワーク依存
├── プライバシーの懸念(データ送信)
└── オフライン不可
エッジ LLM(0.8B〜9B):
├── 低コスト(推論料金ゼロ)
├── 低レイテンシー(ローカル実行)
├── プライバシー保護(データ端末内)
└── オフライン対応
2026年のトレンドとして、LLM は「巨大化」から「軽量化」に転換しています。Qwen3.5 Small シリーズは、0.8B でもマルチモーダル・262K コンテキストを実現し、エッジ AI の実用性を証明しました。
日本語小規模 LLM の選択肢(2026年3月時点)
| モデル | パラメータ | 特徴 | VRAM 目安 |
|---|---|---|---|
| Qwen3.5-0.8B-JP | 0.8B | 日本語SFT済み、Non-thinking | 約1.6GB |
| Qwen3-0.6B | 0.6B | 翻訳・QA で 1B 級を超える性能 | 約1.2GB |
| Gemma 3-1B | 1B | Google 製、日本語対応 | 約2GB |
| Phi-4-mini | 3.8B | Microsoft 製、推論特化 | 約8GB |
スマートフォンでの推論には 4bit 量子化が推奨されます。0.8B モデルを 4bit 量子化すると約400MB となり、4GB RAM のスマートフォンでも動作可能です。
実用的なユースケース
| ユースケース | 向いているか | 理由 |
|---|---|---|
| オフライン日本語チャット | 向いている | ネットワーク不要、プライバシー保護 |
| 入力補完・定型文生成 | 向いている | 低レイテンシーが活きる |
| コード生成の補助 | 部分的に可能 | 簡単な関数は生成可能、複雑なロジックは困難 |
| 文書要約 | 部分的に可能 | 短い文書なら可能、長文の一貫性は限界あり |
| 複雑な推論・分析 | 向いていない | 大規模モデルが必要 |
| 多言語翻訳 | 向いていない | 日本語特化のため |
個人がLLMを日本語SFTして公開する意義
Holy_fox_LLM 氏のような個人開発者がベースモデルのリリースから数日で日本語 SFT モデルを公開できる環境が整っています。
必要なもの
| 項目 | 必要なリソース |
|---|---|
| GPU | RTX 5090(32GB)1枚で十分 |
| データ | DataPilot/Zero_SFT_Ja(オープンデータ) |
| フレームワーク | Unsloth(無料・オープンソース) |
| 学習時間 | 0.8B フルパラメータで数時間程度 |
| 公開先 | Hugging Face(無料) |
RTX 5090 1枚、オープンデータ、オープンソースツール。個人が LLM を日本語特化させて公開する障壁は、2026年には事実上なくなっています。
まとめ
- Qwen3.5-0.8B-JP が公開: 約108K件の日本語データでフルパラメータ SFT。スマートフォンで動作可能な0.8Bパラメータ
- Qwen3.5 Small の技術革新: Gated DeltaNet ハイブリッドアーキテクチャで、0.8B でも 262K コンテキスト・ネイティブマルチモーダルを実現
- フルパラメータ SFT が現実的に: RTX 5090(32GB)+ Unsloth で、0.8B なら個人の GPU 1枚でフルパラメータ学習が完結
- 小規模 LLM の時代: 巨大化から軽量化へ。エッジデバイスでのオフライン・低コスト・プライバシー保護が実用段階に
- Non-thinking モード専用:
/thinkなしの直接応答。presence_penalty=2.0で繰り返しを抑制 - 個人の公開障壁がゼロに: オープンデータ + オープンツール + 1枚の GPU で、ベースモデル公開から数日で日本語版を公開可能
- 用途を選べば実用的: オフラインチャット、入力補完、定型文生成に最適。複雑な推論は大規模モデルに任せる
参考
- @Holy_fox_LLM のポスト
- Holy-fox/Qwen3.5-0.8B-JP - Hugging Face
- DataPilot/Zero_SFT_Ja_v3.5 - Hugging Face Datasets
- Qwen3.5: 9B Beats 120B, 0.8B Runs Video on Phones - StableLearn
- Alibaba Qwen Open-Sources Four Qwen3.5 Small Models - Pandaily
- Qwen3.5 Small 4モデルが一挙リリース - GIGAZINE
- How to Fine-Tune LLMs on RTX GPUs With Unsloth - NVIDIA Blog
- 2026年最新 小型LLM日本語ガチランキング - Zenn
- 2026年のローカルLLM事情を整理してみた - DevelopersIO
- 日本語LLMまとめ - LLM-jp