Qwen3.5-0.8B を日本語SFTしたモデル公開 — スマホで動く0.8Bパラメータの実力と小規模LLMの現在地

@Holy_fox_LLM 氏(ほーりーふぉっくす)のポストが、Qwen3.5-0.8B を約10万件の日本語データでフルパラメータ SFT したモデルを Hugging Face で公開しています。

Qwen3.5 0.8Bに対して約10万件超のデータを用いてフルパラでSFTしたモデルを公開しました!スマホなどの推論に最適なモデルとなっています

ポストは440いいね、69リツイートと高い反響を集めています。Qwen3.5 Small シリーズが2026年3月2日にリリースされた直後のタイミングで、日本語コミュニティの素早い対応として注目されています。

Qwen3.5 Small シリーズ — 0.8B でもマルチモーダル

リリースの概要

2026年3月2日、Alibaba の Qwen チームが Qwen3.5 Small シリーズを Apache 2.0 ライセンスで公開しました。0.8B、2B、4B、9B の4サイズで構成されています。

モデルパラメータVRAM(FP16)主な用途
Qwen3.5-0.8B8億約1.6GBスマホ、IoT、エッジデバイス
Qwen3.5-2B20億約4GB軽量サーバー、タブレット
Qwen3.5-4B40億約8GBローカル PC
Qwen3.5-9B90億約18GBデスクトップ、サーバー

注目すべきは、9B モデルが OpenAI の gpt-oss-120B(13.5倍のサイズ)を GPQA Diamond ベンチマークで上回ったことです(81.7 vs 71.5)。

Gated DeltaNet アーキテクチャ

Qwen3.5 Small シリーズの技術的な特徴は、Gated DeltaNet ハイブリッドアーキテクチャです。

従来の Transformer:
  全層がフルアテンション → メモリ使用量がコンテキスト長の2乗で増加

Qwen3.5 Small の Gated DeltaNet:
  線形アテンション(Gated DeltaNet): フルアテンション = 3 : 1
  → 線形アテンション層は定数メモリで動作
  → 0.8B でも 262K コンテキストを実現
項目Qwen3.5-0.8B
アーキテクチャGated DeltaNet ハイブリッド(3:1 比率)
レイヤー数24
隠れ層次元1,024
FFN 次元3,584
コンテキスト長262K トークン
語彙数248K トークン(201言語対応)
モダリティテキスト + 画像 + 動画(ネイティブ)

0.8B でありながらネイティブマルチモーダルです。アダプターや別モデルなしで、テキスト・画像・動画を同一アーキテクチャで処理します。スマートフォン上で動画を処理できるレベルです。

ベンチマーク

ベンチマークQwen3.5-0.8B評価
MathVista62.20.8B としては高い数学的推論能力
VideoMME63.8動画理解が可能
OCRBench74.5文字認識に実用的な精度
MMLU-Pro29.7言語理解はサブ10億パラメータの限界あり

Holy-fox/Qwen3.5-0.8B-JP — 日本語SFTモデルの詳細

学習構成

項目詳細
ベースモデルQwen/Qwen3.5-0.8B
学習データDataPilot/Zero_SFT_Ja_v3.5(約108K件)
学習方法フルパラメータ SFT(LoRA ではない)
学習フレームワークUnsloth
学習ハードウェアNVIDIA RTX 5090
ライセンスApache 2.0

フルパラメータ SFT を選んだ意味

一般的に小規模モデルのファインチューニングには LoRA(低ランク適応)が使われますが、このモデルはフルパラメータ SFTを採用しています。

方式フルパラメータ SFTLoRA
更新パラメータ全パラメータ(0.8B 全体)一部パラメータのみ(数%)
学習の深さモデル全体の知識を書き換え可能表層的な適応が中心
VRAM 要件高い(RTX 5090 の 32GB が活きる)低い(RTX 4060 でも可能)
日本語の定着度深い(内部表現レベルで変化)浅い(プロンプト依存が残る)

0.8B という小さなモデルだからこそ、フルパラメータ SFT が現実的に実行可能です。RTX 5090 の 32GB VRAM があれば、0.8B モデル全体をメモリに載せてフルパラメータで学習できます。

DataPilot/Zero_SFT_Ja_v3.5 データセット

学習に使用された Zero_SFT_Ja_v3.5 は、約108K件の日本語インストラクションデータセットです。

  • フォーマット: OpenAI API 形式(messages)と ShareGPT 形式(conversations)の両方に対応
  • ライセンス: ODC-BY
  • サイズ: 約1.18GB
  • 関連研究: BARE(“Combining Base and Instruction-Tuned Language Models for Better Synthetic Data Generation”, arXiv:2502.01697)

使い方

1
2
3
4
5
6
7
# Transformers サーバーで起動
pip install "transformers[serving] @ git+https://github.com/huggingface/transformers.git@main"
transformers serve --force-model Holy-fox/Qwen3.5-0.8B-JP --port 8000

# OpenAI 互換 API として利用
export OPENAI_BASE_URL="http://localhost:8000/v1"
export OPENAI_API_KEY="EMPTY"
 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
from openai import OpenAI

client = OpenAI()
response = client.chat.completions.create(
    model="Holy-fox/Qwen3.5-0.8B-JP",
    messages=[{"role": "user", "content": "Pythonでフィボナッチ数列を生成する関数を書いてください"}],
    max_tokens=32768,
    temperature=1.0,
    top_p=1.0,
    presence_penalty=2.0,  # 小規模モデルの繰り返し抑制に重要
    extra_body={"top_k": 20},
)
print(response.choices[0].message.content)

重要なポイントは presence_penalty=2.0 です。小規模モデルは繰り返し出力に陥りやすいため、ペナルティを高めに設定します。

制限事項

  • Non-thinking モード専用: Qwen3 系の /think トークンは非推奨
  • 複雑な推論には限界: 長文の一貫性や高度な論理推論は大規模モデルに劣る
  • 日本語特化: 英語やその他の言語でのパフォーマンスは保証なし

Unsloth — 学習速度2倍、VRAM 使用量80%削減

このモデルの学習に使われた Unsloth は、LLM のファインチューニングを高速化するフレームワークです。

項目Unsloth の効果
学習速度約2倍に向上
VRAM 使用量最大80%削減
互換性Hugging Face Transformers と完全互換
対応手法SFT、DPO、RLHF、LoRA、フルパラメータ

RTX 5090(32GB VRAM)との組み合わせで、0.8B のフルパラメータ SFT が個人の GPU 1枚で完結します。

RTX 5090 の SFT 性能

GPULoRA 速度(Llama 3 13B)VRAM
RTX 4090約65.8 tok/s24GB
RTX 5090約104.5 tok/s32GB
向上率+58%+33%

RTX 5090 の 32GB VRAM は、バッチサイズの拡大とスワップ発生の解消により、特にフルパラメータ SFT で大きなメリットがあります。

小規模 LLM の現在地 — 2026年のエッジ AI

なぜ小さいモデルが重要なのか

クラウド LLM(100B+):
  ├── 高品質だが高コスト
  ├── レイテンシーがネットワーク依存
  ├── プライバシーの懸念(データ送信)
  └── オフライン不可

エッジ LLM(0.8B〜9B):
  ├── 低コスト(推論料金ゼロ)
  ├── 低レイテンシー(ローカル実行)
  ├── プライバシー保護(データ端末内)
  └── オフライン対応

2026年のトレンドとして、LLM は「巨大化」から「軽量化」に転換しています。Qwen3.5 Small シリーズは、0.8B でもマルチモーダル・262K コンテキストを実現し、エッジ AI の実用性を証明しました。

日本語小規模 LLM の選択肢(2026年3月時点)

モデルパラメータ特徴VRAM 目安
Qwen3.5-0.8B-JP0.8B日本語SFT済み、Non-thinking約1.6GB
Qwen3-0.6B0.6B翻訳・QA で 1B 級を超える性能約1.2GB
Gemma 3-1B1BGoogle 製、日本語対応約2GB
Phi-4-mini3.8BMicrosoft 製、推論特化約8GB

スマートフォンでの推論には 4bit 量子化が推奨されます。0.8B モデルを 4bit 量子化すると約400MB となり、4GB RAM のスマートフォンでも動作可能です。

実用的なユースケース

ユースケース向いているか理由
オフライン日本語チャット向いているネットワーク不要、プライバシー保護
入力補完・定型文生成向いている低レイテンシーが活きる
コード生成の補助部分的に可能簡単な関数は生成可能、複雑なロジックは困難
文書要約部分的に可能短い文書なら可能、長文の一貫性は限界あり
複雑な推論・分析向いていない大規模モデルが必要
多言語翻訳向いていない日本語特化のため

個人がLLMを日本語SFTして公開する意義

Holy_fox_LLM 氏のような個人開発者がベースモデルのリリースから数日で日本語 SFT モデルを公開できる環境が整っています。

必要なもの

項目必要なリソース
GPURTX 5090(32GB)1枚で十分
データDataPilot/Zero_SFT_Ja(オープンデータ)
フレームワークUnsloth(無料・オープンソース)
学習時間0.8B フルパラメータで数時間程度
公開先Hugging Face(無料)

RTX 5090 1枚、オープンデータ、オープンソースツール。個人が LLM を日本語特化させて公開する障壁は、2026年には事実上なくなっています。

まとめ

  • Qwen3.5-0.8B-JP が公開: 約108K件の日本語データでフルパラメータ SFT。スマートフォンで動作可能な0.8Bパラメータ
  • Qwen3.5 Small の技術革新: Gated DeltaNet ハイブリッドアーキテクチャで、0.8B でも 262K コンテキスト・ネイティブマルチモーダルを実現
  • フルパラメータ SFT が現実的に: RTX 5090(32GB)+ Unsloth で、0.8B なら個人の GPU 1枚でフルパラメータ学習が完結
  • 小規模 LLM の時代: 巨大化から軽量化へ。エッジデバイスでのオフライン・低コスト・プライバシー保護が実用段階に
  • Non-thinking モード専用: /think なしの直接応答。presence_penalty=2.0 で繰り返しを抑制
  • 個人の公開障壁がゼロに: オープンデータ + オープンツール + 1枚の GPU で、ベースモデル公開から数日で日本語版を公開可能
  • 用途を選べば実用的: オフラインチャット、入力補完、定型文生成に最適。複雑な推論は大規模モデルに任せる

参考