Qwen3.5-0.8B を日本語SFTしたモデル公開 — スマホで動く0.8Bパラメータの実力と小規模LLMの現在地

@Holy_fox_LLM 氏（ほーりーふぉっくす）のポストが、Qwen3.5-0.8B を約10万件の日本語データでフルパラメータ SFT したモデルを Hugging Face で公開しています。

Qwen3.5 0.8Bに対して約10万件超のデータを用いてフルパラでSFTしたモデルを公開しました！スマホなどの推論に最適なモデルとなっています

ポストは440いいね、69リツイートと高い反響を集めています。Qwen3.5 Small シリーズが2026年3月2日にリリースされた直後のタイミングで、日本語コミュニティの素早い対応として注目されています。

Qwen3.5 Small シリーズ — 0.8B でもマルチモーダル

リリースの概要

2026年3月2日、Alibaba の Qwen チームが Qwen3.5 Small シリーズを Apache 2.0 ライセンスで公開しました。0.8B、2B、4B、9B の4サイズで構成されています。

モデル	パラメータ	VRAM（FP16）	主な用途
Qwen3.5-0.8B	8億	約1.6GB	スマホ、IoT、エッジデバイス
Qwen3.5-2B	20億	約4GB	軽量サーバー、タブレット
Qwen3.5-4B	40億	約8GB	ローカル PC
Qwen3.5-9B	90億	約18GB	デスクトップ、サーバー

注目すべきは、9B モデルが OpenAI の gpt-oss-120B（13.5倍のサイズ）を GPQA Diamond ベンチマークで上回ったことです（81.7 vs 71.5）。

Gated DeltaNet アーキテクチャ

Qwen3.5 Small シリーズの技術的な特徴は、Gated DeltaNet ハイブリッドアーキテクチャです。

従来の Transformer:
  全層がフルアテンション → メモリ使用量がコンテキスト長の2乗で増加

Qwen3.5 Small の Gated DeltaNet:
  線形アテンション（Gated DeltaNet）: フルアテンション = 3 : 1
  → 線形アテンション層は定数メモリで動作
  → 0.8B でも 262K コンテキストを実現

項目	Qwen3.5-0.8B
アーキテクチャ	Gated DeltaNet ハイブリッド（3:1 比率）
レイヤー数	24
隠れ層次元	1,024
FFN 次元	3,584
コンテキスト長	262K トークン
語彙数	248K トークン（201言語対応）
モダリティ	テキスト + 画像 + 動画（ネイティブ）

0.8B でありながらネイティブマルチモーダルです。アダプターや別モデルなしで、テキスト・画像・動画を同一アーキテクチャで処理します。スマートフォン上で動画を処理できるレベルです。

ベンチマーク

ベンチマーク	Qwen3.5-0.8B	評価
MathVista	62.2	0.8B としては高い数学的推論能力
VideoMME	63.8	動画理解が可能
OCRBench	74.5	文字認識に実用的な精度
MMLU-Pro	29.7	言語理解はサブ10億パラメータの限界あり

Holy-fox/Qwen3.5-0.8B-JP — 日本語SFTモデルの詳細

学習構成

項目	詳細
ベースモデル	Qwen/Qwen3.5-0.8B
学習データ	DataPilot/Zero_SFT_Ja_v3.5（約108K件）
学習方法	フルパラメータ SFT（LoRA ではない）
学習フレームワーク	Unsloth
学習ハードウェア	NVIDIA RTX 5090
ライセンス	Apache 2.0

フルパラメータ SFT を選んだ意味

一般的に小規模モデルのファインチューニングには LoRA（低ランク適応）が使われますが、このモデルはフルパラメータ SFTを採用しています。

方式	フルパラメータ SFT	LoRA
更新パラメータ	全パラメータ（0.8B 全体）	一部パラメータのみ（数%）
学習の深さ	モデル全体の知識を書き換え可能	表層的な適応が中心
VRAM 要件	高い（RTX 5090 の 32GB が活きる）	低い（RTX 4060 でも可能）
日本語の定着度	深い（内部表現レベルで変化）	浅い（プロンプト依存が残る）

0.8B という小さなモデルだからこそ、フルパラメータ SFT が現実的に実行可能です。RTX 5090 の 32GB VRAM があれば、0.8B モデル全体をメモリに載せてフルパラメータで学習できます。

DataPilot/Zero_SFT_Ja_v3.5 データセット

学習に使用された Zero_SFT_Ja_v3.5 は、約108K件の日本語インストラクションデータセットです。

フォーマット: OpenAI API 形式（messages）と ShareGPT 形式（conversations）の両方に対応
ライセンス: ODC-BY
サイズ: 約1.18GB
関連研究: BARE（“Combining Base and Instruction-Tuned Language Models for Better Synthetic Data Generation”, arXiv:2502.01697）

使い方

1
2
3
4
5
6
7
# Transformers サーバーで起動
pip install "transformers[serving] @ git+https://github.com/huggingface/transformers.git@main"
transformers serve --force-model Holy-fox/Qwen3.5-0.8B-JP --port 8000

# OpenAI 互換 API として利用
export OPENAI_BASE_URL="http://localhost:8000/v1"
export OPENAI_API_KEY="EMPTY"

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
from openai import OpenAI

client = OpenAI()
response = client.chat.completions.create(
    model="Holy-fox/Qwen3.5-0.8B-JP",
    messages=[{"role": "user", "content": "Pythonでフィボナッチ数列を生成する関数を書いてください"}],
    max_tokens=32768,
    temperature=1.0,
    top_p=1.0,
    presence_penalty=2.0,  # 小規模モデルの繰り返し抑制に重要
    extra_body={"top_k": 20},
)
print(response.choices[0].message.content)

重要なポイントは presence_penalty=2.0 です。小規模モデルは繰り返し出力に陥りやすいため、ペナルティを高めに設定します。

制限事項

Non-thinking モード専用: Qwen3 系の /think トークンは非推奨
複雑な推論には限界: 長文の一貫性や高度な論理推論は大規模モデルに劣る
日本語特化: 英語やその他の言語でのパフォーマンスは保証なし

Unsloth — 学習速度2倍、VRAM 使用量80%削減

このモデルの学習に使われた Unsloth は、LLM のファインチューニングを高速化するフレームワークです。

項目	Unsloth の効果
学習速度	約2倍に向上
VRAM 使用量	最大80%削減
互換性	Hugging Face Transformers と完全互換
対応手法	SFT、DPO、RLHF、LoRA、フルパラメータ

RTX 5090（32GB VRAM）との組み合わせで、0.8B のフルパラメータ SFT が個人の GPU 1枚で完結します。

RTX 5090 の SFT 性能

GPU	LoRA 速度（Llama 3 13B）	VRAM
RTX 4090	約65.8 tok/s	24GB
RTX 5090	約104.5 tok/s	32GB
向上率	+58%	+33%

RTX 5090 の 32GB VRAM は、バッチサイズの拡大とスワップ発生の解消により、特にフルパラメータ SFT で大きなメリットがあります。

小規模 LLM の現在地 — 2026年のエッジ AI

なぜ小さいモデルが重要なのか

クラウド LLM（100B+）:
  ├── 高品質だが高コスト
  ├── レイテンシーがネットワーク依存
  ├── プライバシーの懸念（データ送信）
  └── オフライン不可

エッジ LLM（0.8B〜9B）:
  ├── 低コスト（推論料金ゼロ）
  ├── 低レイテンシー（ローカル実行）
  ├── プライバシー保護（データ端末内）
  └── オフライン対応

2026年のトレンドとして、LLM は「巨大化」から「軽量化」に転換しています。Qwen3.5 Small シリーズは、0.8B でもマルチモーダル・262K コンテキストを実現し、エッジ AI の実用性を証明しました。

日本語小規模 LLM の選択肢（2026年3月時点）

モデル	パラメータ	特徴	VRAM 目安
Qwen3.5-0.8B-JP	0.8B	日本語SFT済み、Non-thinking	約1.6GB
Qwen3-0.6B	0.6B	翻訳・QA で 1B 級を超える性能	約1.2GB
Gemma 3-1B	1B	Google 製、日本語対応	約2GB
Phi-4-mini	3.8B	Microsoft 製、推論特化	約8GB

スマートフォンでの推論には 4bit 量子化が推奨されます。0.8B モデルを 4bit 量子化すると約400MB となり、4GB RAM のスマートフォンでも動作可能です。

実用的なユースケース

ユースケース	向いているか	理由
オフライン日本語チャット	向いている	ネットワーク不要、プライバシー保護
入力補完・定型文生成	向いている	低レイテンシーが活きる
コード生成の補助	部分的に可能	簡単な関数は生成可能、複雑なロジックは困難
文書要約	部分的に可能	短い文書なら可能、長文の一貫性は限界あり
複雑な推論・分析	向いていない	大規模モデルが必要
多言語翻訳	向いていない	日本語特化のため

個人がLLMを日本語SFTして公開する意義

Holy_fox_LLM 氏のような個人開発者がベースモデルのリリースから数日で日本語 SFT モデルを公開できる環境が整っています。

必要なもの

項目	必要なリソース
GPU	RTX 5090（32GB）1枚で十分
データ	DataPilot/Zero_SFT_Ja（オープンデータ）
フレームワーク	Unsloth（無料・オープンソース）
学習時間	0.8B フルパラメータで数時間程度
公開先	Hugging Face（無料）

RTX 5090 1枚、オープンデータ、オープンソースツール。個人が LLM を日本語特化させて公開する障壁は、2026年には事実上なくなっています。

まとめ

Qwen3.5-0.8B-JP が公開: 約108K件の日本語データでフルパラメータ SFT。スマートフォンで動作可能な0.8Bパラメータ
Qwen3.5 Small の技術革新: Gated DeltaNet ハイブリッドアーキテクチャで、0.8B でも 262K コンテキスト・ネイティブマルチモーダルを実現
フルパラメータ SFT が現実的に: RTX 5090（32GB）+ Unsloth で、0.8B なら個人の GPU 1枚でフルパラメータ学習が完結
小規模 LLM の時代: 巨大化から軽量化へ。エッジデバイスでのオフライン・低コスト・プライバシー保護が実用段階に
Non-thinking モード専用: /think なしの直接応答。presence_penalty=2.0 で繰り返しを抑制
個人の公開障壁がゼロに: オープンデータ + オープンツール + 1枚の GPU で、ベースモデル公開から数日で日本語版を公開可能
用途を選べば実用的: オフラインチャット、入力補完、定型文生成に最適。複雑な推論は大規模モデルに任せる

Qwen3.5-0.8B を日本語SFTしたモデル公開 — スマホで動く0.8Bパラメータの実力と小規模LLMの現在地#

Qwen3.5 Small シリーズ — 0.8B でもマルチモーダル#

リリースの概要#

Gated DeltaNet アーキテクチャ#

ベンチマーク#

Holy-fox/Qwen3.5-0.8B-JP — 日本語SFTモデルの詳細#

学習構成#

フルパラメータ SFT を選んだ意味#

DataPilot/Zero_SFT_Ja_v3.5 データセット#

使い方#

制限事項#

Unsloth — 学習速度2倍、VRAM 使用量80%削減#

RTX 5090 の SFT 性能#

小規模 LLM の現在地 — 2026年のエッジ AI#

なぜ小さいモデルが重要なのか#

日本語小規模 LLM の選択肢（2026年3月時点）#

実用的なユースケース#

個人がLLMを日本語SFTして公開する意義#

必要なもの#

まとめ#

参考#