ローカルQwenに個人知識を覚えさせたい — ファインチューニング vs RAG

ローカルで Ollama + Qwen を動かしている Mac Studio（M3 Ultra / 96GB）に、NAS 上の PDF やテキストなどのドキュメントを学習させて「個人の知識ベース」として活用したい——そんなとき、ファインチューニングと RAG のどちらを選ぶべきかを整理する。

やりたいこと

NAS に蓄積された個人ドキュメント（PDF、テキスト等）の知識を Qwen に覚えさせたい
自分の PC を使った活動に関する知識を、AI が把握している状態にしたい

選択肢1: ファインチューニング（QLoRA）

モデル自体の重みを更新し、知識を「記憶」させるアプローチ。

Mac Studio での実現可能性

M3 Ultra / 96GB 統合メモリなら、QLoRA でのファインチューニングは技術的に可能。

手法	必要メモリ目安（7B）	ツール
QLoRA (4bit)	6-8 GB	Unsloth, LLaMA-Factory, MLX
LoRA (16bit)	14-16 GB	LLaMA-Factory, PEFT
フル FT	60+ GB	非現実的

Apple Silicon では MLX ベースが最もパフォーマンスが良い。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
# MLX での QLoRA 実行例
pip install mlx-lm

mlx_lm.lora \
  --model Qwen/Qwen2.5-Coder-14B-Instruct \
  --data ./training_data \
  --train \
  --batch-size 1 \
  --lora-layers 16 \
  --iters 1000

ファインチューニングの課題

最大のボトルネックはデータ準備。NAS の生ファイルはそのまま学習データにはならず、instruction 形式への変換が必要になる。

{"instruction": "〇〇について説明して", "input": "", "output": "〇〇とは..."}
{"instruction": "このコードの問題点は？", "input": "def foo():...", "output": "この関数は..."}

全ドキュメントをこの形式に変換する工程が、技術的セットアップより遥かに大変。

知識蒸留について

大きなモデル（教師）の出力で小さなモデル（生徒）を学習させる知識蒸留は、教師・生徒モデルを同時にロードする必要があり、96GB でも 30B 教師 + 14B 生徒の組み合わせは厳しい。

選択肢2: RAG（検索拡張生成）

ドキュメントをインデックス化し、質問時に関連文書を検索してコンテキストとして渡すアプローチ。

個人ナレッジ用途には RAG が適している理由

観点	ファインチューニング	RAG
ファイル追加・更新	再学習が必要	インデックス追加のみ
回答の正確性	「うろ覚え」になりがち	原文を参照して回答
出典の追跡	不可	どのファイルか分かる
セットアップ	数日〜	数分〜数時間
データ準備	Q&Aペアへの変換が必要	そのまま投入可能

個人ドキュメントのように内容が随時追加・更新されるユースケースでは、ファイルを追加するたびに再学習するのは現実的でない。

実現方法

Ollama + Qwen + 埋め込みモデル（nomic-embed-text 等）が既にあれば、以下のツールですぐ構築できる。

Open WebUI（推奨）

Ollama と最も相性が良く、ドキュメントアップロード機能を内蔵。

1
2
3
4
docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host.docker.internal \
  -v open-webui:/app/backend/data \
  ghcr.io/open-webui/open-webui:main

AnythingLLM

NAS フォルダを直接指定してインデックス化できる。GUI で操作が簡単。

PrivateGPT

完全ローカル特化で、プライバシー重視の構成。

RAG の構成イメージ

NAS (PDF/テキスト)
  ↓ インデックス化（nomic-embed-text で埋め込み）
ベクトルDB（ChromaDB 等）
  ↓ 質問時に類似検索
Qwen が関連ドキュメントを参照して回答

どちらを選ぶべきか

RAG を選ぶべきケース（ほとんどの場合こちら）

ドキュメントが増え続ける
正確な情報と出典が必要
すぐに使い始めたい
ドキュメントの内容がそのまま回答に使える

ファインチューニングを選ぶべきケース

特定の応答スタイルや専門用語の使い方を覚えさせたい
オフラインで外部検索なしに回答させたい
応答速度を最優先したい（検索オーバーヘッドを避けたい）
データが固定的で変更が少ない

両方を組み合わせる

ファインチューニングで応答スタイルを調整し、RAG で最新の知識を補完する「ハイブリッド構成」も有効。ただし、まずは RAG 単体で試して不足を感じたら検討するのが現実的。

まとめ

「NAS のドキュメントで AI に個人知識を覚えさせたい」という用途では、RAG が圧倒的に適している。ファインチューニングは技術的には可能だが、データ準備の工数と継続的なメンテナンスコストが見合わない。

Mac Studio + Ollama + Qwen + nomic-embed-text という既存環境に Open WebUI を追加するだけで、NAS のドキュメントを参照して回答する個人 AI アシスタントが構築できる。

やりたいこと#

選択肢1: ファインチューニング（QLoRA）#

Mac Studio での実現可能性#

ファインチューニングの課題#

知識蒸留について#

選択肢2: RAG（検索拡張生成）#

個人ナレッジ用途には RAG が適している理由#

実現方法#

Open WebUI（推奨）#

AnythingLLM#

PrivateGPT#

RAG の構成イメージ#

どちらを選ぶべきか#

RAG を選ぶべきケース（ほとんどの場合こちら）#

ファインチューニングを選ぶべきケース#

両方を組み合わせる#

まとめ#