ローカルで Ollama + Qwen を動かしている Mac Studio(M3 Ultra / 96GB)に、NAS 上の PDF やテキストなどのドキュメントを学習させて「個人の知識ベース」として活用したい——そんなとき、ファインチューニングと RAG のどちらを選ぶべきかを整理する。

やりたいこと

  • NAS に蓄積された個人ドキュメント(PDF、テキスト等)の知識を Qwen に覚えさせたい
  • 自分の PC を使った活動に関する知識を、AI が把握している状態にしたい

選択肢1: ファインチューニング(QLoRA)

モデル自体の重みを更新し、知識を「記憶」させるアプローチ。

Mac Studio での実現可能性

M3 Ultra / 96GB 統合メモリなら、QLoRA でのファインチューニングは技術的に可能。

手法必要メモリ目安(7B)ツール
QLoRA (4bit)6-8 GBUnsloth, LLaMA-Factory, MLX
LoRA (16bit)14-16 GBLLaMA-Factory, PEFT
フル FT60+ GB非現実的

Apple Silicon では MLX ベースが最もパフォーマンスが良い。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
# MLX での QLoRA 実行例
pip install mlx-lm

mlx_lm.lora \
  --model Qwen/Qwen2.5-Coder-14B-Instruct \
  --data ./training_data \
  --train \
  --batch-size 1 \
  --lora-layers 16 \
  --iters 1000

ファインチューニングの課題

最大のボトルネックはデータ準備。NAS の生ファイルはそのまま学習データにはならず、instruction 形式への変換が必要になる。

{"instruction": "〇〇について説明して", "input": "", "output": "〇〇とは..."}
{"instruction": "このコードの問題点は?", "input": "def foo():...", "output": "この関数は..."}

全ドキュメントをこの形式に変換する工程が、技術的セットアップより遥かに大変。

知識蒸留について

大きなモデル(教師)の出力で小さなモデル(生徒)を学習させる知識蒸留は、教師・生徒モデルを同時にロードする必要があり、96GB でも 30B 教師 + 14B 生徒の組み合わせは厳しい。

選択肢2: RAG(検索拡張生成)

ドキュメントをインデックス化し、質問時に関連文書を検索してコンテキストとして渡すアプローチ。

個人ナレッジ用途には RAG が適している理由

観点ファインチューニングRAG
ファイル追加・更新再学習が必要インデックス追加のみ
回答の正確性「うろ覚え」になりがち原文を参照して回答
出典の追跡不可どのファイルか分かる
セットアップ数日〜数分〜数時間
データ準備Q&Aペアへの変換が必要そのまま投入可能

個人ドキュメントのように内容が随時追加・更新されるユースケースでは、ファイルを追加するたびに再学習するのは現実的でない。

実現方法

Ollama + Qwen + 埋め込みモデル(nomic-embed-text 等)が既にあれば、以下のツールですぐ構築できる。

Open WebUI(推奨)

Ollama と最も相性が良く、ドキュメントアップロード機能を内蔵。

1
2
3
4
docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host.docker.internal \
  -v open-webui:/app/backend/data \
  ghcr.io/open-webui/open-webui:main

AnythingLLM

NAS フォルダを直接指定してインデックス化できる。GUI で操作が簡単。

PrivateGPT

完全ローカル特化で、プライバシー重視の構成。

RAG の構成イメージ

NAS (PDF/テキスト)
  ↓ インデックス化(nomic-embed-text で埋め込み)
ベクトルDB(ChromaDB 等)
  ↓ 質問時に類似検索
Qwen が関連ドキュメントを参照して回答

どちらを選ぶべきか

RAG を選ぶべきケース(ほとんどの場合こちら)

  • ドキュメントが増え続ける
  • 正確な情報と出典が必要
  • すぐに使い始めたい
  • ドキュメントの内容がそのまま回答に使える

ファインチューニングを選ぶべきケース

  • 特定の応答スタイルや専門用語の使い方を覚えさせたい
  • オフラインで外部検索なしに回答させたい
  • 応答速度を最優先したい(検索オーバーヘッドを避けたい)
  • データが固定的で変更が少ない

両方を組み合わせる

ファインチューニングで応答スタイルを調整し、RAG で最新の知識を補完する「ハイブリッド構成」も有効。ただし、まずは RAG 単体で試して不足を感じたら検討するのが現実的。

まとめ

「NAS のドキュメントで AI に個人知識を覚えさせたい」という用途では、RAG が圧倒的に適している。ファインチューニングは技術的には可能だが、データ準備の工数と継続的なメンテナンスコストが見合わない。

Mac Studio + Ollama + Qwen + nomic-embed-text という既存環境に Open WebUI を追加するだけで、NAS のドキュメントを参照して回答する個人 AI アシスタントが構築できる。