Ollama で Qwen3 を動かす初心者ガイド — 日本語最強ローカル LLM を自分の PC で使う方法

「ChatGPT みたいな AI を、自分の PC だけで動かせたら」と思ったことはありませんか。Ollama と Qwen3 を使えば、それが実現できます。この記事では、Saiteki AI の解説記事をベースに、初心者でもわかるように Ollama と Qwen3 の導入手順をまとめました。

まず知っておきたい:LLM・ランタイム・エージェントの 3 層構造

AI の世界には、混同しやすい 3 つの概念があります。この記事で扱う Ollama と Qwen がどこに位置するかを最初に整理しましょう。

レストランに例えると

お客さん(あなた)
    ↓ 「パスタを作って」
ウェイター(AI エージェント)       ← 注文を聞き、判断し、段取りを組む
    ↓ 「この食材でこう調理して」
キッチン設備(ランタイム)          ← オーブンや鍋。料理を物理的に実行する環境
    ↓
シェフの腕=レシピの知識(LLM)     ← 実際に「どう調理するか」を知っている頭脳
役割具体例自分で判断するか
LLM(AI モデル)言葉を理解し、回答を生成する「頭脳」Qwen3, Llama3, Gemma2しない(聞かれたことに答えるだけ)
ランタイムLLM をメモリに読み込み、動かす「実行環境」Ollama, vLLM, llama.cppしない(言われた通り動かすだけ)
AI エージェントLLM を使って自律的に「仕事」をこなすプログラムClaude Code, Devin, Difyする(目標に向かって複数ステップを自分で組み立てる)

3 つの関係

AI エージェント(Claude Code など)
    ↓  「この質問を LLM に投げて」
ランタイム(Ollama など)
    ↓  モデルをメモリに読み込んで推論実行
LLM(Qwen3 など)
    ↓  回答を生成
ランタイム → エージェントに結果を返す
  • LLM は「頭脳」。質問されたら答えを返すが、自分からは何もしない
  • ランタイム は「エンジン」。LLM を動かすが、何を質問するかは決めない
  • エージェント は「ドライバー」。ランタイム経由で LLM を呼び出し、結果を見て次の行動を自分で決める

この記事で扱うのは、LLM(Qwen3)とランタイム(Ollama)の 2 つです。 エージェントは含みませんが、Ollama で動かした Qwen3 を Claude Code や Dify などのエージェントのバックエンドとして使うことも可能です。

そもそも Ollama と Qwen って何?

上の 3 層構造を踏まえると、Ollama はランタイム(実行環境)Qwen は LLM(AI モデル) です。Ollama は AI ではなく、AI モデルを動かすためのツールです。

役割名前何をするか
ランタイム(実行環境)OllamaAI モデルをダウンロード・管理・実行する
LLM(AI モデル)Qwen3, Llama3, Gemma2 など実際に質問に答えたり文章を生成する

つまり ollama run qwen3:8b は「Ollama というランタイムで、Qwen3 の 8B モデルを起動して」という意味です。Ollama には Qwen 以外にも Meta の Llama3、Google の Gemma2、DeepSeek-R1 など多数のモデルをインストールできます。

Ollama(オラマ)とは

Ollama は、自分の PC で AI モデルを動かすための実行ツールです。通常、ChatGPT のような AI はクラウド上で動いていますが、Ollama を使えばインターネットに接続しなくても AI と会話できます。Ollama 自体は AI ではなく、AI モデルを簡単に管理・実行するための基盤ソフトウェアです。

主な特徴は以下の通りです。

  • 無料で使える(オープンソース)
  • インストールが簡単(数クリック+1 コマンド)
  • Windows、Mac、Linux すべてに対応
  • 2025 年 7 月のアップデートで ChatGPT のようなチャット画面が追加され、ターミナル操作が不要に
  • Qwen、Llama、Gemma など多数の AI モデルに対応

Qwen(ウェン)とは

Qwen は、中国 Alibaba が開発したオープンソースの AI モデル(LLM)です。日本語の性能が非常に高いことで知られ、ローカル LLM の中では日本語環境で最も推奨されるモデルのひとつです。

現在の主なバージョンは以下の 2 つです。

バージョン特徴
Qwen3最新版。同じサイズで前世代より大幅に性能向上
Qwen2.5安定版。動作実績が豊富で信頼性が高い

始める前に:自分の PC で動くか確認しよう

ローカル LLM を動かすには、GPU(グラフィックボード)の VRAMが重要です。VRAM とは、GPU に搭載されたメモリのことで、AI モデルはここに読み込まれます。

VRAM 別おすすめモデル

あなたの VRAMおすすめモデルできること
8 GBQwen3 1.7B簡単な質問応答、軽い文章生成
12 GBQwen3 8B日常的な会話、文章作成、要約
16 GBQwen3 14B高品質な日本語会話、コード生成
24 GBQwen3 32B複雑な推論、長文分析、専門的なタスク

ポイント: Qwen3-14B は、前世代の Qwen2.5-32B と同等の性能を半分以下の VRAM で実現します。16 GB の GPU があれば、かなり実用的な AI が手に入ります。

VRAM の確認方法

Windows の場合:

タスクマネージャー → パフォーマンス → GPU → 「専用GPUメモリ」の値を確認

Mac の場合: Apple Silicon(M1/M2/M3/M4)は統合メモリを使用します。メモリ 16 GB 以上のモデルなら、Qwen3 8B〜14B が動作します。

ステップ 1:Ollama をインストールする

Windows の場合

  1. Ollama 公式サイト にアクセス
  2. 「Download for Windows」をクリック
  3. ダウンロードしたインストーラーを実行
  4. 画面の指示に従ってインストール完了

Mac の場合

  1. Ollama 公式サイト にアクセス
  2. 「Download for macOS」をクリック
  3. ダウンロードした .dmg ファイルを開き、アプリケーションフォルダにドラッグ
  4. Ollama を起動すると、メニューバーにアイコンが表示される

Linux の場合

ターミナルで以下のコマンドを実行します。

1
curl -fsSL https://ollama.com/install.sh | sh

ステップ 2:Qwen3 モデルをダウンロードして実行する

Ollama のインストールが完了したら、ターミナル(Windows ではコマンドプロンプトや PowerShell)を開きます。

モデルのダウンロードと起動(1 コマンド)

1
2
3
4
5
# 8B モデル(VRAM 12GB 向け、最初の 1 台目におすすめ)
ollama run qwen3:8b

# 14B モデル(VRAM 16GB 向け、日本語性能が高い)
ollama run qwen3:14b

ollama run は、モデルが未ダウンロードなら自動でダウンロードしてから起動します。初回はダウンロードに時間がかかりますが、2 回目以降は即座に起動します。

会話してみる

コマンド実行後、プロンプトが表示されたら日本語で話しかけてみましょう。

>>> 東京のおすすめラーメン屋を3つ教えてください

東京でおすすめのラーメン屋を3つご紹介します。

1. **一蘭 渋谷店** - 天然とんこつラーメンの専門店...
2. **AFURI 恵比寿店** - 柚子塩ラーメンが看板メニュー...
3. **蒙古タンメン中本 新宿店** - 辛旨ラーメンの代名詞...

会話を終了するには /bye と入力します。

ステップ 3:GUI(チャット画面)で使う

ターミナル操作に慣れていない方は、Ollama のチャット UI を使いましょう。

チャット UI の起動方法

Windows: Ollama を起動すると、自動的にチャット画面が表示されます。

Mac: メニューバーの Ollama アイコンから「Open Ollama」を選択します。

チャット UI でできること

  • ChatGPT のような対話インターフェースでの会話
  • サイドバーでのチャット履歴管理
  • 画面右下でのモデル切り替え
  • ファイルのドラッグ & ドロップ(PDF、テキスト、コード、画像を解析)

量子化(りょうしか)って何?

モデルを選ぶ際に「Q4」「Q8」といった表記を見かけることがあります。これは量子化のレベルを示しています。

量子化とは、AI モデルのデータを圧縮して VRAM の使用量を減らす技術です。数字が小さいほど圧縮率が高く、VRAM は少なくて済みますが、わずかに精度が落ちます。

量子化レベルVRAM 使用量精度おすすめ度
Q4_K_M少ない実用上十分初心者はこれから
Q5_K_Mやや少ない良好バランス型
Q8_0多い高いVRAM に余裕があれば
FP16(非量子化)非常に多い最高研究・検証用

Ollama でダウンロードするモデルは、デフォルトで Q4 量子化が適用されています。初心者は特に意識する必要はありません。

Qwen2.5 と Qwen3 のどちらを選ぶ?

結論から言えば、Qwen3 を推奨します。理由は以下の通りです。

比較項目Qwen2.5Qwen3
日本語性能高いさらに高い
同等性能に必要な VRAM多い少ない
コンテキスト長128K トークン最大 100 万トークン
動作実績豊富増加中

Qwen3-14B が Qwen2.5-32B 相当の性能を出せるため、同じ品質をより少ない VRAM で得られます。ただし、安定性を重視する場合や動作実績の豊富さを求める場合は、Qwen2.5 も良い選択です。

1
2
# Qwen2.5 を使いたい場合
ollama run qwen2.5:7b

よくある質問

インターネットなしで使えますか?

はい。モデルのダウンロードにはインターネットが必要ですが、一度ダウンロードすれば完全オフラインで動作します。飛行機の中でも使えます。

データはどこかに送信されますか?

いいえ。すべての処理は自分の PC 内で完結します。プライバシーが完全に守られるのがローカル LLM の最大のメリットです。企業の機密情報や個人情報を扱う場合に特に有効です。

GPU がなくても動きますか?

CPU だけでも動作しますが、応答速度が非常に遅くなります。実用的に使うには GPU(NVIDIA の VRAM 8 GB 以上、または Apple Silicon Mac)を推奨します。

複数のモデルを入れられますか?

はい。ollama run で異なるモデルを指定すれば、複数のモデルをインストールして切り替えられます。ディスク容量が許す限り、いくつでも追加できます。

1
2
3
4
# 複数モデルの使い分け
ollama run qwen3:8b        # 軽量な日常会話用
ollama run qwen3:14b       # 高品質な日本語用
ollama run codellama:7b    # コード生成用

API として使う(少し上級)

Ollama は OpenAI 互換の API エンドポイントを提供しています。Python などのプログラムから呼び出すことも可能です。

1
2
3
4
5
6
7
# API でモデルに質問する例
curl http://localhost:11434/api/chat -d '{
  "model": "qwen3:8b",
  "messages": [
    {"role": "user", "content": "Pythonで素数判定する関数を書いてください"}
  ]
}'

既存の OpenAI API を使ったコードがあれば、エンドポイントを http://localhost:11434/v1 に変更するだけで、ローカル LLM に切り替えられます。

エージェントを追加する(さらに上級)

ここまでの構成は「ランタイム(Ollama)+ LLM(Qwen3)」の 2 層です。ここにオープンソースの AI エージェントを追加すると、LLM が自律的にツールを使い、複数ステップの作業をこなせるようになります。

あなた
  ↓
エージェント(Open WebUI / Dify / OpenHands)
  ↓  「この質問を Qwen3 に投げて」
ランタイム(Ollama)
  ↓  モデルを読み込んで推論
LLM(Qwen3 8B / 14B)

代表的なオープンソースのエージェントツールを 3 つ紹介します。いずれも Docker が必要です。

選択肢 1:Open WebUI(最も手軽)

ChatGPT ライクな Web UI に、ツール呼び出し・RAG(ドキュメント検索)・エージェント機能が内蔵されています。Ollama 同梱の Docker イメージがあるため、1 コマンドで 3 層すべてが揃います

1
2
3
4
5
6
7
# Ollama 同梱版を起動
docker run -d -p 3000:8080 \
  -v ollama:/root/.ollama \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:ollama

起動後 http://localhost:3000 にアクセスすれば、すぐに Qwen3 と会話できます。Python 関数をツールとして追加すれば、Web 検索やファイル操作などのエージェント的な動作も可能です。

選択肢 2:Dify(ノーコードでワークフロー構築)

ビジュアルエディタでエージェントのワークフローを組み立てられます。プログラミング不要で、チャットボットや業務アプリを構築できます。

1
2
3
4
# Dify をローカルに起動
git clone https://github.com/langgenius/dify.git
cd dify/docker
docker compose up -d

起動後 http://localhost/install で初期設定を行い、設定 → モデルプロバイダ → Ollama を選択。接続先を http://host.docker.internal:11434 に設定すれば、ローカルの Qwen3 をバックエンドとして使えます。

選択肢 3:OpenHands(コーディングエージェント)

コードの読み書き・デバッグ・テスト実行を自律的に行う AI エージェントです。開発者向けの選択肢です。

1
2
3
4
docker run -it --rm \
  -p 3000:3000 \
  -e SANDBOX_RUNTIME_CONTAINER_IMAGE=docker.all-hands.dev/all-hands-ai/runtime:0.39-nikolaik \
  ghcr.io/all-hands-ai/openhands:0.39

設定画面で LLM Provider を「Ollama」、Model を「qwen3:14b」に指定します。

どれを選ぶ?

Open WebUIDifyOpenHands
得意なことチャット・RAG・軽量ツールワークフロー・チャットボットコード生成・デバッグ
操作方法Web UIビジュアルエディタWeb UI + ターミナル
プログラミング不要(ツール追加時のみ Python)不要不要
向いている人ChatGPT 代替が欲しい人業務アプリを作りたい人開発者

最初の一歩としては Open WebUI がおすすめです。 Ollama 同梱の Docker イメージにより、1 コマンドで LLM・ランタイム・エージェントの 3 層すべてが揃います。

Open WebUI と OpenHands は併用できる?

Open WebUI と OpenHands はどちらも Web UI を持っていますが、目的が異なるため、片方だけで十分な場合と、両方あると便利な場合があります。

Open WebUIOpenHands
主な用途チャット・RAG・ドキュメント検索コーディング・デバッグ・テスト
例えるならAI の「アシスタント」AI の「開発者」
ファイル編集できないできる
ターミナル操作できないできる
PDF 要約・質問応答得意限定的
  • 開発が目的 → OpenHands だけで十分。Open WebUI は不要
  • チャットが目的 → Open WebUI だけで十分。OpenHands は不要
  • 両方やりたい → 併用がおすすめ

併用する場合、同じ Ollama に両方を接続できます。

あなた
  ├→ OpenHands(localhost:3000)  ← コーディング作業
  └→ Open WebUI(localhost:8080) ← 調べもの・チャット
       ↓
     Ollama(localhost:11434)
       ↓
     Qwen3(LLM)

この構成なら、コーディングは OpenHands で、日常の質問応答や資料分析は Open WebUI で、という使い分けが 1 台の PC で完結します。

まとめ

  • Ollama は無料のローカル LLM 実行ツール: インストールは数クリック、モデル起動は 1 コマンドで完了する
  • Qwen3 は日本語性能が最も高い: ローカル LLM で日本語を使うなら、Qwen3 シリーズが第一候補
  • VRAM 16 GB あれば実用的: Qwen3-14B で高品質な日本語会話、コード生成、文章作成が可能
  • GUI 対応済み: 2025 年 7 月のアップデートで ChatGPT ライクなチャット画面が追加され、ターミナル不要で使える
  • 完全オフライン・完全プライベート: データは一切外部に送信されず、プライバシーが守られる
  • 初心者の第一歩: ollama run qwen3:8b の 1 コマンドから始めて、慣れたら 14B、32B とステップアップ
  • エージェントで 3 層完成: Open WebUI を追加すれば、LLM・ランタイム・エージェントのすべてが無料・ローカルで揃う

参考