Ollama で Qwen3 を動かす初心者ガイド — 日本語最強ローカル LLM を自分の PC で使う方法
「ChatGPT みたいな AI を、自分の PC だけで動かせたら」と思ったことはありませんか。Ollama と Qwen3 を使えば、それが実現できます。この記事では、Saiteki AI の解説記事をベースに、初心者でもわかるように Ollama と Qwen3 の導入手順をまとめました。
まず知っておきたい:LLM・ランタイム・エージェントの 3 層構造
AI の世界には、混同しやすい 3 つの概念があります。この記事で扱う Ollama と Qwen がどこに位置するかを最初に整理しましょう。
レストランに例えると
お客さん(あなた)
↓ 「パスタを作って」
ウェイター(AI エージェント) ← 注文を聞き、判断し、段取りを組む
↓ 「この食材でこう調理して」
キッチン設備(ランタイム) ← オーブンや鍋。料理を物理的に実行する環境
↓
シェフの腕=レシピの知識(LLM) ← 実際に「どう調理するか」を知っている頭脳
| 層 | 役割 | 具体例 | 自分で判断するか |
|---|---|---|---|
| LLM(AI モデル) | 言葉を理解し、回答を生成する「頭脳」 | Qwen3, Llama3, Gemma2 | しない(聞かれたことに答えるだけ) |
| ランタイム | LLM をメモリに読み込み、動かす「実行環境」 | Ollama, vLLM, llama.cpp | しない(言われた通り動かすだけ) |
| AI エージェント | LLM を使って自律的に「仕事」をこなすプログラム | Claude Code, Devin, Dify | する(目標に向かって複数ステップを自分で組み立てる) |
3 つの関係
AI エージェント(Claude Code など)
↓ 「この質問を LLM に投げて」
ランタイム(Ollama など)
↓ モデルをメモリに読み込んで推論実行
LLM(Qwen3 など)
↓ 回答を生成
ランタイム → エージェントに結果を返す
- LLM は「頭脳」。質問されたら答えを返すが、自分からは何もしない
- ランタイム は「エンジン」。LLM を動かすが、何を質問するかは決めない
- エージェント は「ドライバー」。ランタイム経由で LLM を呼び出し、結果を見て次の行動を自分で決める
この記事で扱うのは、LLM(Qwen3)とランタイム(Ollama)の 2 つです。 エージェントは含みませんが、Ollama で動かした Qwen3 を Claude Code や Dify などのエージェントのバックエンドとして使うことも可能です。
そもそも Ollama と Qwen って何?
上の 3 層構造を踏まえると、Ollama はランタイム(実行環境)、Qwen は LLM(AI モデル) です。Ollama は AI ではなく、AI モデルを動かすためのツールです。
| 役割 | 名前 | 何をするか |
|---|---|---|
| ランタイム(実行環境) | Ollama | AI モデルをダウンロード・管理・実行する |
| LLM(AI モデル) | Qwen3, Llama3, Gemma2 など | 実際に質問に答えたり文章を生成する |
つまり ollama run qwen3:8b は「Ollama というランタイムで、Qwen3 の 8B モデルを起動して」という意味です。Ollama には Qwen 以外にも Meta の Llama3、Google の Gemma2、DeepSeek-R1 など多数のモデルをインストールできます。
Ollama(オラマ)とは
Ollama は、自分の PC で AI モデルを動かすための実行ツールです。通常、ChatGPT のような AI はクラウド上で動いていますが、Ollama を使えばインターネットに接続しなくても AI と会話できます。Ollama 自体は AI ではなく、AI モデルを簡単に管理・実行するための基盤ソフトウェアです。
主な特徴は以下の通りです。
- 無料で使える(オープンソース)
- インストールが簡単(数クリック+1 コマンド)
- Windows、Mac、Linux すべてに対応
- 2025 年 7 月のアップデートで ChatGPT のようなチャット画面が追加され、ターミナル操作が不要に
- Qwen、Llama、Gemma など多数の AI モデルに対応
Qwen(ウェン)とは
Qwen は、中国 Alibaba が開発したオープンソースの AI モデル(LLM)です。日本語の性能が非常に高いことで知られ、ローカル LLM の中では日本語環境で最も推奨されるモデルのひとつです。
現在の主なバージョンは以下の 2 つです。
| バージョン | 特徴 |
|---|---|
| Qwen3 | 最新版。同じサイズで前世代より大幅に性能向上 |
| Qwen2.5 | 安定版。動作実績が豊富で信頼性が高い |
始める前に:自分の PC で動くか確認しよう
ローカル LLM を動かすには、GPU(グラフィックボード)の VRAMが重要です。VRAM とは、GPU に搭載されたメモリのことで、AI モデルはここに読み込まれます。
VRAM 別おすすめモデル
| あなたの VRAM | おすすめモデル | できること |
|---|---|---|
| 8 GB | Qwen3 1.7B | 簡単な質問応答、軽い文章生成 |
| 12 GB | Qwen3 8B | 日常的な会話、文章作成、要約 |
| 16 GB | Qwen3 14B | 高品質な日本語会話、コード生成 |
| 24 GB | Qwen3 32B | 複雑な推論、長文分析、専門的なタスク |
ポイント: Qwen3-14B は、前世代の Qwen2.5-32B と同等の性能を半分以下の VRAM で実現します。16 GB の GPU があれば、かなり実用的な AI が手に入ります。
VRAM の確認方法
Windows の場合:
タスクマネージャー → パフォーマンス → GPU → 「専用GPUメモリ」の値を確認
Mac の場合: Apple Silicon(M1/M2/M3/M4)は統合メモリを使用します。メモリ 16 GB 以上のモデルなら、Qwen3 8B〜14B が動作します。
ステップ 1:Ollama をインストールする
Windows の場合
- Ollama 公式サイト にアクセス
- 「Download for Windows」をクリック
- ダウンロードしたインストーラーを実行
- 画面の指示に従ってインストール完了
Mac の場合
- Ollama 公式サイト にアクセス
- 「Download for macOS」をクリック
- ダウンロードした
.dmgファイルを開き、アプリケーションフォルダにドラッグ - Ollama を起動すると、メニューバーにアイコンが表示される
Linux の場合
ターミナルで以下のコマンドを実行します。
| |
ステップ 2:Qwen3 モデルをダウンロードして実行する
Ollama のインストールが完了したら、ターミナル(Windows ではコマンドプロンプトや PowerShell)を開きます。
モデルのダウンロードと起動(1 コマンド)
| |
ollama run は、モデルが未ダウンロードなら自動でダウンロードしてから起動します。初回はダウンロードに時間がかかりますが、2 回目以降は即座に起動します。
会話してみる
コマンド実行後、プロンプトが表示されたら日本語で話しかけてみましょう。
>>> 東京のおすすめラーメン屋を3つ教えてください
東京でおすすめのラーメン屋を3つご紹介します。
1. **一蘭 渋谷店** - 天然とんこつラーメンの専門店...
2. **AFURI 恵比寿店** - 柚子塩ラーメンが看板メニュー...
3. **蒙古タンメン中本 新宿店** - 辛旨ラーメンの代名詞...
会話を終了するには /bye と入力します。
ステップ 3:GUI(チャット画面)で使う
ターミナル操作に慣れていない方は、Ollama のチャット UI を使いましょう。
チャット UI の起動方法
Windows: Ollama を起動すると、自動的にチャット画面が表示されます。
Mac: メニューバーの Ollama アイコンから「Open Ollama」を選択します。
チャット UI でできること
- ChatGPT のような対話インターフェースでの会話
- サイドバーでのチャット履歴管理
- 画面右下でのモデル切り替え
- ファイルのドラッグ & ドロップ(PDF、テキスト、コード、画像を解析)
量子化(りょうしか)って何?
モデルを選ぶ際に「Q4」「Q8」といった表記を見かけることがあります。これは量子化のレベルを示しています。
量子化とは、AI モデルのデータを圧縮して VRAM の使用量を減らす技術です。数字が小さいほど圧縮率が高く、VRAM は少なくて済みますが、わずかに精度が落ちます。
| 量子化レベル | VRAM 使用量 | 精度 | おすすめ度 |
|---|---|---|---|
| Q4_K_M | 少ない | 実用上十分 | 初心者はこれから |
| Q5_K_M | やや少ない | 良好 | バランス型 |
| Q8_0 | 多い | 高い | VRAM に余裕があれば |
| FP16(非量子化) | 非常に多い | 最高 | 研究・検証用 |
Ollama でダウンロードするモデルは、デフォルトで Q4 量子化が適用されています。初心者は特に意識する必要はありません。
Qwen2.5 と Qwen3 のどちらを選ぶ?
結論から言えば、Qwen3 を推奨します。理由は以下の通りです。
| 比較項目 | Qwen2.5 | Qwen3 |
|---|---|---|
| 日本語性能 | 高い | さらに高い |
| 同等性能に必要な VRAM | 多い | 少ない |
| コンテキスト長 | 128K トークン | 最大 100 万トークン |
| 動作実績 | 豊富 | 増加中 |
Qwen3-14B が Qwen2.5-32B 相当の性能を出せるため、同じ品質をより少ない VRAM で得られます。ただし、安定性を重視する場合や動作実績の豊富さを求める場合は、Qwen2.5 も良い選択です。
| |
よくある質問
インターネットなしで使えますか?
はい。モデルのダウンロードにはインターネットが必要ですが、一度ダウンロードすれば完全オフラインで動作します。飛行機の中でも使えます。
データはどこかに送信されますか?
いいえ。すべての処理は自分の PC 内で完結します。プライバシーが完全に守られるのがローカル LLM の最大のメリットです。企業の機密情報や個人情報を扱う場合に特に有効です。
GPU がなくても動きますか?
CPU だけでも動作しますが、応答速度が非常に遅くなります。実用的に使うには GPU(NVIDIA の VRAM 8 GB 以上、または Apple Silicon Mac)を推奨します。
複数のモデルを入れられますか?
はい。ollama run で異なるモデルを指定すれば、複数のモデルをインストールして切り替えられます。ディスク容量が許す限り、いくつでも追加できます。
| |
API として使う(少し上級)
Ollama は OpenAI 互換の API エンドポイントを提供しています。Python などのプログラムから呼び出すことも可能です。
| |
既存の OpenAI API を使ったコードがあれば、エンドポイントを http://localhost:11434/v1 に変更するだけで、ローカル LLM に切り替えられます。
エージェントを追加する(さらに上級)
ここまでの構成は「ランタイム(Ollama)+ LLM(Qwen3)」の 2 層です。ここにオープンソースの AI エージェントを追加すると、LLM が自律的にツールを使い、複数ステップの作業をこなせるようになります。
あなた
↓
エージェント(Open WebUI / Dify / OpenHands)
↓ 「この質問を Qwen3 に投げて」
ランタイム(Ollama)
↓ モデルを読み込んで推論
LLM(Qwen3 8B / 14B)
代表的なオープンソースのエージェントツールを 3 つ紹介します。いずれも Docker が必要です。
選択肢 1:Open WebUI(最も手軽)
ChatGPT ライクな Web UI に、ツール呼び出し・RAG(ドキュメント検索)・エージェント機能が内蔵されています。Ollama 同梱の Docker イメージがあるため、1 コマンドで 3 層すべてが揃います。
| |
起動後 http://localhost:3000 にアクセスすれば、すぐに Qwen3 と会話できます。Python 関数をツールとして追加すれば、Web 検索やファイル操作などのエージェント的な動作も可能です。
選択肢 2:Dify(ノーコードでワークフロー構築)
ビジュアルエディタでエージェントのワークフローを組み立てられます。プログラミング不要で、チャットボットや業務アプリを構築できます。
| |
起動後 http://localhost/install で初期設定を行い、設定 → モデルプロバイダ → Ollama を選択。接続先を http://host.docker.internal:11434 に設定すれば、ローカルの Qwen3 をバックエンドとして使えます。
選択肢 3:OpenHands(コーディングエージェント)
コードの読み書き・デバッグ・テスト実行を自律的に行う AI エージェントです。開発者向けの選択肢です。
| |
設定画面で LLM Provider を「Ollama」、Model を「qwen3:14b」に指定します。
どれを選ぶ?
| Open WebUI | Dify | OpenHands | |
|---|---|---|---|
| 得意なこと | チャット・RAG・軽量ツール | ワークフロー・チャットボット | コード生成・デバッグ |
| 操作方法 | Web UI | ビジュアルエディタ | Web UI + ターミナル |
| プログラミング | 不要(ツール追加時のみ Python) | 不要 | 不要 |
| 向いている人 | ChatGPT 代替が欲しい人 | 業務アプリを作りたい人 | 開発者 |
最初の一歩としては Open WebUI がおすすめです。 Ollama 同梱の Docker イメージにより、1 コマンドで LLM・ランタイム・エージェントの 3 層すべてが揃います。
Open WebUI と OpenHands は併用できる?
Open WebUI と OpenHands はどちらも Web UI を持っていますが、目的が異なるため、片方だけで十分な場合と、両方あると便利な場合があります。
| Open WebUI | OpenHands | |
|---|---|---|
| 主な用途 | チャット・RAG・ドキュメント検索 | コーディング・デバッグ・テスト |
| 例えるなら | AI の「アシスタント」 | AI の「開発者」 |
| ファイル編集 | できない | できる |
| ターミナル操作 | できない | できる |
| PDF 要約・質問応答 | 得意 | 限定的 |
- 開発が目的 → OpenHands だけで十分。Open WebUI は不要
- チャットが目的 → Open WebUI だけで十分。OpenHands は不要
- 両方やりたい → 併用がおすすめ
併用する場合、同じ Ollama に両方を接続できます。
あなた
├→ OpenHands(localhost:3000) ← コーディング作業
└→ Open WebUI(localhost:8080) ← 調べもの・チャット
↓
Ollama(localhost:11434)
↓
Qwen3(LLM)
この構成なら、コーディングは OpenHands で、日常の質問応答や資料分析は Open WebUI で、という使い分けが 1 台の PC で完結します。
まとめ
- Ollama は無料のローカル LLM 実行ツール: インストールは数クリック、モデル起動は 1 コマンドで完了する
- Qwen3 は日本語性能が最も高い: ローカル LLM で日本語を使うなら、Qwen3 シリーズが第一候補
- VRAM 16 GB あれば実用的: Qwen3-14B で高品質な日本語会話、コード生成、文章作成が可能
- GUI 対応済み: 2025 年 7 月のアップデートで ChatGPT ライクなチャット画面が追加され、ターミナル不要で使える
- 完全オフライン・完全プライベート: データは一切外部に送信されず、プライバシーが守られる
- 初心者の第一歩:
ollama run qwen3:8bの 1 コマンドから始めて、慣れたら 14B、32B とステップアップ - エージェントで 3 層完成: Open WebUI を追加すれば、LLM・ランタイム・エージェントのすべてが無料・ローカルで揃う