Gemma 4 31B vs Qwen3.5-27B — ローカルLLM最強はどちらか

2026年春、ローカルで動かせる高性能 LLM の選択肢が充実してきた。中でも注目なのが Google の Gemma 4 31B(2026年4月リリース、Apache 2.0)と Alibaba の Qwen3.5-27B(2026年2月リリース)だ。どちらも密(dense)モデルで、Apple Silicon Mac や RTX 4090 クラスの GPU で実用的に動作する。 結論を先に述べると、推論・マルチモーダルなら Gemma 4、コーディング・メモリ効率なら Qwen3.5 が適している。本記事では、その判断根拠を主要な観点から比較する。 基本スペック比較 項目 Gemma 4 31B Qwen3.5-27B パラメータ数 31B 27B アーキテクチャ Dense Transformer(Hybrid Attention) Dense(Gated Delta Net + FFN) コンテキスト長 256K トークン 262K トークン(最大 1M 拡張可) 対応言語 140+ 言語 201 言語 マルチモーダル ビジョン(画像理解・OCR) ビジョン(画像理解) ライセンス Apache 2.0 Apache 2.0 開発元 Google DeepMind Alibaba Qwen 両モデルとも Apache 2.0 ライセンスで、商用利用に制限がない。コンテキスト長はほぼ同等だが、Qwen3.5 は 1M トークンまでの拡張に対応している点で有利だ。 ...

2026年4月7日 · 3 分

claw-code-local — Claude Code風のAIコーディングエージェントをローカルLLMで動かす

Claude Code ライクなターミナル AI コーディングエージェントを、Anthropic API なしでローカル LLM で動かせる「claw-code-local」が登場しました。Rust で実装された軽量・高速なツールで、Ollama や LM Studio など好みの LLM バックエンドを自由に選べます。 claw-code-local とは claw-code-local は、Claude Code のアーキテクチャをクリーンルーム方式(既存コードを参照せず仕様から独自に再実装する手法)で作られた「Claw Code」のフォークです。ローカル LLM や任意の OpenAI 互換エンドポイントに接続できるよう拡張されています。 オリジナルの Claw Code は Rust で書かれたマルチプロバイダー API レイヤーを持っていましたが、実際のバイナリにはその機能が組み込まれていませんでした。claw-code-local はこの部分を修正し、Ollama、LM Studio、OpenAI、xAI など様々なプロバイダーに接続できるようにしています。 主な特徴 ローカル LLM 対応: Ollama、LM Studio、その他 OpenAI 互換エンドポイントで動作 Rust 実装: 軽量・高速なバイナリ マルチプラットフォーム: Windows、Linux、macOS に対応 コストゼロ: ローカル LLM を使えば API 費用が不要 プライバシー保護: コードが外部サーバーに送信されないため、機密情報の漏洩リスクを低減 セットアップ手順 1. リポジトリのクローンとビルド 1 2 3 git clone https://github.com/codetwentyfive/claw-code-local.git cd claw-code-local/rust cargo build -p rusty-claude-cli --release ビルド後のバイナリは以下に生成されます: ...

2026年4月5日 · 2 分

Onyx(旧 Danswer)完全ガイド — 無料で使えるオープンソース AI プラットフォーム

Onyx(旧 Danswer)は、社内のドキュメント・アプリ・人材をまとめて繋ぎ、どんな LLM とも連携できるオープンソースの AI プラットフォームです。Community Edition(CE)は MIT ライセンスで完全無料。セルフホストできるため、データを外部に出さずに AI チャットや RAG、エージェント機能を利用できます。 Onyx とは Onyx は企業向け AI アシスタント&検索プラットフォームです。Slack、GitHub、Confluence、Google Drive など 50 以上のコネクタで社内ナレッジを統合し、自然言語で質問するだけで必要な情報を引き出せます。 GitHub リポジトリ(onyx-dot-app/onyx)のスター数は 22,000 超で、活発に開発が続いています。 主な機能 チャット&RAG ハイブリッド検索: ベクトル検索とキーワード検索を組み合わせた高精度な情報検索 Agentic RAG: AI エージェントが検索クエリの生成・評価・再検索を自律的に繰り返し、複数ステップで情報を収集 Deep Research: 多段階のリサーチフローで詳細なレポートを生成 エージェント&ツール カスタムエージェント: 固有の指示・知識・アクションを持つ AI エージェントを構築可能 Web 検索: リアルタイムの Web 情報を取得 コード実行: サンドボックス内でコードを実行し、データ分析やグラフ描画が可能 画像生成: プロンプトに基づいた画像生成 音声モード: テキスト読み上げ&音声入力に対応 コネクタ(50 以上) Slack、GitHub、Confluence、Notion、Google Drive、Jira、Linear など主要サービスと連携。MCP(Model Context Protocol)経由のカスタムコネクタにも対応しています。 エディション比較 項目 Community Edition (CE) Enterprise Edition (EE) ライセンス MIT(無料) 商用ライセンス チャット・RAG・エージェント ✅ ✅ SSO(OIDC / SAML) — ✅ エアギャップ環境 — ✅ サポート コミュニティ 専用サポート Cloud 版も提供されており、セルフホストなしで試用できます。ビジネスプランは 1 ユーザーあたり月額 $16〜。 ...

2026年4月3日 · 2 分

Claude Code を Ollama でローカル無料実行する方法

Claude Code がローカル LLM で無料実行できるようになった。Ollama を使えば、API 料金なしで Claude Code のインターフェースを活用できる。 背景 Claude Code は Anthropic が提供する CLI ベースの AI コーディングアシスタントだ。通常は Anthropic API を通じて利用するため、API 使用料が発生する。しかし Ollama v0.14.0 以降で Anthropic Messages API 互換のエンドポイントが実装され、ローカル LLM を Claude Code のバックエンドとして使えるようになった。 2026年1月にリリースされた Ollama v0.15 では ollama launch claude コマンドが追加され、セットアップがさらに簡単になっている。 セットアップ手順 方法1: ollama launch(推奨・v0.15 以降) Ollama v0.15 で追加された ollama launch コマンドを使えば、環境変数の設定なしでワンコマンドで起動できる: 1 ollama launch claude モデルを指定する場合: 1 ollama launch claude --model qwen3-coder 方法2: 環境変数を手動設定(v0.14 以降) 1. Ollama のインストール macOS/Linux の場合は以下のコマンドでインストールできる。macOS では公式サイトのインストーラーも利用可能: ...

2026年3月31日 · 1 分

Claude Code × ローカルLLM で KVキャッシュが毎回無効化される問題と対策

Claude Code をローカルLLM(llama.cpp、Ollama など)で使う際に、毎回プロンプト処理に異常な時間がかかるという問題が報告されています。原因は Claude Code が付加する「Attribution Header」によるKVキャッシュの無効化です。設定一つで解決できるので、対処法をまとめます。 何が起きているのか Claude Code v2.1.36 以降、リクエストごとに以下のような Attribution Header がプロンプトの先頭に付加されるようになりました。 x-anthropic-billing-header: cc_version=xxxx; cc_entrypoint=cli; cch=xxxx; この cch の値がリクエストのたびに変化します。ローカルLLMサーバー(llama.cpp、Ollama、LM Studio など)はプロンプトの先頭からバイト単位で一致した部分までKVキャッシュを再利用する仕組みのため、先頭が毎回変わるとキャッシュが丸ごと無効化されます。 結果として、数万トークンのシステムプロンプトや会話履歴を毎回ゼロから処理することになり、推論速度が最大90%低下するという報告があります。 対策:Attribution Header を無効化する ~/.claude/settings.json の env セクションに以下を追加します。 1 2 3 4 5 { "env": { "CLAUDE_CODE_ATTRIBUTION_HEADER": "0" } } 既に settings.json がある場合は env セクション内にキーを追加してください。 注意点 export CLAUDE_CODE_ATTRIBUTION_HEADER=0 ではダメ。シェルの環境変数として設定しても反映されません。必ず settings.json 経由で設定します ついでに不要なテレメトリも無効化しておくと、余計な通信を減らせます 1 2 3 4 5 6 7 { "env": { "CLAUDE_CODE_ATTRIBUTION_HEADER": "0", "CLAUDE_CODE_ENABLE_TELEMETRY": "0", "CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": "1" } } KVキャッシュの仕組みをおさらい ローカルLLMサーバーが採用している Prefix Caching(Automatic Prefix Caching)は、プロンプトの先頭から連続して一致するトークン列のKV(Key-Value)テンソルを再利用する仕組みです。 ...

2026年3月13日 · 1 分

Kali Linux × Ollama × MCP — 完全ローカルで動く AI ペンテスト環境の構築

Kali Linux チームが、外部 SaaS に一切依存しない完全ローカルの AI ペンテスト支援環境の構築ガイドを公式ブログで公開した。Ollama でローカル LLM を動かし、MCP(Model Context Protocol)経由で nmap などの Kali ツールを自然言語から操作する構成だ。 構成要素 コンポーネント 役割 アーキテクチャ上の位置づけ Ollama ローカル LLM サーバー。llama.cpp のラッパーとしてモデルのダウンロード・サービングを簡素化 推論エンジン(脳) mcp-kali-server Flask ベースの MCP サーバー(127.0.0.1:5000)。nmap, gobuster, nikto, hydra, sqlmap 等の Kali ツールを MCP 経由で公開 ツールサーバー(手足) 5ire デスクトップ AI アシスタント兼 MCP クライアント。ユーザー入力を LLM に送り、LLM の応答からツール呼び出しを検出し、MCP 経由でツールを実行し、結果を LLM に戻すループを回す AI エージェント(オーケストレーター) この構成で「エージェント」に相当するのは 5ire だ。LLM(Ollama)は推論を担うだけであり、ツールサーバー(mcp-kali-server)は呼ばれるのを待つだけ。ユーザーの意図を解釈し、LLM とツールの間を仲介して自律的にループを回す 5ire こそがエージェントの役割を果たしている。Claude Code に例えると、Ollama は API の向こう側の Claude モデル、mcp-kali-server は MCP サーバー、5ire は Claude Code 本体に相当する。 ...

2026年3月11日 · 2 分

ローカルQwenに個人知識を覚えさせたい — ファインチューニング vs RAG

ローカルで Ollama + Qwen を動かしている Mac Studio(M3 Ultra / 96GB)に、NAS 上の PDF やテキストなどのドキュメントを学習させて「個人の知識ベース」として活用したい——そんなとき、ファインチューニングと RAG のどちらを選ぶべきかを整理する。 やりたいこと NAS に蓄積された個人ドキュメント(PDF、テキスト等)の知識を Qwen に覚えさせたい 自分の PC を使った活動に関する知識を、AI が把握している状態にしたい 選択肢1: ファインチューニング(QLoRA) モデル自体の重みを更新し、知識を「記憶」させるアプローチ。 Mac Studio での実現可能性 M3 Ultra / 96GB 統合メモリなら、QLoRA でのファインチューニングは技術的に可能。 手法 必要メモリ目安(7B) ツール QLoRA (4bit) 6-8 GB Unsloth, LLaMA-Factory, MLX LoRA (16bit) 14-16 GB LLaMA-Factory, PEFT フル FT 60+ GB 非現実的 Apple Silicon では MLX ベースが最もパフォーマンスが良い。 1 2 3 4 5 6 7 8 9 10 # MLX での QLoRA 実行例 pip install mlx-lm mlx_lm.lora \ --model Qwen/Qwen2.5-Coder-14B-Instruct \ --data ./training_data \ --train \ --batch-size 1 \ --lora-layers 16 \ --iters 1000 ファインチューニングの課題 最大のボトルネックはデータ準備。NAS の生ファイルはそのまま学習データにはならず、instruction 形式への変換が必要になる。 ...

2026年3月10日 · 2 分

Qwen3.5-27B:個人PCで動く高性能LLMの実力と使い方

Alibaba Cloud の Qwen チームが 2026 年 2 月にリリースした Qwen3.5-27B は、27B パラメータという中規模サイズながら上位モデルに匹敵する性能を発揮する密(dense)モデルです。メモリ効率に優れ、量子化を活用すれば個人の PC でも快適に動作するため「自分専用 AI」を構築するのに最適な選択肢として注目されています。 Qwen3.5-27B の主な特徴 アーキテクチャ Qwen3.5-27B は MoE(Mixture of Experts)ではなく、全パラメータが推論時に活性化される 密モデル(dense model) です。Gated Delta Networks と Feed Forward Networks を組み合わせた構造で、高い計算密度を実現しています。 パラメータ数: 27B(全パラメータ活性化) コンテキスト長: 262K トークン(最大 1M まで拡張可能) 対応言語: 201 言語 マルチモーダル: 視覚・言語の統合能力を搭載 ベンチマーク性能 27B というサイズにもかかわらず、主要ベンチマークで際立った成績を残しています。 ベンチマーク スコア MMLU-Pro 86.1% GPQA Diamond 85.5% SWE-bench Verified 72.4% LiveCodeBench 80.7% IFEval 95.0% HMMT(数学) 92.0% 特に SWE-bench Verified で 72.4% は GPT-5 mini と同等の数値であり、オープンウェイトの 27B 密モデルとしては驚異的な結果です。コーディング、数学、指示追従の各タスクで中規模モデルカテゴリをリードしています。 ...

2026年3月9日 · 2 分

# OpenHands × Ollama ローカルLLM実践記 — Mac Studio M3 Ultra で動かすまでの全記録

OpenHands × Ollama ローカルLLM実践記 — Mac Studio M3 Ultra で動かすまでの全記録 TL;DR: OpenHands(旧OpenDevin)をMac Studio M3 Ultra(96GB)+ Ollama + Qwen3-Coder 30B で動かそうとした。Docker-in-Docker のビルド問題、Playwright依存、ランタイムイメージ手動構築を経てUI起動まで到達したが、30Bモデルのtool calling精度不足で実用には至らなかった。 1. OpenHands とは OpenHands(旧 OpenDevin)は、オープンソースのAIコーディングエージェントプラットフォーム。75以上のLLMプロバイダーに対応し、SWE-bench で Qwen3-Coder 使用時に 69.6% のスコアを記録している。 公式リポジトリ: https://github.com/All-Hands-AI/OpenHands 特徴: Web UI でブラウザから操作 Docker サンドボックスで安全にコード実行 CodeActAgent による自律的なタスク遂行 Playwright 統合によるブラウザ操作 2. 動機 — なぜ OpenHands を試したか 前回の実験で Qwen Code(CLI エージェント)を Ollama + Qwen3-Coder 30B で動かしたが、複雑な multi-step タスク(GitHub PR レビューなど)で tool calling が破綻する問題に直面した。 OpenHands は SWE-bench で高スコアを出しており、エージェントスキャフォールディングの力で同じ 30B モデルでも改善されるのでは?という仮説を検証するために試した。 ...

2026年3月6日 · 3 分

Qwen Code ローカル運用実践記 — Mac Studio M3 Ultra で Ollama + qwen3-coder:30b を動かして分かったこと

Qwen Code ローカル運用実践記 — Mac Studio M3 Ultra で Ollama + qwen3-coder:30b を動かして分かったこと Qwen Code(Alibaba Cloud Qwen チームが開発したオープンソース CLI コーディングエージェント)を Mac Studio M3 Ultra(96GB)上で Ollama と組み合わせてローカル運用を試みた実践記録です。環境構築からツール呼び出しの限界まで、実際に手を動かして検証した結果をまとめます。 背景と目的 Claude Code は強力ですが、コードがクラウドに送信されるためプライバシーの懸念があります。Qwen Code は Apache 2.0 ライセンスのオープンソースで、Ollama と組み合わせれば完全ローカルで動作するため、機密コードベースでの利用が期待されます。 本記事の検証環境: 項目 スペック マシン Mac Studio M3 Ultra メモリ 96GB ユニファイドメモリ メモリ帯域 800 GB/s Ollama v0.15.6 Qwen Code v0.12.0(Fork からローカルビルド) モデル qwen3-coder:30b (18GB) ステップ1: リポジトリの Fork と Clone 調査・改造を前提に、まず QwenLM/qwen-code を Fork しました。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 # Fork(GitHub CLI) gh repo fork QwenLM/qwen-code --clone=false # devel ブランチを作成してデフォルトに設定 # main は upstream との sync 用にクリーンに保つ gh api repos/hdknr/qwen-code/git/refs \ -f ref="refs/heads/devel" \ -f sha="$(gh api repos/hdknr/qwen-code/git/ref/heads/main --jq '.object.sha')" gh repo edit hdknr/qwen-code --default-branch devel # Clone mkdir -p ~/Projects/qwen cd ~/Projects/qwen gh repo clone hdknr/qwen-code ブランチ戦略: ...

2026年3月6日 · 5 分