Qwen | hdknr blog

Gemma 4 31B vs Qwen3.5-27B — ローカルLLM最強はどちらか

2026年春、ローカルで動かせる高性能 LLM の選択肢が充実してきた。中でも注目なのが Google の Gemma 4 31B（2026年4月リリース、Apache 2.0）と Alibaba の Qwen3.5-27B（2026年2月リリース）だ。どちらも密（dense）モデルで、Apple Silicon Mac や RTX 4090 クラスの GPU で実用的に動作する。結論を先に述べると、推論・マルチモーダルなら Gemma 4、コーディング・メモリ効率なら Qwen3.5 が適している。本記事では、その判断根拠を主要な観点から比較する。基本スペック比較項目 Gemma 4 31B Qwen3.5-27B パラメータ数 31B 27B アーキテクチャ Dense Transformer（Hybrid Attention） Dense（Gated Delta Net + FFN）コンテキスト長 256K トークン 262K トークン（最大 1M 拡張可）対応言語 140+ 言語 201 言語マルチモーダルビジョン（画像理解・OCR）ビジョン（画像理解）ライセンス Apache 2.0 Apache 2.0 開発元 Google DeepMind Alibaba Qwen 両モデルとも Apache 2.0 ライセンスで、商用利用に制限がない。コンテキスト長はほぼ同等だが、Qwen3.5 は 1M トークンまでの拡張に対応している点で有利だ。 ...

ローカルQwenに個人知識を覚えさせたい — ファインチューニング vs RAG

ローカルで Ollama + Qwen を動かしている Mac Studio（M3 Ultra / 96GB）に、NAS 上の PDF やテキストなどのドキュメントを学習させて「個人の知識ベース」として活用したい——そんなとき、ファインチューニングと RAG のどちらを選ぶべきかを整理する。やりたいこと NAS に蓄積された個人ドキュメント（PDF、テキスト等）の知識を Qwen に覚えさせたい自分の PC を使った活動に関する知識を、AI が把握している状態にしたい選択肢1: ファインチューニング（QLoRA）モデル自体の重みを更新し、知識を「記憶」させるアプローチ。 Mac Studio での実現可能性 M3 Ultra / 96GB 統合メモリなら、QLoRA でのファインチューニングは技術的に可能。手法必要メモリ目安（7B）ツール QLoRA (4bit) 6-8 GB Unsloth, LLaMA-Factory, MLX LoRA (16bit) 14-16 GB LLaMA-Factory, PEFT フル FT 60+ GB 非現実的 Apple Silicon では MLX ベースが最もパフォーマンスが良い。 1 2 3 4 5 6 7 8 9 10 # MLX での QLoRA 実行例 pip install mlx-lm mlx_lm.lora \ --model Qwen/Qwen2.5-Coder-14B-Instruct \ --data ./training_data \ --train \ --batch-size 1 \ --lora-layers 16 \ --iters 1000 ファインチューニングの課題最大のボトルネックはデータ準備。NAS の生ファイルはそのまま学習データにはならず、instruction 形式への変換が必要になる。 ...

Qwen3.5-27B：個人PCで動く高性能LLMの実力と使い方

Alibaba Cloud の Qwen チームが 2026 年 2 月にリリースした Qwen3.5-27B は、27B パラメータという中規模サイズながら上位モデルに匹敵する性能を発揮する密（dense）モデルです。メモリ効率に優れ、量子化を活用すれば個人の PC でも快適に動作するため「自分専用 AI」を構築するのに最適な選択肢として注目されています。 Qwen3.5-27B の主な特徴アーキテクチャ Qwen3.5-27B は MoE（Mixture of Experts）ではなく、全パラメータが推論時に活性化される密モデル（dense model）です。Gated Delta Networks と Feed Forward Networks を組み合わせた構造で、高い計算密度を実現しています。パラメータ数: 27B（全パラメータ活性化）コンテキスト長: 262K トークン（最大 1M まで拡張可能）対応言語: 201 言語マルチモーダル: 視覚・言語の統合能力を搭載ベンチマーク性能 27B というサイズにもかかわらず、主要ベンチマークで際立った成績を残しています。ベンチマークスコア MMLU-Pro 86.1% GPQA Diamond 85.5% SWE-bench Verified 72.4% LiveCodeBench 80.7% IFEval 95.0% HMMT（数学） 92.0% 特に SWE-bench Verified で 72.4% は GPT-5 mini と同等の数値であり、オープンウェイトの 27B 密モデルとしては驚異的な結果です。コーディング、数学、指示追従の各タスクで中規模モデルカテゴリをリードしています。 ...

# OpenHands × Ollama ローカルLLM実践記 — Mac Studio M3 Ultra で動かすまでの全記録

OpenHands × Ollama ローカルLLM実践記 — Mac Studio M3 Ultra で動かすまでの全記録 TL;DR: OpenHands（旧OpenDevin）をMac Studio M3 Ultra（96GB）+ Ollama + Qwen3-Coder 30B で動かそうとした。Docker-in-Docker のビルド問題、Playwright依存、ランタイムイメージ手動構築を経てUI起動まで到達したが、30Bモデルのtool calling精度不足で実用には至らなかった。 1. OpenHands とは OpenHands（旧 OpenDevin）は、オープンソースのAIコーディングエージェントプラットフォーム。75以上のLLMプロバイダーに対応し、SWE-bench で Qwen3-Coder 使用時に 69.6% のスコアを記録している。公式リポジトリ: https://github.com/All-Hands-AI/OpenHands 特徴: Web UI でブラウザから操作 Docker サンドボックスで安全にコード実行 CodeActAgent による自律的なタスク遂行 Playwright 統合によるブラウザ操作 2. 動機 — なぜ OpenHands を試したか前回の実験で Qwen Code（CLI エージェント）を Ollama + Qwen3-Coder 30B で動かしたが、複雑な multi-step タスク（GitHub PR レビューなど）で tool calling が破綻する問題に直面した。 OpenHands は SWE-bench で高スコアを出しており、エージェントスキャフォールディングの力で同じ 30B モデルでも改善されるのでは？という仮説を検証するために試した。 ...

Qwen Code ローカル運用実践記 — Mac Studio M3 Ultra で Ollama + qwen3-coder:30b を動かして分かったこと

Qwen Code ローカル運用実践記 — Mac Studio M3 Ultra で Ollama + qwen3-coder:30b を動かして分かったこと Qwen Code（Alibaba Cloud Qwen チームが開発したオープンソース CLI コーディングエージェント）を Mac Studio M3 Ultra（96GB）上で Ollama と組み合わせてローカル運用を試みた実践記録です。環境構築からツール呼び出しの限界まで、実際に手を動かして検証した結果をまとめます。背景と目的 Claude Code は強力ですが、コードがクラウドに送信されるためプライバシーの懸念があります。Qwen Code は Apache 2.0 ライセンスのオープンソースで、Ollama と組み合わせれば完全ローカルで動作するため、機密コードベースでの利用が期待されます。本記事の検証環境: 項目スペックマシン Mac Studio M3 Ultra メモリ 96GB ユニファイドメモリメモリ帯域 800 GB/s Ollama v0.15.6 Qwen Code v0.12.0（Fork からローカルビルド）モデル qwen3-coder:30b (18GB) ステップ1: リポジトリの Fork と Clone 調査・改造を前提に、まず QwenLM/qwen-code を Fork しました。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 # Fork（GitHub CLI） gh repo fork QwenLM/qwen-code --clone=false # devel ブランチを作成してデフォルトに設定 # main は upstream との sync 用にクリーンに保つ gh api repos/hdknr/qwen-code/git/refs \ -f ref="refs/heads/devel" \ -f sha="$(gh api repos/hdknr/qwen-code/git/ref/heads/main --jq '.object.sha')" gh repo edit hdknr/qwen-code --default-branch devel # Clone mkdir -p ~/Projects/qwen cd ~/Projects/qwen gh repo clone hdknr/qwen-code ブランチ戦略: ...

Qwen Code 初心者ガイド — 無料で使えるオープンソース CLI コーディングエージェント

Qwen Code 初心者ガイド — 無料で使えるオープンソース CLI コーディングエージェント Claude Code の無料オープンソース代替として注目を集めている Qwen Code。Alibaba Cloud の Qwen チームが開発したターミナルベースの AI コーディングエージェントで、1日1,000リクエストまで無料で利用できます。この記事では、初めて使う人にもわかるように、インストールから実践的な使い方まで解説します。 Qwen Code とは何か Qwen Code は、ターミナル（コマンドライン）で動く AI コーディングアシスタントです。自然言語で指示を出すと、コードの理解・生成・編集・実行を自律的に行います。一言で言うと「無料で使える Claude Code のオープンソース版」 Claude Code との違い観点 Qwen Code Claude Code 料金無料（OAuth で1日1,000リクエスト）従量課金（API 使用量に応じて）ライセンス Apache 2.0（オープンソース）プロプライエタリベースモデル Qwen3-Coder Claude インターフェースターミナル CLI ターミナル CLI IDE 統合 VS Code, Zed, JetBrains VS Code, JetBrains MCP サポートありありコード品質実用的（オープンモデルとしてトップクラス）最高品質カスタマイズ完全にカスタマイズ可能限定的できることコードベース全体を理解して質問に答えるファイルの作成・編集・削除シェルコマンドの実行 Git 操作（コミット、diff 確認等）バグの発見と修正テストの作成と実行 MCP サーバーとの連携インストール手順前提条件 Node.js 20 以上が必要です。まだインストールしていない場合は nodejs.org からダウンロードしてください。 ...

「Claude Code無料で無制限」は本当か × ollama launch claudeの実態と品質ギャップの正直な話

「Claude Code が無料で無制限」は本当か — ollama launch claude の実態と品質ギャップの正直な話 @TusharSoni014 氏の X 投稿が 10 万回以上表示され、2,227 件のブックマークを集めています。 Want Claude Code Unlimited FREE? Follow, Download Ollama Install Qwen3.5 9B Run this command in your terminal, ollama launch claude –model qwen3.5:9b Enjoy Unlimited Claude Code fully running 100% Free 「Claude Code が完全に無料で無制限に使える」という主張です。1,311 件のいいねと 127 件のリツイートを見ると、多くの人がこの情報に飛びついたことがわかります。結論から言えば、コマンド自体は実在しますが、「Claude Code が無料で動く」という表現は大きな誤解を招きます。正確に何が起きているのか、何が失われるのかを解説します。 ollama launch claude は実在するコマンドの正体 ollama launch は、Ollama v0.15 で追加された公式コマンドです。Claude Code、OpenCode、Codex などのコーディングツールを、環境変数や設定ファイルなしで起動できるようにするものです。 1 2 3 4 # 基本的な使い方 ollama launch claude # インタラクティブにモデルを選択 ollama launch claude --model qwen3-coder # モデルを指定して起動 ollama launch claude --model qwen3.5:9b # ツイートの例このコマンドが裏でやっていることは、Ollama の Anthropic Messages API 互換モードを利用して、ローカルの LLM を Claude Code のバックエンドとして接続することです。 ...

Qwen-Agent 公式エージェントフレームワーク完全ガイド — モデル開発チームが作った「全部入り」の設計思想

Qwen-Agent 公式エージェントフレームワーク完全ガイド — モデル開発チームが作った「全部入り」の設計思想 @abxxai（Abdul Shakoor）のポストが、Qwen チームが公式リリースしたエージェントフレームワーク「Qwen-Agent」を紹介し、10万ビュー超・2,900ブックマーク・2,200いいねと極めて高い反響を集めています。 BREAKING: The Qwen team just shipped their official agent framework and it has everything. No stitching together third-party libraries. No fighting abstractions. 「サードパーティのライブラリをつなぎ合わせる必要がない」「抽象化と戦わなくていい」という評価は、既存のエージェントフレームワーク（LangChain、CrewAI 等）が抱える複雑さへのアンチテーゼです。 Qwen-Agent とは何か Qwen-Agent は、Alibaba Cloud の Qwen チームが開発したオープンソースのエージェントフレームワークです。Qwen 3.0 以上のモデルをベースに、Function Calling・MCP・Code Interpreter・RAG・Chrome 拡張を統合した「全部入り」のフレームワークとして設計されています。最大の特徴: モデルとフレームワークの共進化 LangChain や CrewAI がモデルに依存しない汎用フレームワークであるのに対し、Qwen-Agent は Qwen モデルと一体的に開発されています。観点 Qwen-Agent LangChain / CrewAI 開発元 Qwen モデル開発チームサードパーティモデルとの関係共進化（同時に開発・最適化）モデル非依存ツール呼び出しネイティブ統合（テンプレート・パーサー内蔵）アダプタ経由抽象化の層薄い（モデルに直接最適化）厚い（汎用性のための間接層）対応モデル Qwen 系が最適、他モデルも利用可幅広いモデルに対応 Qwen チームは「モデルの開発当初から、ツール使用と深い推論を含む強力なエージェント能力の実現が戦略の柱だった」と述べています。フレームワークはモデルの能力を最大限に引き出すために設計されており、汎用フレームワークでは到達できない最適化が実現されています。 ...

Qwen3.5-0.8B を日本語SFTしたモデル公開 — スマホで動く0.8Bパラメータの実力と小規模LLMの現在地

Qwen3.5-0.8B を日本語SFTしたモデル公開 — スマホで動く0.8Bパラメータの実力と小規模LLMの現在地 @Holy_fox_LLM 氏（ほーりーふぉっくす）のポストが、Qwen3.5-0.8B を約10万件の日本語データでフルパラメータ SFT したモデルを Hugging Face で公開しています。 Qwen3.5 0.8Bに対して約10万件超のデータを用いてフルパラでSFTしたモデルを公開しました！スマホなどの推論に最適なモデルとなっていますポストは440いいね、69リツイートと高い反響を集めています。Qwen3.5 Small シリーズが2026年3月2日にリリースされた直後のタイミングで、日本語コミュニティの素早い対応として注目されています。 Qwen3.5 Small シリーズ — 0.8B でもマルチモーダルリリースの概要 2026年3月2日、Alibaba の Qwen チームが Qwen3.5 Small シリーズを Apache 2.0 ライセンスで公開しました。0.8B、2B、4B、9B の4サイズで構成されています。モデルパラメータ VRAM（FP16）主な用途 Qwen3.5-0.8B 8億約1.6GB スマホ、IoT、エッジデバイス Qwen3.5-2B 20億約4GB 軽量サーバー、タブレット Qwen3.5-4B 40億約8GB ローカル PC Qwen3.5-9B 90億約18GB デスクトップ、サーバー注目すべきは、9B モデルが OpenAI の gpt-oss-120B（13.5倍のサイズ）を GPQA Diamond ベンチマークで上回ったことです（81.7 vs 71.5）。 Gated DeltaNet アーキテクチャ Qwen3.5 Small シリーズの技術的な特徴は、Gated DeltaNet ハイブリッドアーキテクチャです。 ...

Claude Code の生成コードをローカル LLM でレビューする 3 つの構成パターン

Claude Code の生成コードをローカル LLM でレビューする 3 つの構成パターン Claude Code は強力なコード生成能力を持ちますが、生成されたコードを別の視点でレビューしたい場面があります。クラウド API にコードを送りたくない場合や、コスト削減のためにローカル LLM を活用したい場合です。この記事では、Ollama + Qwen3（ローカル LLM）と OpenHands（オープンソースのコーディングエージェント）を組み合わせて、Claude Code の生成コードを自動レビューする 3 つの構成パターンを紹介します。前提となる構成以下のツールがインストール済みであることを前提とします。ツール役割インストール Claude Code コード生成（エージェント） npm install -g @anthropic-ai/claude-code Ollama ローカル LLM 実行（ランタイム） ollama.com Qwen3 レビュー用 AI モデル（LLM） ollama pull qwen3:14b OpenHands レビュー実行（エージェント）※パターン 2・3 pip install openhands-ai 構成図で示すと、Claude Code（クラウド）が書いたコードを、ローカル環境でレビューする構造です。 Claude Code（Anthropic API） ↓ コードを生成・編集ローカルリポジトリ（あなたの PC） ↓ レビュー依頼 OpenHands / Git フック ↓ Ollama（ローカルランタイム） ↓ Qwen3（ローカル LLM）→ レビュー結果を出力パターン 1：Git フック + Ollama 直接呼び出し（最もシンプル） OpenHands は不要です。Claude Code がコミットするタイミングで、Git の pre-commit フックが Ollama に差分を送り、Qwen3 にレビューさせます。 ...