Ollama on hdknr blog

Gemma 4 31B vs Qwen3.5-27B — ローカルLLM最強はどちらか

Tue, 07 Apr 2026 00:00:00 +0000

Google Gemma 4 31BとAlibaba Qwen3.5-27Bをローカル実行の観点で徹底比較。ベンチマーク、メモリ要件、マルチモーダル、日本語対応、推論速度を検証する。

claw-code-local — Claude Code風のAIコーディングエージェントをローカルLLMで動かす

Sun, 05 Apr 2026 00:00:00 +0000

Claude Code風のAIコーディングエージェント claw-code-local の紹介。Ollama や LM Studio でローカルLLMを使い、API費用ゼロ・プライバシー保護でコード生成を実現する方法を解説。

Onyx（旧 Danswer）完全ガイド — 無料で使えるオープンソース AI プラットフォーム

Fri, 03 Apr 2026 00:00:00 +0000

Onyx（旧 Danswer）は MIT ライセンスの無料 AI プラットフォーム。RAG・AIエージェント・50以上のコネクタを備え、Docker でセルフホスト可能。インストール手順やエディション比較を解説。

Claude Code を Ollama でローカル無料実行する方法

Tue, 31 Mar 2026 00:00:00 +0000

Ollama v0.15 以降で Claude Code をローカル LLM バックエンドで無料実行する方法。ollama launch コマンドによるワンコマンドセットアップから、環境変数による手動設定、ハードウェア要件、実用上の注意点まで解説。

Claude Code × ローカルLLM で KVキャッシュが毎回無効化される問題と対策

Fri, 13 Mar 2026 00:00:00 +0000

Claude Code をローカルLLM（llama.cpp、Ollama など）で使う際に、毎回プロンプト処理に異常な時間がかかるという問題が報告されています。原因は Claude Code が付加する「Attribution Header」によるKVキャッシュの無効化です。設定一つで解決できるので、対処法をまとめます。

何が起きているのか

Claude Code v2.1.36 以降、リクエストごとに以下のような Attribution Header がプロンプトの先頭に付加されるようになりました。

x-anthropic-billing-header: cc_version=xxxx; cc_entrypoint=cli; cch=xxxx;

この cch の値がリクエストのたびに変化します。ローカルLLMサーバー（llama.cpp、Ollama、LM Studio など）はプロンプトの先頭からバイト単位で一致した部分までKVキャッシュを再利用する仕組みのため、先頭が毎回変わるとキャッシュが丸ごと無効化されます。

結果として、数万トークンのシステムプロンプトや会話履歴を毎回ゼロから処理することになり、推論速度が最大90%低下するという報告があります。

対策：Attribution Header を無効化する

~/.claude/settings.json の env セクションに以下を追加します。

1
2
3
4
5


{
 "env": {
 "CLAUDE_CODE_ATTRIBUTION_HEADER": "0"
 }
}

既に settings.json がある場合は env セクション内にキーを追加してください。

注意点

export CLAUDE_CODE_ATTRIBUTION_HEADER=0 ではダメ。シェルの環境変数として設定しても反映されません。必ず settings.json 経由で設定します
ついでに不要なテレメトリも無効化しておくと、余計な通信を減らせます

1
2
3
4
5
6
7


{
 "env": {
 "CLAUDE_CODE_ATTRIBUTION_HEADER": "0",
 "CLAUDE_CODE_ENABLE_TELEMETRY": "0",
 "CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": "1"
 }
}

KVキャッシュの仕組みをおさらい

ローカルLLMサーバーが採用している Prefix Caching（Automatic Prefix Caching）は、プロンプトの先頭から連続して一致するトークン列のKV（Key-Value）テンソルを再利用する仕組みです。

Kali Linux × Ollama × MCP — 完全ローカルで動く AI ペンテスト環境の構築

Wed, 11 Mar 2026 00:00:00 +0000

Kali Linux チームが、外部 SaaS に一切依存しない完全ローカルの AI ペンテスト支援環境の構築ガイドを公式ブログで公開した。Ollama でローカル LLM を動かし、MCP（Model Context Protocol）経由で nmap などの Kali ツールを自然言語から操作する構成だ。

構成要素

コンポーネント	役割	アーキテクチャ上の位置づけ
Ollama	ローカル LLM サーバー。llama.cpp のラッパーとしてモデルのダウンロード・サービングを簡素化	推論エンジン（脳）
mcp-kali-server	Flask ベースの MCP サーバー（127.0.0.1:5000）。nmap, gobuster, nikto, hydra, sqlmap 等の Kali ツールを MCP 経由で公開	ツールサーバー（手足）
5ire	デスクトップ AI アシスタント兼 MCP クライアント。ユーザー入力を LLM に送り、LLM の応答からツール呼び出しを検出し、MCP 経由でツールを実行し、結果を LLM に戻すループを回す	AI エージェント（オーケストレーター）

この構成で「エージェント」に相当するのは 5ire だ。LLM（Ollama）は推論を担うだけであり、ツールサーバー（mcp-kali-server）は呼ばれるのを待つだけ。ユーザーの意図を解釈し、LLM とツールの間を仲介して自律的にループを回す 5ire こそがエージェントの役割を果たしている。Claude Code に例えると、Ollama は API の向こう側の Claude モデル、mcp-kali-server は MCP サーバー、5ire は Claude Code 本体に相当する。

ローカルQwenに個人知識を覚えさせたい — ファインチューニング vs RAG

Tue, 10 Mar 2026 00:00:00 +0000

ローカルで Ollama + Qwen を動かしている Mac Studio（M3 Ultra / 96GB）に、NAS 上の PDF やテキストなどのドキュメントを学習させて「個人の知識ベース」として活用したい——そんなとき、ファインチューニングと RAG のどちらを選ぶべきかを整理する。

やりたいこと

NAS に蓄積された個人ドキュメント（PDF、テキスト等）の知識を Qwen に覚えさせたい
自分の PC を使った活動に関する知識を、AI が把握している状態にしたい

選択肢1: ファインチューニング（QLoRA）

モデル自体の重みを更新し、知識を「記憶」させるアプローチ。

Mac Studio での実現可能性

M3 Ultra / 96GB 統合メモリなら、QLoRA でのファインチューニングは技術的に可能。

手法	必要メモリ目安（7B）	ツール
QLoRA (4bit)	6-8 GB	Unsloth, LLaMA-Factory, MLX
LoRA (16bit)	14-16 GB	LLaMA-Factory, PEFT
フル FT	60+ GB	非現実的

Apple Silicon では MLX ベースが最もパフォーマンスが良い。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10


# MLX での QLoRA 実行例
pip install mlx-lm

mlx_lm.lora \
 --model Qwen/Qwen2.5-Coder-14B-Instruct \
 --data ./training_data \
 --train \
 --batch-size 1 \
 --lora-layers 16 \
 --iters 1000

ファインチューニングの課題

最大のボトルネックはデータ準備。NAS の生ファイルはそのまま学習データにはならず、instruction 形式への変換が必要になる。

Qwen3.5-27B：個人PCで動く高性能LLMの実力と使い方

Mon, 09 Mar 2026 00:00:00 +0000

Alibaba Cloud の Qwen チームが 2026 年 2 月にリリースした Qwen3.5-27B は、27B パラメータという中規模サイズながら上位モデルに匹敵する性能を発揮する密（dense）モデルです。メモリ効率に優れ、量子化を活用すれば個人の PC でも快適に動作するため「自分専用 AI」を構築するのに最適な選択肢として注目されています。

Qwen3.5-27B の主な特徴

アーキテクチャ

Qwen3.5-27B は MoE（Mixture of Experts）ではなく、全パラメータが推論時に活性化される 密モデル（dense model） です。Gated Delta Networks と Feed Forward Networks を組み合わせた構造で、高い計算密度を実現しています。

パラメータ数: 27B（全パラメータ活性化）
コンテキスト長: 262K トークン（最大 1M まで拡張可能）
対応言語: 201 言語
マルチモーダル: 視覚・言語の統合能力を搭載

ベンチマーク性能

27B というサイズにもかかわらず、主要ベンチマークで際立った成績を残しています。

ベンチマーク	スコア
MMLU-Pro	86.1%
GPQA Diamond	85.5%
SWE-bench Verified	72.4%
LiveCodeBench	80.7%
IFEval	95.0%
HMMT（数学）	92.0%

特に SWE-bench Verified で 72.4% は GPT-5 mini と同等の数値であり、オープンウェイトの 27B 密モデルとしては驚異的な結果です。コーディング、数学、指示追従の各タスクで中規模モデルカテゴリをリードしています。

# OpenHands × Ollama ローカルLLM実践記 — Mac Studio M3 Ultra で動かすまでの全記録

Fri, 06 Mar 2026 00:00:00 +0000

OpenHands × Ollama ローカルLLM実践記 — Mac Studio M3 Ultra で動かすまでの全記録

TL;DR: OpenHands（旧OpenDevin）をMac Studio M3 Ultra（96GB）+ Ollama + Qwen3-Coder 30B で動かそうとした。Docker-in-Docker のビルド問題、Playwright依存、ランタイムイメージ手動構築を経てUI起動まで到達したが、30Bモデルのtool calling精度不足で実用には至らなかった。

1. OpenHands とは

OpenHands（旧 OpenDevin）は、オープンソースのAIコーディングエージェントプラットフォーム。75以上のLLMプロバイダーに対応し、SWE-bench で Qwen3-Coder 使用時に 69.6% のスコアを記録している。

公式リポジトリ: https://github.com/All-Hands-AI/OpenHands

特徴:

Web UI でブラウザから操作
Docker サンドボックスで安全にコード実行
CodeActAgent による自律的なタスク遂行
Playwright 統合によるブラウザ操作

2. 動機 — なぜ OpenHands を試したか

前回の実験で Qwen Code（CLI エージェント）を Ollama + Qwen3-Coder 30B で動かしたが、複雑な multi-step タスク（GitHub PR レビューなど）で tool calling が破綻する問題に直面した。

OpenHands は SWE-bench で高スコアを出しており、エージェントスキャフォールディングの力で同じ 30B モデルでも改善されるのでは？という仮説を検証するために試した。

Qwen Code ローカル運用実践記 — Mac Studio M3 Ultra で Ollama + qwen3-coder:30b を動かして分かったこと

Fri, 06 Mar 2026 00:00:00 +0000

Qwen Code ローカル運用実践記 — Mac Studio M3 Ultra で Ollama + qwen3-coder:30b を動かして分かったこと

Qwen Code（Alibaba Cloud Qwen チームが開発したオープンソース CLI コーディングエージェント）を Mac Studio M3 Ultra（96GB）上で Ollama と組み合わせてローカル運用を試みた実践記録です。環境構築からツール呼び出しの限界まで、実際に手を動かして検証した結果をまとめます。

背景と目的

Claude Code は強力ですが、コードがクラウドに送信されるためプライバシーの懸念があります。Qwen Code は Apache 2.0 ライセンスのオープンソースで、Ollama と組み合わせれば完全ローカルで動作するため、機密コードベースでの利用が期待されます。

本記事の検証環境:

項目	スペック
マシン	Mac Studio M3 Ultra
メモリ	96GB ユニファイドメモリ
メモリ帯域	800 GB/s
Ollama	v0.15.6
Qwen Code	v0.12.0（Fork からローカルビルド）
モデル	qwen3-coder:30b (18GB)

ステップ1: リポジトリの Fork と Clone

調査・改造を前提に、まず QwenLM/qwen-code を Fork しました。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14


# Fork（GitHub CLI）
gh repo fork QwenLM/qwen-code --clone=false

# devel ブランチを作成してデフォルトに設定
# main は upstream との sync 用にクリーンに保つ
gh api repos/hdknr/qwen-code/git/refs \
 -f ref="refs/heads/devel" \
 -f sha="$(gh api repos/hdknr/qwen-code/git/ref/heads/main --jq '.object.sha')"
gh repo edit hdknr/qwen-code --default-branch devel

# Clone
mkdir -p ~/Projects/qwen
cd ~/Projects/qwen
gh repo clone hdknr/qwen-code

ブランチ戦略:

「Claude Code無料で無制限」は本当か × ollama launch claudeの実態と品質ギャップの正直な話

Thu, 05 Mar 2026 00:00:00 +0000

「Claude Code が無料で無制限」は本当か — ollama launch claude の実態と品質ギャップの正直な話

@TusharSoni014 氏の X 投稿が 10 万回以上表示され、2,227 件のブックマークを集めています。

Want Claude Code Unlimited FREE? Follow,

Download Ollama

Install Qwen3.5 9B

Run this command in your terminal, ollama launch claude –model qwen3.5:9b

Enjoy Unlimited Claude Code fully running 100% Free

「Claude Code が完全に無料で無制限に使える」という主張です。1,311 件のいいねと 127 件のリツイートを見ると、多くの人がこの情報に飛びついたことがわかります。

結論から言えば、コマンド自体は実在しますが、「Claude Code が無料で動く」という表現は大きな誤解を招きます。正確に何が起きているのか、何が失われるのかを解説します。

ollama launch claude は実在する

コマンドの正体

ollama launch は、Ollama v0.15 で追加された公式コマンドです。Claude Code、OpenCode、Codex などのコーディングツールを、環境変数や設定ファイルなしで起動できるようにするものです。

1
2
3
4


# 基本的な使い方
ollama launch claude # インタラクティブにモデルを選択
ollama launch claude --model qwen3-coder # モデルを指定して起動
ollama launch claude --model qwen3.5:9b # ツイートの例

このコマンドが裏でやっていることは、Ollama の Anthropic Messages API 互換モードを利用して、ローカルの LLM を Claude Code のバックエンドとして接続することです。

ローカル LLM を金融取引の意思決定サポートに応用する — コードレビュー 4 段階カスタマイズの転用

Wed, 04 Mar 2026 00:00:00 +0000

ローカル LLM を金融取引の意思決定サポートに応用する — コードレビュー 4 段階カスタマイズの転用

前回の記事では、ローカル LLM（Ollama + Qwen3）を社内コードレビューに特化させる 4 段階のカスタマイズ手法を紹介しました。この仕組みは金融取引の意思決定サポートにもそのまま応用できます。

個人投資家が株式や BTC などの売買判断を行う際に、ニュース分析・テクニカル指標の解釈・リスク評価を自分の PC 上で、自分の投資ルールに基づいてAI に補助させる構成です。

なぜローカル LLM が金融取引に向いているのか

金融取引は、AI の活用にローカル環境が特に適している分野です。

利点	説明
プライバシー	ポートフォリオ・売買履歴・資産額をクラウドに送信しない
コスト	毎日の市場分析やニュース要約を API 課金なしで実行可能
カスタマイズ	自分の投資スタイル・リスク許容度に完全に特化できる
速度	ネットワーク遅延がなく、市場の急変時にも即座に分析可能
独立性	API 障害やサービス停止の影響を受けない

2024 年末時点で個人がビットコインの発行上限の約 69% を保有しており、個人投資家にとって自分だけの分析ツールを持つ意義はますます大きくなっています。

コードレビューから金融取引への対応表

前回の記事の 4 段階がどのように転用できるかを整理します。

レベル	コードレビュー	金融取引サポート
1. Modelfile	コーディング規約を教える	売買ルール・リスク管理ルールを教える
2. RAG	障害報告・設計書を検索	決算短信・ニュース・四季報を検索
3. Few-shot	過去のレビュー事例を見せる	過去の売買判断の成功/失敗事例を見せる
4. LoRA	PR レビュー履歴で再訓練	金融センチメント分析データで再訓練

レベル 1：投資ルールを「教える」 ← すぐできる
レベル 2：市場情報を「渡す」 ← 1〜2日
レベル 3：売買パターンを「見せる」 ← 数日
レベル 4：金融の頭脳を「鍛える」 ← 1〜2週間

レベル 1：Modelfile に投資ルールを埋め込む（即日導入）

自分の投資ルール・リスク管理基準をシステムプロンプトとして設定します。

ローカル LLM を社内業務に特化させる 4 段階カスタマイズ — Qwen3 を「より賢く」する仕組み

Wed, 04 Mar 2026 00:00:00 +0000

ローカル LLM を社内業務に特化させる 4 段階カスタマイズ — Qwen3 を「より賢く」する仕組み

Claude Code で生成したコードをローカル LLM（Ollama + Qwen3）でレビューする構成を前回の記事で紹介しました。しかし、汎用モデルのままでは「受注ステータスの遷移ルール」や「金額計算に float を使ってはならない」といった社内固有のルールを知りません。

この記事では、Qwen3 を社内業務に特化させ、特定のコーディング規約・業務ルール・過去の障害パターンを踏まえたレビューができるようにする 4 段階のカスタマイズ手法を紹介します。

全体像：4 段階のカスタマイズ

レベル	手法	導入期間	効果	専門知識
1	Modelfile（システムプロンプト）	即日	ルールベースの指摘	不要
2	RAG（社内ドキュメント検索）	1〜2 日	文脈を踏まえた指摘	Docker の基本
3	Few-shot（レビュー事例の学習）	数日	パターン認識の向上	不要
4	LoRA ファインチューニング	1〜2 週間	モデル自体の精度向上	Python・ML の基本

レベル 1：ルールを「教える」 ← すぐできる
レベル 2：資料を「渡す」 ← 1〜2日
レベル 3：お手本を「見せる」 ← 数日
レベル 4：頭脳を「鍛える」 ← 1〜2週間

推奨: レベル 1 から順に導入し、効果を確認しながらステップアップしてください。多くの場合、レベル 1 + 2 で十分な精度が得られます。