Open-notebook — NotebookLM をセルフホストできる完全ローカル OSS

Google の NotebookLM に触発されたオープンソース実装 open-notebook が海外のテック界隈で注目を集めている。データを一切外部に送信しない完全ローカル動作を売りに、Docker で約2分で立ち上げられる手軽さも人気の理由だ。 open-notebook とは open-notebook は、NotebookLM の主要機能をすべて再実装した OSS プロジェクト。2024年10月に公開され、2026年4月時点で 22,000 スター超 を獲得している。 公式サイト: open-notebook.ai 主な機能 マルチソースの知識統合 PDF・動画・音声・ウェブページを横断で読み込ませ、AI とのチャット形式で対話できる。NotebookLM と同様の使い勝手を、完全ローカル環境で実現する。 多数の AI バックエンドに対応 OpenAI・Anthropic(Claude)・Google Gemini・Ollama・Mistral・Groq・xAI・Deepseek など主要なプロバイダーを幅広くサポートしている。 バックエンド 備考 Anthropic (Claude) クラウド OpenAI (GPT) クラウド Google Gemini クラウド Ollama ローカル・完全無料 Mistral / Groq / xAI / Deepseek など クラウド Ollama を選択すれば、外部サービスへの通信がゼロのオフライン環境でも完全無料で運用できる。 ポッドキャスト風音声の生成 複数の話者でポッドキャスト形式の音声を自動生成できる。NotebookLM が2人固定なのに対し、open-notebook は話者数をカスタマイズ可能な点が差別化ポイント。 REST API 完備 REST API が標準搭載されているため、企業内アプリへの組み込みや外部サービスとの連携が容易。n8n や LangChain などのワークフローツールからも呼び出せる。 日本語 UI 対応 インターフェースが日本語に対応しており、日本のユーザーでもすぐに使い始められる。 ...

2026年4月22日 · 1 分

Gemma 4 31B vs Qwen3.5-27B — ローカルLLM最強はどちらか

2026年春、ローカルで動かせる高性能 LLM の選択肢が充実してきた。中でも注目なのが Google の Gemma 4 31B(2026年4月リリース、Apache 2.0)と Alibaba の Qwen3.5-27B(2026年2月リリース)だ。どちらも密(dense)モデルで、Apple Silicon Mac や RTX 4090 クラスの GPU で実用的に動作する。 結論を先に述べると、推論・マルチモーダルなら Gemma 4、コーディング・メモリ効率なら Qwen3.5 が適している。本記事では、その判断根拠を主要な観点から比較する。 基本スペック比較 項目 Gemma 4 31B Qwen3.5-27B パラメータ数 31B 27B アーキテクチャ Dense Transformer(Hybrid Attention) Dense(Gated Delta Net + FFN) コンテキスト長 256K トークン 262K トークン(最大 1M 拡張可) 対応言語 140+ 言語 201 言語 マルチモーダル ビジョン(画像理解・OCR) ビジョン(画像理解) ライセンス Apache 2.0 Apache 2.0 開発元 Google DeepMind Alibaba Qwen 両モデルとも Apache 2.0 ライセンスで、商用利用に制限がない。コンテキスト長はほぼ同等だが、Qwen3.5 は 1M トークンまでの拡張に対応している点で有利だ。 ...

2026年4月7日 · 3 分

OpenClaw + Ollama + Gemma4 でローカル無料AIエージェントを構築する

API課金なしで、ローカル環境にAIエージェントを無制限で運用できるセットアップ方法を紹介します。OpenClaw(エージェントインターフェース)+ Ollama(ローカルモデルサーバー)+ Gemma4(推論エンジン)の組み合わせにより、Telegram・Discord・LINEなどの既存チャンネルともシームレスに連携できます。 構成概要 コンポーネント 役割 OpenClaw AIエージェントのインターフェース・オーケストレーション Ollama ローカルLLMサーバー(モデルの管理・API提供) Gemma4 推論エンジン(Google製オープンモデル) この3つを組み合わせることで、クラウドAPIへの依存なしにフル機能のAIエージェントが動作します。 セットアップ手順 1. Ollama のインストール 1 2 3 4 5 # macOS / Linux curl -fsSL https://ollama.ai/install.sh | sh # Windows # https://ollama.ai から インストーラーをダウンロード 2. Gemma4 モデルの取得 1 ollama pull gemma4 3. OpenClaw のインストール 1 npm install -g openclaw 4. オンボーディングウィザードの実行 1 openclaw onboard ウィザードに従ってOllama接続設定とチャンネル連携(Telegram・Discord・LINEなど)を行います。 ...

2026年4月6日 · 1 分

claw-code-local — Claude Code風のAIコーディングエージェントをローカルLLMで動かす

Claude Code ライクなターミナル AI コーディングエージェントを、Anthropic API なしでローカル LLM で動かせる「claw-code-local」が登場しました。Rust で実装された軽量・高速なツールで、Ollama や LM Studio など好みの LLM バックエンドを自由に選べます。 claw-code-local とは claw-code-local は、Claude Code のアーキテクチャをクリーンルーム方式(既存コードを参照せず仕様から独自に再実装する手法)で作られた「Claw Code」のフォークです。ローカル LLM や任意の OpenAI 互換エンドポイントに接続できるよう拡張されています。 オリジナルの Claw Code は Rust で書かれたマルチプロバイダー API レイヤーを持っていましたが、実際のバイナリにはその機能が組み込まれていませんでした。claw-code-local はこの部分を修正し、Ollama、LM Studio、OpenAI、xAI など様々なプロバイダーに接続できるようにしています。 主な特徴 ローカル LLM 対応: Ollama、LM Studio、その他 OpenAI 互換エンドポイントで動作 Rust 実装: 軽量・高速なバイナリ マルチプラットフォーム: Windows、Linux、macOS に対応 コストゼロ: ローカル LLM を使えば API 費用が不要 プライバシー保護: コードが外部サーバーに送信されないため、機密情報の漏洩リスクを低減 セットアップ手順 1. リポジトリのクローンとビルド 1 2 3 git clone https://github.com/codetwentyfive/claw-code-local.git cd claw-code-local/rust cargo build -p rusty-claude-cli --release ビルド後のバイナリは以下に生成されます: ...

2026年4月5日 · 2 分

Onyx(旧 Danswer)完全ガイド — 無料で使えるオープンソース AI プラットフォーム

Onyx(旧 Danswer)は、社内のドキュメント・アプリ・人材をまとめて繋ぎ、どんな LLM とも連携できるオープンソースの AI プラットフォームです。Community Edition(CE)は MIT ライセンスで完全無料。セルフホストできるため、データを外部に出さずに AI チャットや RAG、エージェント機能を利用できます。 Onyx とは Onyx は企業向け AI アシスタント&検索プラットフォームです。Slack、GitHub、Confluence、Google Drive など 50 以上のコネクタで社内ナレッジを統合し、自然言語で質問するだけで必要な情報を引き出せます。 GitHub リポジトリ(onyx-dot-app/onyx)のスター数は 22,000 超で、活発に開発が続いています。 主な機能 チャット&RAG ハイブリッド検索: ベクトル検索とキーワード検索を組み合わせた高精度な情報検索 Agentic RAG: AI エージェントが検索クエリの生成・評価・再検索を自律的に繰り返し、複数ステップで情報を収集 Deep Research: 多段階のリサーチフローで詳細なレポートを生成 エージェント&ツール カスタムエージェント: 固有の指示・知識・アクションを持つ AI エージェントを構築可能 Web 検索: リアルタイムの Web 情報を取得 コード実行: サンドボックス内でコードを実行し、データ分析やグラフ描画が可能 画像生成: プロンプトに基づいた画像生成 音声モード: テキスト読み上げ&音声入力に対応 コネクタ(50 以上) Slack、GitHub、Confluence、Notion、Google Drive、Jira、Linear など主要サービスと連携。MCP(Model Context Protocol)経由のカスタムコネクタにも対応しています。 エディション比較 項目 Community Edition (CE) Enterprise Edition (EE) ライセンス MIT(無料) 商用ライセンス チャット・RAG・エージェント ✅ ✅ SSO(OIDC / SAML) — ✅ エアギャップ環境 — ✅ サポート コミュニティ 専用サポート Cloud 版も提供されており、セルフホストなしで試用できます。ビジネスプランは 1 ユーザーあたり月額 $16〜。 ...

2026年4月3日 · 2 分

Claude Code を Ollama でローカル無料実行する方法

Claude Code がローカル LLM で無料実行できるようになった。Ollama を使えば、API 料金なしで Claude Code のインターフェースを活用できる。 背景 Claude Code は Anthropic が提供する CLI ベースの AI コーディングアシスタントだ。通常は Anthropic API を通じて利用するため、API 使用料が発生する。しかし Ollama v0.14.0 以降で Anthropic Messages API 互換のエンドポイントが実装され、ローカル LLM を Claude Code のバックエンドとして使えるようになった。 2026年1月にリリースされた Ollama v0.15 では ollama launch claude コマンドが追加され、セットアップがさらに簡単になっている。 セットアップ手順 方法1: ollama launch(推奨・v0.15 以降) Ollama v0.15 で追加された ollama launch コマンドを使えば、環境変数の設定なしでワンコマンドで起動できる: 1 ollama launch claude モデルを指定する場合: 1 ollama launch claude --model qwen3-coder 方法2: 環境変数を手動設定(v0.14 以降) 1. Ollama のインストール macOS/Linux の場合は以下のコマンドでインストールできる。macOS では公式サイトのインストーラーも利用可能: ...

2026年3月31日 · 1 分

Claude Code × ローカルLLM で KVキャッシュが毎回無効化される問題と対策

Claude Code をローカルLLM(llama.cpp、Ollama など)で使う際に、毎回プロンプト処理に異常な時間がかかるという問題が報告されています。原因は Claude Code が付加する「Attribution Header」によるKVキャッシュの無効化です。設定一つで解決できるので、対処法をまとめます。 何が起きているのか Claude Code v2.1.36 以降、リクエストごとに以下のような Attribution Header がプロンプトの先頭に付加されるようになりました。 x-anthropic-billing-header: cc_version=xxxx; cc_entrypoint=cli; cch=xxxx; この cch の値がリクエストのたびに変化します。ローカルLLMサーバー(llama.cpp、Ollama、LM Studio など)はプロンプトの先頭からバイト単位で一致した部分までKVキャッシュを再利用する仕組みのため、先頭が毎回変わるとキャッシュが丸ごと無効化されます。 結果として、数万トークンのシステムプロンプトや会話履歴を毎回ゼロから処理することになり、推論速度が最大90%低下するという報告があります。 対策:Attribution Header を無効化する ~/.claude/settings.json の env セクションに以下を追加します。 1 2 3 4 5 { "env": { "CLAUDE_CODE_ATTRIBUTION_HEADER": "0" } } 既に settings.json がある場合は env セクション内にキーを追加してください。 注意点 export CLAUDE_CODE_ATTRIBUTION_HEADER=0 ではダメ。シェルの環境変数として設定しても反映されません。必ず settings.json 経由で設定します ついでに不要なテレメトリも無効化しておくと、余計な通信を減らせます 1 2 3 4 5 6 7 { "env": { "CLAUDE_CODE_ATTRIBUTION_HEADER": "0", "CLAUDE_CODE_ENABLE_TELEMETRY": "0", "CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": "1" } } KVキャッシュの仕組みをおさらい ローカルLLMサーバーが採用している Prefix Caching(Automatic Prefix Caching)は、プロンプトの先頭から連続して一致するトークン列のKV(Key-Value)テンソルを再利用する仕組みです。 ...

2026年3月13日 · 1 分

Kali Linux × Ollama × MCP — 完全ローカルで動く AI ペンテスト環境の構築

Kali Linux チームが、外部 SaaS に一切依存しない完全ローカルの AI ペンテスト支援環境の構築ガイドを公式ブログで公開した。Ollama でローカル LLM を動かし、MCP(Model Context Protocol)経由で nmap などの Kali ツールを自然言語から操作する構成だ。 構成要素 コンポーネント 役割 アーキテクチャ上の位置づけ Ollama ローカル LLM サーバー。llama.cpp のラッパーとしてモデルのダウンロード・サービングを簡素化 推論エンジン(脳) mcp-kali-server Flask ベースの MCP サーバー(127.0.0.1:5000)。nmap, gobuster, nikto, hydra, sqlmap 等の Kali ツールを MCP 経由で公開 ツールサーバー(手足) 5ire デスクトップ AI アシスタント兼 MCP クライアント。ユーザー入力を LLM に送り、LLM の応答からツール呼び出しを検出し、MCP 経由でツールを実行し、結果を LLM に戻すループを回す AI エージェント(オーケストレーター) この構成で「エージェント」に相当するのは 5ire だ。LLM(Ollama)は推論を担うだけであり、ツールサーバー(mcp-kali-server)は呼ばれるのを待つだけ。ユーザーの意図を解釈し、LLM とツールの間を仲介して自律的にループを回す 5ire こそがエージェントの役割を果たしている。Claude Code に例えると、Ollama は API の向こう側の Claude モデル、mcp-kali-server は MCP サーバー、5ire は Claude Code 本体に相当する。 ...

2026年3月11日 · 2 分

ローカルQwenに個人知識を覚えさせたい — ファインチューニング vs RAG

ローカルで Ollama + Qwen を動かしている Mac Studio(M3 Ultra / 96GB)に、NAS 上の PDF やテキストなどのドキュメントを学習させて「個人の知識ベース」として活用したい——そんなとき、ファインチューニングと RAG のどちらを選ぶべきかを整理する。 やりたいこと NAS に蓄積された個人ドキュメント(PDF、テキスト等)の知識を Qwen に覚えさせたい 自分の PC を使った活動に関する知識を、AI が把握している状態にしたい 選択肢1: ファインチューニング(QLoRA) モデル自体の重みを更新し、知識を「記憶」させるアプローチ。 Mac Studio での実現可能性 M3 Ultra / 96GB 統合メモリなら、QLoRA でのファインチューニングは技術的に可能。 手法 必要メモリ目安(7B) ツール QLoRA (4bit) 6-8 GB Unsloth, LLaMA-Factory, MLX LoRA (16bit) 14-16 GB LLaMA-Factory, PEFT フル FT 60+ GB 非現実的 Apple Silicon では MLX ベースが最もパフォーマンスが良い。 1 2 3 4 5 6 7 8 9 10 # MLX での QLoRA 実行例 pip install mlx-lm mlx_lm.lora \ --model Qwen/Qwen2.5-Coder-14B-Instruct \ --data ./training_data \ --train \ --batch-size 1 \ --lora-layers 16 \ --iters 1000 ファインチューニングの課題 最大のボトルネックはデータ準備。NAS の生ファイルはそのまま学習データにはならず、instruction 形式への変換が必要になる。 ...

2026年3月10日 · 2 分

Qwen3.5-27B:個人PCで動く高性能LLMの実力と使い方

Alibaba Cloud の Qwen チームが 2026 年 2 月にリリースした Qwen3.5-27B は、27B パラメータという中規模サイズながら上位モデルに匹敵する性能を発揮する密(dense)モデルです。メモリ効率に優れ、量子化を活用すれば個人の PC でも快適に動作するため「自分専用 AI」を構築するのに最適な選択肢として注目されています。 Qwen3.5-27B の主な特徴 アーキテクチャ Qwen3.5-27B は MoE(Mixture of Experts)ではなく、全パラメータが推論時に活性化される 密モデル(dense model) です。Gated Delta Networks と Feed Forward Networks を組み合わせた構造で、高い計算密度を実現しています。 パラメータ数: 27B(全パラメータ活性化) コンテキスト長: 262K トークン(最大 1M まで拡張可能) 対応言語: 201 言語 マルチモーダル: 視覚・言語の統合能力を搭載 ベンチマーク性能 27B というサイズにもかかわらず、主要ベンチマークで際立った成績を残しています。 ベンチマーク スコア MMLU-Pro 86.1% GPQA Diamond 85.5% SWE-bench Verified 72.4% LiveCodeBench 80.7% IFEval 95.0% HMMT(数学) 92.0% 特に SWE-bench Verified で 72.4% は GPT-5 mini と同等の数値であり、オープンウェイトの 27B 密モデルとしては驚異的な結果です。コーディング、数学、指示追従の各タスクで中規模モデルカテゴリをリードしています。 ...

2026年3月9日 · 2 分