MoE | hdknr blog

DeepSeek-V4 Preview — Claude Opus 4.6 匹敵・100万トークン対応のオープンソース LLM が無償公開

DeepSeek-AI が 2026 年 4 月 24 日、100 万トークンのコンテキスト長に対応したオープンソース AI モデル「DeepSeek-V4 Preview」を公開した。コーディング競技プラットフォーム Codeforces では GPT-5.4 を上回るレーティングを記録。コーディングベンチマークでは Claude Opus 4.6 にほぼ匹敵する性能を持ちながら MIT ライセンスで無償公開されるという、衝撃的なリリースとなった。 DeepSeek-V4 の概要 DeepSeek-V4 Preview は Pro と Flash の 2 バリアントで構成される。モデル総パラメータ数推論時アクティブパラメータ数 DeepSeek-V4-Pro 1 兆 6,000 億 490 億 DeepSeek-V4-Flash 2,840 億 130 億いずれも Mixture-of-Experts（MoE）アーキテクチャを採用しており、推論時には全パラメータの一部のみを活性化することで高い効率を実現している。アーキテクチャの革新：ハイブリッドアテンション DeepSeek-V4 の技術的な目玉は「ハイブリッドアテンション機構」だ。トークン単位の圧縮と DSA（DeepSeek Sparse Attention）を組み合わせることで、前世代と比較して：推論演算量を約 73% 削減 KV キャッシュサイズを約 90% 削減これにより、100 万トークンという非常に長いコンテキストをより少ないリソースで扱えるようになった。実用上は長い会話履歴・大きなコードベース・長文ドキュメントを一度のプロンプトに収められるため、エージェント系ユースケースとの相性が良い。ベンチマーク性能 Codeforces で GPT-5.4 超えコーディング競技プラットフォーム Codeforces でのレーティングは 3,206（V4-Pro）を記録し、GPT-5.4 の 3,168 を上回るスコアを達成した。コーディング能力においてオープンソースモデルとして最先端の水準に到達した形だ。 ...

Gemma 4

概要 Google DeepMind が 2026年4月にリリースしたオープンソース LLM シリーズ。Apache 2.0 ライセンスで商用利用可能。エッジデバイスからサーバー/ワークステーションまで対応する4サイズ展開で、API 経済の構造に変化をもたらすと注目されている。ラインナップモデルパラメータ推論時アクティブコンテキスト用途 E2B（MoE）〜8B 約2B 128K スマートフォン・オフライン E4B（MoE）〜16B 約4B 128K エッジデバイス 27B Dense 27B 27B 256K ミッドレンジサーバー 31B Dense 31B 31B 256K サーバー/ワークステーション E2B モデルはスマートフォン上での完全オフライン動作が可能で、API 従量課金に依存しない自律型 AI の基盤となりうる。主な特徴マルチモーダル対応: テキスト、画像、音声（モデルにより異なる） Apache 2.0 ライセンス: 商用利用・改変・再配布が自由 Ollama / llama.cpp 対応: ローカル実行が容易 Gemma 4 31B vs Qwen3.5-27B ローカル LLM として競合する Qwen3.5-27B（Alibaba）との比較では、推論・マルチモーダル能力は Gemma 4 が優位、コーディング性能・長文コンテキスト（262K トークン）は Qwen3.5 が優位とされる。 ...

Gemma 4

概要 Google DeepMind が 2026年4月にリリースした LLM シリーズ。Apache 2.0 ライセンスで商用利用に制限がなく、31B Dense から E2B（スマートフォン動作）まで4バリアントを提供。特に 26B MoE は総パラメータ数は 26B だが推論時アクティブは約 3.8B にとどまるため、一般的な GPU で実用的に動作する。モデルラインナップモデルパラメータ推論時アクティブコンテキスト主な用途 31B Dense 31B 31B 256K サーバー/ワークステーション 26B MoE 26B 約 3.8B 256K サーバー/ワークステーション E4B — 約 4B 128K エッジデバイス E2B — 約 2.3B 128K スマートフォン主な特徴 Apache 2.0 ライセンス: 商用利用・改変・再配布が自由ネイティブ Function Calling: ツール呼び出しをモデルが意味的に理解構造化 JSON 出力: API レスポンス向けの JSON 出力をネイティブサポート 256K コンテキスト: 長文書の処理やコードベース全体の分析に対応 140+ 言語対応: 日本語を含む多言語をサポート API 経済へのインパクト Gemma 4 は外部 LLM API に依存する SaaS のコスト構造を変える可能性を持つ。 ...

Gemma 4がAPI経済を破壊する — オープンモデルがSaaS課金モデルを変える理由

Gemma 4 が「すごいオープンソースモデル」として話題になっている。しかし、本当に注目すべきポイントはモデル性能だけではない。GoogleがAPI経済の構造そのものに挑戦しているという点だ。 Gemma 4のラインナップ Gemma 4は4つのサイズで提供されている。モデルパラメータ推論時アクティブコンテキスト用途 31B Dense 31B 31B 256K サーバー/ワークステーション 26B MoE 26B 約3.8B 256K サーバー/ワークステーション E4B 非公表約4B 128K エッジデバイス E2B 非公表約2.3B 128K スマートフォン注目は 26B MoE だ。総パラメータ数は26Bだが、Mixture-of-Experts（MoE）アーキテクチャにより推論時にアクティブなのは約3.8Bのみ。これにより、RTX 4090のような一般的なGPUでも十分に動作する。 API課金モデルへのインパクト従来のAI搭載SaaSは、以下のようなコスト構造を持つ。 1 2 3 ユーザーリクエスト → 自社サーバー → OpenAI/Anthropic API → レスポンス ↑ リクエストごとに課金この構造では、ユーザーが増えるほどAPI費用が増加する。特にスタートアップにとって、スケールするほど外部API費用が利益を圧迫する「API課金の罠」に陥りやすい。 Gemma 4は、この構造を根本から変える可能性がある。 1 2 3 ユーザーリクエスト → 自社サーバー（Gemma 4稼働） → レスポンス ↑ 固定のインフラコストのみ Apache 2.0ライセンスで商用利用に制限がなく、カスタムの利用規約や解約条項もない。自社サーバーでモデルを稼働させれば、コストはインフラの固定費だけになる。 ...