概要

Google DeepMind が 2026年4月にリリースしたオープンソース LLM シリーズ。Apache 2.0 ライセンスで商用利用可能。エッジデバイスからサーバー/ワークステーションまで対応する4サイズ展開で、API 経済の構造に変化をもたらすと注目されている。

ラインナップ

モデルパラメータ推論時アクティブコンテキスト用途
E2B(MoE)〜8B約2B128Kスマートフォン・オフライン
E4B(MoE)〜16B約4B128Kエッジデバイス
27B Dense27B27B256Kミッドレンジサーバー
31B Dense31B31B256Kサーバー/ワークステーション

E2B モデルはスマートフォン上での完全オフライン動作が可能で、API 従量課金に依存しない自律型 AI の基盤となりうる。

主な特徴

  • マルチモーダル対応: テキスト、画像、音声(モデルにより異なる)
  • Apache 2.0 ライセンス: 商用利用・改変・再配布が自由
  • Ollama / llama.cpp 対応: ローカル実行が容易

Gemma 4 31B vs Qwen3.5-27B

ローカル LLM として競合する Qwen3.5-27B(Alibaba)との比較では、推論・マルチモーダル能力は Gemma 4 が優位、コーディング性能・長文コンテキスト(262K トークン)は Qwen3.5 が優位とされる。

API 経済への影響

E2B モデルのスマートフォン上オフライン動作は、SaaS の API 従量課金モデルに依存しないアプリケーション開発を可能にする。Google が API 経済の構造そのものに挑戦しているとも解釈される。

Abliteration(脱獄)モデルの登場

Gemma 4 31B をベースに Abliteration 技術でセーフティを除去した「Gemma-4-31B-JANG_4M-CRACK」が Hugging Face で公開された。知識性能の劣化は MMLU で -2.0% にとどまる一方、有害なリクエストへの対応も可能になっている。AI 安全性の議論において重要な事例となっている。

関連ページ

ソース記事