Microsoftが開発した1-bit LLM推論フレームワーク「BitNet」が完全にオープンソース化されました。bitnet.cppを使えば、1000億パラメータ規模のLLMをGPUなしでCPU上で実行できます。

BitNetとは

BitNetは、Microsoft Researchが開発した1-bit LLM(大規模言語モデル)専用の推論フレームワークです。従来のLLMが16bitや32bitの浮動小数点で重みを保持するのに対し、BitNetではすべての重みを -1、0、+1の3値(log2(3) ≒ 1.58bit) で表現します。

主な特徴

GPU不要のCPU推論

bitnet.cppは、llama.cpp(LLM向け軽量推論エンジン)をベースに1-bit推論向けに最適化されたC++フレームワークです。専用カーネルにより、ternary演算(3値演算)をCPU上で高速に実行します。

  • x86 CPU: 従来比 2.37〜6.17倍 の高速化
  • ARM CPU: 従来比 1.37〜5.07倍 の高速化
  • 2026年1月のアップデートでさらに 1.15〜2.1倍 の追加高速化を達成

省エネルギー・省メモリ

  • エネルギー削減: x86 CPUで 71.9%〜82.2%、ARM CPUで 55.4%〜70.0% の削減
  • メモリ使用量: BitNet b1.58 2B-4Tモデルはわずか 0.4GB(同規模の通常モデルは1.4〜4.8GB)

BitNet b1.58 2B-4T モデル

Microsoftが公開した初のオープンソースのネイティブ1-bit LLMです。

  • パラメータ数: 24億(2.4B)
  • 学習データ: 4兆トークン(4T)
  • アーキテクチャ: BitLinearレイヤーを組み込んだTransformerベース
  • 主な技術: RoPE(回転位置埋め込み)、Squared ReLU活性化関数、subln(サブレイヤー正規化)
  • 重み: ネイティブ1.58bit、活性化は8bit(W1.58A8)

同規模のフル精度モデルと同等の性能を達成しています。

なぜ重要なのか

ローカルAI・エッジコンピューティングの民主化

これまで大規模LLMの実行には高価なGPUが必須でしたが、BitNetにより一般的なPCやエッジデバイスでも実用的な推論が可能になります。

GPU依存からの脱却

NVIDIA GPUへの依存度を大幅に下げられることで、AI開発・運用のコスト構造が変わる可能性があります。特に中小企業やスタートアップにとって、AIの導入障壁が大きく下がります。

持続可能なAI

最大82%のエネルギー削減は、AI推論の環境負荷を劇的に改善します。大規模なAIサービスを運用する際の電力コストも大幅に削減できます。

動作環境

BitNetはGPU不要で、一般的なローカルPCで動作します。

必要なソフトウェア

  • Python: 3.9以上
  • CMake: 3.22以上
  • Clang: 18以上(Windows の場合は Visual Studio 2022)
  • conda: 推奨(venvでも可)

対応プラットフォーム

プラットフォームCPU対応状況
Linux / macOSx86_64対応
Linux / macOSARM (Apple Silicon含む)対応
Windowsx86_64対応(Visual Studio 2022が必要)

ハードウェア目安

  • BitNet b1.58 2B-4T(2.4Bモデル): メモリ 0.4GB — 一般的なノートPCで十分動作
  • 100Bパラメータモデル: 単一CPUで 5〜7トークン/秒(人間の読書速度に匹敵)で推論可能

GPUは不要ですが、2025年5月にはGPU推論カーネルも公開されており、GPUによる高速化も選択できます。

BitNetのインストールと使い方

BitNetの利用は非常にシンプルです。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
# リポジトリをクローン
git clone --recursive https://github.com/microsoft/BitNet.git
cd BitNet

# conda環境を作成(推奨)
conda create -n bitnet-cpp python=3.9
conda activate bitnet-cpp
pip install -r requirements.txt

# モデルのダウンロードとビルド
huggingface-cli download microsoft/BitNet-b1.58-2B-4T-gguf --local-dir models/BitNet-b1.58-2B-4T
python setup_env.py -md models/BitNet-b1.58-2B-4T -q i2_s  # i2_s: 量子化形式の指定

# 推論の実行
python run_inference.py -m models/BitNet-b1.58-2B-4T/ggml-model-i2_s.gguf -p "You are a helpful assistant" -cnv

他のロー��ルLLMとの比較:BitNet vs Gemma 4 vs Qwen 3.5

BitNetと同時期にリリースされたGoogle Gemma 4、Alibaba Qwen 3.5 のエッジ向けモデルと比較します。

基本スペック

項目BitNet b1.58 2B-4TGemma 4 E4BQwen 3.5 4B
開発元MicrosoftGoogle DeepMindAlibaba
パラ���ータ数2.4B4.5B4B(MoE)
重み精度1.58bit(ternary)FP16/BF16(量子化可)BF16(量子化可)
コンテキスト長制限あり128K262K
マルチモーダルテキストのみテキスト+画像+音声テキスト+画像+音声+動画
ライセンスMITApache 2.0Apache 2.0

メモリ使用量

モデルフル精度4bit量子化
BitNet b1.58 2B-4T0.4GB(ネイティブ1.58bit)N/A(元から超低bit)
Gemma 4 E4B約9GB(FP16)約5GB
Qwen 3.5 4B約8.7GB(BF16)約3GB

BitNetはネイティブ1.58bitのため、量子化なしで 0.4GB という圧倒的な省メモリを実現しています。

ベンチマーク性能

モデルMMLU / MMLU Pro
BitNet b1.58 2B-4TMMLU 約52%
Gemma 4 E4BMMLU Pro 69.4%
Qwen 3.5 4BMMLU Pro 79.1%

性能面では Qwen 3.5 4B > Gemma 4 E4B > BitNet の順です。ただしBitNetはパラメータ数が半分以下で、メモリも1/7〜1/20という点を考慮する必要があります。

CPU推論の対応状況

モデルCPU推論備考
BitNetネイティブ対応専用カーネルで最適化済み
Gemma 4 E4Bllama.cpp / Ollama経由GPU推論が基本
Qwen 3.5 4Bllama.cpp / Ollama経由GPU推論が基本

BitNetはCPU推論がファーストクラスで、専用最適化カーネルにより他のCPU推論より大幅に高速です。Gemma 4やQwen 3.5はGPU推論が前提で、CPU推論はllama.cpp等を経由した汎用的な方法になります。

用途別の選び方

ユースケース推奨モデル理由
極限の省メモリ・省電力BitNet0.4GBで動作、最大82%省エネ
GPUなしのローエンドPCBitNetCPU専用最適化で最も実用的
性能と効率のバランスQwen 3.5 4B4bit量子化で3GB、MMLU Pro 79.1%
マルチモーダル(画像・音声)Gemma 4 E4B / Qwen 3.5BitNetはテキストのみ
長文コンテキストQwen 3.5 4B262Kトークン対応

3つのモデルはそれぞれ異なる強みを持っており、用途に応じた使い分けが重要です。

まとめ

BitNetのオー���ンソース化は、AIの民主化に向けた大���な一歩です。1-bit量子化という革新的なアプローチにより、GPUなしでも実用的なLLM推論が可能になりました。Gemma 4やQwen 3.5といった高性能なエッジ向けモデルとは異なるアプローチで、特にメモリやGPUが限られた環境でのAI活用に新たな選択肢を提供しています。