Microsoftが開発した1-bit LLM推論フレームワーク「BitNet」が完全にオープンソース化されました。bitnet.cppを使えば、1000億パラメータ規模のLLMをGPUなしでCPU上で実行できます。
BitNetとは
BitNetは、Microsoft Researchが開発した1-bit LLM(大規模言語モデル)専用の推論フレームワークです。従来のLLMが16bitや32bitの浮動小数点で重みを保持するのに対し、BitNetではすべての重みを -1、0、+1の3値(log2(3) ≒ 1.58bit) で表現します。
- GitHub: microsoft/BitNet(37,000+スター)
- ライセンス: MIT License
- 技術レポート: BitNet b1.58 2B4T Technical Report
主な特徴
GPU不要のCPU推論
bitnet.cppは、llama.cpp(LLM向け軽量推論エンジン)をベースに1-bit推論向けに最適化されたC++フレームワークです。専用カーネルにより、ternary演算(3値演算)をCPU上で高速に実行します。
- x86 CPU: 従来比 2.37〜6.17倍 の高速化
- ARM CPU: 従来比 1.37〜5.07倍 の高速化
- 2026年1月のアップデートでさらに 1.15〜2.1倍 の追加高速化を達成
省エネルギー・省メモリ
- エネルギー削減: x86 CPUで 71.9%〜82.2%、ARM CPUで 55.4%〜70.0% の削減
- メモリ使用量: BitNet b1.58 2B-4Tモデルはわずか 0.4GB(同規模の通常モデルは1.4〜4.8GB)
BitNet b1.58 2B-4T モデル
Microsoftが公開した初のオープンソースのネイティブ1-bit LLMです。
- パラメータ数: 24億(2.4B)
- 学習データ: 4兆トークン(4T)
- アーキテクチャ: BitLinearレイヤーを組み込んだTransformerベース
- 主な技術: RoPE(回転位置埋め込み)、Squared ReLU活性化関数、subln(サブレイヤー正規化)
- 重み: ネイティブ1.58bit、活性化は8bit(W1.58A8)
同規模のフル精度モデルと同等の性能を達成しています。
なぜ重要なのか
ローカルAI・エッジコンピューティングの民主化
これまで大規模LLMの実行には高価なGPUが必須でしたが、BitNetにより一般的なPCやエッジデバイスでも実用的な推論が可能になります。
GPU依存からの脱却
NVIDIA GPUへの依存度を大幅に下げられることで、AI開発・運用のコスト構造が変わる可能性があります。特に中小企業やスタートアップにとって、AIの導入障壁が大きく下がります。
持続可能なAI
最大82%のエネルギー削減は、AI推論の環境負荷を劇的に改善します。大規模なAIサービスを運用する際の電力コストも大幅に削減できます。
動作環境
BitNetはGPU不要で、一般的なローカルPCで動作します。
必要なソフトウェア
- Python: 3.9以上
- CMake: 3.22以上
- Clang: 18以上(Windows の場合は Visual Studio 2022)
- conda: 推奨(venvでも可)
対応プラットフォーム
| プラットフォーム | CPU | 対応状況 |
|---|---|---|
| Linux / macOS | x86_64 | 対応 |
| Linux / macOS | ARM (Apple Silicon含む) | 対応 |
| Windows | x86_64 | 対応(Visual Studio 2022が必要) |
ハードウェア目安
- BitNet b1.58 2B-4T(2.4Bモデル): メモリ 0.4GB — 一般的なノートPCで十分動作
- 100Bパラメータモデル: 単一CPUで 5〜7トークン/秒(人間の読書速度に匹敵)で推論可能
GPUは不要ですが、2025年5月にはGPU推論カーネルも公開されており、GPUによる高速化も選択できます。
BitNetのインストールと使い方
BitNetの利用は非常にシンプルです。
| |
他のロー��ルLLMとの比較:BitNet vs Gemma 4 vs Qwen 3.5
BitNetと同時期にリリースされたGoogle Gemma 4、Alibaba Qwen 3.5 のエッジ向けモデルと比較します。
基本スペック
| 項目 | BitNet b1.58 2B-4T | Gemma 4 E4B | Qwen 3.5 4B |
|---|---|---|---|
| 開発元 | Microsoft | Google DeepMind | Alibaba |
| パラ���ータ数 | 2.4B | 4.5B | 4B(MoE) |
| 重み精度 | 1.58bit(ternary) | FP16/BF16(量子化可) | BF16(量子化可) |
| コンテキスト長 | 制限あり | 128K | 262K |
| マルチモーダル | テキストのみ | テキスト+画像+音声 | テキスト+画像+音声+動画 |
| ライセンス | MIT | Apache 2.0 | Apache 2.0 |
メモリ使用量
| モデル | フル精度 | 4bit量子化 |
|---|---|---|
| BitNet b1.58 2B-4T | 0.4GB(ネイティブ1.58bit) | N/A(元から超低bit) |
| Gemma 4 E4B | 約9GB(FP16) | 約5GB |
| Qwen 3.5 4B | 約8.7GB(BF16) | 約3GB |
BitNetはネイティブ1.58bitのため、量子化なしで 0.4GB という圧倒的な省メモリを実現しています。
ベンチマーク性能
| モデル | MMLU / MMLU Pro |
|---|---|
| BitNet b1.58 2B-4T | MMLU 約52% |
| Gemma 4 E4B | MMLU Pro 69.4% |
| Qwen 3.5 4B | MMLU Pro 79.1% |
性能面では Qwen 3.5 4B > Gemma 4 E4B > BitNet の順です。ただしBitNetはパラメータ数が半分以下で、メモリも1/7〜1/20という点を考慮する必要があります。
CPU推論の対応状況
| モデル | CPU推論 | 備考 |
|---|---|---|
| BitNet | ネイティブ対応 | 専用カーネルで最適化済み |
| Gemma 4 E4B | llama.cpp / Ollama経由 | GPU推論が基本 |
| Qwen 3.5 4B | llama.cpp / Ollama経由 | GPU推論が基本 |
BitNetはCPU推論がファーストクラスで、専用最適化カーネルにより他のCPU推論より大幅に高速です。Gemma 4やQwen 3.5はGPU推論が前提で、CPU推論はllama.cpp等を経由した汎用的な方法になります。
用途別の選び方
| ユースケース | 推奨モデル | 理由 |
|---|---|---|
| 極限の省メモリ・省電力 | BitNet | 0.4GBで動作、最大82%省エネ |
| GPUなしのローエンドPC | BitNet | CPU専用最適化で最も実用的 |
| 性能と効率のバランス | Qwen 3.5 4B | 4bit量子化で3GB、MMLU Pro 79.1% |
| マルチモーダル(画像・音声) | Gemma 4 E4B / Qwen 3.5 | BitNetはテキストのみ |
| 長文コンテキスト | Qwen 3.5 4B | 262Kトークン対応 |
3つのモデルはそれぞれ異なる強みを持っており、用途に応じた使い分けが重要です。
まとめ
BitNetのオー���ンソース化は、AIの民主化に向けた大���な一歩です。1-bit量子化という革新的なアプローチにより、GPUなしでも実用的なLLM推論が可能になりました。Gemma 4やQwen 3.5といった高性能なエッジ向けモデルとは異なるアプローチで、特にメモリやGPUが限られた環境でのAI活用に新たな選択肢を提供しています。