オフライン推論

MacBook Pro M4 ローカルで Llama 3.3 70B を 11 時間動かし続け、機内でクライアント仕事をすべて片付けた開発者がいる。Wi-Fi 代 25 ドルを払わず、オフラインだけで完結させた「オフライン AI ワークフロー」の実例が話題になっている。構成：ハードウェアとソフトウェア使用機材はシンプルだ。項目内容マシン MacBook Pro M4、64 GB 統合メモリモデル Llama 3.3 70B（bf16 精度）推論エンジン llama.cpp（localhost:8080 で待機）生成速度 71 トークン/秒コンテキスト長約 60,000 トークンメモリ使用量 48.6 GiB（ほぼ上限）離陸時バッテリー残量 3 時間 21 分離陸前に書いたオーケストレーション・スクリプトキモはフライト前に仕込んだシステムプロンプトとスクリプトだ。要約すると以下のとおりだった。 1 2 3 4 5 6 7 8 あなたは今、MacBook 上のオフライン・オーケストレーターです。ネットはありません。使えるのはローカルファイルと localhost:8080 の Llama 推論サービスだけです。バッテリーは 3 時間強。 /Users/dev/work/queue.jsonl からクライアントタスクを 1 件ずつ読み込み、各タスクをドラフト→ローカル評価→ /Users/dev/work/done/ に出力してください。 12 タスクごとにコンテキストチェックポイントを保存し、電源交換後に復元できるようにすること。キューが空になるか、バッテリーが 5% を切ったら停止。制約を正直に宣言したシステムプロンプトが、エージェントに「自分の家の事情」を完全に理解させた。インターネットなし・メモリ有限・電源も有限、そして操作者は空の上にいる——何か起きても誰も介入できない状況だ。 ...