Claude Opus超えの新LLM「SubQ」— Subquadratic Sparse Attentionで1200万トークンを実現、コスト1/5に
2026年5月5日、マイアミのスタートアップ Subquadratic が、業界に衝撃を与える新LLM「SubQ」を発表した。キャッチコピーは「Claude Opus超え」。1200万トークンのコンテキスト長、競合比1,000倍のコンピュート削減、1/5以下のコスト——数字だけ見れば夢のような話だ。しかし果たして実態はどうなのか、技術的な仕組みから現時点の課題まで整理する。 SubQとは何か SubQは、Subquadratic Sparse Attention(SSA) と呼ばれる新しいアテンション機構を採用したLLMだ。開発したのはフロリダ州マイアミ拠点のスタートアップ「Subquadratic」で、CEOはJustin Dangel(5回連続起業家)、CTOはAlexander Whedon(元Meta、元TribeAI生成AI部門長)。 2017年のTransformer論文以来、すべての主要LLMはアテンション計算のコストがコンテキスト長の2乗に比例するという「二次スケーリング問題」を抱えてきた。長いコンテキストを扱おうとすると、RAGによるチャンク化・ベクトルDB検索・要約ループといった「誤魔化し」が必要になる理由がここにある。SubQはこの根本問題を解決したと主張している。 Subquadratic Sparse Attention(SSA)の仕組み 従来の密なアテンション(Dense Attention)では、あるトークンが他のすべてのトークンと比較される。コンテキスト長Nに対してコストはO(N²)となり、Nが大きくなるほど指数的に重くなる。 SSAはこれを根本から変える。各クエリトークンに対して、実際に重要な位置だけを選択し、その部分集合についてのみアテンション計算を行う仕組みだ。 標準Transformer: 全N個のトークンを全N個と比較 → コストO(N²) SSA: クエリごとに重要な位置k個を選択してアテンション計算 → O(N×k) kがNに対して十分小さければ → 実質O(N)(線形スケーリング) DeepSeekなどの既存スパースアテンション手法との違いも強調されている。DeepSeekのアプローチはアテンション計算のインデックス構築自体に二次コストが残るのに対し、SSAはその構築コストも線形に抑える設計だという。ただし詳細な技術仕様は非公開のため、この主張は現時点で独立検証できない。 主な性能指標 Subquadraticが公表している数値は以下のとおり。なお、これらはすべて同社による自社計測であり、独立検証は未実施である点に留意が必要だ。 指標 SubQ 比較対象 コンテキスト長(本番API) 100万トークン Claude Opus 4.7: 100万 コンテキスト長(研究用) 1200万トークン Opus 4.7の12倍 速度(1Mトークン時) FlashAttention比 52倍高速 — スループット 150 tokens/秒 — コスト(1Mトークン処理) 約$8 最先端モデル: 約$2,600 コンピュート削減(12Mトークン) 競合比 約1,000倍削減 — コスト面では「Claude Opusの約1/5」と説明されており、長文コンテキスト処理において経済的に圧倒的な優位性を主張している。 ベンチマーク結果 長文コンテキスト評価として注目されているのが MRCR v2(Multi-needle Retrieval and Context Reasoning)だ。複数の情報を長いコンテキストから正確に取り出す能力を測るベンチマークで、長文処理の実力差が出やすい。 ...