Claude Opus超えの新LLM「SubQ」— Subquadratic Sparse Attentionで1200万トークンを実現、コスト1/5に

2026年5月5日、マイアミのスタートアップ Subquadratic が、業界に衝撃を与える新LLM「SubQ」を発表した。キャッチコピーは「Claude Opus超え」。1200万トークンのコンテキスト長、競合比1,000倍のコンピュート削減、1/5以下のコスト——数字だけ見れば夢のような話だ。しかし果たして実態はどうなのか、技術的な仕組みから現時点の課題まで整理する。

SubQとは何か

SubQは、Subquadratic Sparse Attention（SSA） と呼ばれる新しいアテンション機構を採用したLLMだ。開発したのはフロリダ州マイアミ拠点のスタートアップ「Subquadratic」で、CEOはJustin Dangel（5回連続起業家）、CTOはAlexander Whedon（元Meta、元TribeAI生成AI部門長）。

2017年のTransformer論文以来、すべての主要LLMはアテンション計算のコストがコンテキスト長の2乗に比例するという「二次スケーリング問題」を抱えてきた。長いコンテキストを扱おうとすると、RAGによるチャンク化・ベクトルDB検索・要約ループといった「誤魔化し」が必要になる理由がここにある。SubQはこの根本問題を解決したと主張している。

Subquadratic Sparse Attention（SSA）の仕組み

従来の密なアテンション（Dense Attention）では、あるトークンが他のすべてのトークンと比較される。コンテキスト長Nに対してコストはO(N²)となり、Nが大きくなるほど指数的に重くなる。

SSAはこれを根本から変える。各クエリトークンに対して、実際に重要な位置だけを選択し、その部分集合についてのみアテンション計算を行う仕組みだ。

標準Transformer: 全N個のトークンを全N個と比較 → コストO(N²)
SSA: クエリごとに重要な位置k個を選択してアテンション計算 → O(N×k)
kがNに対して十分小さければ → 実質O(N)（線形スケーリング）

DeepSeekなどの既存スパースアテンション手法との違いも強調されている。DeepSeekのアプローチはアテンション計算のインデックス構築自体に二次コストが残るのに対し、SSAはその構築コストも線形に抑える設計だという。ただし詳細な技術仕様は非公開のため、この主張は現時点で独立検証できない。

主な性能指標

Subquadraticが公表している数値は以下のとおり。なお、これらはすべて同社による自社計測であり、独立検証は未実施である点に留意が必要だ。

指標	SubQ	比較対象
コンテキスト長（本番API）	100万トークン	Claude Opus 4.7: 100万
コンテキスト長（研究用）	1200万トークン	Opus 4.7の12倍
速度（1Mトークン時）	FlashAttention比 52倍高速	—
スループット	150 tokens/秒	—
コスト（1Mトークン処理）	約$8	最先端モデル: 約$2,600
コンピュート削減（12Mトークン）	競合比約1,000倍削減	—

コスト面では「Claude Opusの約1/5」と説明されており、長文コンテキスト処理において経済的に圧倒的な優位性を主張している。

ベンチマーク結果

長文コンテキスト評価として注目されているのが MRCR v2（Multi-needle Retrieval and Context Reasoning）だ。複数の情報を長いコンテキストから正確に取り出す能力を測るベンチマークで、長文処理の実力差が出やすい。

モデル	MRCR v2スコア
SubQ	83
Claude Opus 4.7	78
GPT-5.4	39
Gemini 3.1 Pro	23

長文コンテキストの正確性を測る RULER 128k では97%のスコアを記録。長文処理の苦手なモデルとの差は歴然としている。

懐疑的な見方と課題

発表直後からコミュニティでは激論が起きている。VentureBeatは「Transformerの最大のブレークスルーか、AI版セラノスか」と報じた。

主な懐疑点は以下のとおり。

査読付き論文が存在しない: 技術レポートは「coming soon」のみで独立検証が不可能
ウェイトが非公開（Closed-weights）: オープンソースのベースモデルからスタートしているとされるが、学習済みウェイト自体は非公開
ベンチマークの独立検証なし: 公表されている数値はすべて自社計測
詳細なSSA実装が未開示: 「どのようにして重要な位置を選択するか」の具体的なアルゴリズムは明らかにされていない

X（旧Twitter）上では「理論的には美しいが、本当に機能するなら論文を出すべき」という指摘が複数の技術者から上がっている。

現在の利用可能性

現時点ではプライベートベータのみ。ウェイトリストへの登録で利用申請できる形となっている。

SubQ API: 本番環境では最大100万トークンのコンテキスト
SubQ Code: CLIエージェント（コード生成・補助用途）
SubQ Search: 長文コンテキスト対応の無料リサーチツール

1200万トークンコンテキストは「research config」と一部エンタープライズ向けに限定されており、一般公開は未定。シード資金として**$2,900万（評価額約$5億）**を調達済みであることも明かされている。

まとめ

SubQが主張する内容が正しければ、LLM業界の構造的制約を初めて「本当に解決した」という意味で、2017年のTransformer登場以来最大の技術革新となりうる。RAGやチャンク化といった現在の「誤魔化し」が必要なくなり、100万トークン規模のドキュメントをまるごと扱えるシステムが現実的なコストで実現する。

ただし現時点では独立した検証がなく、「AI版セラノス」となるリスクも否定できない。技術レポートの公開と独立機関によるベンチマーク検証が行われるまでは、冷静に見守ることが賢明だ。

今後の注目ポイントは次の3つ。

技術レポートの公開: SSAの詳細が明かされるか
一般向けAPIの開放: プライベートベータを超えて広く使えるようになるか
独立ベンチマーク: HuggingFaceや学術機関による第三者評価

ツール・サービスの詳細は subq.ai や SubQ紹介記事で確認できる。

情報ソース: X @SuguruKun_ai によるツイート、Subquadratic公式、SiliconANGLE

SubQとは何か#

Subquadratic Sparse Attention（SSA）の仕組み#

主な性能指標#

ベンチマーク結果#

懐疑的な見方と課題#

現在の利用可能性#

まとめ#