本文へスキップ
Bull Note米国株 デイリー戦略ノート

用語 · マーケット構造

Inference Cost / Tokenomics5

推論コストとトークン経済とは|意味・読み方・株式市場での見方をわかりやすく解説

読み: すいろんこすとととーくんけいざい

学習済み生成AIモデルを動かす「推論」にかかる計算コストと、その単位である「トークン」あたりの経済性。AI収益化の鍵が学習から推論へ移ったことを測る物差し。

ひとことで言うと: 学習済みの生成AIを実際に動かして出力を作る「推論 (inference)」にかかる計算コストと、その処理単位である「トークン (token)」あたりの経済性のこと。AI収益化の鍵が「モデルを作る (学習)」から「安く大量に動かす (推論)」へ移ったことを測る物差しになる。

推論コストとトークン経済とは

推論コスト / トークン経済 (Inference Cost / Tokenomics) とは、学習済みの生成AIモデルを実際に動かして出力を作る「推論 (inference)」にかかる計算コストと、その処理単位である「トークン (token)」あたりの経済性を指す。

学習 (training) がモデルを一度作るための固定費 (一回限りの大型投資) であるのに対し、推論はプロンプトを1回処理するたびに発生する変動費で、利用回数に比例して累積する。

コストは通常「100万トークンあたりの価格 ($/1M tokens)」で測られる。ユーザーが渡す入力トークン (input/prompt tokens) と、モデルが生成する出力トークン (output/completion tokens) で単価が分かれ、出力側は1トークンあたりの計算量が大きいため一般に入力より高く設定される。

トークン経済 (Tokenomics) は、このトークン単価を起点に、スループット (一定時間に生成できるトークン量)、レイテンシ (最初のトークンまでの時間 TTFT・トークン間の時間 TPOT)、ハードウェア稼働率を束ねて「収益につながるトークンをいかに安く大量に回すか」を捉える考え方だ。NVIDIA はこれを大量のトークンを生み出す装置という意味で「AIファクトリー」と呼ぶ。

学習との違い — 固定費 vs 変動費

学習は事前に一度払う固定費だが、モデルが日々何十億回も呼ばれると、累積した推論コストは初期の学習投資を大きく上回る。AI収益化の鍵は「推論を安く大量に回せるか」に移る。

トークン単価の構造と低下トレンド

コストは $/1M tokens で計測し、出力トークンは入力トークンより1トークンあたりの計算負荷が高いため割高になりやすい。

同じ性能を達成する単価は年単位で急速に下がってきた。要因はモデルの小型化・効率化、ハードウェアの費用対効果改善、量子化やKVキャッシュ圧縮といった最適化、そして提供者間の価格競争だ。a16z はこれを「LLMflation (推論版デフレ)」と呼ぶ。

ただし低下率はタスクや到達性能で大きく異なり、難度の高い推論タスクほど低下は緩やかになりやすい。

なぜ重要か / 株式市場での見方

推論コストとトークン経済は「生成AIブームが本当に利益を生むか」を測る物差しになる。投資家が見るべき視点は3つ。

第1に、AI収益化のボトルネックが学習から推論へ移った点。モデルを作るより、それを安く大量に動かせるか (粗利を出せるか) が、AIサービス企業のユニットエコノミクスを左右する。トークン単価の下落は、サービス提供者には利益率の圧迫要因にも、利用拡大による増収要因にもなる。

第2に、Jevons paradox (ジェボンズのパラドックス) の効果。トークンが安くなるほど総需要が増え、結果として計算需要が縮むどころか膨らむ傾向がある。「推論が安くなる→AI半導体・クラウドが売れなくなる」という単純な弱気論への反証としてしばしば引かれる。さらに、思考過程を長く回す推論モデル (reasoning / テスト時スケーリング) は1問あたりの出力トークンを大幅に増やすため、単価が下がっても1リクエストの消費トークンが増え、推論需要の追い風になる。

第3に、半導体・クラウドへの波及。トークンあたりコストを下げる主戦場として、NVIDIA の GPU に加え、ハイパースケーラーの自社カスタムASIC (Google TPU、AWS Trainium / Inferentia 等) が台頭している。クラウドにロックインされた利用ではASICが推論コストを大幅に下げ得る一方、NVIDIA は CUDA というソフト資産を堀 (moat) として優位を保つ、という競争構図が投資テーマになる。「トークンあたりコスト」はこの覇権争いを比較する共通指標として使われる。

⚠️ 注記: 誤解しやすい点 — 学習コストと推論コストは性質が違う (固定費 vs 変動費) ため混同しない。また、トークン単価 ($/1M tokens) だけを見ても投資判断はできず、スループット・レイテンシ・稼働率と束ねた「トークンあたり総コスト」で評価する必要がある。安いGPU / チップでも秒間トークン生成量が低ければ、トークンあたりでは割高になり得る。

関連する用語・指標

トークン (Token) は推論コストの計量単位そのもので、入力・出力で単価が分かれる前提を押さえると本用語の理解が深まる。

半導体側では GPU と、Google TPU・AWS Trainium に代表されるカスタムASIC の関係が「トークンあたりコストをどこまで下げられるか」の競争軸になる。

マクロ・需要論では Jevons paradox (ジェボンズのパラドックス) が「コスト低下が総需要を増やす」メカニズムを説明し、AI設備投資 (CapEx) の持続性を読む鍵になる。学習との対比で training (学習) を、AIインフラ全体の収益化の枠組みとして「AIファクトリー」の概念も併せて参照したい。

この記事を共有:でポストはてブ

関連する用語

出典

免責: 本記事は情報提供のみを目的としています。投資勧誘や個別銘柄の売買推奨ではありません。 最終的な投資判断はご自身の責任で行ってください。