COLUMN

コラム

2026年06月28日

KubernetesでLLM推論を本番運用する完全ガイド2026｜vLLM・KubeAI・llm-d徹底比較

2026年、生成AIを本番システムで動かすことが当たり前になった。しかし「LLMをKubernetes上に乗せたい」と思い立ったとき、多くのエンジニアが同じ壁にぶつかる。「vLLM、KubeAI、llm-dって全部違うの？どれを使えばいい？」「GPUコストが高すぎて社内稟議が通らない」「設定が複雑すぎて本番まで持っていけない」。

CNCFの2026年年次調査によれば、生成AIを運用している組織の66%がKubernetesで推論ワークロードを実行している（K8s本番運用率は82%）。もはやKubernetes × LLM推論は特別な取り組みではなく、業界標準だ。

この記事では、Kubernetes上でLLM推論を本番稼働させるために必要な知識を体系的に解説する。ツールの選び方から実践的な構成、GPUコスト削減のコツまで、迷わず動かせるレベルまで一気に掘り下げる。

なぜKubernetesがLLM推論のスタンダードになったのか

LLM推論の基盤としてKubernetesが選ばれる理由は、単純に「コンテナが動く」からではない。AIワークロード特有の課題を解決する3つの強みがある。

① スケーラビリティと柔軟性
LLM推論はリクエスト数によって必要なGPUリソースが大きく変動する。Kubernetesのオートスケーリング機能を使えば、アイドル時はゼロにスケールダウンしてコストを削減し、トラフィックが急増したときだけGPUノードを起動できる。

② エコシステムの充実
vLLM、KubeAI、llm-d、Kueueなど、AI推論に特化したKubernetesネイティブのツール群が2025〜2026年にかけて急速に成熟した。CNCF（Cloud Native Computing Foundation）がこれらのプロジェクトを積極的に取り込み、標準化が進んでいる。

③ 標準化の加速：KARs v1.35
2026年3月、CNCFは「Kubernetes AI Requirements（KARs）v1.35」を発表した。安定したIn-Place Podリサイジング、ワークロード対応スケジューリング、高性能Pod間通信が必須要件として定義され、31の認定プラットフォームが対応済みだ。この標準化により、ベンダーロックインを避けながらマルチクラウド・オンプレミスで一貫したAI推論基盤を構築できるようになった。

LLM推論の基礎知識：なぜ普通のWebアプリと違うのか

KubernetesでLLM推論を動かす前に、その特殊性を理解しておく必要がある。LLM推論は通常のWebアプリケーションとはリソース特性がまったく異なる。

推論処理の3フェーズ

LLMが1つのレスポンスを生成するまでに、内部では3つのフェーズが実行される。

トークン化（CPU集約）：入力テキストをモデルが処理できるトークン列に変換する。CPUで処理されるため、比較的軽量。
Prefill（プリフィル）（GPU計算集約）：入力トークン全体を並列に処理してKey-Valueキャッシュ（KVキャッシュ）を生成する。GPUの計算能力がフル稼働する最も重い処理。このフェーズの終了時間が「TTFT（Time To First Token）」＝最初のトークンが返るまでの時間に直結する。
Decode（デコード）（GPUメモリ帯域集約）：生成されたトークンを1つずつ順番に出力する。GPUのメモリ帯域が律速となる。1トークンあたりの生成時間が「TPOT（Time Per Output Token）」だ。

ユーザーが体感するレイテンシ＝ TTFT ＋（TPOT × 生成トークン数）

KVキャッシュ最適化が鍵になる理由

PrefillフェーズではKVキャッシュが大量のGPUメモリを消費する。同じプレフィックス（システムプロンプトなど）を持つリクエストが来た場合、KVキャッシュを再利用することで計算を大幅に省ける。このキャッシュ管理の巧拙がスループットとコストに直接影響する。後述するvLLMの「PagedAttention」やllm-dのインテリジェントルーティングは、このKVキャッシュ最適化を中心に設計されている。

2026年のKubernetes AI推論ツール完全比較

2026年現在、Kubernetes上でLLM推論を実行するための主要ツールは以下の5つだ。用途・規模・チーム体制によって最適な選択が変わる。

vLLM（推論エンジン）：小〜中規模向け。PagedAttention・OpenAI互換API・シンプルさが最大の強み。2026年のデファクトスタンダード推論エンジン。
KubeAI（K8s推論オペレーター）：小〜中規模向け。スケールゼロ・Istio/Knative不要・運用コスト低が強み。
llm-d（分散推論フレームワーク）：大規模向け。Disaggregated Inferenceにより13.9倍のスループット向上を実現。CNCFサンドボックスプロジェクト。
KServe（モデルサービング基盤）：中〜大規模向け。カナリアデプロイ・K8sネイティブオートスケーリングに強み。
Kueue（GPUジョブキュー）：全規模対応。フェアシェアスケジューリングでGPU利用率を最大2.4倍に改善。

選択フローチャート

まずはvLLM単体で動作確認してから本番化の方針を決めよう。

モデルが70Bパラメータ未満・チーム5人以下 → KubeAI + vLLM（シンプル・低コスト）
70B以上・月間APIリクエスト1億以上・マルチモデル → llm-d + vLLM + KServe（エンタープライズ構成）
複数チームでGPUを共有したい → Kueueを追加（全構成に有効）

各ツールの詳細

vLLM
PagedAttentionとContinuous Batchingを核に持つLLM推論エンジン。OpenAI互換のREST APIをそのまま提供するため、既存のアプリケーションをほぼ変更なしに移行できる。2026年のデファクトスタンダードとして、後述するすべてのツールのバックエンドとして機能する。

KubeAI
「本番向けAI推論をKubernetesで最も簡単に動かす」というコンセプトのオペレーター。v0.23.2からIstioやKnativeへの依存が完全になくなり、バニラのKubernetesクラスターで動作する。最大の特徴はスケールゼロ（Scale to Zero）：アイドル時はPodを0台に落とし、リクエストが来た瞬間に起動してコストを最小化する（コールドスタートは30〜120秒）。さらにKVキャッシュを意識したプレフィックス対応ロードバランシングを内蔵しており、同一プレフィックスのリクエストを同じPodに転送してキャッシュヒット率を高める。

llm-d（CNCF Sandboxプロジェクト）
2026年3月24日、GoogleとRed Hat・IBM Research・CoreWeave・NVIDIAが共同でCNCFサンドボックスに寄贈したKubernetesネイティブの分散推論フレームワーク。「あらゆるモデル・あらゆるアクセラレータ・あらゆるクラウド」をビジョンに掲げる。

最大の特徴はDisaggregated Inference（分離推論）：PrefillとDecodeを別々のワーカープールに分離し、それぞれ独立してスケーリングする。実測値ではTTFT（初回トークンまでの時間）35%以上短縮、P95テールレイテンシ52%改善、KVキャッシュヒット率35% → 70%（2倍）、250同時ユーザー時のスループットはGPU-only比で13.9倍を記録している。

Kueue
GPUリソースをチーム間でフェアに配分するジョブキューイングシステム。Kueueの導入により、GPU利用率が25〜35%から60〜85%まで改善したという報告がある（最大2.4倍）。複数チームや複数のLLMプロジェクトがGPUクラスターを共有する場合は、他のツールと組み合わせて必ず導入したい。

【実践】vLLM + KubeAIで本番LLM推論環境を構築する

ここからは、KubeAI + vLLMによる本番構成の実践ガイドを解説する。KubeAIはHelmチャートで10分程度でインストールでき、小〜中規模の本番環境を迅速に立ち上げられる。

ステップ1：KubeAIのインストール

KubeAIはHelm経由でインストールする。既存のKubernetesクラスター（v1.28以上）があれば、Istio・Knative等の追加依存なしにそのまま動かせる。

helm repo add kubeai https://charts.kubeai.org
helm repo update
helm install kubeai kubeai/kubeai --namespace kubeai-system --create-namespace

ステップ2：モデルのデプロイ

KubeAIはAIModelというCustom Resource（CR）でモデルを管理する。minReplicas: 0を設定するだけでスケールゼロが有効になり、リクエストが来るとKubeAIが自動的にPodを起動し、アイドル時は0台に戻す。

apiVersion: kubeai.org/v1
kind: AIModel
metadata:
  name: llama-3-1-8b
spec:
  model: ollama://llama3.1:8b
  minReplicas: 0      # スケールゼロ有効
  maxReplicas: 3
  resourceProfile: nvidia-gpu-l4:1

ステップ3：モニタリングの設定

本番運用には以下のメトリクスの監視が必須だ。vLLMは/metricsエンドポイントでPrometheus形式のメトリクスを標準公開しているため、追加設定なしで収集できる。

TTFT（Time To First Token）p99：ユーザー体験の最重要指標。Prometheusで収集し、Grafanaで可視化する
KVキャッシュ利用率：75〜80%を超えると急激にレイテンシが悪化する。この値をKEDA（Kubernetes Event-driven Autoscaling）のスケーリングトリガーとして使うのが推奨パターン
リクエストキューの深さ：バックプレッシャーの検知に使う

大規模運用に進むなら：llm-dとDisaggregated Inferenceの世界

KubeAI + vLLMで限界が見えてきたら、次のステップはllm-dによるDisaggregated Inference（分離推論）への移行だ。特に以下のケースで効果が大きい。

モデルサイズが70Bパラメータ以上（単一GPUに収まらない）
月間APIリクエストが1億を超える（スケールアップのコストが無視できない）
低レイテンシが要件（TTFT 500ms以下などSLAが厳しい）
複数モデルを同一クラスターで運用する

llm-dアーキテクチャの概要

llm-dは3層で構成される。EPP（Endpoint Picker）がリアルタイムでKVキャッシュの状態を監視し、「このリクエストはどのPodが最もキャッシュヒット率が高いか」を判断してルーティングする。これにより、同じプロンプトプレフィックスを持つリクエストが自然に同じPodに集まり、キャッシュヒット率が35%から70%へと倍増する。

agentgateway / GKE Inference Gateway：インテリジェントルーティング層。KVキャッシュヒット率・キュー深さでリアルタイム最適Pod選択
llm-d Endpoint Picker（EPP）：中間調停レイヤー。各Podの負荷状況を収集・判断
Prefill / Decode ワーカー群：vLLMバックエンドを分離運用。計算集約とメモリ集約のノードを使い分け

GPUコストを削減するための実践的な設定

AI推論基盤で最も大きなコスト要因はGPUだ。G5・G6・P5インスタンスは1時間あたり数十ドルに達する。以下の設定を組み合わせることで、GPUコストを大幅に削減できる。

① Kueueによるフェアシェアスケジューリング

複数のチームやプロジェクトが同じGPUクラスターを使う場合、Kueueを導入するだけでGPU利用率が25〜35%から60〜85%に改善する。先着順のジョブキューで「頭詰まり（Head-of-Line Blocking）」を防ぎ、GPUを遊ばせる時間を最小化する仕組みだ。

② スケールゼロ設定のトレードオフ管理

KubeAIのスケールゼロ機能は強力だが、コールドスタートに30〜120秒かかる。用途に応じてminReplicasを調整しよう。

社内ツール・低頻度利用：minReplicas: 0（コスト最優先）
ユーザー向けAPI：minReplicas: 1（レイテンシ優先）
24/7高頻度：minReplicas: 2以上（可用性優先）

③ vLLMのKVキャッシュ最適化

vLLMのデプロイ時に以下の2つのオプションが特に効果的だ。--gpu-memory-utilizationを高くすればKVキャッシュが増えてスループットが上がるが、OOM（Out of Memory）リスクも上がる。まず0.85で動かして負荷テストで調整するのが安全だ。

--gpu-memory-utilization 0.90 # GPUメモリの90%をKVキャッシュに使用
--enable-prefix-caching # プレフィックスキャッシュを有効化

まとめ

Kubernetes上でLLM推論を本番運用するための要点をまとめる。

まず vLLM + KubeAI から始める：PoCから本番まで10〜14日で構築できる最速スタートライン
大規模化・低レイテンシが必要になったら llm-d へ：Disaggregated Inferenceでスループット最大13.9倍、TTFT 35%短縮を実現
GPUコスト削減には Kueue + スケールゼロ + KVキャッシュ最適化の三点セットが有効
KARs v1.35対応プラットフォームを選ぶことで、ベンダーロックインを避けながら標準化の恩恵を受けられる

これらの構成を自社で一から構築・運用するのは、相応のKubernetesとMLOpsの知識が必要だ。「AIワークロードに対応したK8s基盤を手早く用意したい」「GPU管理やスケーリングの運用負荷を下げたい」という場合は、マネージドKubernetes基盤という選択肢も検討してほしい。

オンプレで選ばれるマネージドコンテナ『Kubo』の詳細はこちら。

こちらの記事もあわせてお読みください

『Dockerだけでは足りない。』2026年、AI駆動開発基盤に必要な Docker × Kubernetes × 自動化の全体設計
Docker Agentic ComposeやKubernetesとAI自動化の組み合わせを解説。AI駆動開発基盤の全体設計を理解できます。
Kubernetes(クバネティス)マネージドサービスとは何か？：主要6サービスの特徴をざっくり紹介
GKE・EKS・AKSなど主要マネージドKubernetesサービスの特徴を比較・紹介しています。
Kubernetes(クバネティス)を導入する7つの効果 – コンテナオーケストレーションプラットフォームが進化させるシステム開発と運用
Kubernetesの導入によってシステム開発・運用に得られる7つの具体的なメリットを解説しています。
プライバシーにも安心なローカルLLMの最新状況まとめ
データをクラウドに送らずにLLMを活用できるローカルLLMの最新動向と主要ツールをまとめています。

役に立ったら、記事をシェアしてください