Kubernetes Engine で Gemma を実行する

Google Cloud Kubernetes Engine には、優先する開発フレームワークを使用して Gemma モデルを高パフォーマンスで低レイテンシで実行するための幅広いデプロイオプションが用意されています。Hugging Face、vLLM、GPU での TensorRT-LLM、JetStream での TPU 実行、アプリケーション、チューニングのガイドについては、次のデプロイガイドをご覧ください。

デプロイと提供

Hugging Face TGI を使用して GPU で Gemma を提供する: GPU と Hugging Face Text Generation Inference（TGI）フレームワークを使用して、GKE に Gemma モデルをデプロイします。
vLLM を使用して GPU で Gemma を提供する: vLLM を使用して Gemma をデプロイすると、モデルの負荷管理が容易になり、スループットが向上します。
TensorRT-LLM を使用して GPU で Gemma を提供する: NVIDIA TensorRT-LLM を使用して Gemma をデプロイし、モデル運用の効率を最大化します。
JetStream を使用して TPU で Gemma を提供する: 高パフォーマンスと低レイテンシを実現するために、TPU プロセッサに JetStream を使用して Gemma をデプロイします。

データの分析

BigQuery、Cloud Run、Gemma を使用して GKE のデータを分析する: BigQuery と Gemma を使用してデータ分析パイプラインを構築します。

ファインチューニング

複数の GPU を使用して Gemma オープンモデルをファインチューニングする: 独自のデータセットに基づいて Gemma の動作をカスタマイズします。