Kubernetes Engine で Gemma を実行する

Google Cloud Kubernetes Engine には、優先する開発フレームワークを使用して Gemma モデルを高パフォーマンスで低レイテンシで実行するための幅広いデプロイ オプションが用意されています。Hugging Face、vLLM、GPU での TensorRT-LLM、JetStream での TPU 実行、アプリケーション、チューニングのガイドについては、次のデプロイガイドをご覧ください。

デプロイと提供

データの分析

ファインチューニング