Google Cloud Kubernetes Engine には、優先する開発フレームワークを使用して Gemma モデルを高パフォーマンスで低レイテンシで実行するための幅広いデプロイ オプションが用意されています。Hugging Face、vLLM、GPU での TensorRT-LLM、JetStream での TPU 実行、アプリケーション、チューニングのガイドについては、次のデプロイガイドをご覧ください。
デプロイと提供
Hugging Face TGI を使用して GPU で Gemma を提供する: GPU と Hugging Face Text Generation Inference(TGI)フレームワークを使用して、GKE に Gemma モデルをデプロイします。
vLLM を使用して GPU で Gemma を提供する: vLLM を使用して Gemma をデプロイすると、モデルの負荷管理が容易になり、スループットが向上します。
TensorRT-LLM を使用して GPU で Gemma を提供する: NVIDIA TensorRT-LLM を使用して Gemma をデプロイし、モデル運用の効率を最大化します。
JetStream を使用して TPU で Gemma を提供する: 高パフォーマンスと低レイテンシを実現するために、TPU プロセッサに JetStream を使用して Gemma をデプロイします。
データの分析
- BigQuery、Cloud Run、Gemma を使用して GKE のデータを分析する: BigQuery と Gemma を使用してデータ分析パイプラインを構築します。
ファインチューニング
- 複数の GPU を使用して Gemma オープンモデルをファインチューニングする: 独自のデータセットに基づいて Gemma の動作をカスタマイズします。