Chạy Gemma bằng Kubernetes Engine

Google Cloud Kubernetes Engine cung cấp nhiều lựa chọn triển khai để chạy các mô hình Gemma với hiệu suất cao và độ trễ thấp bằng cách sử dụng các khung phát triển ưu tiên. Hãy xem các hướng dẫn triển khai sau đây cho Hugging Face, vLLM, TensorRT-LLM trên GPU và thực thi TPU bằng JetStream, cùng với hướng dẫn về ứng dụng và điều chỉnh:

Triển khai và phân phát

Phân tích dữ liệu

Tinh chỉnh