Google Cloud Kubernetes Engine cung cấp nhiều lựa chọn triển khai để chạy các mô hình Gemma với hiệu suất cao và độ trễ thấp bằng cách sử dụng các khung phát triển ưu tiên. Hãy xem các hướng dẫn triển khai sau đây cho Hugging Face, vLLM, TensorRT-LLM trên GPU và thực thi TPU bằng JetStream, cùng với hướng dẫn về ứng dụng và điều chỉnh:
Triển khai và phân phát
Phân phát Gemma trên GPU bằng Hugging Face TGI: Triển khai các mô hình Gemma trên GKE bằng GPU và khung suy luận tạo văn bản (TGI) của Hugging Face.
Phân phát Gemma trên GPU bằng vLLM: Triển khai Gemma bằng vLLM để quản lý tải mô hình thuận tiện và có thông lượng cao.
Phân phát Gemma trên GPU bằng TensorRT-LLM: Triển khai Gemma bằng NVIDIA TensorRT-LLM để tối đa hoá hiệu quả hoạt động của mô hình.
Phân phát Gemma trên TPU bằng JetStream: Triển khai Gemma bằng JetStream trên bộ xử lý TPU để có hiệu suất cao và độ trễ thấp.
Phân tích dữ liệu
- Phân tích dữ liệu trên GKE bằng BigQuery, Cloud Run và Gemma: Tạo quy trình phân tích dữ liệu bằng BigQuery và Gemma.
Tinh chỉnh
- Chỉnh sửa mô hình mở của Gemma bằng nhiều GPU: Tuỳ chỉnh hành vi của Gemma dựa trên tập dữ liệu của riêng bạn.