Google Cloud Kubernetes Engine, Gemma मॉडल को डिप्लॉय करने के लिए कई विकल्प उपलब्ध कराता है. इनकी मदद से, पसंदीदा डेवलपमेंट फ़्रेमवर्क का इस्तेमाल करके, बेहतर परफ़ॉर्मेंस और कम इंतज़ार के साथ मॉडल चलाए जा सकते हैं. जीपीयू पर Hugging Face, vLLM, और TensorRT-LLM के साथ-साथ JetStream की मदद से TPU पर एग्ज़ीक्यूशन के लिए, डिप्लॉयमेंट से जुड़ी ये गाइड देखें. साथ ही, ऐप्लिकेशन और ट्यूनिंग से जुड़ी गाइड भी देखें:
डिप्लॉय और दिखाना
Hugging Face TGI की मदद से, GPU पर Gemma का इस्तेमाल करना: GPU और Hugging Face Text Generation (TGI) फ़्रेमवर्क का इस्तेमाल करके, GKE पर Gemma मॉडल डिप्लॉय करें.
vLLM की मदद से, जीपीयू पर Gemma का इस्तेमाल करना: मॉडल लोड मैनेजमेंट और ज़्यादा थ्रूपुट के लिए, vLLM की मदद से Gemma को डिप्लॉय करें.
TensorRT-LLM की मदद से, जीपीयू पर Gemma का इस्तेमाल करना: मॉडल के काम करने की क्षमता को बढ़ाने के लिए, NVIDIA TensorRT-LLM की मदद से Gemma को डिप्लॉय करें.
JetStream की मदद से TPU पर Gemma का इस्तेमाल करना: बेहतरीन परफ़ॉर्मेंस और कम इंतज़ार के लिए, TPU प्रोसेसर पर JetStream की मदद से Gemma को डिप्लॉय करें.
डेटा का विश्लेषण करना
- BigQuery, Cloud Run, और Gemma का इस्तेमाल करके, GKE पर डेटा का विश्लेषण करना: BigQuery और Gemma की मदद से, डेटा विश्लेषण पाइपलाइन बनाएं.
फ़ाइन-ट्यून करना
- एक से ज़्यादा जीपीयू का इस्तेमाल करके, Gemma के ओपन मॉडल को बेहतर बनाएं: अपने डेटासेट के आधार पर, Gemma के व्यवहार को पसंद के मुताबिक बनाएं.