Η AMD ανακοίνωσε το γεγονός ότι παρέχει επίσημη υποστήριξη για τη νέα οικογένεια μοντέλων τεχνητής νοημοσύνης Gemma 4 της Google, η οποία εκτείνεται σε μια πληθώρα GPU και CPU. Αυτή η κίνηση ενισχύει τη συνεργασία της AMD με τη Google και φέρνει τεχνολογίες αιχμής πιο κοντά στους προγραμματιστές και τους ερευνητές στις διαρκώς εξελισσόμενες εφαρμογές τεχνητής νοημοσύνης.
AMD Radeon GPU & Ryzen AI CPUs Υποστηρίζουν πλήρως το μοντέλο Gemma 4 AI της Google
Στην πρόσφατη εκδήλωση, η Google παρουσίασε τη νέα σειρά AI μοντέλων, γνωστή ως Gemma 4, η οποία περιλαμβάνει ποικιλία μεγεθών από 2 δισεκατομμύρια μέχρι 31 δισεκατομμύρια παραμέτρους. Στο πλαίσιο αυτής της ανακοίνωσης, η AMD ανακοίνωσε την υποστήριξη για ολόκληρη τη σειρά Radeon GPU και Ryzen AI CPUs της.
Δελτίο Τύπου: Η AMD εκφράζει τη χαρά της για την προσφορά υποστήριξης Day Zero για τα μοντέλα Gemma 4 σε όλο το χαρτοφυλάκιο των προϊόντων της με δυνατότητες AI.
Η υποστήριξη περιλαμβάνει:
- GPU AMD Instinct για cloud και εταιρικά κέντρα δεδομένων.
- AMD Radeon GPU για σταθμούς εργασίας AI.
- Επεξεργαστές AMD Ryzen AI για υπολογιστές AI.
Αυτή η υποστήριξη σχετίζεται με τις πιο διαδεδομένες εφαρμογές τεχνητής νοημοσύνης, όπως το LM Studio, καθώς και με έργα ανοιχτού κώδικα όπως τα vLLM, SGLang, llama.cpp, Ollama και Lemonade.
Ανάπτυξη με vLLM
Η ανάπτυξη του Gemma 4 μπορεί να πραγματοποιηθεί σε GPU της AMD με τη χρήση του vLLM, το οποίο προσφέρει πολλές βελτιώσεις στον τομέα της υποστήριξης πολλαπλών ταυτόχρονων αιτημάτων. Η πλήρης γκάμα GPU της AMD που υποστηρίζεται από το vLLM περιλαμβάνει αρκετές γενιές συσκευών Instinct και Radeon. Η υποστήριξη αυτή σχεδιάζεται τόσο για την αρχική έκδοση του Gemma 4 όσο και για τις μελλοντικές εκδόσεις, με τη δυνατότητα εγκατάστασης είτε μέσω ενός Docker image είτε ως πακέτο Python, με οδηγίες που είναι διαθέσιμες στο vLLM official site.
docker pull vllm/vllm-openai-rocm:gemma4Για όλες τις GPU της AMD, το vLLM μπορεί να καλείται με την εντολή:
vllm serve vllm/vllm-openai-rocm:gemma4 --attention-backend TRITON_ATTN
Προβλέπεται επίσης υποστήριξη για άλλα backends προσοχής που θα προσφέρουν επιπλέον βελτιστοποιήσεις στα μοντέλα της σειράς MI300 και MI350 σύντομα.
Ανάπτυξη με SGLang
Το Gemma 4 μπορεί να αναπτυχθεί σε GPU της AMD MI300X/MI325X/MI35X χρησιμοποιώντας το SGLang, το οποίο παρέχει εξαιρετική απόδοση. Το SGLang υποστηρίζει μια πλήρη σειρά μοντέλων Gemma 4, συμπεριλαμβανομένων των πυκνών μοντέλων (E2B, E4B, 31B) καθώς και της παραλλαγής MoE (26B-A4B) με υποστήριξη μέσω Docker image. Οι λεπτομέρειες και η τεκμηρίωση είναι διαθέσιμες στην ιστοσελίδα του SGLang Cookbook.
Όλα τα μοντέλα Gemma 4 απαιτούν το backend προσοχής Triton, διασφαλίζοντας την αμφίδρομη προσοχή με ακρίβεια. Η κλήση μπορεί να γίνει με:
python3 -m sglang.launch_server --model-path --attention-backend triton --tp 1
Ειδικά, το μοντέλο Gemma 4 μπορεί να φιλοξενηθεί πλήρως σε μια GPU MI300X, αξιοποιώντας τη μνήμη των 192 GB HBM με TP=1. Για αυξημένα φορτία εργασίας, μπορεί να ρυθμιστεί ο παραλληλισμός τανυστών, π.χ. –tp 2.
Ανάπτυξη σε τοπικό υλικό με το LM Studio
Οι δυνατότητες ανάπτυξης των μοντέλων Gemma 4 επεκτείνονται και στο LM Studio, ένα έργο ανοιχτού κώδικα. Με την υποστήριξη του LM Studio, οι χρήστες μπορούν να αναπτύξουν γρήγορα τα μοντέλα σε υποστηριζόμενο υλικό, όπως AMD Ryzen AI και Radeon GPUs. Η αίτηση LM Studio μπορεί να κατεβεί από το επίσημο site, και μπορεί να συνδυαστεί με τους τελευταίους οδηγούς AMD Adrenalin Edition.
Ανάπτυξη σε τοπικό υλικό με το Lemonade Server
Ο Διακομιστής Limonade προσφέρει την ευχέρεια ανάπτυξης μοντέλων Gemma 4 σε υλικό AMD μέσω ενός τοπικού διακομιστή LLM ανοιχτού κώδικα. Υποστηρίζει επιτάχυνση σε GPU AMD Radeon και Radeon PRO μέσω ROCm, καθώς και σε AMD Ryzen AI χρησιμοποιώντας το XDNA 2 NPU.
Ανάπτυξη GPU με Lemonade και ROCm
Για να εκτελέσετε το Gemma 4 σε GPU της AMD με επιτάχυνση ROCm, πρέπει να:
- Εγκαταστήσετε το Lemonade και να κατεβάσετε την έκδοση ROCm του llama.cpp από το απελευθέρωση τεχνουργημάτων.
- Να ρυθμίσετε τη μεταβλητή περιβάλλοντος ώστε να δείχνει στον κατάλογο του Lemonade:
export LEMONADE_LLAMACPP_ROCM_BIN=/path/to/llama-server
- Για να ξεκινήσετε το Lemonade και να φορτώσετε το μοντέλο Gemma 4 μέσω του API:
lemonade-server serve curl http://localhost:8000/api/v1/pull \ -H "Content-Type: application/json" \ -d '{"model_name": "user.Gemma-4-E4B-IT", "checkpoint": "", "recipe": "llamacpp"}'
- Στη συνέχεια, μπορείτε να αλληλεπιδράσετε με το μοντέλο μέσω του API συμβατού με OpenAI:
curl http://localhost:8000/api/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{"model": "user.Gemma-4-E4B-IT", "messages": [{"role": "user", "content": "Hello!"}], "llamacpp": "rocm"}'
Ανάπτυξη NPU με Ryzen AI
Οι προγραμματιστές tendrán τη δυνατότητα να αναπτύξουν τα μοντέλα Gemma 4 σε NPU, αξιοποιώντας τον Διακομιστή Lemonade, ο οποίος υποστηρίζει την τελευταία AMD XDNA 2 NPU. Η υποστήριξη για τα μοντέλα Gemma-4 E2B και E4B θα είναι προσιτή με επόμενες ενημερώσεις του Ryzen AI SW, επίσης ενσωματωμένες στον Lemonade και διαθέσιμες μέσω του OnnxRuntime API.
