Η σειρά Instinct GPU της AMD γίνεται δημοφιλής στην κοινότητα των υπολογιστών και της τεχνητής νοημοσύνης. Να γιατί.

Δεν υπάρχει αμφιβολία ότι η NVIDIA συνεχίζει να κυριαρχεί στον χώρο παράλληλων υπολογιστών με τις διάφορες δημοφιλείς σειρές GPU της. Αλλά με τους επιταχυντές AI Instinct της AMD που εξοπλίζουν δύο από τους νεότερους και μεγαλύτερους υπερυπολογιστές (Frontier και El Capitan) και την αυξανόμενη υποστήριξη της κοινότητας για την πλατφόρμα ανοιχτού κώδικα ROCm, η NVIDIA μπορεί να έχει βρει τον μεγαλύτερο αντίπαλό της μέχρι σήμερα.

Τι ακριβώς είναι λοιπόν οι επιταχυντές AI Instinct της AMD; Τι τα κάνει ισχυρά και πώς συγκρίνονται με τις GPU Tensor της NVIDIA;

Τι είναι ένας επεξεργαστής AMD Instinct;

Οι επεξεργαστές Instinct της AMD είναι υλικό εταιρικής ποιότητας που χρησιμοποιείται για υπολογιστές υψηλής απόδοσης (HPC) και επεξεργασία με επιτάχυνση AI. Σε αντίθεση με τις κανονικές GPU καταναλωτικής ποιότητας, οι GPU Instinct είναι εξειδικευμένες για να χειρίζονται καλύτερα την εκμάθηση τεχνητής νοημοσύνης και άλλες εργασίες υψηλής απόδοσης μέσω καινοτομιών λογισμικού και υλικού.

instagram viewer

Η σειρά GPU της AMD Instinct χρησιμοποιήθηκε για να τροφοδοτήσει τον πρώτο υπερυπολογιστή για να σπάσει το φράγμα Exascale, με απόδοση 1,1 EFLOP σε λειτουργίες διπλής ακρίβειας ανά δευτερόλεπτο. Οι υπερυπολογιστές που χρησιμοποιούν GPU Instinct χρησιμοποιούνται επί του παρόντος για την έρευνα θεραπειών για τον καρκίνο, τη βιώσιμη ενέργεια και την κλιματική αλλαγή.

Πώς οι Instinct Processors επιταχύνουν την τεχνητή νοημοσύνη και το HPC

Για τους ισχυρότερους mainstream διακομιστές και υπερυπολογιστές στον κόσμο Για να επιτευχθεί επεξεργασία σε επίπεδο Exascale, οι επιταχυντές Instinct της AMD έπρεπε να εξοπλιστούν με αρκετές τεχνολογικές αναβαθμίσεις και καινοτομίες.

Ας συζητήσουμε μερικές από τις νέες και ενημερωμένες τεχνολογίες που χρησιμοποιούνται στις GPU της AMD Instinct.

1. Υπολογισμός DNA (CDNA)

Πίστωση εικόνας: Pascal Liebart/Βιβλιοθήκη AMD

Οι πρόσφατοι επιταχυντές AMD Instinct (ξεκινώντας από το MI100) έχουν χρησιμοποιήσει την αρχιτεκτονική CDNA της εταιρείας.

Το CDNA εστιάζει κυρίως σε χαρακτηριστικά όπως η παράλληλη επεξεργασία, η ιεραρχία μνήμης και οι βελτιστοποιημένες υπολογιστικές επιδόσεις μέσω της τεχνολογίας Matrix Core. Ακόμη και το HPC και το AI ή η μηχανική εκμάθηση που εκτελείται σε μεμονωμένους διακομιστές μπορούν να υποστηριχθούν από το CDNA, καθώς και από τεράστιους υπολογιστές Exascale.

Η τεχνολογία Matrix Core της AMD επιταχύνει την εκμάθηση AI υποστηρίζοντας λειτουργίες μικτής ακρίβειας. Η ικανότητα υπολογισμού με διαφορετική ακρίβεια επιτρέπει στις Instinct GPU να υπολογίζουν αποτελεσματικά τις λειτουργίες μήτρας με βάση το επίπεδο ακρίβειας που απαιτείται.

Οι πιο δημοφιλείς μορφές υπολογιστικής ακρίβειας περιλαμβάνουν τα FP64, FP32, FP16, BF16 και INT8. Το FP σημαίνει Floating Point, BF για Brain Floating Point και INT για Integer. Όσο μεγαλύτερος είναι ο αριθμός που αντιστοιχεί στη μορφή, τόσο πιο ακριβής είναι ο υπολογισμός. Η λειτουργία στα 64 bit είναι γνωστή ως διπλής ακρίβειας. Με 32 bit είναι απλής ακρίβειας, 16 bit είναι μισής ακρίβειας και ούτω καθεξής.

Δεδομένου ότι ένα μεγάλο κομμάτι εκπαίδευσης μοντέλων βαθιάς μάθησης δεν απαιτεί μεγάλη ακρίβεια, έχοντας τη δυνατότητα υπολογισμού μήτρας λειτουργίες με μισή ακρίβεια ή ακόμη και ακρίβεια τετάρτου για εξαγωγή συμπερασμάτων μειώνουν σημαντικά τον φόρτο εργασίας, επιταχύνοντας έτσι την τεχνητή νοημοσύνη μάθηση.

2. Μνήμη υψηλού εύρους ζώνης (HBM)

Πίστωση εικόνας: Jason De Vos/Βιβλιοθήκη AMD

Κάθε επιταχυντής AI AMD Instinct διαθέτει έως και 880 πυρήνες Matrix. Με τους επεξεργαστές Matrix Core της AMD που μπορούν να κάνουν 383 TFLOP υπολογισμούς μισής ακρίβειας, είναι απαραίτητο να έχετε εξαιρετικά γρήγορη μνήμη. Οι πιο πρόσφατες προσφορές Instinct της AMD είναι εξοπλισμένες με μνήμη υψηλού εύρους ζώνης (HBM) αντί για τη συνηθισμένη μνήμη RAM DDR4 ή DDR5.

Σε αντίθεση με τη συμβατική μνήμη, το HBM χρησιμοποιεί αυτό που είναι γνωστό ως τρισδιάστατη στοιβαγμένη αρχιτεκτονική. Αυτός ο τύπος αρχιτεκτονικής αναφέρεται σε μια σχεδιαστική προσέγγιση όπου οι μήτρες DRAM στοιβάζονται κάθετα το ένα πάνω στο άλλο. Αυτό επιτρέπει τη στοίβαξη μήλων τόσο στον κατακόρυφο όσο και στον οριζόντιο άξονα, εξ ου και ο όρος στοίβαξη 3D.

Με αυτήν την τεχνολογία στοίβαξης 3D, τα HBM μπορούν να έχουν χωρητικότητα φυσικής μνήμης τόσο μεγάλη όσο μερικές εκατοντάδες gigabyte ανά μονάδα, ενώ το DRR5 μπορεί να κάνει μόνο έως και δεκάδες gigabyte ανά μονάδα. Εκτός από τη χωρητικότητα, τα HBM είναι επίσης γνωστό ότι έχουν υψηλότερη απόδοση όσον αφορά τον ρυθμό μεταφοράς και την καλύτερη απόδοση ισχύος από την κανονική μνήμη DDR.

3. Ύφασμα Infinity

Μια άλλη καινοτομία που περιλαμβάνεται στις Instinct GPU είναι η τεχνολογία Infinity Fabric της AMD. Το Infinity Fabric είναι ένας τύπος συστήματος διασύνδεσης που συνδέει CPU και GPU με έξυπνο δυναμικό τρόπο. Αυτό επιτρέπει στα εξαρτήματα να επικοινωνούν αποτελεσματικά μεταξύ τους.

Με το Infinity Fabric, αντί να συνδέουν εξαρτήματα με ένα κανονικό δίαυλο, τα στοιχεία συνδέονται πλέον σε ένα δίκτυο που μοιάζει με πλέγμα, όπου τα εύρη ζώνης μπορούν να φτάσουν αρκετές εκατοντάδες gigabyte ανά δευτερόλεπτο.

Εκτός από τη διασύνδεση που μοιάζει με πλέγμα, το Infinity Fabric χρησιμοποιεί επίσης αισθητήρες που είναι ενσωματωμένοι σε κάθε καλούπι για δυναμική ελέγχου της συχνότητας, των ρυθμών μεταφοράς δεδομένων και άλλων προσαρμοστικών συμπεριφορών, βελτιστοποιώντας την απόδοση και ελαχιστοποιώντας αφάνεια.

4. Πλατφόρμα ανάπτυξης ROCm

Η CUDA της NVIDIA (υπολογιστική ενοποιημένη αρχιτεκτονική συσκευών) είναι η πιο ευρέως χρησιμοποιούμενη πλατφόρμα ανάπτυξης για την εκπαίδευση μοντέλων AI. Το πρόβλημα με το CUDA είναι ότι λειτουργεί μόνο με GPU NVIDIA. Αυτός είναι ένας από τους κύριους λόγους για τους οποίους η NVIDIA έχει τη συντριπτική πλειοψηφία των μεριδίων αγοράς για επιταχυντές HPC και AI GPU.

Καθώς η AMD θέλει να αποκτήσει ένα μεγαλύτερο κομμάτι της αγοράς HPC και AI, έπρεπε να αναπτύξει τη δική της πλατφόρμα, ROCm (Radeon Open Compute). Το ROCm είναι μια πλατφόρμα λογισμικού ανοιχτού κώδικα που επιτρέπει στις Instinct GPU να χρησιμοποιούνται ως επιταχυντές τεχνητής νοημοσύνης.

Αν και δεν είναι απαραίτητα μέρος του υλικού Instinct, το ROCm είναι θεμελιώδες όταν πρόκειται για την επιβίωση της σειράς των GPU Instinct. Με ROCm, προγραμματιστές και οι ερευνητές αποκτούν τα εργαλεία ROCm, τον μεταγλωττιστή, τα προγράμματα οδήγησης πυρήνα, μια σειρά από βιβλιοθήκες και πρόσβαση σε πλαίσια όπως το TensorFlow και το PyTorch για να αναπτύξουν προνομιούχος Γλώσσα προγραμματισμού AI.

Πώς συγκρίνονται οι επιταχυντές AI Instinct με τους επιταχυντές AI GPU Radeon;

Η AMD προσφέρει τη σειρά GPU Instinct για επιχειρήσεις και GPU Radeon για τακτικούς καταναλωτές. Όπως αναφέρθηκε προηγουμένως, η Instinct GPU χρησιμοποιεί την αρχιτεκτονική CDNA της AMD, το HBM και τη διασύνδεση Infinity Fabric. Αντίθετα, το Radeon χρησιμοποιεί την αρχιτεκτονική RDNA της AMD, τη μνήμη DDR6 και την Infinity Cache.

Αν και λιγότερο ικανοί, οι επιταχυντές τεχνητής νοημοσύνης της σειράς Radeon εξακολουθούν να είναι γεμάτοι με έναν ή δύο πυρήνες επιταχυντή τεχνητής νοημοσύνης ανά υπολογιστική μονάδα. Το τελευταίο GPU Radeon RX7900 XT έχει δύο πυρήνες επιτάχυνσης AI ανά μονάδα υπολογισμού, επιτρέποντας 103 TFLOPs μέγιστης μισής ακρίβειας και 52 TFLOP υπολογιστών μέγιστης μονής ακρίβειας.

Ενώ η σειρά των GPU Instinct είναι καλύτερα προσαρμοσμένες για LLM και HPC, οι επιταχυντές Radeon AI μπορούν να χρησιμοποιηθούν για τη βελτίωση των προεκπαιδευμένων μοντέλων, την εξαγωγή συμπερασμάτων και τις εργασίες που απαιτούν γραφικά.

AMD Instinct vs. NVIDIA Tensor

Σύμφωνα με α Έρευνα TrendForce, η NVIDA έχει μερίδιο αγοράς 80% για τις GPU διακομιστών, ενώ η AMD έχει μόνο 20%. Αυτή η συντριπτική επιτυχία της NVIDIA οφείλεται στο ότι είναι μια εταιρεία που ειδικεύεται στο σχεδιασμό και τη συναρμολόγηση GPU. Αυτό τους επιτρέπει να σχεδιάζουν GPU με σημαντικά καλύτερη απόδοση που δεν έχουν σχέση με άλλες προσφορές.

Ας συγκρίνουμε το Instinct MI205X της AMD και το H100SXM5 της NVIDIA χρησιμοποιώντας προδιαγραφές από Επίσημος ιστότοπος της AMD και Το φύλλο δεδομένων της NVIDIA:

Μοντέλο GPU

FP64 (TFLOPs)

FP32 (TFLOPs)

FP16 (TFLOPs)

INT8 (TFLOPs)

AMD Instinct MI250X

30.0

60.0

1000

2000

NVIDIA H100SXMS

47.9

95.7

383.2

383

Όπως μπορείτε να δείτε στον πίνακα, το MI250X της AMD αποδίδει καλύτερα από άποψη διπλής ακρίβειας και μισής ακρίβειας υπολογισμούς, ενώ το H100SXMS της NVIDIA είναι πολύ καλύτερο όσον αφορά τη μήτρα μισής ακρίβειας και ακρίβειας τετάρτου υπολογισμούς. Αυτό κάνει το MI250X της AMD πιο κατάλληλο για HPC ενώ το H100SXMS της NVIDIA με εκμάθηση τεχνητής νοημοσύνης και εξαγωγή συμπερασμάτων.

Το μέλλον των Instinct Processors της AMD

Αν και η τελευταία προσφορά της AMD, το MI250X, έχει σχεδιαστεί για HPC, το επερχόμενο MI300 της είναι περισσότερο προσανατολισμένο στην εκπαίδευση AI. Αυτός ο επιταχυντής AI ανακοινώνεται ότι είναι APU, που συνδυάζει GPU και CPU σε ένα πακέτο. Αυτό επιτρέπει στο MI300 να χρησιμοποιεί την αρχιτεκτονική CNDA3 Unified Memory APU, όπου η GPU και η CPU θα χρησιμοποιούν μόνο μία μνήμη, αυξάνοντας την απόδοση και μειώνοντας την τιμή.

Αν και η AMD δεν θα ανταγωνιστεί την NVIDIA στην αγορά επιταχυντών τεχνητής νοημοσύνης σήμερα, μόλις κυκλοφορήσει το MI300 και γίνει το ROCm γυαλισμένη, η σειρά Instinct της AMD μπορεί απλώς να είναι αρκετά καλή για να αρπάξει ένα σημαντικό μέρος της αγοράς επιταχυντών τεχνητής νοημοσύνης από NVIDIA.