Το NVIDIA Hopper H100 με Tensor Core 4ης γενιάς είναι διπλάσια από την ταχύτητα του ρολογιού, η συχνότητα παρέχει 30% κέρδος απόδοσης

Η NVIDIA αναλύει τα αρχεία GPU Huber H100 Στο Hot Chips 34, δίνοντάς μας μια γεύση από το τι έχει να προσφέρει η αρχιτεκτονική Tensor Core 4ης γενιάς.

GPU NVIDIA Kepler GK110 Ισοδυναμεί με ένα μεμονωμένο GPC σε GPU Hopper H100, πυρήνες Tensor 4ης γενιάς έως και 2 φορές ταχύτεροι

Ενώ η AMD ακολουθεί την προσέγγιση MCM στις HPC GPU της, η NVIDIA αποφάσισε να διατηρήσει τη μονοφωνική σχεδίαση προς το παρόν. Το Hopper H100 είναι, ως εκ τούτου, μία από τις μεγαλύτερες GPU που κατασκευάστηκαν ποτέ χρησιμοποιώντας έναν κόμβο επεξεργασίας TSMC 4N, μια σχεδίαση βελτιστοποιημένη και κατασκευασμένη αποκλειστικά για τη NVIDIA.

Η GPU H100 είναι ένα τεράστιο τσιπ που διαθέτει την τελευταία τεχνολογία 4nm και φιλοξενεί 80 δισεκατομμύρια τρανζίστορ μαζί με προηγμένη τεχνολογία μνήμης HBM3. Το H100 είναι χτισμένο σε ένα PCB PG520 που περιέχει περισσότερα από 30 VRM και έναν τεράστιο ενσωματωμένο χρηματιστή που χρησιμοποιεί την τεχνολογία CoWoS της TSMC για να ενσωματώσει μια GPU Hopper H100 με σχεδιασμό HBM3 6 στοίβων. Μερικές από τις κύριες τεχνολογίες της GPU Hopper H100 περιλαμβάνουν:

  • 132 SM (2x απόδοση ανά ώρα)
  • Δημιουργία τανυστών 4 πυρήνων
  • Κιτ μπλοκ νημάτων
  • GPU πολλαπλών παρουσιών 2ης γενιάς
  • μυστικός υπολογισμός
  • Διασύνδεση PCIe Gen 5.0
  • Η πρώτη HBM3 DRAM στον κόσμο
  • Μεγαλύτερη κρυφή μνήμη L2 50 MB
  • NVLink 4ης γενιάς (συνολικό εύρος ζώνης 900 GB/s)
  • Νέα υποστήριξη για το SHARP
  • NVLink. Δίκτυο

Μεταξύ των έξι στοίβων, διατηρούνται δύο στοίβες για να διασφαλιστεί η ασφάλεια της παραγωγής. Αλλά το νέο πρότυπο HBM3 επιτρέπει έως και 80 GB σε ταχύτητες 3 TB/s που είναι τρελές. Για σύγκριση, η ταχύτερη κάρτα γραφικών gaming, η RTX 3090 Ti, προσφέρει μόλις 1 TB/sec εύρους ζώνης και 24 GB VRAM. Εκτός από αυτό, η GPU H100 Hopper διαθέτει επίσης την πιο πρόσφατη μορφή δεδομένων FP8 και με τη νέα της σύνδεση SXM, συμβάλλει στην προσαρμογή της σχεδίασης ισχύος 700W γύρω από την οποία είναι κατασκευασμένο το τσιπ. Προσφέρει επίσης διπλάσιες ταχύτητες από τα FP32 και FP64 και μια προσωρινή μνήμη L1 256 KB (κοινόχρηστη μνήμη).

Προδιαγραφές GPU NVIDIA Hopper H100 με μια ματιά

Όσον αφορά τις προδιαγραφές, η GPU NVIDIA Hopper GH100 αποτελείται από μια τεράστια διάταξη chip 144 SM (Multi-Processor Stream) που εμφανίζεται σε συνολικά 8 GPC. Rock GPC συνολικά από 9 TPC που αποτελούνται από 2 μονάδες SM το καθένα. Αυτό μας δίνει 18 SM ανά GPC και 144 στην πλήρη διαμόρφωση 8 GPC. Κάθε SM αποτελείται από έως και 128 μονάδες FP32 που θα πρέπει να μας δώσουν συνολικά 18.432 πυρήνες CUDA.

READ  Το λογότυπο Apple του iPhone μπορεί να μετατραπεί σε ένα μυστικό κουμπί "Back Tap".

Ακολουθούν μερικές από τις διαμορφώσεις που μπορείτε να περιμένετε από το τσιπ H100:

Η πλήρης υλοποίηση της GH100 GPU περιλαμβάνει τις ακόλουθες ενότητες:

  • 8 GPC, 72 TPC (9 TPC/GPC), 2 SM/TPC, 144 SM ανά πλήρη GPU
  • 128 πυρήνες FP32 CUDA ανά SM, 18432 FP32 πυρήνες CUDA ανά πλήρη GPU
  • 4 πυρήνες κινητήρα 4ης γενιάς ανά SM, 576 ανά πλήρη GPU
  • 6 πακέτα HBM3 ή HBM2e, 12 ελεγκτές μνήμης 512 bit
  • 60MB L2 Cache
  • NVLink 4th Gen και PCIe Gen 5

Η GPU NVIDIA H100 με τον παράγοντα μορφής SXM5 περιλαμβάνει τις ακόλουθες μονάδες:

  • 8 GPC, 66 TPC, 2 SM/TPC, 132 SM ανά GPU
  • 128 πυρήνες FP32 CUDA ανά SM, 16896 FP32 CUDA πυρήνες ανά GPU
  • 4 πυρήνες Tensor 4ης γενιάς ανά SM, 528 ανά GPU
  • 80 GB HBM3, 5 στοίβες HBM3, 10 ελεγκτές μνήμης 512 bit
  • 50MB L2 Cache
  • NVLink 4th Gen και PCIe Gen 5

Αυτό είναι 2,25 φορές περισσότερο από μια πλήρη διαμόρφωση GPU GA100. Η NVIDIA χρησιμοποιεί επίσης περισσότερους πυρήνες FP64, FP16 και Tensor εντός της GPU Hopper, οι οποίοι αναμένεται να ενισχύσουν σημαντικά την απόδοση. Αυτό θα είναι απαραίτητο για να ανταγωνιστεί το Ponte Vecchio της Intel, το οποίο επίσης αναμένεται να έχει FP64 1:1. Η NVIDIA δηλώνει ότι οι πυρήνες Tensor 4ης γενιάς στο Hopper προσφέρουν διπλάσια απόδοση στο ίδιο ρολόι.

Η ακόλουθη ανάλυση απόδοσης NVIDIA Hopper H100 δείχνει ότι τα πρόσθετα SM αυξάνουν την απόδοση μόνο κατά 20%. Το κύριο όφελος προέρχεται από 4 Gen Tensor Cores και το FP8 υπολογίζει τη διαδρομή. Η υψηλότερη συχνότητα προσθέτει επίσης ένα αξιοπρεπές υψηλό 30% στο μείγμα.

Μια ενδιαφέρουσα σύγκριση κλιμάκωσης GPU δείχνει ότι ένας μεμονωμένος GPC σε μια GPU Hopper H100 ισοδυναμεί με μια GPU Kepler GK110, ένα κορυφαίο τσιπ HPC από το 2012. Το Kepler GK110 συσκευάζει συνολικά 15 SM ενώ το Hopper H110 GPU και 132 SM Το μοναδικό GPC σε μια GPU Hopper διαθέτει 18 SM, 20% περισσότερα από τα συνολικά SM στη ναυαρχίδα Kepler.

Η κρυφή μνήμη είναι ένας άλλος τομέας όπου η NVIDIA έχει δώσει μεγάλη προσοχή, αυξάνοντάς την στα 48 MB στην GPU Hopper GH100. Αυτό είναι μια αύξηση 20% σε σχέση με την κρυφή μνήμη των 50 MB που βρίσκεται στην Ampere GA100 GPU και 3 φορές το μέγεθος της ναυαρχίδας GPU της AMD Aldebaran MCM, της MI250X.

READ  2022 VW Golf R Crushes Audi, BMW και AMG Hot Hatches στο Drag Race

Στρογγυλοποιώντας τους αριθμούς απόδοσης, η GPU NVIDIA GH100 Hopper θα παρέχει 4000 TFLOPs από το FP8, 2000 TFLOPs από το FP16, 1000 TFLOP από το TF32 και 60 TFLOPs από την υπολογιστική απόδοση του FP64. Αυτοί οι αριθμοί ρεκόρ εξαλείφουν όλους τους άλλους επιταχυντές HPC που ήρθαν πριν από αυτούς. Για σύγκριση, αυτό είναι 3,3 φορές ταχύτερο από την GPU A100 της NVIDIA και 28% ταχύτερο από το Instinct MI250X της AMD σε βάρος του FP64. Στους υπολογιστές FP16, η GPU H100 είναι 3 φορές πιο γρήγορη από την A100 και 5,2 φορές πιο γρήγορη από την MI250X, που είναι κυριολεκτικά τρελό.

Ήταν μια παραλλαγή PCIe που είναι μια συντομευμένη μορφή Πρόσφατα εισήχθη στην Ιαπωνία με πάνω από 30.000 $ USD Έτσι, μπορεί κανείς να φανταστεί ότι μια παραλλαγή SXM με καλύτερη διαμόρφωση θα κόστιζε εύκολα περίπου 50 $.

Tesla A100 βασισμένο σε NVIDIA Ampere GA100 GPU Προδιαγραφές:

Κάρτα γραφικών NVIDIA Tesla NVIDIA H100 (SMX5) NVIDIA H100 (PCIe) NVIDIA A100 (SXM4) NVIDIA A100 (PCIe4) Tesla V100S (PCIe) Tesla V100 (SXM2) Tesla P100 (SXM2) Tesla P100
(BCI Express)
Tesla M40
(BCI Express)
Tesla K40
(BCI Express)
GPU GH100 (χοάνη) GH100 (χοάνη) GA100 (αμπέρ) GA100 (αμπέρ) GV100 (Volta) GV100 (Volta) GP100 (Pa) GP100 (Pa) GM200 (Maxwell) GK110 (Kepler)
Κόμβος λειτουργίας 4 nm 4 nm 7 nm 7 nm 12 nm 12 nm 16 nm 16 nm 28 nm 28 nm
τρανζίστορ 80 δις 80 δις 54,2 δισ 54,2 δισ 21,1 δισ 21,1 δισ 15,3 δισ 15,3 δισ 8 δις 7,1 δις
Μέγεθος προτύπου GPU 814 mm 2 814 mm 2 826 mm 2 826 mm 2 815 mm 2 815 mm 2 610 mm 2 610 mm 2 601 mm 2 551 mm 2
σύντομο μήνυμα 132 114 108 108 80 80 56 56 24 15η
TPC 66 57 54 54 40 40 28 28 24 15η
Πυρήνες FP32 CUDA ανά SM 128 128 64 64 64 64 64 64 128 192
FP64 Πυρήνες CUDA / SM 128 128 32 32 32 32 32 32 4 64
Πυρήνες FP32 CUDA 16896 14592 6912 6912 5120 5120 3584 3584 3072 2880
Πυρήνες FP64 CUDA 16896 14592 3456 3456 2560 2560 1792 1792 96 960
τανυστικό πυρήνα 528 456 432 432 640 640 Μη διαθέσιμο Μη διαθέσιμο Μη διαθέσιμο Μη διαθέσιμο
κλωστοϋφαντουργικές μονάδες 528 456 432 432 320 320 224 224 192 240
αυξήστε το ρολόι θα ανακοινωθεί αργότερα θα ανακοινωθεί αργότερα 1410 MHz 1410 MHz 1601 MHz 1530 MHz 1480 MHz 1329 MHz 1114 MHz 875 MHz
TOP (DNN/AI) 2000 Κορυφή
4000 Κορυφή
1600 τοπ
3200 κορυφή
1248 κορυφή
2496 κορυφές με διασπορά
1248 κορυφή
2496 κορυφές με διασπορά
130 Κορυφές 125 κορυφ Μη διαθέσιμο Μη διαθέσιμο Μη διαθέσιμο Μη διαθέσιμο
Λογαριασμός FP16 2000 TFLOP 1600 TFLOP 312 TFLOP
624 TFLOP με σκέδαση
312 TFLOP
624 TFLOP με σκέδαση
32,8 TFLOP 30,4 TFLOP 21,2 TFLOP 18,7 TFLOP Μη διαθέσιμο Μη διαθέσιμο
Λογαριασμός FP32 1000 TFLOP 800 TFLOP 156 TFLOP
(19,5 Τυπικά TFLOP)
156 TFLOP
(19,5 Τυπικά TFLOP)
16,4 TFLOP 15,7 TFLOP 10,6 TFLOP 10,0 TFLOP 6,8 TFLOP 5,04 TFLOP
Λογαριασμός FP64 60 TFLOP 48 TFLOP 19,5 TFLOP
(9,7 Τυπικά TFLOP)
19,5 TFLOP
(9,7 Τυπικά TFLOP)
8,2 TFLOP 7,80 TFLOP 5,30 TFLOP 4,7 TFLOP 0,2 TFLOP 1,68 TFLOP
διεπαφή μνήμης 5120 bit HBM3 5120 bit HBM2e 6144 bit HBM2e 6144 bit HBM2e 4096 bit HBM2 4096 bit HBM2 4096 bit HBM2 4096 bit HBM2 384 bit GDDR5 384 bit GDDR5
Μέγεθος μνήμης Έως 80 GB HBM3 @ 3,0 Gbps Έως 80 GB HBM2e @ 2,0 Gbps Έως 40 GB HBM2 @ 1,6 TB/sec
Έως 80 GB HBM2 @ 1,6 TB/s
Έως 40 GB HBM2 @ 1,6 TB/sec
Έως 80 GB HBM2 @ 2,0 TB/s
16 GB HBM2 @ 1134 GB/s 16 GB HBM2 @ 900 GB/s 16 GB HBM2 @ 732 GB/s 16 GB HBM2 @ 732 GB/s
12 GB HBM2 @ 549 GB/s
24 GB GDDR5 @ 288 GB/s 12 GB GDDR5 @ 288 GB/s
Μέγεθος κρυφής μνήμης L2 51200 KB 51200 KB 40.960 KB 40.960 KB 6144 KB 6144 KB 4096 KB 4096 KB 3072 KB 1536 KB
TDP 700 watt 350 watt 400 watt 250 watt 250 watt 300 watt 300 watt 250 watt 250 watt 235 W
READ  Το Xbox Series X/S εκκινείται λίγο πιο γρήγορα

Προϊόντα που αναφέρονται σε αυτήν την ανάρτηση

Αφήστε μια απάντηση

Η ηλ. διεύθυνση σας δεν δημοσιεύεται.