NVLink-bandbreedte heeft een directe invloed op hoe snel grote AI-modellen worden getraind. Hoe meer bandbreedte GPU’s onderling kunnen uitwisselen, hoe minder tijd ze wachten op data en hoe efficiënter ze samenwerken. Voor grote modellen met miljarden parameters is hoge NVLink-bandbreedte geen luxe, maar een praktische noodzaak. In dit artikel leggen we stap voor stap uit hoe NVLink werkt, wat de verschillen zijn per GPU-generatie en hoe je de juiste configuratie kiest voor jouw workload.

Wat is NVLink-bandbreedte en waarom is het belangrijk voor AI-training?

NVLink is een door Nvidia ontwikkelde interconnecttechnologie die GPU’s direct met elkaar verbindt via een snelle, dedicated verbinding. De NVLink-bandbreedte bepaalt hoeveel data per seconde tussen GPU’s kan worden uitgewisseld. Voor AI-training is dit belangrijk omdat grote modellen constant gewichten, gradiënten en activaties tussen GPU’s moeten synchroniseren. Hoe hoger de bandbreedte, hoe minder tijd GPU’s op data van elkaar hoeven te wachten.

Traditionele verbindingen zoals PCIe zijn ontworpen voor algemeen gebruik en bieden slechts een fractie van de doorvoer die NVLink levert. Bij het trainen van grote taalmodellen of andere deep-learningarchitecturen met miljarden parameters vormt de communicatiesnelheid tussen GPU’s een directe beperking voor de totale trainingssnelheid. NVLink lost dit op door GPU’s te laten functioneren als één geïntegreerd systeem met gedeeld geheugen en hoge doorvoer, in plaats van als losse eilanden die via een trage brug communiceren.

Hoe beïnvloedt NVLink-bandbreedte de trainingssnelheid van grote modellen?

NVLink-bandbreedte beïnvloedt de trainingssnelheid van grote modellen door de tijd te verkorten die GPU’s besteden aan het wachten op dataoverdracht. Bij model parallelism en tensor parallelism moeten GPU’s voortdurend tussenresultaten uitwisselen. Hogere NVLink-bandbreedte verlaagt deze communicatielatentie, waardoor GPU’s meer tijd besteden aan daadwerkelijke berekeningen en minder aan wachten.

Bij data parallelism synchroniseren GPU’s na elke trainingstap hun gradiënten via een all-reduce-operatie. Hoe meer GPU’s je gebruikt en hoe groter het model, hoe meer data er in die synchronisatiestap over de verbinding gaat. Een hogere NVLink-bandbreedte zorgt ervoor dat deze synchronisatie sneller verloopt, wat de effectieve GPU-benutting verhoogt. In de praktijk kan een bottleneck in de interconnectbandbreedte betekenen dat GPU’s slechts een deel van hun rekencapaciteit benutten omdat ze op data wachten.

Model parallelism versus data parallelism

Bij data parallelism heeft elke GPU een kopie van het volledige model en verwerkt die een deel van de data. De synchronisatiestap is relatief compact. Bij model parallelism en tensor parallelism is het model zelf verdeeld over meerdere GPU’s, wat betekent dat er bij elke forward- en backward-pass data over de NVLink-verbinding gaat. Dit maakt model parallelism veel gevoeliger voor NVLink-bandbreedte dan data parallelism.

Wat zijn de NVLink-bandbreedtespecificaties per Nvidia GPU-generatie?

De NVLink-bandbreedte is per GPU-generatie aanzienlijk gestegen. De A100 biedt 600 GB/s bidirectionele NVLink-bandbreedte, de H100 verhoogt dit naar 900 GB/s, en de nieuwste B200- en GB200-architecturen gaan nog een stap verder met NVLink 5.0 en bandbreedtes die de 1,8 TB/s benaderen. Elke generatie verdubbelt of vergroot de bandbreedte substantieel ten opzichte van zijn voorganger.

Naast de totale bandbreedte is ook het aantal NVLink-verbindingen per GPU relevant. De H100 beschikt over 18 NVLink-verbindingen, wat flexibelere topologieën mogelijk maakt dan eerdere generaties. De NVSwitch-technologie, die in DGX- en HGX-systemen wordt gebruikt, verbindt meerdere GPU’s via een dedicated switch en maakt het mogelijk dat alle GPU’s in een systeem met volledige bandbreedte met elkaar communiceren, zonder dat één GPU als bottleneck fungeert.

Wat is het verschil tussen NVLink en InfiniBand voor modeltraining?

NVLink verbindt GPU’s binnen één server of node met zeer hoge bandbreedte en lage latentie. InfiniBand verbindt meerdere servers met elkaar in een cluster. Voor modeltraining geldt: NVLink is de snelste verbinding binnen een node, InfiniBand is de verbinding tussen nodes. Beide zijn nodig voor grootschalige training, maar ze opereren op verschillende niveaus van de infrastructuur.

De bandbreedte van NVLink ligt een factor tien tot twintig hoger dan die van typische InfiniBand-verbindingen. Dit betekent dat modelparallelisme dat GPU’s binnen één node overspant veel efficiënter is dan modelparallelisme dat meerdere nodes overspant. In de praktijk proberen trainingsframeworks zoals Megatron-LM en DeepSpeed het model zo te verdelen dat de meest data-intensieve communicatie via NVLink verloopt, en minder frequente synchronisatie via InfiniBand.

Wanneer wordt NVLink-bandbreedte een bottleneck bij modeltraining?

NVLink-bandbreedte wordt een bottleneck wanneer de communicatie tussen GPU’s langer duurt dan de berekeningen zelf. Dit treedt op bij modellen met een hoge communicatie-tot-berekeningsverhouding, zoals transformermodellen met kleine batch sizes, of bij configuraties met veel tensor parallelism over veel GPU’s. Op dat moment wachten GPU’s op data in plaats van te rekenen, wat de GPU-benutting verlaagt.

Een praktisch signaal dat NVLink een bottleneck vormt, is een lage GPU-bezettingsgraad terwijl het model technisch gezien genoeg werk heeft. Profileringstools zoals Nsight Systems kunnen laten zien hoeveel tijd er wordt doorgebracht in communicatieoperaties versus rekenoperaties. Als de communicatietijd dominant is, profiteer je direct van een GPU-generatie met hogere NVLink-bandbreedte of van een efficiëntere parallelismestrategie.

Welke serverplatforms ondersteunen NVLink voor grootschalige AI-training?

Serverplatforms die NVLink ondersteunen voor grootschalige AI-training zijn voornamelijk Nvidia HGX-gebaseerde systemen met meerdere GPU’s die via NVSwitch zijn verbonden. Denk aan systemen met 4, 8 of 16 GPU’s in één node, waarbij NVSwitch zorgt voor volledige all-to-all-connectiviteit met maximale bandbreedte tussen alle GPU’s. Supermicro is een van de fabrikanten die dergelijke HGX-platforms levert in verschillende form factors.

Naast HGX-systemen ondersteunen ook DGX-systemen van Nvidia zelf NVLink via NVSwitch. Voor organisaties die een AI-superworkstation zoeken voor on-premise training, zijn er ook compactere systemen met 4 of 8 GPU’s die NVLink ondersteunen, zonder de omvang van een volledig datacenterrack te vereisen. De keuze van het platform hangt af van de modelgrootte, het budget en de gewenste schaalbaarheid.

NVSwitch als multiplier voor NVLink-capaciteit

NVSwitch is de schakelaar die NVLink-verbindingen tussen meerdere GPU’s in een node coördineert. Zonder NVSwitch kunnen GPU’s alleen in paren direct communiceren via NVLink. Met NVSwitch kan elke GPU met elke andere GPU in het systeem communiceren met volledige NVLink-bandbreedte. Dit maakt NVSwitch een belangrijke component in systemen met 8 of meer GPU’s.

Hoe kies je de juiste NVLink-configuratie voor jouw trainingsworkload?

De juiste NVLink-configuratie kies je op basis van drie factoren: de grootte van je model, de parallelismestrategie die je gebruikt en de communicatie-intensiteit van je workload. Begin met de vraag of je model in het geheugen van één GPU past. Als dat niet zo is, heb je model parallelism nodig en is hoge NVLink-bandbreedte direct relevant. Past het model wel in één GPU, dan is data parallelism mogelijk en is NVLink minder kritisch.

Voor modellen met meer dan een paar miljard parameters is een systeem met 8 GPU’s die via NVSwitch zijn verbonden een goede startpositie. Groeit je workload verder, dan schakel je via InfiniBand meerdere nodes aan elkaar. Kies bij twijfel voor de nieuwste GPU-generatie die beschikbaar is, omdat de NVLink-bandbreedte per generatie significant toeneemt en je daarmee meer ruimte hebt voordat bandbreedte een bottleneck wordt.

Wij helpen je bij NCS International graag om de juiste configuratie te kiezen voor jouw specifieke trainingsworkload. Als grootste en oudste Supermicro-distributeur in Nederland leveren wij als eerste de nieuwste GPU-generaties, inclusief systemen met de nieuwste NVLink-architecturen. Of je nu een AI-superworkstation of een complete multi-node-trainingsinfrastructuur zoekt, we denken met je mee van specificatie tot implementatie. Neem contact op en vertel ons wat je traint, dan zoeken wij de configuratie die daar het beste bij past.

Veelgestelde vragen

Hoeveel NVLink-bandbreedte heb ik minimaal nodig voor het trainen van een LLM met 70 miljard parameters?

Voor een model van 70 miljard parameters heb je vrijwel zeker model parallelism nodig, wat betekent dat hoge NVLink-bandbreedte essentieel is. Een systeem met H100-GPU's en 900 GB/s NVLink-bandbreedte is een solide minimumvereiste voor dit formaat model. Met een oudere generatie zoals de A100 (600 GB/s) is training mogelijk, maar loop je eerder tegen een communicatiebottleneck aan, zeker bij tensor parallelism over 8 GPU's.

Kan ik NVLink ook gebruiken als mijn model wél in het geheugen van één GPU past?

Ja, maar het voordeel is dan beperkter. Als je model op één GPU past en je gebruikt data parallelism, is de synchronisatie van gradiënten relatief licht en vormt NVLink zelden een bottleneck. NVLink wordt pas echt waardevol zodra je model parallelism of tensor parallelism toepast, of wanneer je zeer grote batch sizes gebruikt waarbij de all-reduce-operaties substantieel worden. Voor kleinere modellen is de GPU-rekenkracht zelf doorgaans de beperkende factor, niet de interconnectbandbreedte.

Wat is een veelgemaakte fout bij het kiezen van een GPU-configuratie voor AI-training?

Een veelgemaakte fout is focussen op het aantal GPU's of de rekenkracht (FLOPS) zonder rekening te houden met de interconnectbandbreedte en het GPU-geheugen. Meer GPU's helpen niet als de NVLink-bandbreedte onvoldoende is om ze efficiënt te laten samenwerken. Een andere veelgemaakte fout is kiezen voor een systeem zonder NVSwitch bij 8 of meer GPU's, waardoor niet alle GPU's met volledige bandbreedte met elkaar kunnen communiceren en er onvermijdelijk knelpunten ontstaan.

Hoe meet ik of NVLink daadwerkelijk een bottleneck is in mijn huidige trainingsopstelling?

Gebruik Nvidia Nsight Systems of PyTorch Profiler om de tijdsverdeling tussen reken- en communicatieoperaties inzichtelijk te maken. Als je ziet dat NCCL-operaties zoals AllReduce of AllGather een groot deel van de staptijd innemen terwijl de GPU-bezettingsgraad laag is, is NVLink-bandbreedte waarschijnlijk de beperkende factor. Een snelle indicatie is ook de GPU-utilization in nvidia-smi: structureel onder de 70-80% bij een communicatie-intensieve workload wijst vaak op een interconnectbottleneck.

Werkt bestaande trainingssoftware zoals PyTorch of DeepSpeed automatisch optimaal met NVLink, of zijn er aanpassingen nodig?

PyTorch en DeepSpeed detecteren NVLink automatisch via de NCCL-backend en maken er gebruik van zonder handmatige configuratie. Wel kun je de prestaties verder optimaliseren door NCCL-omgevingsvariabelen in te stellen, zoals NCCL_P2P_DISABLE=0 om peer-to-peer NVLink-communicatie expliciet in te schakelen. Frameworks zoals Megatron-LM zijn specifiek ontworpen om NVLink maximaal te benutten via tensor parallelism en zijn een goede keuze als je grote modellen traint op NVSwitch-systemen.

Wat gebeurt er met de NVLink-bandbreedte als ik meerdere nodes aan elkaar koppel via InfiniBand?

De NVLink-bandbreedte binnen elke node blijft volledig beschikbaar en wordt niet beïnvloed door de InfiniBand-verbinding tussen nodes. InfiniBand opereer op een ander niveau en verzorgt uitsluitend de communicatie tussen nodes. De praktische implicatie is dat je trainingsframework de parallelismestrategie zo moet inrichten dat de meest data-intensieve communicatie, zoals tensor parallelism, binnen één node via NVLink verloopt, terwijl minder frequente synchronisatie, zoals pipeline parallelism tussen nodes, via InfiniBand gaat.

Is het de moeite waard om te upgraden van A100 naar H100 puur voor de hogere NVLink-bandbreedte?

Dit hangt af van je specifieke workload. Als profileringsdata aantoont dat communicatie de dominante bottleneck is, levert de stap van 600 GB/s (A100) naar 900 GB/s (H100) een directe verbetering van 50% in interconnectdoorvoer. Maar de H100 biedt ook significant meer rekenkracht en HBM3-geheugen, waardoor de upgrade voor de meeste grootschalige trainingsworkloads op meerdere fronten tegelijk voordeel oplevert. Alleen als je workload volledig compute-bound is en de GPU-bezetting al boven de 90% ligt, is de extra bandbreedte minder doorslaggevend.

Gerelateerde artikelen

NCS International

Den Sliem 89
7141 JG Groenlo
The Netherlands
+31 544 470 000
info@ncs.nl

Meer berichten

Wat is een GPU-server?

GPU-servers verwerken duizenden berekeningen parallel — ontdek wanneer ze onmisbaar zijn voor jouw organisatie.


read more

Wat is een AI-server?

Wat is een AI-server en wanneer heb je er een nodig? Ontdek de techniek, hardware en toepassingen.


read more