24 maart 2026
Voor een on-premise GPU-servercluster heb je een netwerkinfrastructuur nodig die hoge bandbreedte, lage latency en betrouwbare verbindingen tussen alle nodes combineert. De meest gebruikte opties zijn InfiniBand (voor maximale prestaties bij AI-training en HPC) en high-speed Ethernet (25GbE, 100GbE of hoger). Naast de verbindingstechnologie spelen switches, netwerkkaarten, bekabeling en een doordacht topologieontwerp een grote rol. De juiste keuze hangt af van je werklast, schaalambities en budget.
Of je nu een GPU-cluster opzet voor AI-training, wetenschappelijk onderzoek of grootschalige inferentie: de netwerkinfrastructuur bepaalt voor een groot deel hoe goed je cluster daadwerkelijk presteert. Een krachtige GPU zonder de juiste netwerkverbinding is alsof je een snelle motor in een auto zet met een te smalle uitlaat. In dit artikel beantwoorden we de meest gestelde vragen over clusternetwerken, zodat je goed voorbereid bent.
Een on-premise GPU-servercluster is een groep van meerdere fysieke servers, elk uitgerust met een of meerdere GPU’s, die via een intern netwerk samenwerken als één rekensysteem. Het cluster staat bij jou op locatie, binnen je eigen datacenter of serverruimte, in plaats van in de cloud. Dit type infrastructuur gebruik je voor werklasten die enorme rekenkracht vragen en waarbij dataprivacy of lage latency een rol speelt.
Typische toepassingen zijn het trainen van grote AI-modellen, het uitvoeren van LLM-inferentie, wetenschappelijke simulaties, big data-verwerking en rendering. Organisaties kiezen bewust voor een on-premise AI-serveropstelling omdat ze volledige controle willen over hun data, voorspelbare kosten prefereren boven variabele cloudkosten, of omdat hun werklast zo intensief en continu is dat de cloud op de lange termijn simpelweg duurder uitpakt.
Wat een cluster onderscheidt van een enkele krachtige server is de samenwerking tussen nodes. Die samenwerking staat of valt met het netwerk dat ze verbindt. Hoe beter dat netwerk, hoe efficiënter de GPU’s samenwerken en hoe sneller je resultaten boekt.
Een GPU-clusternetwerk bestaat uit vier hoofdcomponenten: netwerkkaarten (NIC’s of HCA’s), switches, bekabeling en de netwerktopologie. Elk van deze onderdelen heeft directe invloed op de totale prestaties van het cluster. Een zwakke schakel in de keten zorgt voor knelpunten die de GPU’s onderbenut laten.
Elke server in het cluster heeft een netwerkadapter nodig die hoge doorvoersnelheden aankan. Bij InfiniBand gebruik je een Host Channel Adapter (HCA), bij Ethernet een high-speed NIC. De keuze van de adapter bepaalt mede welke maximale snelheid je per node kunt bereiken. Moderne GPU-servers voor AI-workloads worden vaak uitgerust met adapters die 200 Gb/s of meer ondersteunen.
De switch verbindt alle nodes met elkaar en bepaalt hoeveel verkeer tegelijkertijd kan stromen zonder congestie. Voor GPU-clusters kies je bij voorkeur voor non-blocking switches, zodat elke node tegelijkertijd op volledige snelheid kan communiceren met elke andere node. De capaciteit van je switch moet meegroeien met je cluster, dus let bij de aanschaf al op schaalbaarheid.
Voor korte afstanden binnen een rack gebruik je Direct Attach Copper (DAC)-kabels. Over langere afstanden of tussen racks zijn glasvezelverbindingen de standaard. De topologie, oftewel hoe je nodes en switches met elkaar verbindt, heeft grote invloed op latency en foutbestendigheid. Fat-tree en Dragonfly zijn veelgebruikte topologieën voor grote GPU-clusters.
InfiniBand biedt lagere latency en hogere bandbreedte dan standaard Ethernet en is specifiek ontworpen voor high-performance computing, waarbij nodes intensief met elkaar communiceren. Ethernet is breder inzetbaar, goedkoper en eenvoudiger te beheren, maar vereist bij GPU-clusters extra configuratie om goed te presteren. De keuze hangt af van hoe intensief de communicatie tussen je GPU-nodes is.
Bij AI-trainingstaken waarbij meerdere GPU’s samen aan één model werken, zoals bij gedistribueerd trainen met frameworks als PyTorch of TensorFlow, wisselen nodes voortdurend grote hoeveelheden data uit. InfiniBand met RDMA (Remote Direct Memory Access) verplaatst data direct tussen het geheugen van verschillende servers, zonder tussenkomst van de CPU. Dit verlaagt de latency en vermindert de belasting op de processor aanzienlijk.
High-speed Ethernet (100GbE of 400GbE) met RoCE (RDMA over Converged Ethernet) is een realistisch alternatief geworden voor clusters waarbij de communicatievereisten minder extreem zijn, of waarbij de bestaande netwerkinfrastructuur al op Ethernet is gebaseerd. Voor inferentiewerklasten of minder tightly coupled taken presteert Ethernet doorgaans goed genoeg, terwijl de beheersbaarheid en kosten lager liggen.
De benodigde bandbreedte hangt af van het aantal GPU’s per node, het type werklast en hoe intensief de nodes met elkaar communiceren. Als vuistregel geldt: voor serieuze AI-training wil je minimaal 100 Gb/s per node, en bij clusters met meerdere high-end GPU’s per server al snel 200 Gb/s of meer. Onvoldoende bandbreedte zorgt voor wachttijden die de GPU-benutting direct verlagen.
Bij gedistribueerd trainen van grote taalmodellen is de communicatie tussen nodes bijzonder intensief. Gradiënten en modelparameters worden voortdurend uitgewisseld tussen alle deelnemende GPU’s. Als het netwerk hier niet op berekend is, wachten de GPU’s op data terwijl ze eigenlijk zouden moeten rekenen. Dat is precies het soort knelpunt dat je wilt voorkomen bij het ontwerpen van je clusternetwerk.
Voor inferentiewerklasten, waarbij een al getraind model voorspellingen doet op inkomende verzoeken, zijn de communicatievereisten tussen nodes doorgaans lager. Hier speelt de verbinding met de buitenwereld, dus de uplink naar je applicatielaag of gebruikers, een grotere rol dan de interne clusterverbindingen.
De meest gemaakte fout bij GPU-clusternetwerken is het onderschatten van de benodigde bandbreedte en de vereiste lage latency. Organisaties kiezen soms voor standaard 10GbE-switches omdat die al aanwezig zijn, terwijl de GPU-workload een veelvoud van die capaciteit vraagt. Het gevolg is een duur cluster dat slechts een fractie van zijn potentieel benut.
Een tweede veelvoorkomende fout is het negeren van de netwerktopologie. Twee nodes die via meerdere switch-hops met elkaar communiceren, hebben meer latency dan nodes die direct verbonden zijn. Bij grote clusters loopt dit snel op als je de topologie niet bewust ontwerpt. Een goed doordachte fat-tree-topologie voorkomt dit soort onnodige vertragingen.
Daarnaast onderschatten veel organisaties het belang van netwerkconfiguratie en drivers. InfiniBand en RoCE vereisen specifieke instellingen aan de kant van zowel het besturingssysteem als de applicatielaag. Zonder de juiste configuratie profiteer je nauwelijks van de hardware die je hebt aangeschaft. Ook het ontbreken van monitoring op netwerkniveau is een risico: je ziet dan pas dat er een probleem is als de prestaties al zichtbaar achteruitgaan.
Je schaalt een GPU-cluster uit zonder de netwerkarchitectuur te herbouwen door van tevoren te kiezen voor modulaire switches met uitbreidbare poortcapaciteit en een topologie die horizontaal meegroeit. Door bij de initiële opzet al rekening te houden met toekomstige uitbreiding, voeg je later nodes toe zonder dat je de bestaande infrastructuur hoeft aan te passen.
Praktisch betekent dit dat je bij de aanschaf van switches kiest voor modellen met meer poorten dan je op dat moment nodig hebt. Zo houd je ruimte over voor nieuwe nodes. Kies ook voor een topologie die je kunt uitbreiden door extra switches toe te voegen naast de bestaande, in plaats van alles te centraliseren in één switch die snel vol zit.
Bij het uitbreiden van een cluster is het ook verstandig om de bekabeling en patchpanelen van tevoren goed te plannen. Achteraf extra bekabeling aanbrengen in een vol rack is tijdrovend en foutgevoelig. Een gestructureerde aanpak bij de eerste installatie betaalt zich terug bij elke volgende uitbreiding.
Professionele begeleiding is verstandig zodra je cluster meer dan een handvol nodes omvat, je werklast hoge eisen stelt aan latency en bandbreedte, of je organisatie weinig ervaring heeft met InfiniBand of high-speed Ethernet voor HPC-omgevingen. Bij complexe topologieën of strikte uptime-eisen is begeleiding geen luxe, maar een bewuste investering die fouten en downtime voorkomt.
Naarmate clusters groter worden, neemt de complexiteit van het netwerk exponentieel toe. De keuze tussen InfiniBand en Ethernet, de dimensionering van switches, de configuratie van RDMA en de integratie met de opslaglaag zijn stuk voor stuk onderwerpen waarbij fouten kostbaar zijn. Een verkeerde beslissing in de ontwerpfase kan betekenen dat je later de hele architectuur opnieuw moet opzetten.
Ook wanneer je bestaande on-premise AI-serverinfrastructuur uitbreidt en wilt integreren met nieuwe GPU-nodes, is het verstandig om iemand te betrekken die de specifieke hardware goed kent. Niet alle GPU-servers, netwerkkaarten en switches werken probleemloos samen zonder de juiste configuratie en validatie vooraf.
Wij helpen organisaties bij het ontwerpen, configureren en uitbreiden van GPU-clusterinfrastructuur op basis van Supermicro-hardware. Van een eerste adviesgesprek tot volledige implementatie en doorlopend beheer: bij onze oplossingen voor GPU-serverinfrastructuur vind je meer informatie over wat wij voor jouw omgeving kunnen betekenen. We denken graag met je mee, van de eerste tekening tot de laatste kabel.
Ja, maar alleen als je het netwerk van meet af aan modulair ontwerpt. Kies bij de start voor switches met vrije poortcapaciteit en gebruik een topologie zoals fat-tree die je stap voor stap kunt uitbreiden. Een netwerk dat achteraf volledig vervangen moet worden, kost aanzienlijk meer dan één dat van begin af aan schaalbaar is opgezet.
RDMA (Remote Direct Memory Access) maakt het mogelijk om data rechtstreeks tussen het geheugen van twee servers te verplaatsen, zonder dat de CPU van de ontvangende of verzendende server daarbij betrokken is. Dit verlaagt de latency drastisch en vermindert de CPU-belasting, wat cruciaal is bij gedistribueerd AI-trainen waarbij nodes continu grote hoeveelheden data uitwisselen. Zowel InfiniBand als RoCE (RDMA over Converged Ethernet) maken gebruik van dit principe.
De duidelijkste signalen zijn een lage GPU-bezettingsgraad (GPU utilization) ondanks actieve workloads, lange wachttijden tussen trainingsstappen, en hoge latencymetingen in je netwerkmonitoring. Tools zoals nvidia-smi, DCGM en InfiniBand-specifieke diagnostiektools zoals perfquery geven inzicht in waar de bottleneck zit. Als je GPU's regelmatig op elkaar wachten terwijl ze zouden moeten rekenen, is het netwerk vrijwel zeker de zwakste schakel.
Voor de meeste inferentiewerklasten en minder tightly coupled trainingstaken is 100GbE of 400GbE met RoCEv2 een volwaardig en kostenefficiënt alternatief. Het prestatieverschil ten opzichte van InfiniBand is in die scenario's minimaal en weegt zelden op tegen de lagere aanschafkosten en eenvoudigere beheerbaarheid van Ethernet. Alleen bij de meest veeleisende gedistribueerde trainingstaken op grote schaal, zoals het trainen van LLM's met honderden GPU's, heeft InfiniBand een duidelijk meetbaar voordeel.
Voor een cluster van vier tot acht nodes volstaat doorgaans een eenvoudige single-switch-topologie, waarbij alle nodes direct verbonden zijn met één non-blocking switch. Dit minimaliseert de latency, elimineert extra switch-hops en is eenvoudig te beheren. Zorg wel dat de switch voldoende poortcapaciteit heeft voor toekomstige uitbreiding, zodat je niet direct een tweede switch hoeft toe te voegen zodra je cluster groeit.
Voor InfiniBand installeer je de OFED-stack (OpenFabrics Enterprise Distribution), die de benodigde drivers, bibliotheken en tools voor RDMA bevat. Bij RoCE over Ethernet zijn specifieke NIC-drivers en configuratie van Priority Flow Control (PFC) en ECN (Explicit Congestion Notification) essentieel om congestie te voorkomen. Daarnaast moet je AI-frameworks zoals PyTorch of TensorFlow correct configureren om gebruik te maken van NCCL (NVIDIA Collective Communications Library), die de communicatie tussen GPU's over het netwerk optimaliseert.
Redundantie bereik je door dual-homing toe te passen: elke node verbind je met twee afzonderlijke switches via aparte netwerkkaarten, zodat bij uitval van één switch de verbinding automatisch overschakelt naar de andere. Gebruik daarnaast redundante stroomvoorziening voor je switches en zorg voor reserveonderdelen zoals extra DAC-kabels en SFP-modules op voorraad. Voor productieomgevingen met strikte uptime-eisen is het ook verstandig om netwerkmonitoring in te richten die proactief waarschuwt bij drempelwaarden voor fouten of latency, nog voordat een component daadwerkelijk uitvalt.
Den Sliem 89
7141 JG Groenlo
The Netherlands
+31 544 470 000
info@ncs.nl