29 april 2026
Voor mixed workloads van training én inferentie is een GPU-server met hoge geheugenbandbreedte, voldoende VRAM en flexibele resourceverdeling het meest geschikt. Denk aan platforms gebaseerd op Nvidia H100, H200 of de nieuwere B200-GPU’s, gecombineerd met een serverplatform dat Multi-Instance GPU (MIG) ondersteunt. Zo kun je dezelfde hardware slim inzetten voor beide workloadtypen zonder telkens te hoeven schakelen tussen systemen.
De keuze voor de juiste GPU-server is niet eenvoudig, zeker niet als je training en inferentie tegelijkertijd wilt draaien. In dit artikel beantwoorden we de meest gestelde vragen over mixed GPU-workloads, zodat je een weloverwogen keuze kunt maken bij je volgende GPU-serververgelijking.
Training is het proces waarbij een AI-model leert van grote hoeveelheden data door gewichten iteratief aan te passen. Inferentie is het toepassen van een al getraind model op nieuwe invoer om voorspellingen te doen. Training is rekenintensief en vraagt veel VRAM en hoge geheugenbandbreedte. Inferentie is doorgaans lichter, maar stelt hoge eisen aan latentie en doorvoersnelheid.
Bij training draait de GPU continu op hoge belasting gedurende langere perioden. Denk aan het trainen van een taalmodel op tientallen gigabytes aan tekst. Bij inferentie zijn de pieken korter en onregelmatiger, maar de responstijden moeten laag zijn. Dat maakt de twee workloads technisch fundamenteel anders van aard, ook al draaien ze op dezelfde hardware.
Een server die zowel training als inferentie draait, moet twee tegengestelde vereisten combineren: hoge rekencapaciteit voor de ene workload en lage latentie voor de andere. Dat levert spanning op in resourcetoewijzing, geheugengebruik en thermisch beheer. Zonder de juiste configuratie kunnen beide workloads elkaar negatief beïnvloeden.
Training verbruikt GPU-geheugen agressief en langdurig. Inferentie heeft juist snelle toegang tot geheugen nodig voor kortdurende taken. Als beide processen tegelijkertijd draaien op dezelfde GPU zonder isolatie, kan dit leiden tot geheugenconflicten, hogere latentie bij inferentie en tragere trainingsiteraties. Bovendien zorgt de hoge warmteproductie van trainingsjobs ervoor dat koeling een extra aandachtspunt wordt.
GPU-architecturen die zowel training als inferentie aankunnen, zijn de Nvidia Hopper-generatie (H100, H200) en de nieuwere Blackwell-architectuur (B200, B300). Deze GPU’s combineren hoge rekenprecisie voor training met geoptimaliseerde inferentie-engines en ondersteunen Multi-Instance GPU (MIG) voor flexibele resourceverdeling.
De H100 en H200 worden breed ingezet voor mixed GPU-workloads vanwege hun hoge VRAM-capaciteit en ondersteuning voor verschillende precisieniveaus, zoals FP8, FP16 en BF16. MIG maakt het mogelijk om één fysieke GPU op te splitsen in meerdere geïsoleerde instanties, waardoor training en inferentie gelijktijdig kunnen draaien zonder elkaar te verstoren.
De B200 en B300 brengen nog hogere geheugenbandbreedte en verbeterde inferentie-engines. De Blackwell-architectuur is specifiek ontworpen met generatieve AI in gedachten, wat betekent dat inferentie van grote taalmodellen aanzienlijk efficiënter verloopt, ook naast actieve trainingsjobs. Voor organisaties die nu investeren in toekomstbestendige infrastructuur is Blackwell de logische keuze.
De juiste serverplatformconfiguratie voor mixed workloads hangt af van vier factoren: het aantal GPU’s per node, de hoeveelheid VRAM, de CPU-GPU-balans en de netwerkverbinding tussen nodes. Een goede configuratie zorgt ervoor dat training en inferentie elkaar niet in de weg zitten en dat de hardware optimaal benut wordt.
Kies voor een platform met voldoende CPU-kernen om de datapipeline voor training te voeden zonder de GPU te laten wachten. Zorg voor hoge NVLink-bandbreedte tussen GPU’s voor multi-GPU-training. Voor inferentie op hetzelfde systeem is lage latentie naar opslag belangrijk, dus kies voor NVMe-opslag met hoge IOPS. Vergeet ook niet de voeding: meerdere high-end GPU’s verbruiken samen al snel meerdere kilowatts.
Het is beter om training en inferentie te scheiden wanneer je SLA-eisen stelt aan inferentielatentie, wanneer je trainingsjobs continu draaien zonder onderbreking, of wanneer de totale GPU-vraag de capaciteit van één node overstijgt. Scheiding geeft je meer controle en voorspelbaarheid per workloadtype.
In productieomgevingen waar een inferentie-API realtime verzoeken afhandelt, is het risico van gedeelde resources te groot. Een trainingsjob die plotseling extra geheugen opeist, kan de inferentieresponstijden direct beïnvloeden. In dat geval loont het om aparte nodes te reserveren per workload, ook al betekent dat hogere initiële hardwarekosten. De operationele betrouwbaarheid weegt daar ruimschoots tegenop.
Supermicro biedt meerdere serverplatformen die geschikt zijn voor mixed GPU-workloads, waaronder de SYS-821GE, de A+ Server-lijn met ondersteuning voor acht H100- of H200-GPU’s, en de nieuwere systemen op basis van de Blackwell B200 en B300. Deze systemen combineren hoge GPU-dichtheid met flexibele configuratiemogelijkheden.
Wat Supermicro onderscheidt in een GPU-serververgelijking, is de snelheid waarmee nieuwe GPU-generaties worden ondersteund. Waar merken als HP en Dell maanden nodig hebben om nieuwe Nvidia-architecturen te integreren, brengt Supermicro systemen met de nieuwste GPU’s als eerste op de markt. Dat geeft organisaties die voorop willen lopen een concreet voordeel in verwerkingscapaciteit en toekomstbestendigheid.
Resourceconflicten op een gedeeld GPU-platform voorkom je door gebruik te maken van Multi-Instance GPU (MIG), GPU-partitionering via software en workloadschedulers zoals Kubernetes met GPU-operators. Hiermee wijs je vaste GPU-resources toe aan afzonderlijke processen, zodat training en inferentie elkaar niet beïnvloeden.
MIG is de meest directe aanpak: je verdeelt één fysieke GPU in meerdere geïsoleerde instanties met eigen geheugen en rekencapaciteit. Een scheduler als Kubernetes met de Nvidia GPU Operator zorgt vervolgens voor automatische toewijzing van die instanties aan de juiste workloads. Combineer dit met prioriteitsregels in je scheduler, zodat tijdgevoelige inferentietaken altijd voorrang krijgen boven langlopende trainingsjobs.
Naast softwarematige isolatie is monitoring belangrijk. Gebruik tools als Nvidia DCGM of Prometheus met GPU-metrics om in realtime te zien hoe resources worden verdeeld. Zo kun je knelpunten vroeg signaleren en de configuratie aanpassen voordat prestatieproblemen ontstaan.
Bij NCS International helpen wij organisaties al 38 jaar bij het samenstellen van serverplatformen die precies passen bij hun workloads. Of je nu een mixed GPU-omgeving wilt opzetten of juist aparte nodes per workloadtype overweegt, wij configureren elk systeem volledig op maat. Als enige Supermicro-distributeur in Nederland met 24/7 on-site garantieservice weten wij bovendien wat er op het spel staat als je infrastructuur bedrijfskritisch is. Bekijk onze GPU-serveroplossingen en ontdek welk platform het beste aansluit bij jouw situatie.
Voor een stabiele mixed workload adviseren we minimaal 80 GB VRAM per GPU, zoals aangeboden door de H100 SXM of H200. Dit geeft je voldoende ruimte om een actieve trainingsjob te draaien terwijl MIG-instanties beschikbaar blijven voor inferentietaken. Bij grotere taalmodellen (70B+ parameters) is zelfs multi-GPU-configuratie met NVLink aan te raden om geheugendruk te vermijden.
In de meeste gevallen is nieuwe hardware nodig, omdat mixed workloads specifieke eisen stellen aan PCIe-generatie, NVLink-ondersteuning, voedingscapaciteit en koeling die oudere serverplatformen niet kunnen bieden. Een upgrade van alleen de GPU is zelden voldoende: het moederbord, de voeding en het koelsysteem moeten meeschalen. Een grondige compatibiliteitscheck is altijd de eerste stap voordat je investeert.
Begin met het in kaart brengen van je workloadprofielen: hoe zwaar zijn je trainingsjobs, hoe hoog is de inferentiedoorvoer die je nodig hebt, en wat zijn je latentie-eisen? Kies op basis daarvan een GPU-platform met MIG-ondersteuning en richt vervolgens een orkestratielaag in met Kubernetes en de Nvidia GPU Operator. Start klein met één node, valideer de configuratie onder realistische belasting en schaal daarna uit.
De meest voorkomende fout is het onderschatten van de koelingsbehoeften: trainingsjobs genereren continu hoge warmte, en als inferentietaken daar bovenop komen, kan de thermische belasting de GPU-kloksnelheden verlagen (thermal throttling). Een tweede veelgemaakte fout is het niet instellen van prioriteitsregels in de scheduler, waardoor trainingsjobs onbedoeld inferentieverkeer vertragen. Tot slot vergeten veel teams monitoring in te richten vóór productiegang, waardoor problemen pas worden ontdekt als de prestaties al zijn verslechterd.
MIG biedt hardware-level isolatie, wat betekent dat elke instantie zijn eigen geheugen en rekencapaciteit heeft zonder interferentie van andere processen. De prestaties per instantie zijn iets lager dan bij een volledig dedicated GPU, omdat je werkt met een subset van de totale GPU-resources. In de praktijk wegen de flexibiliteit en het efficiëntere gebruik van de hardware ruimschoots op tegen dit kleine prestatieverschil, zeker bij wisselende workloadpatronen.
Ja, zeker als je verwacht binnen één tot twee jaar te groeien naar grotere modellen of hogere inferentievolumes. De Blackwell-architectuur is specifiek geoptimaliseerd voor generatieve AI-inferentie en levert ook zonder actieve trainingsjobs aanzienlijk hogere doorvoer dan vorige generaties. Investeren in Blackwell nu betekent dat je infrastructuur klaar is voor toekomstige workloads zonder dat je opnieuw hoeft te investeren in hardware.
De meest gebruikte combinatie is Nvidia DCGM (Data Center GPU Manager) voor diepgaande GPU-metrics, gecombineerd met Prometheus en Grafana voor dashboarding en alerting. DCGM geeft inzicht in GPU-gebruik, geheugendruk, temperatuur en MIG-instantiestatus per workload. Voeg hier een APM-tool zoals Datadog of Elastic aan toe voor end-to-end zichtbaarheid van de volledige applicatiestack, zodat je bottlenecks snel kunt lokaliseren.
Den Sliem 89
7141 JG Groenlo
The Netherlands
+31 544 470 000
info@ncs.nl
GPU-servers verwerken duizenden berekeningen parallel — ontdek wanneer ze onmisbaar zijn voor jouw organisatie.
Wat is een AI-server en wanneer heb je er een nodig? Ontdek de techniek, hardware en toepassingen.