29 april 2026
Het trainen van een groot taalmodel vraagt enorm veel rekenkracht, en GPU’s zijn daarvoor de motor. Hoeveel je er nodig hebt, hangt af van de modelgrootte, het aantal parameters en hoe snel je wilt trainen. Als vuistregel geldt: voor een model met enkele miljarden parameters heb je al snel tientallen tot honderden krachtige GPU’s nodig, en voor de allergrootste modellen praat je over duizenden. In dit artikel leggen we stap voor stap uit wat dat betekent voor jouw infrastructuurkeuzes.
Een groot taalmodel, ook wel een Large Language Model (LLM), is een neuraal netwerk dat is getraind op enorme hoeveelheden tekst om menselijke taal te begrijpen en te genereren. Modellen als GPT, LLaMA en Mistral tellen miljarden tot honderden miljarden parameters. Al die parameters moeten tijdens het trainen tegelijk in het geheugen staan en continu worden bijgewerkt, en dat maakt de rekenbelasting extreem hoog.
GPU’s zijn bij uitstek geschikt voor dit soort werklasten omdat ze duizenden berekeningen tegelijk uitvoeren via parallelle verwerking. Waar een CPU uitblinkt in sequentiële taken, verwerkt een GPU matrixbewerkingen in bulk: precies de berekeningen die een neuraal netwerk nodig heeft. Hoe groter het model, hoe meer GPU-geheugen en rekenkracht je nodig hebt om de trainingstijd beheersbaar te houden.
Het aantal benodigde GPU’s voor LLM-training hangt direct af van het aantal modelparameters en de gewenste trainingstijd. Een model van 7 miljard parameters kun je in theorie trainen met 8 tot 16 high-end GPU’s, maar voor modellen van 70 miljard parameters of meer heb je al snel honderden tot duizenden GPU’s nodig om de training binnen een redelijke tijd af te ronden.
De rekensom is eenvoudig te maken: één parameter in 16-bit-precisie neemt 2 bytes aan geheugen in beslag. Daarboven komen gradienten, optimizer-states en activaties. In de praktijk reken je voor training op minimaal 16 tot 20 bytes per parameter. Een model van 7 miljard parameters vraagt daarmee al gauw 112 tot 140 GB aan GPU-geheugen, wat je over meerdere GPU’s moet verdelen.
Naast de modelgrootte spelen ook de hoeveelheid trainingsdata, het aantal trainingsrondes (epochs) en de batch size een grote rol. Meer GPU’s verlagen de trainingstijd, maar verhogen de complexiteit van de communicatie tussen GPU’s. De balans vinden tussen snelheid, kosten en betrouwbaarheid is daarmee een technische afweging die je vooraf goed moet doordenken.
Voor LLM-training zijn GPU’s met veel HBM-geheugen (High Bandwidth Memory), hoge geheugenbandbreedte en sterke ondersteuning voor mixed-precision-berekeningen het meest geschikt. De Nvidia H100 en de nieuwere B200- en B300-generatie zijn momenteel de meest gebruikte keuzes voor serieuze trainingsworkloads, dankzij hun grote geheugenruimte en hoge doorvoersnelheid.
Naast pure rekenkracht telt ook de interconnect-snelheid. GPU’s communiceren tijdens gedistribueerd trainen constant met elkaar, en een trage verbinding vormt al snel een knelpunt. Nvidia’s NVLink en NVSwitch zorgen voor snelle GPU-to-GPU-communicatie binnen een server, terwijl InfiniBand de verbinding tussen servers verzorgt. Voor grootschalige trainingsinfrastructuur zijn dit geen opties, maar vereisten.
GPU-training en GPU-inferentie zijn fundamenteel verschillende werklasten. Training is rekenintensief en geheugenintensief: het model leert van data en werkt continu parameters bij. Inferentie draait een al getraind model en genereert output op basis van een invoer. Inferentie vraagt minder geheugen en rekenkracht per stap, maar stelt andere eisen aan latency en doorvoer.
Voor training wil je maximale rekenkracht en zo veel mogelijk GPU-geheugen. Voor inferentie wil je snelle responstijden en de mogelijkheid om veel gelijktijdige verzoeken te verwerken. Dit betekent dat de GPU-keuze en serverarchitectuur voor training en inferentie niet per se dezelfde zijn. Een server die uitstekend traint, hoeft niet de beste keuze te zijn voor productie-inferentie op grote schaal.
GPU-infrastructuur schaal je op via drie vormen van parallelisme: data-parallelisme, model-parallelisme en pipeline-parallelisme. Bij data-parallelisme verwerken meerdere GPU’s tegelijk verschillende batches van dezelfde data. Bij model-parallelisme verdeel je de lagen van het model over meerdere GPU’s. Pipeline-parallelisme combineert beide aanpakken voor maximale efficiëntie bij zeer grote modellen.
De keuze voor de juiste schaalmethode hangt af van je modelarchitectuur en de beschikbare hardware. Hoe meer GPU’s je inzet, hoe belangrijker de netwerktopologie wordt. Servers moeten via snelle verbindingen samenwerken, en de opslag moet de data snel genoeg kunnen aanleveren om GPU’s niet te laten wachten. Een goed ontworpen infrastructuur behandelt GPU’s, netwerk en opslag als één samenhangend systeem.
De meest gemaakte fout is focussen op rekenkracht terwijl je het GPU-geheugen vergeet. Een GPU met indrukwekkende TFLOPS-cijfers maar onvoldoende geheugen dwingt je het model op te splitsen op een manier die de prestaties juist vertraagt. De tweede veelgemaakte fout is onderschatten hoeveel bandbreedte je nodig hebt, zowel intern tussen GPU’s als extern naar opslag.
Andere veelgemaakte fouten zijn het negeren van koeling en stroomverbruik, het kiezen voor een platform dat niet schaalbaar is en het onderschatten van de totale eigendomskosten. GPU-hardware voor AI is schaars en de prijzen fluctueren sterk door grote inkopers en hoge marktvraag. Wie te laat inkoopt of te weinig capaciteit reserveert, betaalt meer of wacht langer. Plannen op basis van je huidige behoeften zonder rekening te houden met groei is een risico dat je wilt vermijden.
Een maatwerk GPU-server is voordeliger dan de cloud zodra je GPU-gebruik structureel hoog is, je dataprivacy-eisen stelt of je volledige controle over je hardware wilt. De cloud is flexibel voor korte of onregelmatige werklasten, maar bij continue trainingsruns en inferentie-omgevingen slaan de kosten snel door, waardoor on-premises vaak de betere optie is.
Daarnaast biedt eigen hardware voorspelbaarheid. Je weet precies wat je hebt, hoe het geconfigureerd is en wat de capaciteit is. In sectoren als zorg, defensie en financiële dienstverlening is dat niet alleen een voorkeur, maar vaak een vereiste. Cloudproviders bieden niet altijd de nieuwste GPU-generaties aan op het moment dat ze beschikbaar komen, terwijl je met eigen hardware direct kunt profiteren van de nieuwste mogelijkheden.
Bij NCS International configureren wij GPU-servers volledig op maat, afgestemd op jouw specifieke AI-werklast. Als grootste en oudste Supermicro-distributeur van Nederland leveren wij als eerste in de Benelux de nieuwste Nvidia GPU-generaties, inclusief de B300, ruim voordat andere merken die beschikbaar stellen. Of je nu een eerste GPU-server wilt bouwen of een bestaande infrastructuur wilt uitbreiden: wij denken met je mee, van configuratie tot implementatie, met 24/7 on-site garantieservice als vangnet.
Dat is technisch mogelijk voor kleinere modellen of fine-tuning, maar voor serieuze pre-training van LLM's zijn consumentenGPU's al snel een knelpunt. Ze hebben minder geheugen, geen ondersteuning voor NVLink en zijn niet ontworpen voor 24/7 belasting. Technieken zoals quantisatie en LoRA kunnen de geheugendruk verlagen, maar vervangen enterprise GPU's zoals de H100 of B200 niet als je schaalbare en betrouwbare trainingsinfrastructuur nodig hebt.
Begin met het in kaart brengen van je modelgrootte, de hoeveelheid trainingsdata en je gewenste trainingstijd. Bereken op basis daarvan het minimale GPU-geheugen dat je nodig hebt, en kies vervolgens hardware die daar ruim boven zit om groei op te vangen. Start met een bewezen serverplatform zoals Supermicro, zorg dat je netwerk- en opslaginfrastructuur op niveau is, en overweeg een gesprek met een gespecialiseerde leverancier om kostbare configuratiefouten te vermijden.
Full pre-training betekent dat je een model volledig van nul af aan traint op een grote dataset, wat de meeste rekenkracht en GPU's vereist. Fine-tuning past een al getraind basismodel aan op een specifieke taak of dataset, wat aanzienlijk minder geheugen en rekentijd kost. Met technieken zoals LoRA of QLoRA kun je fine-tuning zelfs uitvoeren op één of enkele GPU's, waardoor dit voor veel organisaties een toegankelijker startpunt is dan volledige pre-training.
Monitor de GPU-bezettingsgraad (GPU utilization), geheugengebruik en de doorvoer in tokens per seconde. Tools zoals Nvidia's nvidia-smi, DCGM en frameworks als Weights & Biases of TensorBoard geven je inzicht in deze metrieken. Een lage GPU-bezetting wijst vaak op een knelpunt elders, zoals trage dataopslag, inefficiënte dataloaders of communicatievertraging tussen GPU's. Optimaliseer eerst die bottlenecks voordat je extra GPU-hardware inzet.
Een server met acht H100-GPU's verbruikt al snel 10 tot 12 kilowatt aan vermogen, wat bij continue belasting neerkomt op aanzienlijke energiekosten per maand. Efficiënte koeling, het gebruik van mixed-precision-training (zoals BF16 of FP8) en het vermijden van onnodige hertraining zijn de meest effectieve manieren om energie- en kostengebruik te beperken. Zorg ook dat je datacenterinfrastructuur de stroombelasting aankan, want onderschatting van het stroomverbruik is een van de meest voorkomende planningsfouten.
De omslagpunt ligt doorgaans bij een structurele GPU-bezetting van 60 tot 70 procent of meer over een langere periode. Als je maandelijkse cloudkosten voor GPU-compute consistent hoog zijn, verdient eigen hardware zich in de meeste gevallen terug binnen één tot twee jaar. Naast kosten spelen ook dataprivacy, latency-eisen en de behoefte aan configuratiecontrole een rol. Een gedetailleerde Total Cost of Ownership (TCO)-analyse over drie tot vijf jaar geeft je de meest betrouwbare basis voor deze beslissing.
AI-hardware evolueert snel, maar een goed geconfigureerde server met de huidige topgeneratie GPU's blijft meerdere jaren productief inzetbaar, zeker voor inferentie en fine-tuning. Kies voor een serverplatform dat modulair uitbreidbaar is, zodat je GPU's kunt upgraden zonder de volledige infrastructuur te vervangen. Werk samen met een leverancier die vroeg toegang heeft tot nieuwe GPU-generaties, zodat je tijdig kunt opschalen wanneer nieuwe modellen of werklasten dat vereisen.
Den Sliem 89
7141 JG Groenlo
The Netherlands
+31 544 470 000
info@ncs.nl
GPU-servers verwerken duizenden berekeningen parallel — ontdek wanneer ze onmisbaar zijn voor jouw organisatie.
Wat is een AI-server en wanneer heb je er een nodig? Ontdek de techniek, hardware en toepassingen.