AI-modellen hebben zoveel rekenkracht nodig omdat ze tijdens het trainen miljarden berekeningen tegelijk uitvoeren. Een groot taalmodel verwerkt enorme hoeveelheden data via parallelle wiskundige operaties, wat gewone processors simpelweg niet aankunnen. Daarvoor zijn GPU’s nodig: chips die speciaal zijn gebouwd om duizenden berekeningen tegelijkertijd uit te voeren. Hoe groter het model, hoe meer GPU’s en geheugen je nodig hebt.

Of je nu een AI-model wilt trainen, uitrollen of gewoon beter wilt begrijpen wat er technisch achter zit: in dit artikel beantwoorden we de meest gestelde vragen over AI en rekenkracht. Van het verschil tussen CPU en GPU tot de fouten die organisaties het vaakst maken bij het kiezen van hardware.

Wat is het verschil tussen een CPU en een GPU voor AI?

Een CPU is ontworpen om een beperkt aantal taken snel en sequentieel af te handelen. Een GPU doet precies het tegenovergestelde: hij voert duizenden eenvoudige berekeningen tegelijkertijd uit. Voor AI-workloads, waarbij je continu grote matrices met getallen vermenigvuldigt, is dat parallelle rekenvermogen van een GPU vele malen efficiënter.

Een CPU heeft doorgaans een handvol krachtige kernen, ideaal voor complexe logica en besluitvorming. Een moderne GPU heeft duizenden kleinere kernen die samenwerken. Bij het trainen van een neuraal netwerk moet je steeds weer dezelfde soort wiskundige bewerkingen uitvoeren op enorme datasets. Dat is precies waar GPU’s voor gemaakt zijn.

Praktisch gezien betekent dit dat een taak die op een CPU dagen zou duren, op een GPU-server in uren of zelfs minuten klaar kan zijn. Dat tijdsverschil is bij AI geen luxe, maar een noodzaak, zeker als je modellen regelmatig opnieuw traint of finetunet op nieuwe data.

Hoeveel rekenkracht heeft een AI-model nodig om te trainen?

De hoeveelheid rekenkracht die nodig is om een AI-model te trainen, hangt af van drie factoren: de grootte van het model (aantal parameters), de hoeveelheid trainingsdata en de gewenste nauwkeurigheid. Kleine modellen kun je trainen op één of enkele GPU’s. Grote taalmodellen vereisen clusters van honderden of zelfs duizenden GPU’s die wekenlang draaien.

Een model met een paar miljard parameters vraagt al om meerdere krachtige GPU’s met veel geheugen. Dat geheugen, ook wel VRAM genoemd, is net zo belangrijk als de rekenkracht zelf. Als een model niet in het GPU-geheugen past, vertraagt het trainingsproces enorm of mislukt het volledig.

Voor kleinere organisaties die een bestaand model willen finetunen op eigen data, is de drempel gelukkig een stuk lager. Daarvoor volstaat soms al een server met één of twee GPU’s. Maar voor het trainen van een model vanaf nul geldt: hoe ambitieuzer het model, hoe groter de hardware-investering.

Welke hardware wordt gebruikt voor AI-infrastructuur?

AI-infrastructuur draait op een combinatie van GPU-servers, snelle netwerkverbindingen en opslagoplossingen met een hoge doorvoersnelheid. De GPU is het hart van elke AI-server, maar zonder de juiste processor, voldoende geheugen en een snelle interconnect tussen de GPU’s presteert het systeem ver onder zijn mogelijkheden.

GPU-servers

GPU-servers zijn servers met meerdere krachtige grafische kaarten, zoals de Nvidia H100 of de nieuwere B200-generatie. Deze kaarten zijn speciaal ontworpen voor AI- en HPC-workloads en bieden enorme rekenkracht in een compact formaat. Het aantal GPU’s per server varieert van twee tot wel acht of meer, afhankelijk van de workload.

Netwerk en opslag

Snelle opslag is nodig om trainingsdata snel genoeg aan de GPU’s te leveren. Als de opslag te traag is, wachten de GPU’s op data en gaat rekenkracht verloren. Hetzelfde geldt voor het netwerk: bij multi-node-training communiceren servers continu met elkaar, waarvoor snelle interconnects zoals InfiniBand of 400GbE nodig zijn.

Koeling en stroom

AI-hardware verbruikt veel stroom en produceert veel warmte. Een GPU-server trekt al snel meerdere kilowatt, en een volledig rack met GPU-servers kan de grenzen van traditionele datacenterkoeling opzoeken. Liquid cooling wordt daarvoor steeds vaker ingezet.

Wat is het verschil tussen AI-training en AI-inferentie?

AI-training is het proces waarbij een model leert van data. AI-inferentie is het gebruik van een al getraind model om voorspellingen te doen of antwoorden te genereren. Training is intensief en tijdelijk. Inferentie is minder zwaar, maar moet vaak razendsnel en op grote schaal plaatsvinden.

Tijdens training verwerkt het model enorme hoeveelheden data, past het zijn interne gewichten aan en herhaalt dat proces miljoenen keren. Dat vraagt om maximale GPU-capaciteit over een langere periode. Bij inferentie voer je een prompt of invoer in en krijg je een uitvoer terug. Dat is per berekening een stuk minder rekenintensief, maar als duizenden gebruikers tegelijk een model bevragen, telt het snel op.

Voor inferentie op schaal kies je hardware die snel reageert en efficiënt omgaat met energie. Voor training kies je hardware met zo veel mogelijk rekenkracht en VRAM. Veel organisaties gebruiken voor beide doelen andere serverconfiguraties.

Hoe bouw je een AI-infrastructuur op voor jouw organisatie?

Je bouwt een AI-infrastructuur op door eerst te bepalen wat je wilt doen: trainen, finetunen of inferentie draaien. Daarna kies je de bijpassende hardware, bepaal je of je on-premises of in de cloud werkt, en zorg je voor de juiste opslag- en netwerkinfrastructuur. Begin klein en schaalbaar, zodat je later kunt uitbreiden.

Stel jezelf deze vragen voordat je hardware aanschaft:

  • Wil ik modellen trainen, finetunen of alleen uitrollen?
  • Hoe groot zijn de modellen die ik wil draaien?
  • Hoeveel gelijktijdige gebruikers of verzoeken verwacht ik?
  • Heb ik specifieke eisen rondom databeveiliging of compliance?
  • Wat is mijn budget voor aanschaf en energiekosten?

On-premises GPU-servers geven je volledige controle over je data en zijn op de lange termijn kostenefficiënter dan cloudoplossingen bij intensief gebruik. De cloud is handig voor tijdelijke of onvoorspelbare workloads. Veel organisaties kiezen voor een hybride aanpak: eigen hardware voor vaste workloads, met de cloud als aanvulling bij pieken.

Welke fouten maken organisaties bij het kiezen van AI-hardware?

De meest gemaakte fout bij het kiezen van AI-hardware is het onderschatten van hoeveel GPU-geheugen een model nodig heeft. Een model dat niet in VRAM past, werkt niet of werkt traag. Andere veelvoorkomende fouten zijn het kopen van hardware die niet schaalbaar is, het negeren van koeling- en stroomvereisten, en het kiezen op basis van alleen de prijs.

Een tweede veelgemaakte fout is het niet nadenken over de toekomst. AI-modellen worden groter en zwaarder. Hardware die vandaag voldoet, kan over anderhalf jaar al een bottleneck zijn. Kies daarom voor systemen die uitbreidbaar zijn, zowel qua GPU’s als qua geheugen en opslag.

Daarnaast onderschatten veel organisaties het belang van de juiste interconnect tussen GPU’s. Bij multi-GPU-training is de communicatiesnelheid tussen kaarten direct van invloed op de totale trainingstijd. Goedkopere systemen besparen op dit onderdeel, met merkbare prestatieverliezen als gevolg.

Tot slot: wacht niet te lang met aanschaffen als je weet dat je AI-hardware nodig hebt. De markt voor GPU-servers is de afgelopen jaren sterk gespannen geraakt door de enorme vraag vanuit hyperscalers en AI-bedrijven. Levertijden lopen op en prijzen fluctueren fors, mede door schaarste en de inkoop van complete productielijnen door grote partijen.

Bij NCS International helpen wij organisaties bij het samenstellen van de juiste AI-infrastructuur, van een enkele GPU-server tot complete multi-rackoplossingen. Als grootste en oudste Supermicro-distributeur van Nederland leveren wij als eerste de nieuwste GPU-generaties, inclusief de nieuwste Nvidia-kaarten die andere merken nog niet ondersteunen. Wil je weten welke configuratie past bij jouw workload? Neem contact met ons op en we denken graag met je mee.

Veelgestelde vragen

Wat is finetunen en wanneer is het een goed alternatief voor het trainen van een model vanaf nul?

Finetunen betekent dat je een bestaand, vooraf getraind model verder traint op jouw eigen specifieke dataset, zodat het beter presteert voor jouw use case. Dit is in de meeste gevallen een veel slimmere keuze dan trainen vanaf nul, omdat je aanzienlijk minder rekenkracht, tijd en data nodig hebt. Het is ideaal voor organisaties die een domeinspecifiek model willen bouwen, bijvoorbeeld voor juridische teksten, klantenservice of medische rapportages, zonder de enorme investering van een volledig trainingsproces.

Hoe weet ik hoeveel VRAM ik nodig heb voor het model dat ik wil draaien?

Een vuistregel is dat je per miljard parameters van een model ruwweg 2 GB VRAM nodig hebt bij gebruik van half-precision (FP16). Een model van 7 miljard parameters vraagt dus al snel om 14 GB VRAM, en tijdens training ligt dat verbruik nog hoger door de opslag van gradiënten en optimalisatiedata. Controleer altijd de officiële modeldocumentatie of gebruik tools zoals Hugging Face's model cards om de aanbevolen hardwarevereisten op te zoeken voordat je hardware aanschaft.

Is de cloud altijd goedkoper dan een eigen GPU-server?

Niet per se. De cloud is kostenefficiënt bij sporadisch of onvoorspelbaar gebruik, omdat je alleen betaalt voor wat je verbruikt. Maar bij continue of intensieve AI-workloads lopen de cloudkosten snel op en kan een eigen GPU-server zich binnen één tot twee jaar terugverdienen. Maak daarom altijd een total cost of ownership (TCO)-berekening over meerdere jaren voordat je een keuze maakt tussen cloud, on-premises of een hybride aanpak.

Wat is het verschil tussen de Nvidia H100 en de nieuwere B200, en welke heb ik nodig?

De H100 is momenteel de meest gebruikte GPU voor AI-workloads en biedt uitstekende prestaties voor zowel training als inferentie. De B200 (Blackwell-architectuur) is de nieuwere generatie en biedt significant hogere rekenkracht en geheugenbandbreedte, wat hem ideaal maakt voor de grootste en meest veeleisende modellen. Voor de meeste organisaties is de H100 een krachtig en bewezen startpunt, terwijl de B200 interessant is als je de absolute top wilt qua prestaties of toekomstbestendigheid.

Wat moet ik regelen op het gebied van stroom en koeling voordat ik GPU-servers installeer?

Controleer eerst of uw serverruimte of datacenter voldoende stroomcapaciteit heeft: een enkel rack met meerdere GPU-servers kan al snel 20 tot 40 kilowatt of meer verbruiken. Traditionele luchtkoeling is vaak niet toereikend voor deze densiteit, waardoor liquid cooling steeds vaker noodzakelijk is. Schakel tijdig een facilitair of datacenterspecialist in om knelpunten in stroom en koeling te identificeren, want dit zijn infrastructuurproblemen die achteraf duur en tijdrovend zijn om op te lossen.

Kan ik AI-workloads draaien op bestaande servers in mijn organisatie?

Dat hangt af van de specificaties van je huidige hardware. Bestaande servers zijn zelden geschikt voor serieuze AI-training, omdat ze onvoldoende VRAM, rekenkracht of de juiste interconnects missen. Voor lichte inferentietaken of het experimenteren met kleine modellen kan bestaande hardware soms volstaan, maar zodra je schaalt naar productieomgevingen of grotere modellen, is gespecialiseerde GPU-hardware vrijwel altijd noodzakelijk.

Hoe lang duurt het gemiddeld voordat GPU-servers worden geleverd, en hoe kan ik lange wachttijden vermijden?

Door de enorme wereldwijde vraag naar GPU-hardware kunnen levertijden oplopen van enkele weken tot meerdere maanden, afhankelijk van het type GPU en de configuratie. De beste manier om wachttijden te vermijden is vroegtijdig bestellen, zodra je weet dat een AI-project eraan komt. Werken met een gespecialiseerde distributeur die directe toegang heeft tot de nieuwste GPU-generaties, zoals een officiële Supermicro-distributeur, geeft je een significante voorsprong ten opzichte van het bestellen via algemene kanalen.

Gerelateerde artikelen

NCS International

Den Sliem 89
7141 JG Groenlo
The Netherlands
+31 544 470 000
info@ncs.nl

Meer berichten