Voor het draaien van generatieve AI heb je krachtige hardware nodig: minimaal een moderne GPU met veel videogeheugen (bij voorkeur 40 GB of meer), een snelle CPU, ruim systeemgeheugen (256 GB of meer voor serieuze workloads) en snelle NVMe-opslag. De exacte vereisten hangen af van de vraag of je modellen traint of alleen uitvoert, en van de grootte van die modellen. Hieronder vind je per onderdeel een duidelijk antwoord.

Wat is generatieve AI en waarom stelt het zulke hoge hardwarevereisten?

Generatieve AI is een vorm van kunstmatige intelligentie die nieuwe content genereert, zoals tekst, afbeeldingen, code of audio, op basis van patronen die het heeft geleerd uit grote hoeveelheden data. Modellen zoals GPT, LLaMA of Stable Diffusion bevatten miljarden parameters die tijdens verwerking tegelijkertijd in het geheugen moeten passen. Dat maakt de hardwarebehoefte fundamenteel anders dan bij traditionele software.

De reden dat generatieve AI zulke zware hardware vraagt, zit in de wiskundige operaties die eraan ten grondslag liggen. Grote taalmodellen en beeldgeneratoren voeren enorme hoeveelheden matrixberekeningen uit, en die moeten razendsnel en parallel worden verwerkt. Een gewone CPU is daarvoor veel te traag. Je hebt gespecialiseerde rekenkracht nodig die duizenden berekeningen tegelijk aankan, en dat is precies waar GPU’s voor zijn gebouwd.

Welke GPU is nodig voor het draaien van generatieve AI?

Voor generatieve AI heb je een GPU nodig met veel videogeheugen (VRAM) en hoge rekenkracht. Nvidia-GPU’s domineren dit segment vanwege hun ondersteuning voor CUDA en de bijbehorende AI-softwarestack. Voor professionele workloads zijn de Nvidia H100, H200 en de nieuwere B200 de standaard. Voor kleinere inferentietaken volstaan soms ook de A100 of L40S.

Het videogeheugen is de beperkende factor bij bijna elke AI-workload. Een model met 70 miljard parameters heeft al snel meer dan 140 GB VRAM nodig om volledig in het geheugen te passen, afhankelijk van het gebruikte datatype. Kleinere modellen of geoptimaliseerde kwantisatieversies kunnen met minder toe, maar voor serieuze productieomgevingen wil je niet beknibbelen op VRAM. Multi-GPU-configuraties zijn dan de logische stap, waarbij meerdere GPU’s samenwerken via snelle interconnects zoals NVLink.

Supermicro staat als merk bekend om het als eerste ondersteunen van de nieuwste Nvidia-GPU-generaties, waaronder de B300-serie. Dat betekent dat je als organisatie niet hoeft te wachten totdat traditionele servermerken hun productlijnen updaten.

Hoeveel geheugen en opslag heeft een AI-server nodig?

Een AI-server heeft voor serieuze workloads minimaal 256 GB systeemgeheugen (RAM) nodig, maar 512 GB of meer is voor training en grote inferentietaken realistischer. Voor opslag geldt: gebruik NVMe-SSD’s voor snelle datatoegang tijdens training, en overweeg een gelaagde opslagarchitectuur met meer capaciteit voor datasets en modelopslag.

Systeemgeheugen speelt een andere rol dan VRAM. RAM wordt gebruikt voor het laden van datasets, preprocessing en communicatie tussen CPU en GPU. Als je RAM tekortschiet, vertraagt het hele systeem omdat data moet worden gewisseld met de opslag. Dat is funest voor de trainingssnelheid.

Voor opslag zijn er twee dingen die je goed moet regelen. Ten eerste snelheid: trainingsdata moet snel genoeg worden aangeleverd aan de GPU’s, anders wachten die continu op data in plaats van te rekenen. Ten tweede capaciteit: datasets voor het trainen van grote modellen kunnen tientallen tot honderden terabytes beslaan. Een combinatie van snelle NVMe-opslag voor actieve data en opslag met hogere capaciteit voor archivering werkt in de praktijk goed.

Wat is het verschil tussen AI-training en AI-inferentie qua hardware?

AI-training vereist de zwaarste hardware: veel GPU’s met maximale VRAM, hoge geheugenbandbreedte en snelle interconnects tussen GPU’s. AI-inferentie, het uitvoeren van een al getraind model, is minder veeleisend en kan soms met minder krachtige GPU’s of zelfs gespecialiseerde inferentiekaarten worden gedaan. De keuze voor hardware hangt dus sterk af van wat je wilt doen.

Hardware voor AI-training

Tijdens training verwerkt het model enorme hoeveelheden data en past het continu zijn parameters aan. Dit vereist maximale parallelle rekenkracht en veel VRAM, omdat de gradiënten en tussenliggende berekeningen ook in het geheugen moeten passen. Multi-GPU-setups met snelle verbindingen zijn hier bijna altijd noodzakelijk. De trainingstijd kan weken duren, dus elke inefficiëntie in de hardware kost je direct tijd en geld.

Hardware voor AI-inferentie

Bij inferentie voer je een getraind model uit om voorspellingen of output te genereren. Dit is minder geheugenintensief dan training, maar latency en doorvoer worden nu de belangrijkste maatstaven. Voor lage latency bij realtime toepassingen wil je nog steeds krachtige GPU’s. Voor batchverwerking kun je soms uitkomen met goedkopere of gespecialiseerde inferentiekaarten. Kwantisatie, het comprimeren van modellen naar lagere precisie, helpt om de hardwarevereisten voor inferentie verder te verlagen.

Welke serverarchitectuur is het meest geschikt voor generatieve AI?

De meest geschikte serverarchitectuur voor generatieve AI is een GPU-geoptimaliseerde server met meerdere high-end GPU’s, een krachtige multicore-CPU, hoge geheugenbandbreedte, snelle NVMe-opslag en een netwerk met lage latency. Voor grootschalige workloads schakel je meerdere van deze servers samen in een cluster met snelle interconnects.

De keuze van de behuizing en het moederbord bepaalt hoeveel GPU’s je kunt plaatsen en hoe goed ze samenwerken. Sommige serverplatforms ondersteunen vier GPU’s, andere acht of meer. De bandbreedte tussen CPU en GPU, en tussen GPU’s onderling, bepaalt hoe effectief ze samenwerken. Een bottleneck in de interconnect maakt krachtige GPU’s veel minder effectief.

Koeling is een aspect dat je niet mag onderschatten. Meerdere high-end GPU’s produceren enorm veel warmte. Serverplatforms die speciaal zijn ontworpen voor AI-workloads, zoals die van Supermicro, zijn uitgerust met geavanceerde koeloplossingen die de hardware stabiel en betrouwbaar houden onder voortdurende belasting.

Welke veelgemaakte fouten worden gemaakt bij het kiezen van AI-hardware?

De meest voorkomende fout bij het kiezen van AI-hardware is te weinig VRAM inplannen. Andere veelgemaakte fouten zijn het onderschatten van de opslagbandbreedte, het vergeten van koelcapaciteit, het niet nadenken over schaalbaarheid en het kiezen van hardware die niet aansluit bij de specifieke workload (training versus inferentie).

Te weinig VRAM is de fout die de meeste organisaties pijn oplevert. Een model dat niet in het GPU-geheugen past, werkt simpelweg niet of presteert dramatisch slechter. Koop je een server die nu net genoeg heeft, dan loop je binnen een jaar al tegen de grenzen aan als je grotere modellen wilt draaien.

Een andere fout is het negeren van de totale systeembalans. Een server met acht krachtige GPU’s maar een trage netwerkverbinding of langzame opslag wordt een dure teleurstelling. Alle componenten moeten op elkaar zijn afgestemd. Tot slot zien we regelmatig dat organisaties kiezen voor standaardservers van grote merken die niet zijn ontworpen voor AI-workloads, en dan achteraf constateren dat de configuratiemogelijkheden te beperkt zijn.

Wanneer is maatwerk AI-hardware zinvoller dan een standaardoplossing?

Maatwerk AI-hardware is zinvoller dan een standaardoplossing zodra je specifieke GPU-combinaties nodig hebt, bijzondere opslagvereisten hebt, werkt in een gereguleerde omgeving met on-premise vereisten, of wanneer je schaalbaarheid op de lange termijn wilt garanderen zonder te betalen voor capaciteit die je niet gebruikt.

Standaardservers van grote merken zijn ontworpen voor brede inzetbaarheid. Dat klinkt handig, maar in de praktijk betekent het dat je compromissen sluit op precies de onderdelen die voor AI-workloads het meeste uitmaken: het aantal GPU-slots, de geheugenbandbreedte, de koeloplossing en de uitbreidingsmogelijkheden. Een configuratie op maat geeft je precies wat je nodig hebt, zonder onnodige overhead.

Maatwerk is ook relevant als je werkt met de nieuwste GPU-generaties. Supermicro brengt ondersteuning voor nieuwe Nvidia-GPU’s aanzienlijk eerder op de markt dan HP of Dell. Als je organisatie niet wil wachten en de nieuwste hardware nodig heeft voor een concurrentievoordeel of onderzoeksdoeleinden, dan is een standaardcatalogus van grote merken gewoon geen optie.

Bij NCS International configureren wij elke AI-server volledig op maat, afgestemd op jouw workload, ruimte, budget en toekomstige groei. Als grootste en oudste Supermicro-distributeur van Nederland leveren wij als eerste in de Benelux de nieuwste Nvidia-GPU-generaties, inclusief 24/7 on-site garantieservice. Wil je weten welke configuratie bij jouw situatie past? Neem dan contact met ons op, dan denken we direct met je mee.

Veelgestelde vragen

Kan ik beginnen met een enkele GPU, of heb ik meteen een multi-GPU-setup nodig?

Dat hangt volledig af van je workload. Voor experimenten, het draaien van kleinere modellen (tot circa 13 miljard parameters) of inferentie op beperkte schaal kun je prima starten met één krachtige GPU, zoals een Nvidia A100 of L40S. Zodra je grotere modellen wilt trainen of uitvoeren, of meerdere gebruikers tegelijk wilt bedienen, is een multi-GPU-configuratie vrijwel onvermijdelijk. Begin met een duidelijke inventarisatie van je modelgrootte en verwacht gebruik, zodat je niet te vroeg of te laat opschaalt.

Wat is kwantisatie precies, en maakt het mijn hardwarevereisten écht significant lager?

Kwantisatie is een techniek waarbij de gewichten van een AI-model worden omgezet van een hoge precisie (bijvoorbeeld 32-bit of 16-bit) naar een lagere precisie (zoals 8-bit of 4-bit). Dit verkleint de hoeveelheid VRAM die een model nodig heeft soms met een factor twee tot vier, waardoor je grotere modellen op minder hardware kunt draaien. Het nadeel is dat er een licht kwaliteitsverlies kan optreden, hoewel moderne kwantisatiemethoden zoals GPTQ en AWQ dit effect sterk minimaliseren. Voor inferentie is kwantisatie dan ook een uitstekende strategie om hardwarekosten te drukken zonder grote concessies aan de output.

Hoe weet ik hoeveel VRAM ik nodig heb voor een specifiek model?

Een vuistregel: voor een model in full precision (FP16) heb je ongeveer twee gigabyte VRAM per miljard parameters nodig. Een model van 70 miljard parameters vraagt dus minimaal 140 GB VRAM, zonder de overhead voor de context en tussenliggende berekeningen mee te tellen. Voor training ligt dat getal nog hoger, omdat gradiënten en optimizer-states ook in het geheugen moeten passen. Tools zoals Hugging Face's model cards en de VRAM-calculator van sites als Hugging Face of Tim Dettmers' blog geven per model een concrete schatting op basis van precisie en batchgrootte.

Is cloud-gebaseerde AI-infrastructuur niet goedkoper dan eigen on-premise hardware?

Op korte termijn lijkt cloud goedkoper omdat er geen aanschafkosten zijn, maar bij structureel en intensief gebruik slaat de balans snel om. GPU-uren in de cloud zijn duur, en bij workloads die continu of meerdere uren per dag draaien, verdient on-premise hardware zichzelf vaak binnen één tot twee jaar terug. Bovendien geeft on-premise hardware volledige controle over data, beveiliging en beschikbaarheid, wat voor gereguleerde sectoren zoals zorg, overheid en financiën vaak een harde eis is. Een hybride aanpak, waarbij je basisbelasting on-premise draait en piekbelasting in de cloud opvangt, is voor veel organisaties de meest kostenefficiënte keuze.

Welke rol speelt de CPU nog in een AI-server als de GPU het zware werk doet?

De CPU is verantwoordelijk voor het aansturen van de GPU's, het uitvoeren van data-preprocessing, het beheren van de geheugenuitwisseling en het coördineren van gedistribueerde workloads over meerdere nodes. Een trage of onderbezette CPU kan de GPU's uithongeren van data, waardoor die kostbare rekentijd verloren gaat aan wachten. Voor AI-servers kies je bij voorkeur voor een moderne multicore-CPU met hoge geheugenbandbreedte en voldoende PCIe-lanes om alle GPU's tegelijk optimaal te voeden, zoals de AMD EPYC- of Intel Xeon-generaties die speciaal voor dit soort workloads zijn geoptimaliseerd.

Hoe zorg ik ervoor dat mijn AI-infrastructuur schaalbaar blijft naarmate modellen groter worden?

Schaalbaarheid begint bij de keuze van het serverplatform: zorg dat het moederbord en de behuizing ruimte bieden voor uitbreiding in GPU-slots, geheugenkanalen en opslagcapaciteit. Kies daarnaast voor een netwerkinfrastructuur met lage latency, zoals InfiniBand of high-speed Ethernet, zodat je meerdere servers later eenvoudig kunt samenvoegen tot een cluster. Het is ook verstandig om nu al te kiezen voor hardware die de nieuwste GPU-generaties ondersteunt, zodat je bij een upgrade niet het hele platform hoeft te vervangen. Een gespecialiseerde partner zoals NCS International kan je helpen een architectuur te ontwerpen die niet alleen vandaag werkt, maar ook over drie tot vijf jaar nog relevant is.

Wat moet ik regelen op het gebied van stroom en koeling voordat ik AI-hardware installeer?

High-end AI-servers met meerdere GPU's kunnen per server 5.000 tot 10.000 watt of meer verbruiken, wat aanzienlijke eisen stelt aan de stroomvoorziening en koeling van je datacenterruimte of serverruimte. Controleer vooraf of je stroomgroepen voldoende capaciteit hebben en of de UPS-installatie het extra verbruik aankan. Voor koeling geldt: traditionele luchtkoeling volstaat voor kleinere setups, maar bij hoge GPU-dichtheid is directe vloeistofkoeling (direct liquid cooling) steeds vaker de enige praktische oplossing om temperaturen beheersbaar te houden. Laat een vermogenscalculatie en koelingsanalyse uitvoeren voordat je hardware bestelt, zodat je niet voor verrassingen komt te staan bij de installatie.

Gerelateerde artikelen

NCS International

Den Sliem 89
7141 JG Groenlo
The Netherlands
+31 544 470 000
info@ncs.nl

Meer berichten