25 april 2026
De juiste AI-infrastructuur kiezen hangt af van vier factoren: het type AI-workload dat je draait (training of inferentie), de hoeveelheid rekenkracht die daarvoor nodig is, of je die rekenkracht on-premise of in de cloud wilt inzetten, en hoe je de infrastructuur in de toekomst wilt laten meegroeien. Heb je behoefte aan controle over je data, voorspelbare workloads of een hoge GPU-intensiteit? Dan is een on-premise AI-server vrijwel altijd de verstandigste keuze. In dit artikel beantwoorden we de meest gestelde vragen, zodat je een weloverwogen beslissing kunt nemen.
AI-infrastructuur is het geheel van hardware, software en netwerken waarop AI-toepassingen draaien. Denk aan GPU-servers voor modeltraining, opslagsystemen voor grote datasets en netwerken die die data snel doorvoeren. Zonder de juiste infrastructuur kunnen AI-modellen niet presteren zoals ze horen, en dat heeft directe gevolgen voor de snelheid en betrouwbaarheid van je AI-toepassingen.
Voor organisaties die AI serieus inzetten, is de keuze voor infrastructuur geen technisch detail, maar een strategische beslissing. De verkeerde keuze leidt tot trage modellen, hoge operationele kosten of een systeem dat over twee jaar al te klein is. Een goede infrastructuur biedt de basis om AI-projecten te laten slagen, van de eerste pilot tot productie op schaal.
AI-workloads vallen grofweg in twee categorieën uiteen: training en inferentie. Bij training leer je een model op grote datasets, wat gedurende een bepaalde periode enorm veel rekenkracht vraagt. Bij inferentie gebruik je een al getraind model om voorspellingen te doen; dat is minder intensief, maar moet wel consistent beschikbaar zijn.
Naast training en inferentie zijn er ook tussenvormen, zoals fine-tuning (een bestaand model aanpassen op jouw data) en batch-inferentie (grote hoeveelheden data tegelijk verwerken). Elk type stelt andere eisen aan je hardware. Training vraagt om krachtige GPU-clusters met hoge geheugenbandbreedte. Inferentie op schaal vraagt juist om lage latency en een hoge doorvoersnelheid. Door te weten welke workloads jij draait, kun je de hardware daar precies op afstemmen.
GPU-servers zijn ontworpen voor parallelle berekeningen en kunnen duizenden operaties tegelijk uitvoeren, wat ze ideaal maakt voor AI-training en grote inferentietaken. CPU-servers zijn beter in sequentiële taken en logica, maar lopen vast bij de massale matrixberekeningen die AI-modellen vereisen. Voor de meeste AI-workloads is een GPU-server de betere keuze.
Er zijn situaties waarin een CPU-server prima volstaat. Kleinere inferentietaken, traditionele machine-learningalgoritmen zoals beslisbomen of regressiemodellen, en data-preprocessing zijn workloads die geen GPU nodig hebben. In die gevallen is een krachtige CPU-server goedkoper en efficiënter.
Voor organisaties die zowel AI- als traditionele IT-workloads draaien, is een hybride aanpak vaak verstandig: GPU-servers voor de AI-taken, CPU-servers voor de rest. Zo betaal je alleen voor de rekenkracht die je echt nodig hebt.
De benodigde rekenkracht hangt af van drie variabelen: de grootte van je model (aantal parameters), de hoeveelheid trainingsdata en de gewenste doorlooptijd. Een kleiner taalmodel van een paar miljard parameters kun je trainen of draaien op één of twee GPU’s. Grote modellen met tientallen miljarden parameters vragen om meerdere high-end GPU’s met veel GPU-geheugen.
Een praktische aanpak is om te beginnen met een benchmark op een kleinere dataset en die resultaten te extrapoleren naar je volledige workload. Let daarbij ook op het GPU-geheugen: als je model niet in het geheugen van één GPU past, moet je ofwel een GPU met meer VRAM kiezen, ofwel je model over meerdere GPU’s verdelen. Dat laatste voegt complexiteit toe aan je setup en vraagt om de juiste interconnecttechnologie tussen de GPU’s.
Een on-premise AI-server is de betere keuze wanneer je te maken hebt met gevoelige data, voorspelbare en continue workloads, of wanneer de cloudkosten op termijn hoger uitvallen dan de investering in eigen hardware. Organisaties in de zorg, overheid of financiële sector kiezen vaak voor on-premise vanwege datasoevereiniteit en compliance-eisen.
De cloud werkt goed voor experimentele projecten, sporadische trainingsruns of situaties waarin je snel wilt opschalen zonder direct te investeren. Als je eenmalig een groot model wilt trainen en daarna weinig GPU-capaciteit nodig hebt, kan huren goedkoper zijn dan kopen.
Het omslagpunt ligt bij de mate van continuïteit. Zodra je GPU-servers structureel draait, wordt de cloud duur. De maandelijkse kosten voor krachtige cloud-GPU-instanties lopen snel op, en na een jaar of twee heb je voor hetzelfde geld eigen hardware die nog jaren meegaat. On-premise geeft je ook volledige controle over de configuratie, updates en beveiliging, iets wat de cloud niet altijd biedt.
AI-infrastructuur schaal je mee door van tevoren te kiezen voor een platform dat modulair uitbreidbaar is. Dat betekent: serverplatforms met vrije PCIe-slots voor extra GPU’s, opslagsystemen die je kunt uitbreiden zonder alles te vervangen, en een netwerk dat hogere bandbreedtes aankan. Wie daar bij de eerste aankoop al rekening mee houdt, bespaart zichzelf later een kostbare migratie.
Schalen doe je in de praktijk op twee manieren: verticaal (meer rekenkracht per server, bijvoorbeeld door meer GPU’s toe te voegen) of horizontaal (meer servers toevoegen aan je cluster). Verticaal schalen is eenvoudiger, maar heeft een fysiek maximum. Horizontaal schalen vraagt om een goede clusterarchitectuur en snelle interconnects tussen de nodes. De meeste groeiende AI-omgevingen combineren beide methoden.
De meest gemaakte fout bij het kiezen van AI-hardware is onderdimensioneren: hardware kopen die nu net voldoende is, maar over anderhalf jaar al te klein blijkt. AI-modellen worden groter, datasets groeien en het aantal gebruikers neemt toe. Koop altijd met een groeimarge van minimaal twee tot drie jaar in gedachten.
Andere veelgemaakte fouten zijn:
Tot slot: wacht niet te lang met de aankoop van GPU-hardware. Door de hoge marktvraag en de inkoop van complete productielijnen door grote techbedrijven fluctueren beschikbaarheid en prijzen sterk. Wie te lang wacht, riskeert dat de gewenste hardware simpelweg niet leverbaar is op het moment dat je die nodig hebt.
Bij NCS International helpen wij organisaties al 38 jaar bij het kiezen van de juiste serverinfrastructuur. Als grootste en oudste Supermicro-distributeur van Nederland leveren wij volledig op maat geconfigureerde on-premise AI-servers, inclusief de nieuwste Nvidia GPU-generaties, die bij ons beschikbaar zijn voordat andere merken ze kunnen leveren. Wij denken met je mee, van de eerste specificatie tot de uiteindelijke implementatie, zodat jij een infrastructuur krijgt die nu werkt en later meegroeit.
De doorlooptijd hangt af van de complexiteit van de configuratie en de beschikbaarheid van de hardware, maar reken gemiddeld op twee tot zes weken van bestelling tot inbedrijfstelling. Bij een leverancier zoals NCS International, die hardware op voorraad heeft en vooraf configureert, kan dit aanzienlijk korter zijn. Plan ook tijd in voor de integratie in je bestaande netwerk- en opslagomgeving, want dat is vaak de stap die de meeste tijd kost.
Voor serieuze AI-training zijn de Nvidia H100 en de nieuwere H200 op dit moment de sterkste keuzes, met name vanwege hun hoge GPU-geheugen (tot 141 GB bij de H200) en de HBM3e-geheugenbandbreedte. Voor organisaties met een kleiner budget of minder zware workloads biedt de Nvidia L40S een uitstekend prijs-prestatieverhouding voor zowel training als inferentie. Bespreek altijd je specifieke workload met een specialist, want de 'beste' GPU is altijd de GPU die het best past bij jouw use case en budget.
Dit is een veelvoorkomend knelpunt: moderne GPU-servers kunnen per server al snel 3 tot 10 kilowatt verbruiken, wat hoge eisen stelt aan stroomtoevoer en koeling. Laat vooraf een capaciteitscheck uitvoeren op je serverruimte of datacenter, zodat je weet of de huidige infrastructuur toereikend is. Als dat niet het geval is, zijn er opties zoals het gebruik van een colocation-datacenter voor de GPU-servers, of het inzetten van direct liquid cooling (DLC) om de warmtedichtheid te beheersen.
Voor de meeste organisaties is het verstandig om te starten met één goed geconfigureerde server die voldoende headroom biedt voor groei, zoals een systeem met vier tot acht GPU-slots waarvan je er initieel twee of vier vult. Dit geeft je de mogelijkheid om ervaring op te doen met je workloads en de infrastructuur later uit te breiden zonder alles te vervangen. Een cluster is pas zinvol als je workloads aantoonbaar de capaciteit van één server overschrijden, of als je hoge beschikbaarheid en failover nodig hebt.
On-premise hardware geeft je de meeste controle over dataverwerkingslocatie en toegangsbeheer, wat de basis vormt voor AVG-compliance. Zorg daarnaast voor versleuteling van data at rest en in transit, strikte toegangslogging en een duidelijk beleid over wie toegang heeft tot de trainingsdata en modeloutput. Voor sectoren zoals zorg of overheid is het ook raadzaam om te toetsen of je infrastructuur voldoet aan aanvullende kaders zoals NEN 7510 of BIO, en dit vooraf mee te nemen in de selectie van hardware en software.
Kant-en-klare AI-servers zijn gestandaardiseerde configuraties die snel leverbaar zijn, maar mogelijk niet optimaal aansluiten op jouw specifieke workload, budget of uitbreidingswensen. Een op maat geconfigureerd systeem stelt je in staat om precies de juiste combinatie van CPU, GPU, geheugen, opslag en netwerk te kiezen, afgestemd op wat jij nu nodig hebt én wat je over twee jaar verwacht te draaien. De meerprijs van maatwerk verdient zich doorgaans terug doordat je niet betaalt voor onnodige componenten en minder snel tegen capaciteitsgrenzen aanloopt.
In sommige gevallen is het mogelijk om bestaande servers uit te breiden met GPU's via beschikbare PCIe-slots, mits de server voldoende stroomcapaciteit, koeling en PCIe-bandbreedte biedt. In de praktijk zijn oudere generatie servers echter vaak niet geschikt voor moderne high-end GPU's zoals de H100, omdat ze onvoldoende PCIe 4.0- of 5.0-bandbreedte, voedingscapaciteit of koelcapaciteit hebben. Een grondige compatibiliteitscheck door een specialist is altijd de eerste stap voordat je investeert in uitbreiding van bestaande hardware.
Den Sliem 89
7141 JG Groenlo
The Netherlands
+31 544 470 000
info@ncs.nl
GPU-servers verwerken duizenden berekeningen parallel — ontdek wanneer ze onmisbaar zijn voor jouw organisatie.
Wat is een AI-server en wanneer heb je er een nodig? Ontdek de techniek, hardware en toepassingen.