Om AI in eigen beheer te draaien, heb je minimaal een server met een of meerdere krachtige GPU’s nodig, voldoende RAM, snelle opslag en een stabiele netwerkverbinding. Voor lichtere inference-taken volstaat soms één GPU; voor het trainen van grote modellen heb je meerdere high-end GPU’s, veel geheugen en een schaalbare infrastructuur nodig. De exacte hardware hangt af van je workload: train je modellen zelf, of draai je bestaande modellen lokaal?

Steeds meer organisaties kiezen ervoor om AI niet in de cloud te draaien, maar op eigen hardware. Dat geeft meer controle over data, lagere operationele kosten op de lange termijn en betere prestaties voor specifieke workloads. Maar welke hardware heb je dan precies nodig? In dit artikel beantwoorden we de meest gestelde vragen over AI-infrastructuur, van de basisvereisten tot de keuze tussen training en inference.

Wat betekent ‘AI in eigen beheer draaien’ precies?

AI in eigen beheer draaien betekent dat je AI-workloads uitvoert op hardware die je zelf beheert, in je eigen datacenter, serverruimte of kantoor, in plaats van gebruik te maken van cloudservices zoals AWS, Azure of Google Cloud. Je hebt volledige controle over de data, de configuratie en de rekenkracht.

Dit wordt ook wel on-premise AI of private AI-infrastructuur genoemd. In de praktijk gaat het om het installeren van een AI-server met de juiste GPU’s, het inrichten van software zoals CUDA, PyTorch of TensorFlow, en het draaien van je eigen modellen of open-sourcealternatieven zoals LLaMA of Mistral. Voor organisaties die werken met gevoelige data—denk aan ziekenhuizen, financiële instellingen of overheidsinstanties—is dit vaak de enige realistische optie.

Welke hardware heb je minimaal nodig voor AI?

Voor een functionele AI-opstelling heb je minimaal een krachtige GPU, voldoende systeemgeheugen (RAM), snelle opslag en een stabiele voeding nodig. Een instapserver voor AI-inference bevat doorgaans één moderne GPU met minimaal 16 GB VRAM, 64 GB RAM, een NVMe-SSD en een betrouwbare CPU als hostprocessor.

Wil je iets serieuzer aan de slag, dan groeit de lijst snel. Hieronder staan de basiscomponenten voor een AI-server:

  • GPU: De rekenkern van je AI-systeem. Kies een model met veel VRAM voor grote modellen.
  • CPU: Verwerkt de datapipeline en coördineert de GPU-taken. Een moderne server-CPU met veel cores is ideaal.
  • RAM: Minimaal 64 GB voor lichte workloads, 256 GB of meer voor zware training.
  • Opslag: Snelle NVMe-opslag voor datasets en modelgewichten. De capaciteit hangt af van de omvang van je data.
  • Voeding en koeling: GPU’s verbruiken veel stroom. Zorg voor voldoende PSU-capaciteit en goede luchtstroming of vloeistofkoeling.
  • Netwerk: Voor multi-GPU- of multi-node-setups is een snelle netwerkverbinding (10GbE of hoger) belangrijk.

Welke GPU is het beste voor AI-workloads?

Voor professionele AI-workloads zijn Nvidia-GPU’s de standaard. Veelgebruikte opties zijn de H100, A100 en de nieuwere B200- en B300-serie. Voor kleinere budgetten of inference-taken zijn de L40S of RTX 4090 ook populaire keuzes. De beste GPU hangt af van je specifieke workload en budget.

Nvidia domineert de AI-markt omdat het CUDA-platform de standaard is geworden voor vrijwel alle AI-frameworks. AMD biedt met zijn MI300-serie steeds sterkere alternatieven, maar de software-ondersteuning is nog niet overal op hetzelfde niveau. Kijk bij het kiezen van een GPU naar drie factoren:

  • VRAM: Hoe groter het model, hoe meer videogeheugen je nodig hebt. Een LLM met 70 miljard parameters past niet in 16 GB VRAM.
  • Bandbreedte: Hoge geheugenbandbreedte versnelt het laden van modelgewichten en verhoogt de doorvoer.
  • Interconnect: Voor multi-GPU-setups is NVLink of NVSwitch belangrijk om GPU’s efficiënt te laten samenwerken.

Hoeveel rekenkracht heb je nodig voor AI-modellen?

De benodigde rekenkracht voor AI-modellen hangt af van de modelgrootte, het type taak (training of inference) en de gewenste snelheid. Een klein taalmodel van 7 miljard parameters draait al op één GPU; een groot model van 70 miljard parameters of meer vraagt om meerdere GPU’s met hoge VRAM-capaciteit.

Een handige vuistregel: reken per miljard parameters op ongeveer 2 GB VRAM in FP16-precisie. Een model van 13 miljard parameters vraagt dus minimaal 26 GB VRAM. Wil je een hogere doorvoer of kortere responstijden, dan schakel je meerdere GPU’s parallel in. Voor training liggen de vereisten nog hoger, omdat je naast de modelgewichten ook gradiënten en optimizer-states in het geheugen moet houden.

Wat is het verschil tussen AI-training en inference?

AI-training is het proces waarbij een model leert van data door miljoenen parameters aan te passen. Inference is het gebruik van een al getraind model om voorspellingen of antwoorden te genereren. Training is veel rekenintensiever en vraagt aanzienlijk meer hardware dan inference.

Dit onderscheid is belangrijk voor je hardwarekeuze. Voor inference zijn GPU’s met veel VRAM en een hoge geheugenbandbreedte het meest relevant, maar de absolute rekenkracht hoeft minder hoog te zijn. Voor training wil je zoveel mogelijk FLOPS (floating point operations per second) en bij voorkeur meerdere GPU’s die samenwerken. Veel organisaties trainen modellen eenmalig of periodiek op krachtige hardware en draaien daarna inference op lichtere systemen. Dat is een slimme manier om kosten en prestaties in balans te houden.

Wanneer is een AI-server beter dan cloudoplossingen?

Een eigen AI-server is beter dan cloudoplossingen wanneer je structureel veel GPU-uren nodig hebt, werkt met gevoelige of privacygevoelige data, of volledige controle over je infrastructuur wilt. Op de lange termijn zijn de totale kosten van eigen hardware vaak lager dan doorlopende cloudkosten bij intensief gebruik.

Cloud is handig voor experimenten, korte pieken in rekenbehoefte of als je nog niet weet hoe groot je workload wordt. Maar zodra je wekelijks of dagelijks GPU-capaciteit nodig hebt, slaat de balans om. Bovendien spelen dataveiligheid en compliancevereisten een grote rol. Organisaties in de zorg, het onderwijs of de overheid mogen data vaak niet zomaar naar externe cloudproviders sturen. Een eigen AI-server geeft je de zekerheid dat data binnen je eigen netwerk blijft.

Daarnaast zijn cloudprijzen voor GPU-capaciteit de afgelopen jaren sterk gestegen door de enorme vraag naar AI-rekenkracht. Schaarste aan GPU’s en grote inkopers die hele productielijnen opkopen, drijven de marktprijzen op, zowel voor cloudgebruik als voor hardware zelf. Dat maakt de businesscase voor eigen hardware steeds aantrekkelijker.

Hoe begin je met het opzetten van een AI-infrastructuur?

Begin met het in kaart brengen van je workload: welke modellen wil je draaien, hoeveel gebruikers bedien je tegelijk, en heb je training of alleen inference nodig? Op basis daarvan kies je de juiste GPU-configuratie, bepaal je de benodigde opslag en RAM, en kies je een serverplatform dat past bij je schaalbehoeften.

Een praktische aanpak in stappen:

  1. Definieer je use case: LLM-inferentie, beeldherkenning, data-analyse of modeltraining? Elke workload heeft andere vereisten.
  2. Kies je modelgrootte: Bepaal met welke modellen je werkt en hoeveel VRAM dat vraagt.
  3. Selecteer je hardware: Kies een server met de juiste GPU’s, voldoende RAM en snelle opslag.
  4. Plan je schaalbaarheid: Begin klein, maar zorg dat de architectuur uitbreidbaar is met extra GPU’s of nodes.
  5. Richt je softwarestack in: Installeer de juiste drivers, CUDA-versies en AI-frameworks die passen bij je modellen.
  6. Zorg voor monitoring en beheer: Gebruik tools om GPU-gebruik, temperatuur en prestaties bij te houden.

Wil je niet zelf uitzoeken welke configuratie het beste bij jouw situatie past? Wij helpen je daar graag bij. Bij NCS International configureren we elke AI-server volledig op maat, op basis van jouw workload, budget en toekomstige schaalbaarheid. Als grootste en oudste Supermicro-distributeur van Nederland leveren wij als eerste de nieuwste Nvidia-GPU-generaties, inclusief 24/7 on-site garantieservice. Neem contact op, dan denken we graag met je mee.

Veelgestelde vragen

Kan ik beginnen met een enkele GPU en later uitbreiden?

Ja, dat is zelfs de aanbevolen aanpak voor de meeste organisaties. Begin met één krachtige GPU die past bij je huidige workload, maar zorg dat je serverplatform ondersteuning biedt voor meerdere GPU's en uitbreidbare PCIe-slots. Zo kun je later eenvoudig opschalen zonder de hele infrastructuur te vervangen. Kies bij voorkeur een serverplatform dat is ontworpen voor AI-workloads, zodat voeding, koeling en interconnects al zijn voorbereid op uitbreiding.

Welke veelgemaakte fouten maken organisaties bij het opzetten van hun eerste AI-server?

Een van de meest voorkomende fouten is het onderschatten van de VRAM-behoefte: een model dat 'past' op papier kan in de praktijk te weinig ruimte overhouden voor batches en context. Andere valkuilen zijn onvoldoende koeling en voeding, te trage opslag voor grote datasets, en het niet plannen van schaalbaarheid. Ook wordt de softwarestack vaak onderschat: verouderde drivers of incompatibele CUDA-versies kunnen leiden tot slechte prestaties of instabiliteit.

Hoe weet ik of mijn bestaande serverinfrastructuur geschikt is voor AI-workloads?

Bestaande servers zijn zelden direct geschikt voor AI, tenzij ze specifiek zijn uitgerust met AI-geschikte GPU's en voldoende PCIe-bandbreedte. Controleer of je server PCIe 4.0 of 5.0 slots heeft met voldoende lanes, of de voeding toereikend is voor het extra GPU-verbruik (vaak 300–700W per GPU), en of de koeling is berekend op de extra warmteproductie. In veel gevallen is een dedicated AI-server efficiënter en betrouwbaarder dan een bestaande server ombouwen.

Is het mogelijk om AI-modellen te draaien zonder Nvidia GPU's?

Ja, dat is mogelijk, maar er zijn beperkingen. AMD's MI300-serie biedt steeds betere prestaties en ondersteuning via het ROCm-platform, en voor specifieke inference-taken zijn ook Intel Gaudi-accelerators een optie. Het nadeel is dat de meeste AI-frameworks en tools primair zijn geoptimaliseerd voor Nvidia's CUDA, waardoor je bij alternatieven vaker tegen compatibiliteitsproblemen of beperkte documentatie aanloopt. Voor productieomgevingen is Nvidia op dit moment nog altijd de meest risicoloze keuze.

Wat zijn de stroomverbruik- en koelingskosten van een AI-server in de praktijk?

Een AI-server met meerdere high-end GPU's kan gemakkelijk 5.000 tot 15.000 watt verbruiken onder volledige belasting. Op jaarbasis kan dat neerkomen op aanzienlijke elektriciteitskosten, afhankelijk van je energietarief en gebruiksintensiteit. Reken bij je businesscase dus niet alleen de aanschafkosten mee, maar ook de TCO (Total Cost of Ownership), inclusief stroom, koeling en eventuele aanpassingen aan je serverruimte. Vloeistofkoeling wordt bij hoge GPU-dichtheid steeds populairder omdat het efficiënter is dan luchtkoeling.

Hoe houd ik mijn AI-infrastructuur veilig en up-to-date?

Zorg voor een duidelijk updatebeleid voor drivers, CUDA-versies en AI-frameworks, want verouderde software is een veelvoorkomende oorzaak van beveiligingslekken en prestatieproblemen. Isoleer je AI-server bij voorkeur in een apart netwerksegment en beperk toegang via strikte firewallregels. Gebruik monitoringtools zoals Prometheus of Grafana in combinatie met Nvidia's DCGM om GPU-prestaties, temperaturen en fouten continu bij te houden. Regelmatige back-ups van modelgewichten en configuraties zijn essentieel om dataverlies te voorkomen.

Wat is finetuning en heb ik daar extra hardware voor nodig ten opzichte van inference?

Finetuning is het verder trainen van een bestaand voorgetraind model op jouw eigen dataset, zodat het beter presteert voor jouw specifieke use case. Het is minder intensief dan het trainen van een model vanaf nul, maar vraagt wel aanzienlijk meer VRAM en rekenkracht dan pure inference. Technieken zoals LoRA (Low-Rank Adaptation) maken het mogelijk om grote modellen te finetunen op relatief bescheiden hardware, zoals één of twee GPU's met 24–48 GB VRAM, waardoor finetuning voor veel organisaties haalbaar is zonder een volledig trainingscluster.

Gerelateerde artikelen

NCS International

Den Sliem 89
7141 JG Groenlo
The Netherlands
+31 544 470 000
info@ncs.nl

Meer berichten

Wat is een GPU-server?

GPU-servers verwerken duizenden berekeningen parallel — ontdek wanneer ze onmisbaar zijn voor jouw organisatie.


read more

Wat is een AI-server?

Wat is een AI-server en wanneer heb je er een nodig? Ontdek de techniek, hardware en toepassingen.


read more