29 mei 2026
Om AI in eigen beheer te draaien, heb je minimaal een server met een of meerdere krachtige GPU’s nodig, voldoende RAM, snelle opslag en een stabiele netwerkverbinding. Voor lichtere inference-taken volstaat soms één GPU; voor het trainen van grote modellen heb je meerdere high-end GPU’s, veel geheugen en een schaalbare infrastructuur nodig. De exacte hardware hangt af van je workload: train je modellen zelf, of draai je bestaande modellen lokaal?
Steeds meer organisaties kiezen ervoor om AI niet in de cloud te draaien, maar op eigen hardware. Dat geeft meer controle over data, lagere operationele kosten op de lange termijn en betere prestaties voor specifieke workloads. Maar welke hardware heb je dan precies nodig? In dit artikel beantwoorden we de meest gestelde vragen over AI-infrastructuur, van de basisvereisten tot de keuze tussen training en inference.
AI in eigen beheer draaien betekent dat je AI-workloads uitvoert op hardware die je zelf beheert, in je eigen datacenter, serverruimte of kantoor, in plaats van gebruik te maken van cloudservices zoals AWS, Azure of Google Cloud. Je hebt volledige controle over de data, de configuratie en de rekenkracht.
Dit wordt ook wel on-premise AI of private AI-infrastructuur genoemd. In de praktijk gaat het om het installeren van een AI-server met de juiste GPU’s, het inrichten van software zoals CUDA, PyTorch of TensorFlow, en het draaien van je eigen modellen of open-sourcealternatieven zoals LLaMA of Mistral. Voor organisaties die werken met gevoelige data—denk aan ziekenhuizen, financiële instellingen of overheidsinstanties—is dit vaak de enige realistische optie.
Voor een functionele AI-opstelling heb je minimaal een krachtige GPU, voldoende systeemgeheugen (RAM), snelle opslag en een stabiele voeding nodig. Een instapserver voor AI-inference bevat doorgaans één moderne GPU met minimaal 16 GB VRAM, 64 GB RAM, een NVMe-SSD en een betrouwbare CPU als hostprocessor.
Wil je iets serieuzer aan de slag, dan groeit de lijst snel. Hieronder staan de basiscomponenten voor een AI-server:
Voor professionele AI-workloads zijn Nvidia-GPU’s de standaard. Veelgebruikte opties zijn de H100, A100 en de nieuwere B200- en B300-serie. Voor kleinere budgetten of inference-taken zijn de L40S of RTX 4090 ook populaire keuzes. De beste GPU hangt af van je specifieke workload en budget.
Nvidia domineert de AI-markt omdat het CUDA-platform de standaard is geworden voor vrijwel alle AI-frameworks. AMD biedt met zijn MI300-serie steeds sterkere alternatieven, maar de software-ondersteuning is nog niet overal op hetzelfde niveau. Kijk bij het kiezen van een GPU naar drie factoren:
De benodigde rekenkracht voor AI-modellen hangt af van de modelgrootte, het type taak (training of inference) en de gewenste snelheid. Een klein taalmodel van 7 miljard parameters draait al op één GPU; een groot model van 70 miljard parameters of meer vraagt om meerdere GPU’s met hoge VRAM-capaciteit.
Een handige vuistregel: reken per miljard parameters op ongeveer 2 GB VRAM in FP16-precisie. Een model van 13 miljard parameters vraagt dus minimaal 26 GB VRAM. Wil je een hogere doorvoer of kortere responstijden, dan schakel je meerdere GPU’s parallel in. Voor training liggen de vereisten nog hoger, omdat je naast de modelgewichten ook gradiënten en optimizer-states in het geheugen moet houden.
AI-training is het proces waarbij een model leert van data door miljoenen parameters aan te passen. Inference is het gebruik van een al getraind model om voorspellingen of antwoorden te genereren. Training is veel rekenintensiever en vraagt aanzienlijk meer hardware dan inference.
Dit onderscheid is belangrijk voor je hardwarekeuze. Voor inference zijn GPU’s met veel VRAM en een hoge geheugenbandbreedte het meest relevant, maar de absolute rekenkracht hoeft minder hoog te zijn. Voor training wil je zoveel mogelijk FLOPS (floating point operations per second) en bij voorkeur meerdere GPU’s die samenwerken. Veel organisaties trainen modellen eenmalig of periodiek op krachtige hardware en draaien daarna inference op lichtere systemen. Dat is een slimme manier om kosten en prestaties in balans te houden.
Een eigen AI-server is beter dan cloudoplossingen wanneer je structureel veel GPU-uren nodig hebt, werkt met gevoelige of privacygevoelige data, of volledige controle over je infrastructuur wilt. Op de lange termijn zijn de totale kosten van eigen hardware vaak lager dan doorlopende cloudkosten bij intensief gebruik.
Cloud is handig voor experimenten, korte pieken in rekenbehoefte of als je nog niet weet hoe groot je workload wordt. Maar zodra je wekelijks of dagelijks GPU-capaciteit nodig hebt, slaat de balans om. Bovendien spelen dataveiligheid en compliancevereisten een grote rol. Organisaties in de zorg, het onderwijs of de overheid mogen data vaak niet zomaar naar externe cloudproviders sturen. Een eigen AI-server geeft je de zekerheid dat data binnen je eigen netwerk blijft.
Daarnaast zijn cloudprijzen voor GPU-capaciteit de afgelopen jaren sterk gestegen door de enorme vraag naar AI-rekenkracht. Schaarste aan GPU’s en grote inkopers die hele productielijnen opkopen, drijven de marktprijzen op, zowel voor cloudgebruik als voor hardware zelf. Dat maakt de businesscase voor eigen hardware steeds aantrekkelijker.
Begin met het in kaart brengen van je workload: welke modellen wil je draaien, hoeveel gebruikers bedien je tegelijk, en heb je training of alleen inference nodig? Op basis daarvan kies je de juiste GPU-configuratie, bepaal je de benodigde opslag en RAM, en kies je een serverplatform dat past bij je schaalbehoeften.
Een praktische aanpak in stappen:
Wil je niet zelf uitzoeken welke configuratie het beste bij jouw situatie past? Wij helpen je daar graag bij. Bij NCS International configureren we elke AI-server volledig op maat, op basis van jouw workload, budget en toekomstige schaalbaarheid. Als grootste en oudste Supermicro-distributeur van Nederland leveren wij als eerste de nieuwste Nvidia-GPU-generaties, inclusief 24/7 on-site garantieservice. Neem contact op, dan denken we graag met je mee.
Ja, dat is zelfs de aanbevolen aanpak voor de meeste organisaties. Begin met één krachtige GPU die past bij je huidige workload, maar zorg dat je serverplatform ondersteuning biedt voor meerdere GPU's en uitbreidbare PCIe-slots. Zo kun je later eenvoudig opschalen zonder de hele infrastructuur te vervangen. Kies bij voorkeur een serverplatform dat is ontworpen voor AI-workloads, zodat voeding, koeling en interconnects al zijn voorbereid op uitbreiding.
Een van de meest voorkomende fouten is het onderschatten van de VRAM-behoefte: een model dat 'past' op papier kan in de praktijk te weinig ruimte overhouden voor batches en context. Andere valkuilen zijn onvoldoende koeling en voeding, te trage opslag voor grote datasets, en het niet plannen van schaalbaarheid. Ook wordt de softwarestack vaak onderschat: verouderde drivers of incompatibele CUDA-versies kunnen leiden tot slechte prestaties of instabiliteit.
Bestaande servers zijn zelden direct geschikt voor AI, tenzij ze specifiek zijn uitgerust met AI-geschikte GPU's en voldoende PCIe-bandbreedte. Controleer of je server PCIe 4.0 of 5.0 slots heeft met voldoende lanes, of de voeding toereikend is voor het extra GPU-verbruik (vaak 300–700W per GPU), en of de koeling is berekend op de extra warmteproductie. In veel gevallen is een dedicated AI-server efficiënter en betrouwbaarder dan een bestaande server ombouwen.
Ja, dat is mogelijk, maar er zijn beperkingen. AMD's MI300-serie biedt steeds betere prestaties en ondersteuning via het ROCm-platform, en voor specifieke inference-taken zijn ook Intel Gaudi-accelerators een optie. Het nadeel is dat de meeste AI-frameworks en tools primair zijn geoptimaliseerd voor Nvidia's CUDA, waardoor je bij alternatieven vaker tegen compatibiliteitsproblemen of beperkte documentatie aanloopt. Voor productieomgevingen is Nvidia op dit moment nog altijd de meest risicoloze keuze.
Een AI-server met meerdere high-end GPU's kan gemakkelijk 5.000 tot 15.000 watt verbruiken onder volledige belasting. Op jaarbasis kan dat neerkomen op aanzienlijke elektriciteitskosten, afhankelijk van je energietarief en gebruiksintensiteit. Reken bij je businesscase dus niet alleen de aanschafkosten mee, maar ook de TCO (Total Cost of Ownership), inclusief stroom, koeling en eventuele aanpassingen aan je serverruimte. Vloeistofkoeling wordt bij hoge GPU-dichtheid steeds populairder omdat het efficiënter is dan luchtkoeling.
Zorg voor een duidelijk updatebeleid voor drivers, CUDA-versies en AI-frameworks, want verouderde software is een veelvoorkomende oorzaak van beveiligingslekken en prestatieproblemen. Isoleer je AI-server bij voorkeur in een apart netwerksegment en beperk toegang via strikte firewallregels. Gebruik monitoringtools zoals Prometheus of Grafana in combinatie met Nvidia's DCGM om GPU-prestaties, temperaturen en fouten continu bij te houden. Regelmatige back-ups van modelgewichten en configuraties zijn essentieel om dataverlies te voorkomen.
Finetuning is het verder trainen van een bestaand voorgetraind model op jouw eigen dataset, zodat het beter presteert voor jouw specifieke use case. Het is minder intensief dan het trainen van een model vanaf nul, maar vraagt wel aanzienlijk meer VRAM en rekenkracht dan pure inference. Technieken zoals LoRA (Low-Rank Adaptation) maken het mogelijk om grote modellen te finetunen op relatief bescheiden hardware, zoals één of twee GPU's met 24–48 GB VRAM, waardoor finetuning voor veel organisaties haalbaar is zonder een volledig trainingscluster.
Den Sliem 89
7141 JG Groenlo
The Netherlands
+31 544 470 000
info@ncs.nl
GPU-servers verwerken duizenden berekeningen parallel — ontdek wanneer ze onmisbaar zijn voor jouw organisatie.
Wat is een AI-server en wanneer heb je er een nodig? Ontdek de techniek, hardware en toepassingen.