18 mei 2026
Een GPU-server verbruikt gemiddeld tussen de 1.000 en 10.000 watt, afhankelijk van het aantal GPU’s, het type processor en de workload. Op jaarbasis loopt dat op tot ruwweg 8.700 tot 87.600 kWh per server. Voor een on-premise AI-server met meerdere high-end GPU’s, zoals de Nvidia H100 of B200, zit je al snel aan de bovenkant van dat spectrum. Hieronder leggen we stap voor stap uit hoe je het verbruik berekent, wat het kost en hoe je het slim beheert.
Een GPU-server verbruikt gemiddeld tussen de 1.000 en 10.000 watt, afhankelijk van het aantal en type GPU’s. Een server met vier Nvidia A100-kaarten verbruikt al snel 2.500 tot 3.000 watt onder volledige belasting. Servers met acht H100’s of nieuwere B200-kaarten kunnen pieken tot 8.000 watt of meer.
Het vermogen dat je op het specificatieblad ziet, is het maximale verbruik onder volledige belasting. In de praktijk draaien servers zelden continu op 100 procent. Bij gemengde workloads, zoals een combinatie van inferentie en andere taken, ligt het gemiddelde verbruik vaak 20 tot 40 procent lager dan het piekverbruik. Toch is het verstandig om bij de planning altijd uit te gaan van het maximale vermogen, zeker als je de server wilt inzetten voor intensieve AI-training of HPC-taken.
Het jaarlijkse stroomverbruik bereken je door het vermogen in watt te vermenigvuldigen met het aantal draaiuren per jaar en te delen door 1.000. De formule is: watt × uren per jaar / 1.000 = kWh per jaar. Een server van 3.000 watt die continu draait, verbruikt 3.000 × 8.760 / 1.000 = 26.280 kWh per jaar.
Voor een realistischere berekening houd je rekening met de gemiddelde belasting. Stel dat je server gemiddeld op 70 procent van zijn maximale vermogen draait; dan vermenigvuldig je de uitkomst met 0,70. Vergeet ook de overhead niet: koeling, voedingen en andere servercomponenten zorgen voor extra verbruik. In een datacenter rekent men hiervoor met de PUE-factor (Power Usage Effectiveness), die aangeeft hoeveel extra energie de infrastructuur rondom de servers kost.
De jaarlijkse stroomkosten van een GPU-server bereken je door het verbruik in kWh te vermenigvuldigen met de stroomprijs per kWh. Voor zakelijke gebruikers varieert de stroomprijs sterk per contract, regio en marktomstandigheden. Reken voor een grove schatting met de actuele zakelijke tarieven in jouw situatie.
Wat wel duidelijk is: de energiekosten van GPU-servers zijn de afgelopen jaren sterk gestegen, zowel door hogere stroomprijzen als door het toenemende vermogen van nieuwe GPU-generaties. Voor organisaties die meerdere GPU-servers draaien, kunnen de energiekosten op jaarbasis oplopen tot een bedrag dat vergelijkbaar is met of zelfs hoger is dan de aanschafkosten van de hardware. Dat maakt energieverbruik een factor die je serieus moet meewegen in je totale kostenplaatje.
Het stroomverbruik van een GPU-server wordt bepaald door een combinatie van hardwarekeuzes, workloadtype en omgevingsfactoren. De belangrijkste factoren zijn het type en aantal GPU’s, de CPU-configuratie, de hoeveelheid werkgeheugen en de opslagoplossing.
Daarnaast spelen de volgende zaken een grote rol:
Door al deze factoren in kaart te brengen, krijg je een veel realistischer beeld van het werkelijke jaarverbruik dan wanneer je alleen naar het maximale vermogen kijkt.
Elke nieuwe GPU-generatie brengt meer rekenkracht, maar ook een hoger maximaal vermogen per kaart. Een Nvidia A100 heeft een TDP van 400 watt, de H100 zit op 700 watt en de nieuwste B200 gaat richting 1.000 watt per GPU. Tegelijkertijd levert elke generatie ook aanzienlijk meer rekenprestatie per watt dan zijn voorganger.
Dat betekent dat je met een nieuwere GPU-generatie dezelfde workload in minder tijd kunt uitvoeren, wat het totale energieverbruik per taak kan verlagen, ook al is het piekverbruik per kaart hoger. Voor organisaties die rekenen op basis van kosten per berekening in plaats van kosten per uur, kan een investering in de nieuwste generatie GPU’s dus juist energiezuiniger uitpakken. Dit is een belangrijk argument bij het vergelijken van hardwaregeneraties voor langlopende AI- of HPC-projecten.
Je verlaagt het stroomverbruik van een GPU-server door een combinatie van slimme hardwarekeuzes, softwarematige optimalisatie en efficiënte koeling. De meest effectieve maatregelen zijn:
Kleine aanpassingen in de configuratie kunnen op jaarbasis een merkbaar verschil maken in de energierekening, zeker bij servers die continu of bijna continu draaien.
Het is slim om het stroomverbruik mee te nemen in je serverkeuze zodra je een server plant die langer dan een jaar in gebruik blijft en regelmatig of continu draait. Voor kortlopende projecten of servers met lage bezetting wegen de aanschafkosten zwaarder. Maar voor een on-premise AI-server die dag en nacht actief is, kunnen de energiekosten over de levensduur van het systeem de hardware-investering overtreffen.
Concreet is het verstandig om stroomverbruik mee te wegen bij:
Bij ons, NCS International, helpen we je bij het samenstellen van een configuratie die niet alleen past bij je rekenbehoefte, maar ook bij je energiebudget en ruimte. Als de grootste en oudste Supermicro-distributeur van Nederland hebben we de kennis en het portfolio om je te adviseren over de meest efficiënte opzet, van een compacte GPU-workstation tot een volledige multi-rack AI-infrastructuur. En omdat Supermicro als eerste de nieuwste Nvidia GPU-generaties ondersteunt, kun je bij ons altijd terecht voor de meest actuele en energiezuinige hardware, ruim voordat andere merken die beschikbaar hebben.
Een PUE (Power Usage Effectiveness) van 1,2 of lager wordt beschouwd als zeer efficiënt en is typisch haalbaar in moderne datacenters met geavanceerde koeling. Voor on-premise serverruimtes zonder gespecialiseerde infrastructuur ligt de PUE vaak tussen de 1,5 en 2,0, wat betekent dat je voor elke watt aan rekenkracht 0,5 tot 1 extra watt kwijt bent aan koeling en andere infrastructuur. Het verlagen van je PUE is dan ook een van de meest directe manieren om de totale energiekosten van je GPU-infrastructuur te drukken.
Bereken eerst het maximale vermogen van je beoogde server in watt en deel dit door 230 (het standaard netspanning in Nederland) om de benodigde ampère te bepalen. Een server van 3.000 watt vraagt bijvoorbeeld minimaal een 16A-aansluiting, maar voor veiligheid en toekomstige uitbreiding is een 32A-driefasige aansluiting verstandiger. Schakel bij twijfel een elektricien of infrastructuurspecialist in voordat je de hardware aanschaft, want een te zwakke aansluiting is een veelgemaakte en kostbare fout.
Dat hangt sterk af van je gebruikspatroon: voor incidentele of kortlopende workloads is cloud vaak goedkoper omdat je geen hardware- of energiekosten draagt buiten de gebruiksperiode. Voor workloads die continu of meerdere maanden per jaar draaien, is een on-premise GPU-server in de meeste gevallen financieel voordeliger op de lange termijn, zeker als je de cloudkosten vergelijkt met de totale eigendomskosten inclusief energie. Een break-even analyse over twee tot drie jaar geeft je een concreet antwoord voor jouw specifieke situatie.
De eenvoudigste methode is het gebruik van een slimme PDU (Power Distribution Unit) met ingebouwde energiemeting, die real-time verbruiksdata per outlet of per server bijhoudt. Daarnaast biedt Nvidia's nvidia-smi tool gedetailleerde GPU-verbruiksdata per kaart rechtstreeks vanuit de software, wat handig is voor het optimaliseren van workloads. Voor een volledig beeld combineer je beide methoden: de PDU meet het totale serververbruik inclusief CPU en koeling, terwijl nvidia-smi je inzicht geeft in het GPU-specifieke verbruik per taak.
In de meeste gevallen is het prestatieverlies bij power capping op 80 tot 90 procent van de TDP minimaal, omdat GPU's zelden continu op hun absolute piekverbruik draaien. De GPU regelt zichzelf dynamisch terug op momenten van extreme belasting, maar voor de gemiddelde workload merk je nauwelijks verschil in doorvoersnelheid. Het is aan te raden om power capping te testen met een representatieve benchmark van jouw eigen workload, zodat je de optimale balans vindt tussen energiebesparing en rekenprestatie.
Voor servers met een hoge GPU-dichtheid, zoals systemen met acht H100's of B200's, is directe vloeistofkoeling (DLC) of immersion cooling de meest efficiënte keuze, omdat luchtkoeling bij vermogens boven de 5.000 watt per rack-unit al snel zijn grenzen bereikt. DLC koelt de warmste componenten direct via waterblokken, terwijl immersion cooling de server volledig onderdompelt in een niet-geleidende vloeistof voor maximale warmteafvoer. Supermicro biedt voor veel van zijn GPU-serverplatforms kant-en-klare DLC-ondersteuning, wat de integratie aanzienlijk vereenvoudigt.
Bereken naast de aanschafprijs ook de jaarlijkse energiekosten (kWh × stroomprijs), vermenigvuldigd met de verwachte levensduur van de server, doorgaans drie tot vijf jaar. Tel daarbij eventuele koelingskosten, colocatiekosten per kilowatt en onderhoudskosten op voor een volledig beeld. Vergeet niet om ook de productiviteitswaarde mee te nemen: een energiezuinigere maar krachtigere GPU-generatie kan dezelfde workload in minder tijd afhandelen, waardoor de kosten per berekening lager uitvallen ondanks een hogere aanschafprijs.
Den Sliem 89
7141 JG Groenlo
The Netherlands
+31 544 470 000
info@ncs.nl
GPU-servers verwerken duizenden berekeningen parallel — ontdek wanneer ze onmisbaar zijn voor jouw organisatie.
Wat is een AI-server en wanneer heb je er een nodig? Ontdek de techniek, hardware en toepassingen.