23 mei 2026
Na de Hopper-generatie volgen twee belangrijke nieuwe GPU-architecturen van Nvidia: Blackwell (de huidige opvolger, beschikbaar vanaf 2024) en daarna Rubin (verwacht in 2026). De Blackwell-architectuur brengt grote verbeteringen voor AI-training en inferentie, terwijl Rubin de volgende stap zet in Nvidia’s meerjarige routekaart. Als je nu een GPU-server plant, is het slim om te begrijpen wat eraan komt en hoe dit jouw infrastructuurkeuzes beïnvloedt.
Of je nu een datacenter beheert, AI-workloads draait of gewoon vooruit wilt plannen: de GPU-wereld beweegt snel. In dit artikel leggen we stap voor stap uit welke architecturen eraan komen, wat ze anders maakt en hoe je de juiste keuze maakt voor jouw omgeving.
De Hopper-architectuur is Nvidia’s GPU-generatie die in 2022 werd geïntroduceerd, met de H100-chip als vlaggenschip. Hopper markeert een mijlpaal omdat het de eerste architectuur is die specifiek is geoptimaliseerd voor grote AI-modellen en transformer-gebaseerde workloads, met de introductie van de Transformer Engine als kernvernieuwing.
Vóór Hopper waren GPU-architecturen zoals Ampere al krachtig voor machine learning, maar niet specifiek gebouwd voor de schaal van moderne taalmodellen, zoals GPT-achtige systemen. De Transformer Engine in Hopper schakelt automatisch tussen FP8- en FP16-precisie, wat de doorvoer voor AI-training aanzienlijk verhoogt zonder kwaliteitsverlies.
Daarnaast introduceerde Hopper NVLink 4.0 en NVSwitch-technologie, waarmee meerdere GPU’s met hoge bandbreedte samenwerken als één groot systeem. Dit maakt het mogelijk om modellen te trainen die niet in het geheugen van één enkele GPU passen. De H100 SXM-variant werd daarmee de standaard voor grootschalige AI-datacenters wereldwijd. Hopper is kortom de architectuur die de moderne AI-infrastructuur mede mogelijk heeft gemaakt.
Na Hopper volgen twee architectuurgeneraties op Nvidia’s routekaart: eerst Blackwell, gevolgd door Rubin. Blackwell is de directe opvolger en al beschikbaar, terwijl Rubin de generatie daarna wordt en naar verwachting rond 2026 op de markt komt.
Nvidia heeft de afgelopen jaren zijn releasecyclus versneld. Waar vroeger twee à drie jaar tussen generaties normaal was, streeft het bedrijf nu naar een jaarlijkse cadans voor nieuwe architecturen. Dit heeft grote gevolgen voor organisaties die GPU-infrastructuur plannen: afschrijvingstermijnen worden korter en de druk om up-to-date te blijven neemt toe.
Het is ook relevant om te weten dat Nvidia niet alleen de GPU-architectuur vernieuwt, maar ook de bijbehorende verbindingstechnologieën, zoals NVLink, en de HBM-geheugenstandaard tegelijk upgradet. Elke nieuwe generatie brengt dus een breder ecosysteem aan veranderingen met zich mee, niet alleen een snellere chip.
Blackwell verschilt van Hopper op drie belangrijke punten: een nieuw dual-die GPU-ontwerp, ondersteuning voor FP4-precisie en een verbeterde NVLink 5.0-verbinding. De meest opvallende innovatie is dat twee GPU-dies op één package worden gecombineerd, waardoor de rekenkracht per kaart dramatisch toeneemt ten opzichte van de H100.
De Blackwell B100 en B200 bevatten elk twee gekoppelde GPU-dies die als één logische processor functioneren. Dit verhoogt de transistordichtheid en rekenkracht fors. Voor AI-inferentie is dit bijzonder relevant: grotere modellen kunnen in minder stappen worden verwerkt, wat de latentie verlaagt en de doorvoer verhoogt.
Blackwell introduceert FP4-precisie als nieuwe rekenstandaard naast de FP8 van Hopper. FP4 maakt het mogelijk om bij inferentietaken nog meer berekeningen per seconde uit te voeren, waar absolute nauwkeurigheid minder kritisch is dan bij training. Gecombineerd met HBM3e-geheugen met een hogere bandbreedte maakt dit Blackwell aanzienlijk efficiënter per watt voor inferentieworkloads.
Voor organisaties die AI-modellen in productie draaien, is dit verschil praktisch merkbaar: minder hardware is nodig voor dezelfde throughput, of meer throughput op dezelfde serveroppervlakte. De energiebesparing per inferentieverzoek is daarmee ook een relevant argument, zeker nu energiekosten in datacenters steeds zwaarder meewegen.
De Rubin-architectuur staat gepland voor 2026, als opvolger van Blackwell. Nvidia heeft Rubin officieel aangekondigd als onderdeel van zijn jaarlijkse architectuurcyclus, maar concrete technische specificaties zijn op dit moment nog beperkt beschikbaar.
Wat wel bekend is: Rubin zal gebruikmaken van HBM4-geheugen, wat een verdere sprong in geheugenbandbreedte betekent. Ook wordt verwacht dat Rubin de NVLink-technologie verder doorontwikkelt voor nog grotere multi-GPU-configuraties. De architectuur zal waarschijnlijk ook nieuwe precisieniveaus introduceren die aansluiten op de trend richting steeds efficiëntere inferentie.
Voor je huidige aankoopbeslissingen is Rubin nog niet direct relevant, maar het is wel nuttig om te weten dat de generatie na Blackwell al in ontwikkeling is. Dit beïnvloedt hoe lang Blackwell-hardware als “state of the art” wordt beschouwd en hoe je afschrijvingstermijnen en upgradepaden plant.
Voor AI-training is Blackwell momenteel de sterkste keuze, met name de NVIDIA B300-variant, die een hogere geheugenbandbreedte en grotere modelcapaciteit biedt. Voor inferentie geldt hetzelfde, maar hier spelen ook kostenefficiëntie en latentievereisten een grote rol bij de keuze tussen H100- en Blackwell-hardware.
Bij AI-training draait alles om maximale rekenkracht en geheugenbandbreedte. Je wilt zo snel mogelijk door grote datasets heen en grote modelparameters in het geheugen houden. Hier blinkt Blackwell uit door zijn dual-die ontwerp en HBM3e-geheugen.
Bij inferentie zijn de prioriteiten anders. Latentie, energieverbruik per verzoek en kosten per query worden dan belangrijker. De FP4-ondersteuning van Blackwell maakt het bijzonder geschikt voor grootschalige inferentie-omgevingen. Voor kleinere inferentietaken of organisaties met een beperkter budget kan een H100-configuratie nog steeds een uitstekende keuze zijn, zeker als de hardware al beschikbaar is.
De NVIDIA B300 is de hoogste variant binnen de Blackwell-lijn en richt zich specifiek op veeleisende AI-workloads waarbij geheugen en bandbreedte de bottleneck zijn. Voor organisaties die met zeer grote taalmodellen of multimodale AI-systemen werken, biedt de B300 de meeste ruimte voor schaalgroei zonder direct naar de volgende architectuurcyclus te hoeven kijken.
Supermicro is consequent een van de eerste serverfabrikanten die nieuwe Nvidia GPU-generaties ondersteunt met gecertificeerde serverplatforms. Waar merken als HP en Dell hun productcyclus afstemmen op bredere marktlanceringen, brengt Supermicro serveroplossingen op de markt zodra een nieuwe GPU-generatie beschikbaar komt.
Dit is geen toeval. Supermicro werkt nauw samen met Nvidia in de ontwikkelingsfase van nieuwe architecturen, zodat de bijbehorende serverplatforms klaar zijn zodra de GPU’s beschikbaar zijn. Dit geldt voor koeling, voeding, moederbordontwikkeling en certificering. Voor organisaties die de nieuwste hardware zo snel mogelijk in productie willen nemen, is dit een concreet voordeel.
Supermicro biedt ook specifieke, GPU-geoptimaliseerde serverlijnen, zoals de SuperBlade en de 4U/8U GPU-servers, die zijn ontworpen voor hoge GPU-dichtheid met de bijbehorende thermische en elektrische vereisten. Dit maakt het mogelijk om Blackwell-hardware, zoals de B200 of B300, te integreren in bestaande of nieuwe datacenteropstellingen zonder grote infrastructurele aanpassingen.
Bij het kiezen van een toekomstbestendige GPU-server let je op vijf factoren: de schaalbaarheid van het serverplatform, de ondersteuning voor huidige en toekomstige GPU-generaties, energiebeheer, koelingsarchitectuur en de beschikbaarheid van snelle levering en ondersteuning.
Een punt dat steeds meer organisaties raakt: de prijzen voor high-end GPU-hardware zijn de afgelopen jaren sterk gestegen door schaarste en grote inkopers die hele productielijnen opkopen. Dit maakt het plannen van je aankoop op het juiste moment relevanter dan ooit. Wacht je te lang, dan loop je niet alleen achter op technologie, maar ook op beschikbaarheid.
Bij ons, NCS International, combineren we 38 jaar Supermicro-expertise met directe toegang tot de nieuwste GPU-serverplatforms, inclusief Blackwell-systemen met de NVIDIA B300. We configureren elk systeem volledig op maat, leveren snel en bieden als enige distributeur in Nederland 24/7 on-site garantieservice. Wil je weten welke GPU-server het beste past bij jouw workload en planningshorizon? Neem direct contact met ons op, dan denken we graag met je mee.
Als je direct rekencapaciteit nodig hebt, is wachten zelden de juiste strategie. H100-systemen zijn bewezen technologie, breed beschikbaar en nog steeds uitstekend geschikt voor veel AI-workloads, zeker voor inferentie of middelgrote trainingstaken. Blackwell biedt significante prestatieverbeteringen, maar de hogere aanschafprijs en eventuele levertijden spelen ook een rol. Laat je keuze bepalen door je concrete workload, budget en planningshorizon, niet alleen door de nieuwste specificaties.
De meest voorkomende valkuil is onderschatting van de infrastructurele eisen: Blackwell-GPU's vergen aanzienlijk meer koeling en stroomvoorziening dan H100-systemen. Controleer of je datacenter de hogere TDP aankan en of vloeistofkoeling beschikbaar of haalbaar is. Daarnaast vereisen FP4-workloads soms aanpassingen in je software-stack en modeloptimalisatie, wat extra ontwikkeltijd kost voordat je de volledige prestatiewinst benut.
Met een jaarlijkse architectuurcyclus wordt de traditionele afschrijvingstermijn van vijf jaar voor GPU-hardware steeds moeilijker te rechtvaardigen. Veel organisaties stappen over op kortere cycli van drie jaar, of kiezen voor leaseconstructies en as-a-service modellen om flexibeler te blijven. Het is verstandig om bij elke aankoopbeslissing expliciet vast te leggen voor welke workloads de hardware minimaal rendabel moet zijn, zodat je een objectief moment hebt om te evalueren of een upgrade nodig is.
Directe vloeistofkoeling (DLC) is niet altijd verplicht, maar voor de hoogste Blackwell-varianten zoals de B200 en B300 in hoge dichtheidsconfiguraties is het sterk aanbevolen en in veel gevallen technisch noodzakelijk. Supermicro biedt zowel luchtgekoelde als vloeistofgekoelde serverplatforms aan voor Blackwell, waarbij de luchtgekoelde varianten doorgaans lagere GPU-dichtheid per rack kennen. Inventariseer je huidige koelingsinfrastructuur voordat je een platform kiest, want een retrofit achteraf is kostbaar.
Technisch is het mogelijk om gemengde GPU-generaties in één cluster te draaien, maar het brengt complexiteit met zich mee. Orkestratieplatforms zoals Kubernetes met GPU-operators of SLURM ondersteunen heterogene clusters, maar je moet workloads bewust toewijzen aan de juiste hardware om prestatieverlies te voorkomen. Voor trainingsruns die GPU's onderling synchroniseren via NVLink is menging van generaties niet mogelijk, omdat NVLink 4.0 en 5.0 niet compatibel zijn; dit werkt alleen binnen dezelfde generatie.
Om FP4-precisie volledig te benutten heb je minimaal CUDA 12.x nodig in combinatie met de bijbehorende cuDNN- en TensorRT-versies die FP4-ondersteuning bevatten. Frameworks zoals PyTorch en JAX voegen FP4-ondersteuning toe via updates, maar niet alle modellen profiteren automatisch: quantisatie naar FP4 vereist doorgaans fine-tuning of post-training quantization (PTQ). Nvidia's TensorRT-LLM is momenteel de meest volwassen route om FP4-inferentie in productie te draaien.
Rubin wordt verwacht rond 2026, wat betekent dat serieuze planningsvoorbereiding in de loop van 2025 zinvol is. Houd rekening met een doorlooptijd van drie tot zes maanden voor infrastructuuraanpassingen, budgetgoedkeuring en eventuele aanbestedingstrajecten. Als je nu Blackwell aanschaft, is het slim om serverplatforms te kiezen die modulair genoeg zijn voor toekomstige GPU-upgrades, zodat je niet de volledige infrastructuur hoeft te vervangen bij de overgang naar Rubin.
Den Sliem 89
7141 JG Groenlo
The Netherlands
+31 544 470 000
info@ncs.nl
GPU-servers verwerken duizenden berekeningen parallel — ontdek wanneer ze onmisbaar zijn voor jouw organisatie.
Wat is een AI-server en wanneer heb je er een nodig? Ontdek de techniek, hardware en toepassingen.