12 mei 2026
De NVIDIA B300 beschikt over 288 GB HBM3e-geheugen. Dat is een flinke sprong ten opzichte van zijn voorganger, de B200, die 192 GB biedt. Met die geheugenruimte kun je de grootste AI-modellen die vandaag de dag beschikbaar zijn direct op één GPU laden, zonder trucjes of compressie. Voor organisaties die serieus met AI-inferentie of -training bezig zijn, maakt dat een groot verschil.
HBM3e staat voor High Bandwidth Memory 3e, de nieuwste generatie gestapeld geheugen die speciaal is ontwikkeld voor GPU-workloads met een hoge geheugenbandbreedte. De B300 gebruikt HBM3e omdat het extreem veel data per seconde kan verplaatsen, wat bij grote AI-modellen het verschil maakt tussen vlotte inferentie en een bottleneck die je hele pipeline vertraagt.
Traditioneel GDDR-geheugen, zoals je dat in consumentenkaarten ziet, is ontworpen voor brede toepassingen. HBM3e is een andere aanpak: het geheugen wordt in lagen gestapeld en direct naast de GPU-chip geplaatst. Dat verkleint de afstand die data moet afleggen en verhoogt de bandbreedte enorm. Bij de B300 loopt die bandbreedte op tot meer dan 8 terabyte per seconde, wat betekent dat de GPU zijn rekenkernen constant van data kan voorzien zonder te hoeven wachten.
Voor AI-workloads is dat geen luxe, maar een praktische noodzaak. Grote taalmodellen bestaan uit miljarden parameters die continu in en uit het geheugen worden geladen. Een hogere bandbreedte betekent dat je meer tokens per seconde verwerkt, wat zich direct vertaalt in snellere responstijden en een hogere doorvoer per GPU. Precies daarom kiest NVIDIA voor HBM3e in zijn Blackwell Ultra-architectuur.
Het grootste verschil tussen de B200 en de B300 zit in de geheugengrootte: de B200 biedt 192 GB HBM3e, terwijl de B300 dat opschroeft naar 288 GB. Dat is een toename van 50 procent, wat bij het draaien van grote modellen direct merkbaar is in wat je kunt laden zonder externe geheugenuitbreiding of modelopsplitsing.
Beide GPU’s gebruiken HBM3e als geheugentechnologie, maar de B300 heeft meer stacks. Naast de grotere geheugenruimte heeft de B300 ook een hogere geheugenbandbreedte en verbeterde rekenprestaties, met name voor FP4-precisie, wat relevant is voor efficiënte inferentie van grote taalmodellen.
Als je werkt met modellen tot pakweg 100 miljard parameters en je wilt besparen op de kosten per GPU, is de B200 een sterke keuze. De B300 is interessanter als je de absolute grens van wat een enkele GPU aankan wilt opzoeken, of als je modelgroottes verwacht die de 192 GB van de B200 overstijgen. Denk aan frontier models, multimodale systemen of onderzoeksomgevingen waarin je modellen traint zonder ze vooraf op te splitsen over meerdere GPU’s.
Met 288 GB VRAM passen de meeste hedendaagse grote taalmodellen volledig in één NVIDIA B300. Modellen met 70 miljard parameters in volledige FP16-precisie vragen ruwweg 140 GB, wat ruimschoots past. Zelfs modellen van 100 tot 140 miljard parameters zijn in veel gevallen op één GPU te laden, afhankelijk van de gebruikte precisie.
Bij kwantisatie, het terugbrengen van de precisie van gewichten naar INT8 of FP4, kun je nog grotere modellen in het geheugen kwijt. Een model van 200 miljard parameters in INT4-kwantisatie vraagt ruwweg 100 GB, wat comfortabel past. Dat opent de deur naar efficiënte single-GPU-inferentie van modellen die eerder meerdere GPU’s nodig hadden.
Voor multimodale modellen, waarbij je naast tekst ook afbeeldingen of video verwerkt, is de extra geheugenruimte nog waardevoller. De activaties en contextvensters van zulke modellen vragen aanzienlijk meer VRAM dan alleen de modelgewichten. De 288 GB van de B300 geeft je daarin meer speelruimte dan welke andere single-GPU-oplossing op dit moment ook biedt.
Meer VRAM per GPU betekent ook dat je minder GPU’s nodig hebt voor dezelfde taak. Waar je eerder vier GPU’s moest koppelen om een groot model te draaien, kan de B300 dat terugbrengen naar twee of zelfs één. Dat heeft directe gevolgen voor de complexiteit van je infrastructuur, de NVLink-bandbreedte die je nodig hebt en de totale kosten van je setup.
NVIDIA heeft de B300 aangekondigd als onderdeel van de Blackwell Ultra-productlijn, met verwachte beschikbaarheid in de loop van 2025. Exacte leverdata zijn afhankelijk van de productieplanning en de vraag vanuit grote afnemers, waaronder cloudproviders die productielijnen ver van tevoren reserveren.
De markt voor high-end AI-GPU’s staat al een tijdje onder druk. Grote inkopers leggen beslag op productielijnen ver voordat hardware officieel beschikbaar is, wat de beschikbaarheid voor kleinere en middelgrote organisaties vertraagt. Dat heeft ook gevolgen voor de prijsontwikkeling: door de schaarste en de enorme vraag liggen de prijzen voor deze klasse hardware structureel hoog en fluctueren ze sterk. Het loont om vroeg in het proces contact te leggen met een gespecialiseerde distributeur als je zeker wilt zijn van tijdige levering.
Supermicro is historisch gezien een van de eerste fabrikanten die nieuwe NVIDIA GPU-generaties ondersteunt in zijn serverplatforms, ruim voordat merken als HP en Dell die mogelijkheid bieden. Dat betekent dat servers op basis van de B300 via Supermicro eerder beschikbaar komen dan via de traditionele servermerken. Bij ons, NCS International, volgen wij de beschikbaarheid van de B300 op de voet. Als je wilt weten wat de actuele levertijden zijn of een configuratie wilt samenstellen die klaar is zodra de hardware beschikbaar komt, kun je terecht op onze pagina met Supermicro serveroplossingen. We denken graag met je mee over welke setup het beste aansluit bij jouw workloads en planning.
Dat hangt sterk af van de modelgrootte en het aantal gelijktijdige verzoeken dat je wilt verwerken. Voor productie-inferentie met moderne LLM's van 70 miljard parameters heb je al snel 140 GB nodig voor de modelgewichten alleen, nog zonder ruimte voor activaties en KV-cache bij langere contextvensters. De B300 met 288 GB geeft je voldoende buffer om ook bij hoge doorvoer en grote contextlengtes stabiel te draaien zonder geheugenfouten.
De meest gemaakte fout is om alleen de geheugenvoetafdruk van de modelgewichten te berekenen en de KV-cache, activaties en batch-overhead te vergeten. Bij lange contextvensters of grote batches kan de KV-cache alleen al tientallen gigabytes extra vragen. Een tweede veelgemaakte fout is kwantisatie zien als een gratis lunch: INT4 of FP4 verkleint de modelgrootte, maar kan ten koste gaan van outputkwaliteit, wat niet voor alle use cases acceptabel is.
De B300 is zeer geschikt voor zowel training als inferentie. Het grote geheugen maakt het mogelijk om grotere modellen of grotere batches in één GPU te trainen zonder dat je model- of pijplijnparallelisme nodig hebt, wat de trainingscomplexiteit flink verlaagt. Vooral voor fine-tuning van grote frontier models of voor onderzoeksomgevingen waar je snel wilt itereren zonder uitgebreide multi-GPU-coördinatie, is de B300 een sterke keuze.
De B300 stelt hoge eisen aan de omringende infrastructuur: denk aan voldoende PCIe-bandbreedte, krachtige voedingen, adequate koeling en een serverplatform dat de fysieke en thermische specificaties van de GPU ondersteunt. Supermicro-servers zijn ontworpen om deze klasse hardware optimaal te ondersteunen en zijn doorgaans eerder beschikbaar met ondersteuning voor nieuwe NVIDIA-generaties dan andere fabrikanten. Het is verstandig om de serverspecificaties al vroeg in het planningsproces af te stemmen op de GPU-keuze.
Ja, zeker als je een kritieke deadline hebt of afhankelijk bent van specifieke leverdata. De markt voor high-end AI-GPU's wordt grotendeels bepaald door grootschalige afnemers die productieslots ver van tevoren reserveren, waardoor kleinere organisaties anders achter het net vissen. Door vroeg contact te leggen met een gespecialiseerde distributeur zoals NCS International kun je een configuratie vastleggen en prioriteit krijgen zodra de hardware beschikbaar komt.
Een losse GPU geeft je de rekenkracht, maar een complete serveroplossing integreert die GPU in een geoptimaliseerd platform met de juiste koeling, voeding, netwerkconnectiviteit en beheersbaarheid voor productieomgevingen. Supermicro-systemen met de B300 zijn ontworpen om de GPU maximaal te benutten, inclusief ondersteuning voor NVLink, hoge-snelheidsnetwerken zoals InfiniBand, en schaalbare opslagopties. Voor de meeste organisaties is een complete serveroplossing praktischer en sneller in productie te brengen dan een losse GPU zelf integreren.
AMD biedt met zijn Instinct MI300X-serie ook GPU's met een groot geheugen, tot 192 GB HBM3, wat vergelijkbaar is met de B200 maar minder dan de 288 GB van de B300. Op softwarevlak heeft NVIDIA nog altijd een voorsprong dankzij het volwassen CUDA-ecosysteem en de brede ondersteuning in AI-frameworks zoals PyTorch en TensorFlow. Voor organisaties die diep geïntegreerd zijn in het NVIDIA-ecosysteem of afhankelijk zijn van specifieke bibliotheken zoals TensorRT, blijft de B300 de meest risicovrije keuze.
Den Sliem 89
7141 JG Groenlo
The Netherlands
+31 544 470 000
info@ncs.nl
GPU-servers verwerken duizenden berekeningen parallel — ontdek wanneer ze onmisbaar zijn voor jouw organisatie.
Wat is een AI-server en wanneer heb je er een nodig? Ontdek de techniek, hardware en toepassingen.