22 maart 2026
Voor het trainen van een LLM heb je al snel tientallen gigabytes aan VRAM nodig. Een klein model van 7 miljard parameters vraagt bij full fine-tuning in FP32 al gauw 100+ GB aan GPU-geheugen. Met technieken zoals LoRA en lagere precisie (BF16 of INT8) breng je dat terug naar 10 tot 24 GB, afhankelijk van het model en de aanpak. Grote modellen van 70B parameters of meer vereisen vrijwel altijd meerdere GPU’s. De keuzes die je maakt op het gebied van precisie, fine-tuningmethode en hardware bepalen samen hoeveel VRAM je daadwerkelijk nodig hebt.
VRAM staat voor Video Random Access Memory en is het geheugen op een GPU. Bij het trainen van een LLM sla je hierin de modelgewichten, activaties, gradiënten en optimizerstatussen op. Hoe meer VRAM je GPU heeft, hoe groter het model dat je kunt laden en trainen zonder dat je naar omslachtige workarounds hoeft te grijpen.
Tijdens training staat er veel meer in het geheugen dan alleen het model zelf. Voor elke parameter in het model heb je bij full training ook gradiënten en optimizerstatussen nodig, wat het totale geheugengebruik gemakkelijk verdrievoudigt of verviervoudigt ten opzichte van alleen de modelgrootte. Een model van 7 miljard parameters heeft in FP32 al zo’n 28 GB aan gewichten, maar met alles erbij loop je snel op naar 80 tot 120 GB. Dat maakt VRAM de beperkende factor bij vrijwel elk LLM-trainingsproject.
Als vuistregel geldt: een parameter in FP32 kost 4 bytes aan geheugen. Een model van 7B parameters heeft dus minimaal 28 GB nodig voor alleen de gewichten. Tel je de gradiënten en Adam-optimizerstatussen mee, dan kom je al snel op 80 tot 120 GB. In BF16 halveer je de geheugenvoetafdruk van de gewichten, maar de overige componenten blijven zwaar.
Hier is een praktisch overzicht van veelgebruikte modelgroottes en hun minimale VRAM-vereisten bij full fine-tuning in FP16/BF16:
Bij parameter-efficiënte methoden zoals LoRA dalen deze getallen aanzienlijk. Voor een 7B-model kom je dan uit met 10 tot 24 GB, afhankelijk van de rank-instelling en de gebruikte precisie. Dit maakt training op één high-end GPU realistisch voor veel toepassingen.
Bij full fine-tuning pas je alle parameters van het model aan tijdens training. Dit geeft de beste resultaten, maar vraagt ook het meeste geheugen. Bij parameter-efficient fine-tuning (PEFT) pas je slechts een klein deel van de parameters aan, of voeg je extra trainbare lagen toe, waardoor het VRAM-gebruik drastisch daalt.
De bekendste PEFT-methode is LoRA (Low-Rank Adaptation). Hierbij vries je de originele modelgewichten in en voeg je kleine, trainbare matrices toe aan specifieke lagen. Omdat je alleen die matrices traint, hoef je geen gradiënten en optimizerstatussen op te slaan voor alle modelparameters. QLoRA gaat nog een stap verder door het basismodel te kwantiseren naar 4-bit, waardoor je zelfs een 70B-model op een beperkt aantal GPU’s kunt fine-tunen.
Full fine-tuning heeft de voorkeur wanneer je het model fundamenteel wilt hertrainen op een groot, domeinspecifiek corpus. PEFT-methoden zoals LoRA zijn ideaal voor taakaanpassing, instructie-tuning of wanneer je budget en hardware beperkt zijn. In de praktijk levert LoRA voor veel downstreamtaken vergelijkbare resultaten als full fine-tuning, met een fractie van het VRAM-gebruik.
De numerieke precisie bepaalt hoeveel bytes elke parameter inneemt. FP32 gebruikt 4 bytes per parameter, FP16 en BF16 gebruiken elk 2 bytes, en INT8 gebruikt 1 byte. Door te trainen in lagere precisie halveer of kwarteer je het geheugengebruik van de modelgewichten, wat direct ruimte vrijmaakt voor grotere batches of grotere modellen.
In de praktijk is BF16 de standaard geworden voor LLM-training op moderne GPU’s. Het heeft een groter dynamisch bereik dan FP16, wat numerieke instabiliteit tijdens training vermindert. FP32 gebruik je tegenwoordig zelden meer als primaire trainingsprecisie, maar wel voor bepaalde onderdelen, zoals loss-berekeningen, in mixed-precision training. INT8 en INT4 zijn vooral nuttig voor inferentie en voor QLoRA-achtige trainingsopstellingen waarbij het basismodel gekwantiseerd wordt geladen.
Voor modellen groter dan 13B parameters is het in de meeste gevallen noodzakelijk om meerdere GPU’s te gebruiken, tenzij je zwaar inzet op kwantisatie. Zelfs met BF16 en LoRA overschrijdt een 70B-model de capaciteit van één GPU. Data parallelism, tensor parallelism en pipeline parallelism zijn de drie belangrijkste strategieën om training te verdelen over meerdere GPU’s.
Bij data parallelism verwerk je verschillende batches tegelijk op meerdere GPU’s die elk een kopie van het model bevatten. Dit werkt alleen als het model op één GPU past. Tensor parallelism verdeelt de modellagen zelf over meerdere GPU’s, wat nodig is voor modellen die niet op één kaart passen. Pipeline parallelism verdeelt het model in opeenvolgende segmenten per GPU. Voor serieuze LLM-training op grote modellen combineer je deze strategieën vaak, ondersteund door frameworks zoals DeepSpeed of Megatron-LM.
De Nvidia H100 en H200 zijn momenteel de toonaangevende GPU’s voor LLM-training. Ze bieden respectievelijk 80 GB en 141 GB HBM3-geheugen, hoge geheugenbandbreedte en ondersteuning voor BF16- en FP8-training. Voor kleinere modellen of budgetbewuste setups zijn de A100 (40 of 80 GB) en de RTX 4090 (24 GB) veelgebruikte alternatieven.
Naast VRAM-capaciteit spelen geheugenbandbreedte, NVLink-connectiviteit tussen GPU’s en ondersteuning voor specifieke precisietypes een grote rol. De H100 heeft met NVLink een verbindingsbandbreedte van 900 GB/s tussen GPU’s, wat multi-GPU-training aanzienlijk versnelt ten opzichte van PCIe-gebaseerde setups. Voor organisaties die serieus willen investeren in AI-training is de keuze van het GPU-platform dan ook een beslissing die verder gaat dan alleen VRAM-capaciteit.
De markt voor AI-hardware kent momenteel sterke prijsschommelingen door hoge vraag en beperkte beschikbaarheid. Grote techbedrijven kopen complete productieruns op, wat leidt tot schaarste en oplopende prijzen voor losse systemen. Het is verstandig om prijzen niet als vast gegeven te beschouwen en tijdig te schakelen met een leverancier die directe toegang heeft tot de nieuwste generaties hardware.
De meest voorkomende fout is dat men bij het berekenen van de VRAM-behoefte alleen de modelgrootte meeneemt, zonder rekening te houden met gradiënten, optimizerstatussen en activaties. Bij full training in FP32 met een Adam-optimizer verbruik je in totaal tot 16 bytes per parameter, niet de 4 bytes die alleen de gewichten vragen.
Een tweede veelgemaakte fout is het onderschatten van de invloed van batchgrootte op het geheugengebruik. Grotere batches verhogen het activatiegeheugen fors, en veel teams ontdekken dit pas op het moment dat de training crasht. Gradient checkpointing is een techniek die activaties op bepaalde punten herberekent in plaats van ze op te slaan, wat geheugen bespaart ten koste van rekentijd. Dit is een nuttige instelling die je bij geheugenkrapte standaard kunt activeren.
Een derde fout is plannen voor de huidige modellen zonder rekening te houden met schaalbaarheid. Wie vandaag een 7B-model traint, wil morgen misschien een 13B- of 30B-model uitproberen. Hardware die nu net voldoende is, kan snel een knelpunt worden. Investeer daarom in systemen met voldoende uitbreidingsruimte, zowel qua VRAM als qua interconnectiviteit tussen GPU’s.
Bij NCS International helpen wij organisaties bij het samenstellen van een GPU-server voor AI-training die precies aansluit bij hun workloads, nu en in de toekomst. Als grootste en oudste Supermicro-distributeur van Nederland leveren wij als eerste de nieuwste Nvidia GPU-generaties, inclusief systemen die de B300 ondersteunen, ruim voordat andere merken die mogelijkheid bieden. Of je nu begint met een enkel GPU-systeem of een multi-rack AI-cluster nodig hebt: wij configureren het op maat en staan klaar met 24/7 on-site garantieservice. Neem gerust contact met ons op om te bespreken wat jouw specifieke situatie vraagt.
Ja, dat is mogelijk, maar wel met beperkingen. Met 24 GB VRAM en technieken zoals QLoRA kun je kleinere modellen (7B parameters) fine-tunen op een RTX 4090. Voor serieuze productietraining of grotere modellen loop je echter snel tegen de grenzen aan, en is een professionele GPU zoals de A100 of H100 een verstandigere investering op de lange termijn.
Gradient checkpointing is een techniek waarbij activaties tijdens de forward pass niet volledig worden opgeslagen, maar op bepaalde controlepunten opnieuw worden berekend tijdens de backward pass. Dit kan het activatiegeheugen met 30 tot 60% verminderen, ten koste van ongeveer 20 tot 30% extra rekentijd. Schakel het standaard in zodra je te maken krijgt met out-of-memory fouten, of wanneer je met grotere batchgroottes wilt werken.
Een hogere rank geeft het model meer expressieve kracht, maar verhoogt ook het VRAM-gebruik en de kans op overfitting. Voor taakaanpassing en instructie-tuning is een rank tussen 8 en 64 doorgaans een goed startpunt. Begin laag (rank 8 of 16), evalueer de modelprestaties op een validatieset, en verhoog de rank alleen als de resultaten onvoldoende zijn.
Bij tensor parallelism worden individuele modellagen verdeeld over meerdere GPU's, wat lage latency vereist tussen de kaarten (ideaal met NVLink). Pipeline parallelism verdeelt het model in opeenvolgende blokken per GPU, wat beter werkt bij hogere communicatievertraging maar pipeline-bubbles introduceert. Voor de meeste multi-GPU-setups met NVLink-verbinding is tensor parallelism efficiënter; pipeline parallelism is beter geschikt voor gedistribueerde setups over meerdere nodes.
Bij mixed-precision training worden bepaalde berekeningen in lagere precisie (BF16 of FP16) uitgevoerd voor snelheid en geheugenefficiëntie, terwijl kritieke onderdelen zoals de loss-berekening en de master weights in FP32 worden bijgehouden voor numerieke stabiliteit. Dit geeft je het beste van beide werelden: minder VRAM-gebruik en snellere training, zonder significant in te leveren op convergentie of modelkwaliteit.
Een CUDA out-of-memory (OOM) fout is de meest directe indicator: de training crasht met een melding als 'CUDA out of memory'. Minder duidelijke symptomen zijn extreem trage training of instabiele loss-curves, die soms wijzen op geheugendruk die leidt tot inefficiënte geheugenswapping. Gebruik tools zoals nvidia-smi of PyTorch's torch.cuda.memory_summary() om realtime VRAM-gebruik te monitoren en de bottleneck te identificeren.
Voor kortdurende experimenten of onregelmatige workloads is cloudgebruik (AWS, GCP, Azure) vaak flexibeler en goedkoper. Voor organisaties die structureel en intensief LLM-modellen trainen, is eigen hardware op de lange termijn aanzienlijk kostenefficiënter, met volledige controle over data, configuratie en beschikbaarheid. Een hybride aanpak, waarbij je basistraining on-premise uitvoert en piekbelasting naar de cloud offloadt, biedt voor veel organisaties het beste evenwicht.
Den Sliem 89
7141 JG Groenlo
The Netherlands
+31 544 470 000
info@ncs.nl