Synthetische Data voor AI-modellen: De Samenwerking tussen NTT Data en Bifrost als FinOps-strategie
Written by Olivia Nolan
november 20, 2025
De ontwikkeling van geavanceerde artificiële intelligentie (AI) is onlosmakelijk verbonden met de beschikbaarheid van enorme hoeveelheden hoogwaardige data. Of het nu gaat om het trainen van autonome voertuigen, het diagnosticeren van medische aandoeningen op basis van scans, of het personaliseren van klantervaringen in de detailhandel, de prestaties van een AI-model zijn direct afhankelijk van de data waarmee het wordt gevoed. Het verzamelen, opschonen en labelen van deze real-world data is echter een uiterst kostbaar en complex proces. De kosten voor het opzetten van dataverzamelingsoperaties, het inzetten van menselijke annotatoren voor het labelen van miljoenen beelden of datapunten, en de opslag van deze petabytes aan informatie lopen al snel in de miljoenen. Deze astronomische kosten vormen een significant obstakel voor innovatie, niet alleen voor start-ups en het mkb, maar ook voor grote ondernemingen die hun AI-initiatieven willen opschalen. De financiële drempel om te concurreren is hierdoor torenhoog geworden.
Vanuit een FinOps-perspectief vormen deze datakosten een moeilijk te beheren en vaak onvoorspelbare uitgavenpost. Traditioneel vallen dergelijke kosten onder R&D- of innovatiebudgetten, maar de impact ervan is direct voelbaar in de operationele cloud-uitgaven. Denk aan de kosten voor cloudopslag (zoals Amazon S3 of Azure Blob Storage) en de intensieve rekenkracht die nodig is voor de voorbewerking (ETL-processen) van deze ruwe data. De variabiliteit en de omvang van deze uitgaven maken accurate forecasting en budgettering een ware nachtmerrie voor FinOps-professionals. Het is vaak onduidelijk welke projecten de meeste kosten veroorzaken, wat leidt tot een gebrek aan financiële transparantie en accountability. Zonder een duidelijk zicht op de 'unit economics' van data wordt het optimaliseren van de Return on Investment (ROI) van AI-projecten een haast onmogelijke taak. Dit creëert een spanningsveld tussen de noodzaak om te innoveren en de plicht om financieel verantwoordelijk te opereren.
De uitdagingen van real-world data overstijgen bovendien het puur financiële aspect. Privacywetgeving, zoals de Algemene Verordening Gegevensbescherming (AVG/GDPR) in Europa, legt strikte regels op aan het verzamelen en gebruiken van persoonsgegevens, wat de complexiteit en juridische risico's verder vergroot. Een ander significant risico is data-bias. Als de verzamelde data geen accurate representatie van de werkelijkheid is en bepaalde demografische groepen of scenario's ondervertegenwoordigd zijn, zal het getrainde AI-model deze vooroordelen overnemen. Dit kan leiden tot onbetrouwbare, oneerlijke en potentieel schadelijke uitkomsten, met aanzienlijke reputatie- en financiële schade tot gevolg. Het continu 'verversen' en onderhouden van datasets om 'data drift' tegen te gaan is eveneens een terugkerend en kostbaar proces, waardoor de totale eigendomskosten (Total Cost of Ownership) van data exponentieel stijgen.
Luister naar dit artikel:
Als antwoord op de immense uitdagingen van real-world data, wint een krachtig alternatief snel aan terrein: synthetische data. Dit is computer-gegenereerde data die niet afkomstig is van directe observaties in de echte wereld, maar die de statistische eigenschappen en patronen van echte data nauwkeurig nabootst. Deze data wordt gecreëerd met behulp van geavanceerde technieken, zoals fotorealistische 3D-simulaties, game-engines of generatieve AI-modellen zoals Generative Adversarial Networks (GANs). Het fundamentele voordeel is dat de gegenereerde data geen één-op-één-koppeling heeft met echte gebeurtenissen, objecten of individuen. Hierdoor worden privacyproblemen inherent omzeild. Bovendien kan het generatieproces volledig worden gecontroleerd, waardoor ontwikkelaars datasets kunnen creëren die perfect in balans zijn, vrij zijn van ongewenste bias, en specifiek zijn afgestemd op de vereisten van het AI-model dat ze willen trainen, inclusief zeldzame maar cruciale 'edge cases'.
De recente strategische samenwerking tussen IT-dienstverlener NTT Data en de AI-startup Bifrost is een uitstekend voorbeeld van hoe deze technologie in de praktijk wordt gebracht. Bifrost AI specialiseert zich in het creëren van uiterst realistische, virtuele 3D-werelden. Binnen deze simulaties kunnen ze het gedrag van diverse sensoren, zoals camera's, LiDAR en radar, perfect nabootsen onder een breed scala aan omstandigheden (bijvoorbeeld verschillende weertypes, lichtinval of tijdstippen). Het resultaat is een onuitputtelijke stroom van perfect gelabelde data voor complexe AI-taken zoals objectdetectie, semantische segmentatie en diepte-inschatting. NTT Data voegt hier zijn diepgaande expertise op het gebied van systeemintegratie, cloud-architectuur, data-analyse en go-to-market-strategie aan toe. Samen bieden ze organisaties een robuuste, end-to-end oplossing om synthetische data te integreren in hun AI-ontwikkelingspijplijn, waardoor de afhankelijkheid van kostbare en problematische real-world data wordt verminderd.
De impact op de kostenstructuur van AI-projecten is transformationeel. Vergelijk het traditionele proces – waarbij teams van dataverzamelaars de weg op moeten om duizenden kilometers te rijden voor autonome voertuigdata, of waarbij legers van menselijke annotatoren dagenlang beelden labelen – met de nieuwe aanpak. Nu kunnen ontwikkelaars met enkele API-calls of via een platform de exacte data genereren die ze nodig hebben, op het moment dat ze die nodig hebben. Dit leidt tot een drastische verlaging van de kosten voor data-acquisitie en -labeling. Omdat de data 'schoon' en perfect geannoteerd wordt gegenereerd, vervallen ook de dure en tijdrovende stappen van data-opschoning en voorbewerking. De time-to-market van AI-projecten kan hierdoor met maanden worden verkort, wat een aanzienlijk concurrentievoordeel oplevert. De investering verschuift van onvoorspelbare, arbeidsintensieve operationele kosten naar een voorspelbaar, schaalbaar en technologie-gedreven proces.
De implementatie van synthetische data sluit naadloos aan bij de kernprincipes van FinOps, met name het principe van het 'empoweren' van engineeringteams om kostenbewuste beslissingen te nemen. In een traditionele opzet zijn AI/ML-engineers vaak overgeleverd aan een centraal, traag en kostbaar dataverzamelingsproces. Ze moeten wachten op nieuwe datasets en hebben weinig invloed op de samenstelling of de kosten ervan. Een platform voor het genereren van synthetische data, zoals de oplossing van NTT Data en Bifrost, draait dit model om. Het geeft engineers de autonomie en de tools om zelf, on-demand, de specifieke datasets te creëren die ze nodig hebben voor hun experimenten en modeltraining. Hierdoor kunnen ze direct de kosten-batenanalyse van hun werkzaamheden beïnvloeden en itereren ze veel sneller. Ze kunnen bijvoorbeeld experimenteren met kleinere, goedkopere datasets voordat ze opschalen, wat verspilling van middelen voorkomt en een cultuur van financiële verantwoordelijkheid bevordert.
Een ander cruciaal voordeel is de aanzienlijke verbetering van forecasting en budgettering. Synthetische data transformeert de voorheen onvoorspelbare, en vaak verborgen, kosten van data-acquisitie in een voorspelbare, variabele en transparante uitgave. De kosten voor het genereren van een specifieke synthetische dataset kunnen vooraf nauwkeurig worden ingeschat op basis van parameters zoals complexiteit, volume en de benodigde rekentijd. Dit stelt FinOps-teams en projectmanagers in staat om de datacomponent van AI-projecten veel accurater te budgetteren. Door het implementeren van showback- en chargeback-modellen kunnen deze kosten bovendien direct worden toegewezen aan de specifieke business units, teams of projecten die de data gebruiken. Dit verhoogt de financiële transparantie binnen de organisatie en zorgt ervoor dat teams zich bewust zijn van de kosten die hun innovaties met zich meebrengen, wat leidt tot efficiënter gebruik van middelen.
Uiteindelijk leidt dit tot een directe optimalisatie van het cloudgebruik, een van de belangrijkste domeinen binnen FinOps. De training van complexe AI-modellen is een van de grootste aanjagers van cloudkosten, voornamelijk door het intensieve gebruik van dure GPU- en TPU-instances. Door te trainen op hoogwaardige, perfect gebalanceerde en ruisvrije synthetische data, kunnen AI-modellen vaak sneller en efficiënter convergeren. Dit vertaalt zich direct in minder benodigde trainingsuren en dus een lagere cloudrekening. Bovendien stelt synthetische data ontwikkelaars in staat om hun modellen te testen tegen een breed scala aan zeldzame of gevaarlijke 'edge cases' die in de echte wereld moeilijk of onmogelijk vast te leggen zijn. Dit verhoogt de robuustheid en betrouwbaarheid van het model aanzienlijk, wat kostbare fouten, systeemuitval of ongelukken in de productiefase kan voorkomen.
advertenties
advertenties
advertenties
advertenties
De wijdverspreide adoptie van synthetische data heeft het potentieel om het landschap van AI-ontwikkeling fundamenteel te veranderen door innovatie te democratiseren. Momenteel hebben grote technologiebedrijven een onevenredig groot voordeel vanwege hun exclusieve toegang tot massale, propriëtaire datasets. De hoge kosten en de complexiteit van dataverzameling vormen een onoverkomelijke drempel voor veel start-ups, academische instellingen en kleinere organisaties. Synthetische data kan dit speelveld gelijktrekken door de toegang tot hoogwaardige trainingsdata los te koppelen van de noodzaak voor immense kapitaalinvesteringen in fysieke dataverzameling. Dit stelt een veel bredere groep innovators in staat om geavanceerde AI-modellen te ontwikkelen, wat kan leiden tot een versnelling van doorbraken op tal van gebieden, van gezondheidszorg tot duurzame energie en logistiek.
Naast de economische voordelen speelt synthetische data ook een cruciale rol in het adresseren van de ethische en maatschappelijke uitdagingen van AI. Zoals eerder benoemd, lost het privacyvraagstukken op doordat er geen echte persoonsgegevens worden gebruikt. Minstens zo belangrijk is de rol die het kan spelen in de strijd tegen algoritmische bias. Ontwikkelaars zijn niet langer beperkt tot de demografische en situationele samenstelling van de data die ze toevallig kunnen verzamelen. In plaats daarvan kunnen ze bewust en proactief datasets genereren die een eerlijke en gebalanceerde representatie van de samenleving bevatten, inclusief data van ondervertegenwoordigde groepen of zeldzame scenario's. Dit leidt tot eerlijkere, robuustere en meer betrouwbare AI-systemen. Het proactief beheren van bias is niet alleen een ethische plicht, maar verkleint ook de aanzienlijke juridische, financiële en reputatierisico's die verbonden zijn aan discriminerende AI-modellen.
De samenwerking tussen NTT Data en Bifrost AI is daarom meer dan slechts een technologische vooruitgang; het is een blauwdruk voor de toekomst van verantwoorde en financieel duurzame AI-ontwikkeling. In een tijdperk waarin de cloudkosten voor AI-initiatieven exponentieel stijgen, is het strategisch beheren van de data-pijplijn geen optie meer, maar een absolute noodzaak. Het integreren van synthetische data in de MLOps-workflow, geleid door de principes van FinOps, biedt organisaties een krachtig mechanisme om kosten te beheersen, risico's te mitigeren en de time-to-value van hun AI-investeringen drastisch te verkorten. Het transformeert de meest onvoorspelbare en kostbare component van AI-ontwikkeling in een beheersbaar, schaalbaar en optimaliseerbaar bedrijfsproces, wat essentieel is voor succes op de lange termijn.
Olivia Nolan is redacteur bij MSP2Day, waar zij zich richt op het vertalen van complexe IT- en technologische ontwikkelingen naar toegankelijke en inspirerende artikelen. Met haar ervaring als content manager en social media expert weet zij inhoud niet alleen informatief, maar ook aantrekkelijk en relevant te maken voor een breed publiek.
