‘Afhankelijkheid van open-source datasets geeft bedreiging voor AI’
Afhankelijkheid van open-source datasets brengt een bedreiging voor AI met zich mee: datavergiftiging, of “bronvergiftiging”
De huidige geopolitieke situatie dwingt ons om vooruit te denken en ons voor te bereiden op een breed scala aan cyberrisico’s. Conflicten vinden niet langer enkel plaats op militair vlak, maar spelen zich af op verschillende fronten. Tegelijkertijd brengt de groeiende verspreiding van kunstmatige intelligentie (AI) nieuwe vormen van cyberdreigingen met zich mee.
“De opkomst van AI-gestuurde technologieën, die sterk afhankelijk zijn van online data, brengt een nieuwe bedreiging met zich mee: data poisoning, of ‘bronvergiftiging’. Bij deze techniek injecteren aanvallers valse of kwaadaardige informatie in potentiële datasets om AI-systemen te manipuleren. Dit zou een krachtig middel kunnen zijn voor langdurige informatie-operaties, waarbij tegenstanders publieke narratives beïnvloeden, factcheckprocessen verstoren en het vertrouwen in AI-gegenereerde resultaten ondermijnen”, aldus Pierre Delcher, hoofd van het Threat Research Team bij HarfangLab.
Data poisoning maakt gebruik van de afhankelijkheid van AI-modellen van open-source datasets die van het internet worden verzameld. Aanvallers kunnen deze datasets manipuleren door openbare inhoud te plaatsen en te versterken. Onderzoekers hebben aangetoond dat het vergiftigen van slechts 0,01% van de trainingsdata het gedrag van grote taalmodellen (LLM’s) aanzienlijk kan beïnvloeden. De lage kosten en grote impact maken deze methode een aantrekkelijke tactiek voor tegenstanders.
Onlangs bevestigde een onderzoek van NewsGuard dat deze methode werd toegepast op AI-chatbots, zoals ChatGPT en Copilot, ontwikkeld door Microsoft, met als doel Russische propaganda te verspreiden en de werkelijkheid te beïnvloeden. Een in Moskou gevestigd desinformatienetwerk, “Pravda” (Russisch voor ‘waarheid’), overspoelt opzettelijk zoekresultaten en webcrawlers met valse informatie om de verwerking en presentatie van nieuws door grote taalmodellen te verstoren.
“Deze aanvallen vormen niet alleen een bedreiging voor de integriteit van AI-technologieën, maar ook voor cruciale sectoren die afhankelijk zijn van accurate besluitvorming. Nu AI steeds autonomer wordt en een integraal onderdeel is van het publieke discours en operaties, moeten organisaties prioriteit geven aan het beveiligen van trainingsdatasets en het implementeren van robuuste validatiemechanismen”, waarschuwt Delcher.
“Deze aanvallen zijn gericht op het verspreiden van desinformatie en het destabiliseren van de publieke opinie op de lange termijn. We zien nu al nieuwswebsites die volledig door AI worden aangedreven; stel je voor hoe groot dit over vijf of tien jaar zou kunnen worden. Wat als de schoolboeken van morgen, deels geschreven door AI, desinformatie bevatten, omdat de eigenaren van de chatbots er niet in geslaagd zijn om alle sporen van desinformatiecampagnes te verwijderen?”
“Deze aanvallen waren al voorspeld in ons 2025 threatscape-rapport. Nu ze gedocumenteerd zijn, willen we opnieuw benadrukken hoe belangrijk het is om mensen bewust te maken van hoe ze informatie consumeren en aandacht te besteden aan ‘niet alles te vertrouwen wat je ziet’. Als je een chatbot om feiten en informatie vraagt, vraag dan altijd om de bronnen en raad ik aan om informatie te verifiëren met aanvullende bronnen. Omdat het steeds moeilijker wordt om desinformatie van feitelijke informatie te onderscheiden, is het belangrijker dan ooit om mensen te onderwijzen over hoe ze het internet moeten gebruiken”, concludeert Delcher.