Research-live.com: “Slechte kwaliteit van data(sets) groot probleem voor AI”

18.922 views door Patrick Petersen · Published 4 maart 2025 · Updated 4 maart 2025

Met data kwaliteit als een actueel en belangrijk onderwerp in marktonderzoek, reflecteert Liam Kay-McClean van Live-research op de inzichten en oplossingen die besproken werden tijdens een recente rondetafelbijeenkomst in Londen.

Data Kwaliteit

Data kwaliteit is een steeds grotere uitdaging voor marktonderzoekers. Van fraude bij enquêtes tot slechte ervaringen van respondenten en de opkomst van AI en synthetische data, de sector staat voor een cruciale periode om deze problemen aan te pakken en de waarde van betrouwbare data te bewijzen aan opdrachtgevers.

Tijdens een rondetafelbijeenkomst in Londen, georganiseerd door de Market Research Society (MRS) en gesponsord door Ayda en ReDem, werden de belangrijkste uitdagingen en mogelijke oplossingen besproken. De bijeenkomst werd gehouden onder de Chatham House-regel, wat betekent dat de inhoud van de discussie gedeeld mag worden, maar zonder de deelnemers bij naam te noemen.

Om de risico’s voor data kwaliteit beter te begrijpen, werd in 2023 het Global Data Quality Partnership opgericht. Dit initiatief wordt ondersteund door MRS, Esomar, de Insights Association en SampleCon, met latere toetreding van onderzoeksorganisaties uit Australië, Canada en Oostenrijk.

Omvang van het probleem

Voorafgaand aan de bijeenkomst werd een enquête gehouden onder de deelnemers. Hieruit bleek dat de mate waarin interviews werden verwijderd vanwege onvoldoende kwaliteit varieerde van 5% tot 50%. De verdeling was als volgt:

30% van de deelnemers gaf aan dat 10% tot 20% van de interviews werd verwijderd.
20% noemde percentages van minder dan 5%, 5% tot 10%, en 20% tot 30%.
10% van de deelnemers rapporteerde verwijderingspercentages tussen 40% en 50%.

Daarnaast gaf 80% van de deelnemers aan dat de hoeveelheid slechte data in het afgelopen jaar was toegenomen, terwijl de overige 20% aangaf dat deze gelijk was gebleven. Fraude bleek een groot probleem:

50% schatte dat 5% tot 10% van de interviews verwijderd moest worden vanwege fraude.
30% noemde een percentage van 30% tot 40%.
De overige 20% was verdeeld tussen minder dan 5% en 20% tot 30%.

Wat betreft de aanpak van AI-gedreven fraude:

40% had al stevige maatregelen getroffen.
40% erkende het probleem en was net begonnen met tegenmaatregelen.
20% erkende de uitdaging, maar had nog geen actie ondernomen.

Kwaliteitsproblemen

De uitdagingen rondom data kwaliteit kunnen in twee hoofdcategorieën worden verdeeld:

Fraude in enquêtes: AI en geautomatiseerde bots maken het moeilijker om valse antwoorden te detecteren.
Slechte ervaring van respondenten: Vergoedingen voor deelname aan enquêtes zijn gedaald, terwijl respondenten steeds meer directe beloningen verwachten.

Daarnaast werd opgemerkt dat veel enquêtes te lang zijn en te veel open vragen bevatten. Dit kan leiden tot een lagere betrokkenheid van deelnemers, met als gevolg een verslechtering van de data kwaliteit. Er werd opgeroepen om realistischere verwachtingen te hebben van respondenten en hen sneller en eerlijker te belonen.

AI speelt een dubbele rol in deze problematiek: enerzijds maakt het fraude makkelijker, maar anderzijds biedt het ook kansen om fraude te detecteren. De industrie moet AI actief inzetten om de kwaliteit van inzichten te verbeteren.

Oplossingen

Een belangrijk discussiepunt was de vraag wie verantwoordelijk is voor het verbeteren van data kwaliteit. Panelgebruikers willen grote panels en lage kosten, maar dit leidt vaak tot een lagere kwaliteit van respondenten.

Mogelijke oplossingen die werden besproken:

Kwaliteitsclassificaties voor enquêtes: Een brons-, zilver- en goudsysteem zou klanten inzicht kunnen geven in de kwaliteit van hun data en hen bewuster maken van wat ze kopen.
Strengere regelgeving: MRS werkt aan het erkennen van onderzoeksfraude als een specifieke misdaad. Dit zou een afschrikkend effect kunnen hebben en sociale mediaplatforms kunnen dwingen om frauduleuze praktijken aan te pakken.
Identiteitsverificatie: Kunnen digitale ID’s, zoals in Estland, helpen om respondenten beter te valideren?
Internationale kwaliteitsstandaarden: Vergelijkbaar met ISO-certificeringen, kunnen gemeenschappelijke normen helpen om de lat voor data kwaliteit wereldwijd hoger te leggen.
Economische impact meten: Onderzoek naar de invloed van slechte data kwaliteit op het BBP zou beleidsmakers en bedrijven kunnen overtuigen van de noodzaak tot actie.

Daarnaast werd benadrukt dat geen enkele maatregel op zichzelf voldoende zal zijn. Een combinatie van keystroke-analyse, statistische controles en AI-gebaseerde fraudedetectie is nodig om stap voor stap verbeteringen te realiseren.

Er is geen magische oplossing voor de problemen rondom data kwaliteit. Wel zijn er verschillende methoden en strategieën die samen voor vooruitgang kunnen zorgen. De industrie moet collectief verantwoordelijkheid nemen en AI zowel als een uitdaging als een kans beschouwen. Alleen met gecoördineerde inspanningen en investeringen in betere standaarden en technologieën kan marktonderzoek zijn waarde behouden en versterken.