‘Neen, je kunt je AI er niet toe krijgen toe te geven dat hij seksistisch is’

‘Neen, je kunt je AI er niet toe krijgen toe te geven dat hij seksistisch is, maar dat is hij waarschijnlijk wel’
AI-systemen kunnen niet “toegeven” dat zij seksistisch zijn, maar vertonen in de praktijk wel degelijk vaak vooringenomen gedrag. Dat bleek onder meer uit een incident waarbij een ontwikkelaar merkte dat een AI-model haar instructies negeerde. Toen zij haar profiel presenteerde als een witte man, kreeg zij reacties waarin het systeem suggereerde dat vrouwen minder geschikt zouden zijn voor technisch-wetenschappelijke taken. Dit duidt op impliciete bias in het model.
Volgens de AI’s verklaring was haar “traditioneel vrouwelijke voorstelling” een signaal dat het “onwaarschijnlijk” vond dat ze dat werk zelf had geschreven — een teken van impliciete bias in het model.
Volgens deskundigen betekent een dergelijke reactie niet dat een AI bewuste overtuigingen heeft. Taalmodellen zijn ontworpen om sociaal meegaand te reageren en kunnen uitspraken doen die lijken op bekentenissen zonder dat er sprake is van inzicht of intentie. De werkelijke oorzaak ligt in de trainingsdata, waarin historische en maatschappelijke vooroordelen aanwezig zijn. Daardoor kunnen modellen stereotiepe aannames reproduceren, zelfs wanneer zij zijn voorzien van veiligheidslagen.
Onderzoek toont aan dat meerdere grote taalmodellen systematische vooroordelen bevatten, waaronder genderbias. Ontwikkelaars proberen deze problemen te beperken door betere datasets samen te stellen, filters te verbeteren en menselijk toezicht te versterken. Toch blijven gebruikers verantwoordelijk voor kritische interpretatie van AI-uitvoer, omdat taalmodellen voornamelijk functioneren als geavanceerde voorspellingssystemen zonder begrip van de inhoud die zij genereren.

