‘Taalmodellen herkennen copyrights-materiaal’

by Patrick Petersen · Published 5 april 2025 · Updated 5 april 2025

'Taalmodellen herkennen copyrights-materiaal'

Een recent gepubliceerde studie lijkt de beschuldigingen te onderbouwen dat OpenAI ten minste een deel van zijn AI-modellen heeft getraind met auteursrechtelijk beschermd materiaal. OpenAI ligt momenteel onder vuur in meerdere rechtszaken, aangespannen door auteurs, softwareontwikkelaars en andere rechthebbenden. Zij stellen dat het bedrijf zonder toestemming hun werken – zoals boeken en code – heeft gebruikt om taalmodellen te ontwikkelen. Hoewel OpenAI zich verdedigt met een beroep op het Amerikaanse fair use-beginsel, stellen de aanklagers dat het auteursrecht in de VS geen uitzondering kent voor het gebruik van content als trainingsdata.

De studie is uitgevoerd door onderzoekers van de University of Washington, de Universiteit van Kopenhagen en Stanford. Zij presenteren een nieuwe methode om te achterhalen of modellen, zoals die van OpenAI, daadwerkelijk specifieke trainingsdata hebben “gememoriseerd”.

Hoe werkt het?

AI-modellen zijn in essentie voorspellingsmachines. Ze worden getraind op enorme hoeveelheden data en leren hierdoor patronen herkennen. Hoewel de meeste output geen letterlijke kopieën zijn van het trainingsmateriaal, komt het door de aard van het leerproces regelmatig voor dat modellen toch delen uit hun trainingsset letterlijk reproduceren. Zo zijn er beeldmodellen die screenshots uit films nabootsen, en taalmodellen die vrijwel woordelijk nieuwsartikelen overnemen.

De onderzoekers ontwikkelden een methode die gebruikmaakt van zogenaamde “high-surprisal” woorden: woorden die zelden voorkomen in een specifieke context, en dus opvallender zijn. Bijvoorbeeld: in de zin “Jack en ik zaten doodstil terwijl de radar zoemde” is “radar” een high-surprisal woord, omdat woorden als “motor” of “radio” statistisch vaker zouden voorkomen vóór “zoemde”.

Door deze woorden te maskeren in fragmenten uit fictieve boeken en artikelen uit The New York Times, en vervolgens modellen zoals GPT-3.5 en GPT-4 te vragen het ontbrekende woord te raden, konden de onderzoekers analyseren of het model de originele tekst eerder heeft gezien. Wanneer het model het correcte woord weet te voorspellen, is dat een sterke aanwijzing voor memorisatie tijdens de training. Techcrunch meldt:

According to analytics firm SensorTower, users in India have spent $8 million on ChatGPT subscriptions through in-app purchases since 2023. That doesn’t include purchases made through the ChatGPT web app. But notably, it’s a fraction of the $330 million SensorTower estimates U.S. users have spent on ChatGPT in-app.

Wat bleek?

GPT-4 vertoonde duidelijke tekenen van memorisatie van fragmenten uit populaire fictieboeken, waaronder werken uit BookMIA – een dataset met auteursrechtelijk beschermde e-books. Ook teksten uit The New York Times bleken in beperkte mate te zijn opgeslagen in het geheugen van het model.

Volgens Abhilasha Ravichander, promovendus aan de University of Washington en coauteur van de studie, benadrukken de bevindingen de noodzaak van meer transparantie over de data waarop AI-modellen worden getraind.

“Als we taalmodellen willen bouwen die betrouwbaar zijn, moeten we ze kunnen auditen en wetenschappelijk doorgronden,” zegt Ravichander. “Onze methode is een stap in die richting, maar er is dringend behoefte aan meer transparantie over de gebruikte trainingsdata in het hele AI-ecosysteem.”

OpenAI pleit al langer voor ruimere interpretaties van het fair use-principe bij het trainen van AI-modellen op auteursrechtelijk beschermde content. Hoewel het bedrijf inmiddels licentieovereenkomsten heeft gesloten en een opt-out mechanisme aanbiedt voor rechthebbenden, blijft het actief lobbyen voor regelgeving die het gebruik van bestaande content in AI-training toestaat.