Stichting Brein haalt illegale data voor trainen AI offline

RELEASE! Praktische Handboek.AI over AI, groei en Marketing is top 3 vakboek #ai #boeken #oefeningen
De auteursrechtenorganisatie Stichting Brein heeft in Nederland een dataset offline laten halen die werd gebruikt voor het trainen van kunstmatige intelligentie (AI). Volgens Brein is dit de eerste keer dat zoiets in Nederland gebeurt.
Brein beschrijft de dataset als “groot” en stelt dat deze illegale kopieën bevat van tienduizenden boeken, miljoenen regels uit nieuwsartikelen van websites zoals Nu.nl, en ondertitels van talloze films en tv-series afkomstig uit illegale bronnen. Directeur Bastiaan van Ramshorst zegt te weten wie de dataset heeft gemaakt, maar kan deze informatie vanwege privacyredenen niet delen.
Data
De dataset was bedoeld voor het trainen van een zogenaamd taalmodel, ook wel bekend als een large language model. De maker van de dataset heeft schriftelijk aan Brein beloofd deze niet langer te gebruiken en heeft tevens informatie verstrekt over de partijen die de dataset hebben ontvangen. De stichting onderzoekt nu of de data daadwerkelijk is gebruikt in AI-modellen. Indien dit het geval is, zal Brein de betrokken partijen aanspreken.
Het gebruik van auteursrechtelijk beschermd materiaal bij het trainen van AI is een groot probleem. Recent onderzoek van de NOS toonde aan dat werken van Nederlandse beeldmakers mogelijk zonder toestemming zijn gebruikt voor het trainen van bekende AI-beeldgeneratoren zoals DALL-E en Midjourney.
In de Verenigde Staten loopt momenteel een rechtszaak tussen The New York Times en OpenAI, de maker van ChatGPT. De krant beschuldigt het bedrijf ervan zonder toestemming op grote schaal krantenartikelen te hebben gebruikt voor het trainen van AI. OpenAI verdedigt zich door te stellen dat het gebruik van de data gerechtvaardigd is.
Meer weten over AI en de toepassingen? Klik hier!
