{"id":706419,"date":"2025-04-05T17:41:45","date_gmt":"2025-04-05T15:41:45","guid":{"rendered":"https:\/\/www.nieuws.marketing\/strategie_nieuws\/?p=706419"},"modified":"2025-04-05T17:43:05","modified_gmt":"2025-04-05T15:43:05","slug":"taalmodellen-herkennen-copyrights-materiaal","status":"publish","type":"post","link":"https:\/\/www.nieuws.marketing\/strategie_nieuws\/taalmodellen-herkennen-copyrights-materiaal\/","title":{"rendered":"&#8216;Taalmodellen herkennen copyrights-materiaal&#8217;"},"content":{"rendered":"<p data-start=\"297\" data-end=\"478\"><img loading=\"lazy\" decoding=\"async\" class=\"wp-image-706422 size-full\" src=\"https:\/\/www.nieuws.marketing\/strategie_nieuws\/wp-content\/uploadsnieuwssocial\/2025\/04\/ChatGPT-Image-5-apr-2025-17_42_27.png\" alt=\"&#039;Taalmodellen herkennen copyrights-materiaal&#039;\" width=\"1536\" height=\"1024\" title=\"\" srcset=\"https:\/\/www.nieuws.marketing\/strategie_nieuws\/wp-content\/uploadsnieuwssocial\/2025\/04\/ChatGPT-Image-5-apr-2025-17_42_27.png 1536w, https:\/\/www.nieuws.marketing\/strategie_nieuws\/wp-content\/uploadsnieuwssocial\/2025\/04\/ChatGPT-Image-5-apr-2025-17_42_27-700x467.png 700w, https:\/\/www.nieuws.marketing\/strategie_nieuws\/wp-content\/uploadsnieuwssocial\/2025\/04\/ChatGPT-Image-5-apr-2025-17_42_27-1024x683.png 1024w, https:\/\/www.nieuws.marketing\/strategie_nieuws\/wp-content\/uploadsnieuwssocial\/2025\/04\/ChatGPT-Image-5-apr-2025-17_42_27-250x167.png 250w, https:\/\/www.nieuws.marketing\/strategie_nieuws\/wp-content\/uploadsnieuwssocial\/2025\/04\/ChatGPT-Image-5-apr-2025-17_42_27-768x512.png 768w, https:\/\/www.nieuws.marketing\/strategie_nieuws\/wp-content\/uploadsnieuwssocial\/2025\/04\/ChatGPT-Image-5-apr-2025-17_42_27-720x480.png 720w, https:\/\/www.nieuws.marketing\/strategie_nieuws\/wp-content\/uploadsnieuwssocial\/2025\/04\/ChatGPT-Image-5-apr-2025-17_42_27-520x347.png 520w, https:\/\/www.nieuws.marketing\/strategie_nieuws\/wp-content\/uploadsnieuwssocial\/2025\/04\/ChatGPT-Image-5-apr-2025-17_42_27-320x213.png 320w\" sizes=\"auto, (max-width: 1536px) 100vw, 1536px\" \/><\/p>\n<p>&#8216;Taalmodellen herkennen copyrights-materiaal&#8217;<\/p>\n<p class=\"\" data-start=\"297\" data-end=\"478\"><strong>Een recent gepubliceerde studie lijkt de beschuldigingen te onderbouwen dat OpenAI ten minste een deel van zijn AI-modellen heeft getraind met auteursrechtelijk beschermd materiaal.\u00a0OpenAI ligt momenteel onder vuur in meerdere rechtszaken, aangespannen door auteurs, softwareontwikkelaars en andere rechthebbenden. Zij stellen dat het bedrijf zonder toestemming hun werken \u2013 zoals boeken en code \u2013 heeft gebruikt om taalmodellen te ontwikkelen. Hoewel OpenAI zich verdedigt met een beroep op het Amerikaanse fair use-beginsel, stellen de aanklagers dat het auteursrecht in de VS geen uitzondering kent voor het gebruik van content als trainingsdata.<\/strong><\/p>\n<p class=\"\" data-start=\"949\" data-end=\"1218\">De studie is uitgevoerd door onderzoekers van de University of Washington, de Universiteit van Kopenhagen en Stanford. Zij presenteren een nieuwe methode om te achterhalen of modellen, zoals die van OpenAI, daadwerkelijk specifieke trainingsdata hebben &#8220;gememoriseerd&#8221;.<\/p>\n<h1 data-start=\"1220\" data-end=\"1238\">Hoe werkt het?<\/h1>\n<p class=\"\" data-start=\"1240\" data-end=\"1713\">AI-modellen zijn in essentie voorspellingsmachines. Ze worden getraind op enorme hoeveelheden data en leren hierdoor patronen herkennen. Hoewel de meeste output geen letterlijke kopie\u00ebn zijn van het trainingsmateriaal, komt het door de aard van het leerproces regelmatig voor dat modellen toch delen uit hun trainingsset letterlijk reproduceren. Zo zijn er beeldmodellen die screenshots uit films nabootsen, en taalmodellen die vrijwel woordelijk nieuwsartikelen overnemen.<\/p>\n<blockquote>\n<p class=\"\" data-start=\"1715\" data-end=\"2096\">De onderzoekers ontwikkelden een methode die gebruikmaakt van zogenaamde &#8220;high-surprisal&#8221; woorden: woorden die zelden voorkomen in een specifieke context, en dus opvallender zijn. Bijvoorbeeld: in de zin <em data-start=\"1919\" data-end=\"1972\">\u201cJack en ik zaten doodstil terwijl de radar zoemde\u201d<\/em> is &#8220;radar&#8221; een high-surprisal woord, omdat woorden als &#8220;motor&#8221; of &#8220;radio&#8221; statistisch vaker zouden voorkomen v\u00f3\u00f3r &#8220;zoemde&#8221;.<\/p>\n<\/blockquote>\n<p class=\"\" data-start=\"2098\" data-end=\"2500\">Door deze woorden te maskeren in fragmenten uit fictieve boeken en artikelen uit <em data-start=\"2179\" data-end=\"2199\">The New York Times<\/em>, en vervolgens modellen zoals GPT-3.5 en GPT-4 te vragen het ontbrekende woord te raden, konden de onderzoekers analyseren of het model de originele tekst eerder heeft gezien. Wanneer het model het correcte woord weet te voorspellen, is dat een sterke aanwijzing voor memorisatie tijdens de training. Techcrunch meldt:<\/p>\n<blockquote>\n<p class=\"wp-block-paragraph\">According to analytics firm SensorTower, users in India have spent $8 million on ChatGPT subscriptions through in-app purchases since 2023. That doesn\u2019t include purchases made through the ChatGPT web app. But notably, it\u2019s a fraction of the $330 million SensorTower estimates U.S. users have spent on ChatGPT in-app.<\/p>\n<\/blockquote>\n<div class=\"ad-unit ad-unit--mobile ad-unit--has-placeholder ad-unit--display wp-block-tc-ads-ad-slot has-background has-gray-100-background-color\"><\/div>\n<h3 class=\"\" data-start=\"2502\" data-end=\"2516\">Wat bleek?<\/h3>\n<p class=\"\" data-start=\"2518\" data-end=\"2807\">GPT-4 vertoonde duidelijke tekenen van memorisatie van fragmenten uit populaire fictieboeken, waaronder werken uit BookMIA \u2013 een dataset met auteursrechtelijk beschermde e-books. Ook teksten uit <em data-start=\"2713\" data-end=\"2733\">The New York Times<\/em> bleken in beperkte mate te zijn opgeslagen in het geheugen van het model.<\/p>\n<p class=\"\" data-start=\"2809\" data-end=\"3023\">Volgens Abhilasha Ravichander, promovendus aan de University of Washington en coauteur van de studie, benadrukken de bevindingen de noodzaak van meer transparantie over de data waarop AI-modellen worden getraind.<\/p>\n<blockquote data-start=\"3025\" data-end=\"3318\">\n<p class=\"\" data-start=\"3027\" data-end=\"3318\">\u201cAls we taalmodellen willen bouwen die betrouwbaar zijn, moeten we ze kunnen auditen en wetenschappelijk doorgronden,\u201d zegt Ravichander. \u201cOnze methode is een stap in die richting, maar er is dringend behoefte aan meer transparantie over de gebruikte trainingsdata in het hele AI-ecosysteem.\u201d<\/p>\n<\/blockquote>\n<h3 class=\"\" data-start=\"3320\" data-end=\"3364\"><\/h3>\n<p class=\"\" data-start=\"3366\" data-end=\"3744\"><em>OpenAI pleit al langer voor ruimere interpretaties van het fair use-principe bij het trainen van AI-modellen op auteursrechtelijk beschermde content. Hoewel het bedrijf inmiddels licentieovereenkomsten heeft gesloten en een opt-out mechanisme aanbiedt voor rechthebbenden, blijft het actief lobbyen voor regelgeving die het gebruik van bestaande content in AI-training toestaat.<\/em><\/p>\n","protected":false},"excerpt":{"rendered":"<p>&#46;&#46;&#46;<\/p>\n","protected":false},"author":2,"featured_media":706422,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[338],"tags":[],"class_list":["post-706419","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-nieuws-tool-ai-business-marketing-ai-modellen"],"_links":{"self":[{"href":"https:\/\/www.nieuws.marketing\/strategie_nieuws\/wp-json\/wp\/v2\/posts\/706419","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.nieuws.marketing\/strategie_nieuws\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.nieuws.marketing\/strategie_nieuws\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.nieuws.marketing\/strategie_nieuws\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/www.nieuws.marketing\/strategie_nieuws\/wp-json\/wp\/v2\/comments?post=706419"}],"version-history":[{"count":0,"href":"https:\/\/www.nieuws.marketing\/strategie_nieuws\/wp-json\/wp\/v2\/posts\/706419\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.nieuws.marketing\/strategie_nieuws\/wp-json\/wp\/v2\/media\/706422"}],"wp:attachment":[{"href":"https:\/\/www.nieuws.marketing\/strategie_nieuws\/wp-json\/wp\/v2\/media?parent=706419"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.nieuws.marketing\/strategie_nieuws\/wp-json\/wp\/v2\/categories?post=706419"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.nieuws.marketing\/strategie_nieuws\/wp-json\/wp\/v2\/tags?post=706419"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}