13 jun 2024 De strijd om data Nieuws Vijfhart-productmanager en -docent Marnix Wolf is negenvoudig Microsoft Most Valuable Professional en weet heel veel van Generative AI. Met zijn blogposts deelt hij zijn kennis en ervaring. Dit keer vertelt hij over hoe techgiganten grenzen verleggen voor AI. Een onverzadigbare honger naar data In de competitieve wereld van kunstmatige intelligentie (AI) is een race gaande tussen de grootste technologiebedrijven om de meest geavanceerde AI-systemen te ontwikkelen. Centraal in deze race staat een essentiële brandstof: data. OpenAI, Google en Meta (eigenaar van Facebook en Instagram) hebben grenzen verlegd, beleidslijnen genegeerd en zelfs de wetten rond auteursrecht bediscussieerd in hun zoektocht naar data om hun AI-systemen te trainen. Deze bedrijven hebben extreme maatregelen genomen, zoals het overtreden van hun eigen regels en het transcriberen van YouTube-video’s zonder expliciete toestemming, om aan deze onstilbare honger naar data te voldoen. Jared Kaplan en de rol van data in AI Een cruciale wending in de race om AI kwam van Jared Kaplan, een theoretisch fysicus aan de Johns Hopkins University. In januari 2020 publiceerde Kaplan een baanbrekende paper die de AI-wereld op zijn kop zette. Zijn onderzoek toonde aan dat de prestaties van grote taalmodellen, de drijvende kracht achter online chatbots, exponentieel verbeteren met de hoeveelheid data waarmee ze worden getraind. Dit inzicht, dat scale is all you need als mantra had, wakkerde de datahonger van AI-ontwikkelaars verder aan. Kaplans werk, uitgevoerd in samenwerking met onderzoekers van OpenAI, legde de basis voor een nieuw tijdperk waarin de jacht op kwalitatief hoogwaardige data een allesoverheersende prioriteit werd. De jacht op hoogwaardige data Naarmate AI-systemen zich verder ontwikkelen, groeit de noodzaak voor kwalitatief hoogwaardige data exponentieel. Deze data, die vaak bestaat uit zorgvuldig geschreven en geredigeerde boeken, artikelen en andere professionele werken, wordt beschouwd als goud waard in de ontwikkeling van AI. Echter, de beschikbaarheid van dergelijke data op het internet is beperkt, wat technologiebedrijven ertoe heeft aangezet om creatieve – en soms ethisch twijfelachtige – methoden te verkennen om aan meer data te komen. Het probleem van ‘synthetische’ data Met de dreigende uitputting van hoogwaardige data op het internet kijken sommige bedrijven nu naar ‘synthetische’ data. Dit zijn niet door mensen gecreëerde gegevens, maar tekst, beelden en code gegenereerd door AI-modellen zelf. Hoewel dit een potentiële oplossing biedt voor het datatekort, brengt het ook risico’s met zich mee, zoals de mogelijkheid dat AI-systemen zichzelf versterkende fouten aanleren. Conclusie De strijd om data onderstreept de extreme maatregelen die techgiganten bereid zijn te nemen om te blijven innoveren in de snel evoluerende wereld van kunstmatige intelligentie. Terwijl de zoektocht naar nieuwe databronnen voortduurt, rijzen er vragen over de ethische implicaties van het gebruik van auteursrechtelijk beschermde materialen zonder toestemming en de toekomstige afhankelijkheid van synthetische data. Het is een herinnering aan de complexe balans tussen innovatie en de respectering van intellectueel eigendom in het digitale tijdperk. Bronvermelding Dit artikel is gebaseerd op inzichten uit een gedetailleerde rapportage door The New York Times, die een diepgaande blik werpt op de methoden die techgiganten hanteren om data voor AI te vergaren. Voor meer informatie, zie de originele bron: How Tech Giants Cut Corners to Harvest Data for AI. Gerelateerde artikelen Copilot: onmisbare turbo voor jouw organisatie De werkdag van een cloud engineer Azure AI Services: wat kun je er nou écht mee?