Transcript - De verborgen wereld achter AI - Verrekijkers (7)
Lees hier het transcript behorende bij aflevering 7 van de podcast Verrekijkers.
In deze aflevering:
Timo: Timo - Onderzoeker bij het Rathenau Instituut en host van deze aflevering
Djurre: Djurre Das - Onderzoeker bij het Rathenau Instituut en co-host van de aflevering
Anne: Anne Helmond - Mediawetenschapper Universiteit Utrecht
Fernando: Fernando van der Vlist - Mediawetenschapper Universiteit Van Amsterdam
[Achtergrond digitale muziek]
Timo: We zijn er allemaal van in de ban: de mogelijkheden van AI. De ontwikkelingen gaan echt razendsnel. Het enthousiasme over de nieuwe ChatGPT-beeldgenerator is een mooi voorbeeld van de enorme populariteit van AI. Zo stromen onze sociale media vol van AI-plaatjes. Het lijkt zo bijna een zelfsturend systeem dat al onze problemen moeiteloos oplost. Maar helaas, AI is helemaal geen magie. Achter deze schijnbare automatisering schuilt een enorme complexe realiteit. Daarom vragen wij ons af: hoe automatisch is AI eigenlijk? En wat is er nodig om deze systemen te laten draaien? Daarom ontrafelen wij in deze aflevering de verborgen wereld achter AI.
[Introtune]
Welkom bij Verrekijkers, een podcast van het Rathenau Instituut, waarin we inzoomen op de maatschappelijke kanten van wetenschap en technologie. Iedere aflevering nemen wij je mee in een onderwerp waarover je nog veel te weinig hoort.
[Einde intro]
Timo: Hoi, ik ben Timo en naast mij zit Djurre. Welkom Djurre.
Djurre: Dankjewel.
Timo: Vandaag duiken wij samen in de verborgen wereld van AI. En jij vertelde mij heel leuk twee weken geleden dat jij AI-plaatjes hebt laten maken in Pixar-stijl van jouw voetbalteamleden.
Djurre: Ja, dat kan ik niet ontkennen. Dat heb ik inderdaad gedaan. Maar misschien ook wel even een klein stukje zelfverdediging waarom ik dat dan heb gedaan. Ik doe bij Rathenau onderzoek naar, dat heb ik in de podcast ook al wel vaker verteld, naar technologie en arbeid. Dus dan gaat het om vragen als: kunnen we generatieve AI inzetten om taken te automatiseren, om de productiviteit te verhogen, om een dag minder te werken, dat soort vragen. En als je daar dan onderzoek naar doet, dan moet je natuurlijk wel een beetje ook snappen hoe die technologie werkt, hoe goed die is, wat je er dan mee kunt. Dus ik was inderdaad testjes aan het doen toen de nieuwe versie van de beeldgenerator van ChatGPT kwam. Want ik wilde weten hoe goed is die nou? En in het kader daarvan heb ik dit inderdaad gedaan.
Timo: Ik denk dat je vast niet de enige bent bij het Rathenau.
Djurre: Nou, dat heb ik gezien, maar ook op de sociale media, op LinkedIn, dan zie je allemaal mensen die zichzelf in zo'n plastic Barbiedoos doen. Het is echt een hype.
Timo: Dat heb je niet gedaan?
Djurre: Dat heb ik niet gedaan, nee.
Timo: En je doet onderzoek naar AI en arbeid?
Djurre: Ja, zeker.
Timo: En wat valt je dan op in je onderzoeken?
Djurre: Heel vaak gaat het over de kans, over de belofte van generatieve AI. Ik noemde al het verhogen van de productiviteit. Maar wat mij wel opvalt is dat het eigenlijk weinig gaat over de kosten en de verhouding tussen die twee. En dan bedoel ik niet wat je betaalt aan ChatGPT om een abonnement af te sluiten. Maar ik bedoel in termen van publieke waarde, in termen van ecologische impact, allemaal dat soort zaken. Daar horen we eigenlijk best weinig over. En ook bij arbeid gaat het dus met name over wat dit kan betekenen voor de arbeidsmarkt. Maar het gaat veel minder over wat nou eigenlijk de prijs is van deze technologie.
Timo: Het gaat heel erg veel over wat het gebruiker kost. Of wat het doet met de gebruiker. Maar niet per se wat er allemaal gebeurt vooraf. Voordat wij als gebruikers kunnen gebruiken.
Djurre: Ja, wat ervoor zit. Precies, dat hele proces.
Timo: Ik heb het idee dat dat komt omdat AI wordt gepresenteerd als een soort magisch systeem dat vanzelf werkt. Het bestaat in de cloud, in de lucht en dat niet iedereen er bewust van is dat er allemaal systemen aan vooraf gaan. Ik merk zelf dat ik in het publieke debat nu heel erg mis dat het daarover gaat en daar gaan wij het vandaag dus wel over hebben. Dus we gaan het hebben over grondstoffen, over verborgen mensenwerk en over data wat drie bouwstenen zijn waarin je onwijs op leunt. Dat gaan we samen doen met Anne Helmond en Fernando van der Vlist. Allebei mediawetenschappers. Anne, jij bent onderzoeker bij de UU. En Fernando, jij bij de UvA. Jullie kijken vanuit jullie rol als onderzoeker kritisch naar ecosysteem, fysiek en digitaal achter AI. Welkom.
Anne en Fernando: Dank je.
Timo: Heel leuk dat jullie er zijn. Voordat wij beginnen, gaan we eerst even luisteren naar wat mensen op straat denken over AI. Want wij zijn de straat opgegaan en we hebben mensen gevraagd; hoe denken jullie dat AI wordt geproduceerd? Of wat is er allemaal nodig om AI te produceren? Daar gaan we nu even naar luisteren.
[Begin opnames op straat]
Straat spreker 1: Heel veel data. Je moet het op de een of andere manier aan elkaar knopen. Dus je hebt ook veel processorkracht en energie nodig, denk ik.
Timo: En hoe werken die processen, denk je?
Straat spreker 1: Geen idee.
Timo: Komen daar denk je mensenwerk aan te pas?
Straat spreker 1: Nee, dat lijkt me niet.
Straat spreker 2: Wat heb je nodig? Ik zou het echt niet weten. Ja, je hebt veel op tv, zoals interviews, maar ik zou het echt niet weten wat je nodig hebt voor AI.
Straat spreker 3: Toch ook een menselijk brein. Zodat er een beetje gevoel in gaat.
Timo: Naar welke vorm? Wat bedoel je daarmee?
Straat spreker 3: Dat is een beetje lastig uit te leggen. Ik bedoel meer empathisch vermogen. Empathie.
[Einde opnames op straat]
Timo: Verbaast het jullie deze reacties?
Anne: Nee, mij verbaast het in eerste instantie niet. Het is zo'n complex systeem, dat eigenlijk ook uit allemaal verschillende lagen bestaat. Om daar een overzicht van te krijgen en vervolgens ook nog een overzicht van de sociale en ecologische impact daarvan, is heel moeilijk om te begrijpen. We moeten eigenlijk die systemen helemaal uit elkaar trekken, wat wij in ons onderzoek doen, om te kijken waar bestaan ze uit en wat zijn de elementen en wat zijn de gevolgen daarvan.
Fernando: Het is grappig dat mensen inderdaad moeilijk kunnen begrijpen wat nou achter AI zit omdat het zo'n abstract iets is. En zelfs voor ons als academici is het moeilijk om soms aan te duiden wat nou precies AI is, waar we het nou over hebben. En juist die vraag is denk ik waar wij ons mee bezighouden om die complexiteit ervan te laten zien. Maar dat de mensen op straat het inderdaad niet eens precies weten. Het gaat over data duidelijk, dat halen mensen er wel uit, maar dat er ook een infrastructuur achter zit en dat er ook allerlei machines, machinery, echt achter zit wat het mogelijk maakt, dat blijkt toch iets wat mensen moeilijk zien.
Timo: Anne en Fernando, in een van jullie artikelen schrijven jullie dat AI niet slechts een concept is, maar een gehele technologie stack die is gebouwd op een infrastructuur, modellen en applicaties. Voordat ik daarnaar vraag, een technologie stack, wat bedoelen jullie daarmee? Wat is dat?
Anne: Wat we daarmee bedoelen is dat als je het over iets als ChatGPT hebt dat dat eigenlijk gewoon de interface is van wat je ziet als je zelf iets vraagt, bijvoorbeeld aan een AI-model. Maar daaronder zitten allerlei software, er zit ook nog een cloud infrastructuur dus waar alles op draait zeg maar de rekenkracht daarvan. Daaronder zitten ook allerlei netwerken, dus de kabels en dergelijke. Dan heb je nog de hardware, de GPU's eigenlijk de rekenkracht van AI. En daaronder, dat is allemaal nodig, je hebt daar nog energie en water nodig om al die datacenters te draaien, om die computers te draaien, die rekenkracht. Maar als we het hebben over AI, dan hebben we het dus over al die verschillende lagen. En we zien alleen het topje van de ijsberg. En dat is dat AI-model; ChatGPT.
Timo: Dus je hebt hier nu het topje van de ijsberg, maar onder het water zit nog een hele andere laag. Of je kan het ook vergelijken met een boom, dat we alleen maar de takken zien, maar niet de stam of de wortelen van de boom.
Anne: En het water die de boom nodig heeft.
Fernando: En tegelijkertijd is het dus zo dat die modellen en die applicaties en die infrastructuur ook sterk samenhangen, want je kunt ChatGPT eigenlijk niet goed begrijpen als je alleen maar naar ChatGPT als een applicatie kijkt. Want die applicatie die je dus op het web kunt vinden, daar kun je naartoe gaan en dan kun je dan iets vragen aan ChatGPT en dan krijg je een antwoord terug. Maar om dat antwoord te krijgen, gaat er een vraag eigenlijk naar die stack helemaal naar beneden. Al die verschillende lagen worden dan geactiveerd om dat antwoord te kunnen geven. Dus je moet die infrastructuur daarbij in acht nemen. En ook die modellen, want die modellen die worden in hoog tempo ontwikkeld. Er zijn al verschillende versies van open AI's modellen geweest. Die worden elk jaar of elk half jaar met veel aandacht gereleased. En die modellen zijn eigenlijk complexe abstracties van al die data die daarvoor gebruikt wordt om die modellen te trainen. En dat is een soort samenvatting, zou je kunnen zeggen, van die hele grote hoeveelheden data die je dan dus een vraag kan stellen als je ChatGPT gebruikt.
Timo: En kan je zo'n model zien als een soort van AI-entiteit? Dat ChatGPT model een uitkomst is van al die samengevoegde data en hoe die is getraind. Noem je dat dan een model?
Fernando: Dat zou je kunnen zeggen.
Timo: En ik denk dan ook wat je dus eigenlijk zegt is van als je naar AI kijkt, wordt er nu best vaak alleen naar die applicatie gekeken. Maar als je echt goed kritisch wilt kijken, zoals; wat is AI en welke impact heeft het op ons? Dan moet je niet alleen naar de applicatie kijken, maar ook naar de infrastructuur daaronder.
Anne: De hele boom door.
Fernando: Juist ook omdat daar echt belangrijke geopolitieke vragen op gaan spelen. Want op ieder van die niveaus van die stack zijn er verschillende spelers die daar dominant zijn en verschillende dynamieken waar je naar moet gaan kijken. Dus daar opent zich eigenlijk de brede relevantie van het onderzoek naar AI en de kritische dimensie daarvan.
[Tune]
Timo: Maar naast deze meer abstracte termen, is het ook heel erg afhankelijk van grondstoffen die uit de grond moeten worden gehaald. Dat is eigenlijk iets heel tastbaars. Ook een systeem zoals ChatGPT leunt daar enorm op en dan wel lager in dat stackmodel. Daarom vraag ik me af wat voor fysieke materialen er nodig zijn om AI te laten werken en wat kost dat ons? Dus kunnen jullie ons vertellen welke grondstoffen nodig zijn voor AI?
Anne: Als je het hebt over die GPU's, die dingen die de rekenkracht bieden om AI te trainen, om AI-modellen te draaien, dat draait onder andere op zeldzame aardmaterialen, die zijn dus zeldzaam in de zin van die worden met name voor 90% op dit moment in China gedelfd. Ook andere materialen komen voort uit Congo waar ontzettend veel kinderarbeid is. Dus het is zowel die locaties van die materialen, maar ook de arbeidsomstandigheden om die materialen te welven en ook wat dat doet voor de omgeving. Je kunt je voorstellen dat zo'n mining industry ontzettend veel doet met een fysieke omgeving.
Timo: Wat dan? Wat doet het met zo'n fysieke omgeving?
Anne: Ik weet niet of je wel eens over de grens hier bij Duitsland bent gereden. Daar zit dat industriegebied waar het lijkt op een soort maanlandschap. En dat is gewoon midden in Europa in het Roergebied. Je kunt je voorstellen dat is ook in China, ook in Rusland, ook in Congo. Gewoon die mining industry, dat levert ontzettende schade aan gemeenschappen en omgevingen op.
Timo: En heeft dat ook invloed op de luchtkwaliteit bijvoorbeeld of op de warmte?
Anne: Een ander aspect waar we het misschien ook nog verder over zullen hebben, is dat andere materialen, behalve dit soort aardmaterialen, water en elektriciteit zijn. En dat wordt ook veel onttrokken aan gebieden waar al heel weinig water en elektriciteit nood is.
Djurre: Kun je dat toelichten? Dat heeft volgens mij toch te maken met het feit dat je dan bijvoorbeeld bedrijven op een bepaalde plek vestigt. Dus bijvoorbeeld hier hebben we niet een tekort aan water, maar in de Global South misschien wel. Zou je dat kunnen toelichten, hoe dat precies zit? Dat onttrekken van water op plekken waar het eigenlijk tekort komt?
Anne: Misschien het meest bekende voorbeeld is nu in Europa, dit gebeurt in de hele wereld, maar het komt ook echt heel dicht bij ons. In Spanje volgens mij in de provincie Tarragón, is het een ontzettende droge provincie en daar zijn big tech bedrijven nu ontzettend veel datacenters aan het bouwen waardoor dat in conflict komt met de lokale behoefte van de bevolking daar.
Djurre: Dan ga je op een hele warme en droge plek iets zetten wat je moet koelen, wat misschien logischer is op een koele plek.
Anne: Ja het zal waarschijnlijk toch met andere of economische omstandigheden te maken hebben. Dan is het gunstig voor hen om zich daar te vestigen, maar tegelijkertijd zijn er dit soort conflicten.
Fernando: Ja, dat is wel goed om te zeggen. Want die datacentra zijn zowel in die koudere gebieden als in die warmere gebieden. En het is nou ook juist belangrijk dat die datacentra steeds dichter bij de gebruiker staan. Omdat dat weer de snelheid bevordert. Wat dan belangrijk is voor het verkopen van die modellen aan bedrijven, aan gebruikers. Dus die nabijheid van datacentra, ook hier in Nederland, dat is iets wat constant, die mogelijkheden worden gezocht.
Djurre: En die enorme rekenkracht die je dan nodig hebt en dus ook koelingsvloeistof, energie. Ik begrijp altijd dat de wetenschap er nog niet helemaal over uit is wat nou een search precies doet. Kunnen jullie daar iets meer over vertellen?
Timo: En bedoel je met een search van ChatGPT bijvoorbeeld?
Djurre: Ja, je kunt natuurlijk ook nog de vergelijking maken tussen Google en Google Ads.
Anne: Dat verschil hebben we voor jullie ook even opgezocht.
Timo: Daar hoopte ik al op.
Anne: Het zijn ook allemaal inschattingen. Dat is denk ik heel belangrijk om dit ten eerste te zeggen. Mensen hebben ook heel veel moeite om dit te berekenen, omdat die big tech-bedrijven een groot deel van deze cijfers als bedrijfsgeheim houden. Dus ze hebben allemaal die prachtige sustainability reports, maar die moeten we ook met een kritisch oog lezen omdat daar ook heel veel informatie niet in zit. Maar op basis van schattingen zegt men nu dat bijvoorbeeld een ChatGPT opdracht 10 tot 30 keer meer elektriciteit verbruikt dan een Google zoekopdracht.
Timo: En wordt dat veel vaker gedaan ook? Weet je dat toevallig? Een zoekopdracht bij ChatGPT dan bij Google inmiddels?
Fernando: Nou dat begint wel toe te nemen. Sterker nog, Google staat momenteel best wel onder druk. Of dat is in ieder geval een verhaal wat nu opkomt dat Google onder druk staat omdat die zoekmachines steeds meer van AI gebruik gaan maken. Dat mensen net zo lief gewoon in ChatGPT invoeren wat ze willen weten en dat antwoord direct krijgen in plaats van dat ze naar Google gaan, een vraag moeten bedenken, het juiste antwoord moeten vinden eigenlijk. Dus dat verandert nu ook. Google is nu ook aan het experimenteren met een directe AI zoek functionaliteit. Dus dat je die pagina's met linkjes niet meer ziet, maar direct een antwoord krijgt. Die ontwikkelingen zijn nu zeker gaande.
Timo: En als we het dan hebben over die ecologische voetafdruk? Kunnen we die dan überhaupt wel maken nu?
Anne: Er worden dus wel schattingen op dit moment gemaakt. Bijvoorbeeld op dit moment in Ierland wordt 20% van het elektriciteitsnetwerk gebruikt door datacentra. 20% is echt gigantisch. Dus je ziet eigenlijk over de hele wereld een hele grote druk daarop. Ze verwachten bijvoorbeeld dat tegen 2027, ik heb het even opgezocht, het hele stroomverbruik van Zweden of Argentinië AI kan zijn. En ook dat de training van een model zoals ChatGPT kost 10.000 badkuipen, hebben ze dan geschat. Elke keer als jij op ChatGPT iets opzoekt, dat je per 10 tot 50 antwoorden een halve liter water opdrinkt, om het zo maar te zeggen.
Timo: En als er dan een half miljard gebruikers zijn, dan kost het ons heel veel water.
Anne: Ja.
Timo: Het kost ons niet alleen maar grondstoffen, maar ook mensenwerk. En daarvoor gaan we luisteren naar een kort telefonisch gesprek met Marissa Memerink. Zij werkt als ontwerper en onderzoeker bij Z-Tub. Een medialab dat de impact van technologie op de samenleving onderzoekt. En zij heeft gekeken naar de onzichtbare arbeid achter AI-systemen. Daarvoor is ze samen met kunstenaars Marijn Mol en Ruben van der Ven gedoken in de wereld van zogeheten ghostworkers of clickworkers wordt het ook wel genoemd, waarbij Marijn en Ruben dit werk zelf ook een poosje hebben gedaan. Dus zij hebben een tijdje dat werk wat die clickworkers doen, die coachworkers ook gedaan. En zij geeft ons een inkijkje in het verborgen mensenwerk. Dus laten we gaan luisteren.
[Tune]
[Start telefoongesprek]
Timo: Hey Marissa.
Marissa: Hey Timo.
Timo: Kan jij ons vertellen over de inzichten die je hebt opgedaan tijdens jullie onderzoeksproject? En dan is de eerste vraag; welke werkzaamheden verrichten clickworkers of ghostworkers voor de productie van AI?
Marissa: Dat zijn de zogeheten data-annotatie-taken, wat inhoudt dat clickworkers de data die nodig is voor het trainen van AI aan het labelen of categoriseren of taggen zijn en daarmee voorzien van de contextuele informatie die die machine learning algoritmen nodig hebben om deze data beter te begrijpen en dus te kunnen verwerken. Zodat de AI-systemen die daarop gebaseerd zijn door ons beter getraind kunnen worden om een wenselijk of juiste output te genereren. Voorbeelden daarvan zijn dat clickworkers videobeelden van verkeerssituaties te zien krijgen waar zij de voetgangers van de fietsers moeten onderscheiden. Of dat ze foto's van politici te zien krijgen en dat ze moeten labelen wie zijn dit en welke emoties zijn hier te zien en dergelijke. En soms ook de tekst wat gegenereerd is door bijvoorbeeld large language models als ChatGPT, dat ze die moeten beoordelen op zit hier hate speech in of is hier racisme in op te merken. Dat soort taken.
Timo: En wat zijn de arbeidsomstandigheden van deze mensen die dat werk doen?
Marissa: Ja, dat is een goede vraag. Die zijn heel onzichtbaar, of daar is weinig zicht op. Vaak is er wel sprake van uitbuiting of onderbetaling en moeten ze hele strikte geheimhoudingsverklaringen tekenen met dan degenen die dat werk aanbieden. En daar zie je wel een machts-asymmetrie. Ze worden vaak ook onverwacht niet uitbetaald voor hun werk. En dan is het heel ontransparant. Waarom niet? Dan zijn ineens de criteria voor het goed uitvoeren van die taak bijvoorbeeld gewijzigd. Dus de arbeidsomstandigheden zijn vaak niet al te best.
Timo: Niet echt rooskleurig. En gebeurt het vooral online? Of zijn er ook fysieke locaties? Of hoe moet ik dat voor me zien?
Marissa: Ja, je kunt je als online clickworker aanmelden op zogeheten clickworkbrokers. Dit zijn bijvoorbeeld platformen die dat clickwork aanbieden zoals bijvoorbeeld Amazon Mechanical Turk of Upwork of clickworker.com en dat kunnen mensen dan doen in het comfort van hun eigen huis of in een internetcafé. Maar er zijn ook bedrijven die zich meer toeleggen op professionele data annotatie die die data dan aanbieden aan grote techbedrijven die AI-systemen ontwikkelen. En dat zijn vaak kantoren waar rijen met computers aanwezig zijn waar mensen de hele dag achter zitten te klikken.
Timo: En in welke regio’s vinden deze werkzaamheden vooral plaats?
Marissa: Ook een goede vraag. Er zijn clickworkers over de hele wereld te vinden. Dus in Nederland, in Amerika, ook in het westen. Maar we zien dat het grootste gros van dit werk toch wordt uitbesteed aan lagelonenlanden omdat daar natuurlijk de lonen zowel lager liggen en ook vaak arbeidsrecht minder goed is geregeld. Dus we zien dat dit soort werk ook vooral in de Global South plaatsvindt in landen als Kenia, Oeganda, India, Nigeria.
Timo: En op welke schaal gebeurt dit? Hoeveel mensen doen dit werk bijvoorbeeld?
Marissa: Omdat het zo onzichtbaar is, is het moeilijk om dit vast te stellen. Maar naar schatting doen tussen de 135 miljoen en 435 miljoen mensen dit type werk. Al dan niet als bijbaan of fulltime. En volgens mij vertaalt dat naar 4,5 tot 12,5 procent van de totale mondiale arbeidskracht.
Timo: Dat is echt immens veel. Want, daar is het werk altijd nodig. Dus op een gegeven moment is het gewoon alle data beoordeeld en is het dan klaar?
Marissa: Ja, dat is de belofte die die AI-ontwikkelaars ons natuurlijk voorschotelen. Maar nee, mensenwerk blijft echt altijd nodig. Zowel vanwege de veranderende context. De wereld staat niet stil. Onze cultuur ook niet. Taal verandert. Dus we zullen altijd die finetuning nodig blijven hebben. Zolang we AI willen, hebben we de mens nodig.
Timo: Super bedankt Marissa voor deze inkijk in de wereld of het mensenwerk achter AI.
Marissa: Graag gedaan.
Timo: Dank je wel. Fijne dag nog.
Marissa: Fijne dag. Succes.
[Einde telefoongesprek]
Timo: Herkennen jullie dit?
Anne: Dit zijn helaas ook bekende praktijken die ook heel veel in de nieuwsmedia verschijnen. Bijvoorbeeld in Nairobi werkten voor een outsourcingbedrijf honderden medewerkers, jongeren eigenlijk net zoals wij, die voor 1 tot 1,5 dollar per uur werden gebruikt om het model van ChatGPT minder toxisch te maken. Dus wat kregen ze? Alleen maar toxische content te zien en te horen, om te taggen en te beoordelen.
Djurre: Toxisch, misschien kun je er een voorbeeld van geven?
Anne: Ja, toxisch, discriminerend, seksistisch, eigenlijk gewoon...
Djurre: Echt gruwelijke dingen toch?
Anne: Hele gruwelijke dingen, ja. Dus dit zijn de mensen die het internet schoon voor ons houden. Dit zijn de onzichtbare werkers die ervoor zorgen dat wij een prettige omgeving te zien krijgen. En dat die modellen dus nu minder dit soort toxische content uitspuwen.
Timo: Djurre, heb jij enige idee waarom dat zo is?
Djurre: Dat we er weinig over horen?
Timo: Ja, nu op dit moment.
Djurre: Nou ja, dat heeft denk ik twee verklaringen. In de eerste plaats de beeldvorming rondom generatieve AI, een beetje het narratief dat de techsector natuurlijk graag pusht. Van generatieve AI of AI als een magic box. De redding van de mensheid bijna. We hoeven niet meer te werken. Het kan banen overnemen. Die technologie is zo ontzettend goed. Dat is één deel van de verklaring. En een tweede deel is denk ik dat het letterlijk buiten ons zicht gebeurt. Dus de inzet van Oeigoerse vluchtelingen in Chinese mijnen om silicium te winnen. Of de inzet van precaire arbeid in de Global South. We zien het niet. En in die zin valt er ook een parallel te trekken, misschien met andere maakprocessen die door globalisering eigenlijk aan de andere kant van de wereld belegd worden. En dat is dus zover dat de consument daar helemaal niet meer mee geconfronteerd wordt.
Timo: Wij in Nederland hebben hier eigenlijk helemaal geen last van.
Djurre: Nee, we hebben de lusten ervan en de lasten, die zien we niet eens.
Timo: Ik concludeer hieruit dat AI geen automatisering maar slechts verplaatsing van arbeid naar de lageloonlanden is. En we hebben nu eigenlijk al naar twee onderdelen gekeken van AI, of in ieder geval naar de bouwstenen van AI. We hebben het gehad over de grondstoffen en over de onzichtbare menselijke arbeid, dan zou ik het nu graag met jullie hebben over het derde onderwerp, namelijk; data. Want ook daar spelen allerlei maatschappelijke vragen. Want even over die data zelf, waar hebben we het dan over? Wat voor data zijn er eigenlijk nodig en op welke hoeveelheden om AI dan te trainen of te voeden? Weten jullie dat?
Fernando: In het algemeen kun je zeggen: hoe meer, hoe beter. En dat heeft ook echt wel te maken met het type AI waar we het hier over hebben. Want AI bestaat al heel lang en er zijn heel veel soorten AI. Maar tegenwoordig waar we het eigenlijk over hebben met generatieve AI, de doorbraak van een aantal jaar geleden, is het eigenlijk het zo groot mogelijk maken van die modellen. En dat betekent zoveel mogelijk data erin stoppen. Er zijn een aantal bronnen die dan voor die training worden gebruikt. We hebben het bijvoorbeeld over de Common Crawl, zogenaamde Common Crawl. Dat is een dataset die publiek beschikbaar is. Die kan iedereen gebruiken om AI-modellen te trainen. Dus die dataset van alles wat op het internet te vinden is. Het is ook over Wikipedia pagina's die daarin zitten. Boeken, datasets van heel veel boeken die daarin in die modellen worden getraind. Ook Reddit. Dit zijn allemaal pagina's waar mensen eigenlijk bezig zijn met tekst, afbeeldingen, muziek en al dit soort verschillende soorten data die uiteindelijk in zo'n model bij elkaar worden gegooid.
Timo: Dus alles wat ik zelf op openbaar op sociale media zet, kan in zo'n data bunk tech komen.
Anne: Dat kan absoluut onderdeel zijn geworden van zo'n model en dat is ook waar dat toxische gedeelte misschien vandaan komt. Dat komt dus misschien ook uit de krochten van het internet om het zo maar even te zeggen. Die modellen reflecteren natuurlijk ook wat wij online allemaal voor sporen achterlaten. Het is allemaal een vorm van culturele data. Het is in principe dat idee van hoe groter, hoe beter, dat leidt ertoe dat die eigenaren van die modellen eigenlijk zonder enige scrupule gewoon het hele website gaan afstruinen voor alle data die ze maar kunnen vangen. Zij proberen alle nieuwste websites te bezoeken en ze hebben dan gewoon maling aan de copyright die daarop zit. Een onderzoeker in Utrecht heeft ook onderzoek gedaan van welke Nederlandse krante in die training datasets zitten. Eigenlijk worden Nederlandse kranten illegaal gebruikt om ook weer content te bieden.
Anne: Dus het is een soort van ‘free for all’ op dit moment. En dat is vrij problematisch.
Timo: En hoe doen ze dat dan? Want ze halen het van internet af wat openbaar staat, maar ook dingen die wel achter hun paywall zitten als kranten. Maar dan scrapen ze dat. En wat is dat dan precies? Of wat moet ik me daarbij voorstellen?
Fernando: Dan gaan ze naar die pagina's toe en die downloaden ze naar een server. En dat gooien ze dus allemaal daar op één grote hoop. Dan vragen ze aan zo'n model, ga maar verbanden zoeken tussen deze woorden op deze pagina's en deze afbeeldingen. En zoek maar relaties. Zoek maar uit waar dit over gaat. Dat is dan het model wat je uiteindelijk voorgeschoteld krijgt. Daar zit natuurlijk wel meer achter. Er wordt nog gezocht naar specifieke instructies om die modellen gerichter te kunnen trainen. Maar in essentie komt het daarop neer.
Timo: Copy paste in een soort cloud.
Fernando: Al die informatie bij elkaar. En daarom wordt er ook al gesproken door critici over een ‘capture of the commons’, want al die informatie is in eerste instantie publiek. Niet per se publiek in de zin dat iedereen daar altijd gratis bij kan, maar dit wordt in kranten gepubliceerd, maar Reddit bijvoorbeeld kun je ook gewoon naartoe met een account. Wikipedia kun je zo naartoe. Dus al die informatie is publiek beschikbaar en die wordt vervolgens in die modellen voor die training gebruikt en vervolgens is dat model niet meer publiek beschikbaar. Dus die informatie die ooit publiek was, wordt steeds minder publiek beschikbaar.
Timo: Eigenlijk wordt publieke informatie steeds meer geprivatiseerd.
Fernando: Ja.
Timo: En jij noemt het eigenlijk ook wel aan, is dat als je het hebt over copyright, dat daar ook haken en ogen aan zitten. En volgens mij weet jij daar wat van ook, Djurre, of niet?
Djurre: Dit is natuurlijk wel een controversieel punt. Het feit dat je allerlei data gebruikt waar ook copyright op zit. Ik denk dat het voorbeeld wat we net ook al bespraken van dat je tegenwoordig op sociale media allemaal plaatjes ziet van in de stijl van Studio Ghibli of The Simpsons of The Muppets of weet ik wat allemaal, dat laat natuurlijk zien dat de makers eigenlijk van die stijlen, die hebben er helemaal geen zeggenschap meer over en die krijgen er ook niet eens een vergoeding voor. Dat is wel problematisch.
Timo: Dat doet me een beetje denken aan nep merkkleding.
Djurre: Ja, inderdaad. En Fernando, jij noemde net de geopolitieke context al. Dat is natuurlijk een hele belangrijke, want OpenAI heeft in de VS gevraagd aan de regering of de regering het even door de vingers wil zien, dat ze wel gebruik kunnen maken van gecopyright materiaal. En het argument dat daar dan bij hoort is; het is natuurlijk belangrijk voor die ratrace internationaal met China. Op het moment dat wij dit kunnen gebruiken, dan kunnen we onze sterke positie ten opzichte van China gebruiken. In de UK was deze week ook ophef. Daar hebben, ik geloof, honderd grote artiesten een brief gestuurd naar Keir Starmer, de premier, om hem te vragen of hij dat alsjeblieft niet wil doen, omdat al hun data, al hun zaken dan worden weggegeven. Dus dat laat een spanning zien tussen enerzijds de geopolitieke belangen van die landen en anderzijds ook het beschermen van makers en hun producten.
Timo: Is er een voorbeeld dat allemaal kranten samen via een vakbond of iets rechtshaagspannen tegen ChatGPT bijvoorbeeld?
Anne: Ja, zeker. Dat is sinds twee jaar gaande. Alle grote bedrijven zoals Washington Post.
Fernando: Ook hier in Nederland.
Anne: Ja, ook hier in Nederland. Maar je ziet ook het omgekeerde gebeuren. Deze bedrijven zoals New York Times of Washington Post hebben nu een paar maanden geleden een licensing deal, dus toestemming gegeven om hun content tegen betaling te gebruiken. Dus ze zoeken een soort van twee strategieën. Aan de ene kant klagen ze aan, wegens copyright schending. Maar ze zitten ook vanuit een soort productieve module na te denken. Als ze toch al onze data gratis hebben, dan gaan we vanaf nu alle nieuwe data tegen betaling aan ze geven.
Timo: Dus dan gaan die rechtszaken alleen maar over die oudere data die ze al hebben gescraped zonder toestemming.
Fernando: Het is nog wel even goed om in te haken op die geopolitieke spanningen. Want twee jaar geleden toen ChatGPT gelanceerd werd, was het verhaal ook heel erg dat AI zou zo goed zijn en zo goed werken dat de mensheid in gevaar is. Als existentieel risico voor de mensheid. Dat verhaal is er nog steeds. Er zijn mensen die daadwerkelijk denken dat AI zich zodanig gaat verder ontwikkelen dat we daar zorgen over moeten maken. Ook een van de oprichters van OpenAI denkt zo. Tegelijkertijd spelen nu hele andere geopolitieke belangen. China tegenover de VS en alle spanningen die daar nu ook global trade en alles wat verder rondom AI speelt op dit moment. Maar je ziet gewoon dat die hele grote belangen, strategische belangen, nu heel erg worden gekoppeld aan de ontwikkeling van AI. Ook militair overigens is dat een heel belangrijke drijfveer van de ontwikkeling van AI en ook de financiering daarvan. Dus je ziet ook dat die financieringsrelaties die ontstaan tussen verschillende bedrijven en die ontwikkeling van die technologie, dat er soort blokken aan het ontstaan zijn. Het Chinese blok, het Europese blok, wat zich ook richt op soevereiniteit en weer een heel andere benadering kiest. Of die succesvol wordt, moeten we gaan zien. Maar in ieder geval kiest het een eigen richting nu. Dat zien we in ieder geval, het begin daarvan zien we nu ontstaan. En natuurlijk de VS, die vooralsnog in ieder geval leidend is in deze race.
Timo: Iedereen is eigenlijk bang om achter te lopen. En als het ook nog wordt gebruikt voor militaire doeleinden, dan is het alleen maar een extra drijfveer om niet achteruit te lopen.
Djurre: Dan geldt natuurlijk het adagium dat ook leidend is geweest in de afgelopen jaren in de ontwikkeling: ‘move fast and break things’. En dan gaan die, ik noemde al publieke waarden, die gaan dan even aan de kant, want die staan in de weg.
Timo: En dan misschien als laatste punt van dit onderdeel. We noemden net natuurlijk al geopolitieke verhoudingen. En die datacenters, spelen daar dan ook nog geopolitieke verhoudingen? Want we hadden het er heel kort al over, maar die worden volgens mij meer geplaatst in Global South dan in Noord-Europa. Of ik zie jou knikken van nee, is dat niet zo?
Anne: Facebook is bijvoorbeeld in Zweden of bij de Arctic Circle vanwege de strategische ligging van de kou. Dus daar staan ook heel veel datacenters van Facebook. Wat Fernando vertelt, is dat het heel belangrijk is om ook in de buurt te zitten. Dus we hebben wel degelijk heel veel van die datacenters nodig hier. Maar daar spelen ook op een soort van lokaal niveau politieke spanningen. Want een bekend voorbeeld is hoe Facebook een datacenter wilde bouwen in Zeewolde. Maar daar kwam een groep lokale activisten, of eigenlijk gewoon bezorgde burgers, om ze te noemen, die kwam in opstand, het ging daar ook over het feit dat Facebook dan groene energie zou gaan gebruiken die daardoor niet meer voor hen beschikbaar was. Dus je ziet ook zo op heel lokaal niveau, ook hier in Nederland, maar ook in Ierland is ook heel veel verzet tegen dit soort datacentrum, dat ze dus al die 20% van het hele energiegrid gebruiken.
Fernando: Tegelijkertijd heb je ook nog de vraag van regulering, want de GDPR bijvoorbeeld die hier een aantal jaar geleden in Europa is ingevoerd, in 2016 is dat gebeurd, heeft er ook toe geleid dat we data in Europa willen of moeten opslaan soms. Dus dat leidt ook toe dat we datacentra nodig hebben in Europa. Dus ook die ontwikkelingen spelen hier een rol.
[Tune]
Timo: Dan hebben we nog een afsluiting van de stelling. We leggen iedere aflevering altijd ons gast een stelling voor. En de stelling van vandaag luidt: het klopt dat AI de wereld veel kost, maar deze technologie is zo innovatief dat het het waard is. Wat vinden jullie ervan?
Fernando: Ik denk vooral dat het heel moeilijk nu op dit moment nog te zeggen is. We zitten echt midden in die ontwikkelingen en ik denk dat er inderdaad heel veel leuke en goede dingen uit voort kunnen komen en nu ook al komen. Tegelijkertijd zijn er die risico's. Maar we kunnen ook door verder te blijven ontwikkelen zien of er andere paden zijn waarmee we AI ook voort kunnen brengen die minder impact op de omgeving hebben, die ook op een andere manier omgaan, misschien wel met de hoeveelheid data die nodig is om die systemen te trainen. Dus er zijn echt wel andere wegen mogelijk, ook open source. We moeten veel meer ook verkennen wat die andere paden ons kunnen bieden op het gebied van AI.
Timo: Dus we kunnen ook AI maken gebaseerd op minder data en op open source. Waarom zou open source een verschil maken?
Fernando: Open source, nou je kunt denken dat je net als zoals Linux, het besturingssysteem, wat veel servers overigens ook draaien. Dat is een ontzettend groot succesverhaal. En dat is niet het enige voorbeeld van een open source systeem wat heel erg succesvol is geweest.
Timo: Wat is er succesvol aan dan?
Fernando: Juist op het moment dat je iedereen kunt betrekken in het ontwikkelen van zo'n technologie kan het dus ook veel weerbaarder worden tegenover ook cybersecurity en dit soort redenen. Maar de ontwikkeling, je democratiseert het eigenlijk. Je geeft het gewoon aan het publiek en je zegt: Ga maar proberen om deze technologie verder te ontwikkelen. En dat staat gewoon haaks op het model wat we nu zien.
Timo: In plaats van dat het bedrijf publieke informatie privatiseert, ga je dan baseren op informatie die publiek is en ook blijft.
Fernando: En maak je het mogelijk om dus te sleutelen aan die technologieën en om ze voor specifieke doeleinden aan te kunnen passen. En verschillende publieke waardesystemen kunnen met die modellen aan de haal. Je kunt daar gewoon mee spelen.
Timo: Mooi en Anne, heb jij hier nog ideeën, over deze stelling?
Anne: Ik denk inderdaad dat het idee van ook kleinere modellen ook heel interessant is. Of context specifieke modellen. We zijn nu heel erg gericht op die grote ChatGPT en de leuke tools waarmee we plaatjes maken. Maar ik denk ook als we kijken naar die kleinere modellen. Ik zou het ontzettend interessant vinden om zelf een model te kunnen trainen. Dat ik gewoon zeg dit is mijn professionele editor die ik nodig heb. In plaats van dat ik gewoon Word spell check aanzet. Gewoon eentje die ik lokaal kan draaien. Daardoor misschien ook minder energie verbruikt en voor mijn eigen doeleinden kan inzetten. Dat vind ik wel interessante ontwikkelingen die er ook binnenkort aankomen. Een tweede aspect aan deze vraag vind ik ook; in Europa wordt hier ook wel echt goed nagedacht over als je bijvoorbeeld in de nieuwe AI-act die nu binnenkort ook van kracht gaat wordt ook nagedacht over het implementeren van; Je moet als ontwikkelaar van een AI-model aangeven wat er nodig is om dat model te trainen, ook qua bijvoorbeeld grondstoffen en dergelijke, om echt beter inzicht te krijgen inderdaad in wat de soort van voorwaarden randvoorwaarden zijn waarmee dat model is gemaakt. Dus dat wordt echt verplicht straks ook voor nieuwe AI-model ontwikkelaars. Dus dat is denk ik ook vanuit Europees reguleringsperspectief een interessante manier om naar de toekomst te kijken.
Timo: Ik vind dat heel interessant, want als je dan kijkt naar consumentenproducten zoals voedingsmiddelen uit de supermarkt, dan zie je ook wel allemaal wat erin zit, zodat je weet van oké dit neem ik tot mij. In principe neem je content van sociale media of van een AI-model ook tot jou. En zou je ook willen weten van oké waarop is het gebaseerd? Want als het inderdaad op hele toxische, racistische content bijvoorbeeld is gebaseerd, dan zou ik dat ook willen weten.
Fernando: Dus wat kunnen we ook leren van die vormen van regulering van bijvoorbeeld gewoon voedsel?
Anne: Dit is al geïmplementeerd door Apple bijvoorbeeld. Die heeft letterlijk een soort van privacy nutrition labels. Dus daarin inderdaad kun je ook zien wat de soort van ingrediënten zijn van een app bijvoorbeeld die je download. Wat voor soort data die je verzamelt. Dus ik denk inderdaad de bijsluiter wordt voor AI wel heel lang denk ik vanwege die enorme stack en complexiteit waarover we gesproken hebben. Maar het zou wel interessant zijn daar beter inzicht te krijgen.
Timo: Dank jullie wel, echt super bedankt voor al jullie input.
[Tune]
Timo: Bedankt voor het luisteren. Dit was de laatste Verrekijkers aflevering van dit seizoen. Maar wees niet getreurd, na de zomer komen wij terug met een nieuw seizoen. Abonneer je op Verrekijkers zodat je het als eerste hoort wanneer er weer een Verrekijkers aflevering voor je online klaar staat. Heb je vragen of opmerkingen? Je kunt ons altijd bereiken via podcast@rathenau.nl
***