Kijken naar de toekomst door kunstmatige ogen
Hoe werkt een algoritme? Ontwerper Richard Vijgen nam de proef op de som en keek door de ogen van artificiële intelligentie naar het Tegenlicht-archief van meer dan 500 afleveringen.
Richard Vijgen - 16 februari 2022
Sinds het begin van de digitale revolutie in de tweede helft van de twintigste eeuw is het proces van het verwerken van informatie gebaseerd op ‘regels’, die door een menselijke programmeur in een computer worden ingevoerd. Zo kan de informatie gefilterd en gerangschikt kan worden. Dit noemen we programmeren of coding. Door de beschikbaarheid van enorme hoeveelheden data in combinatie met een grote toename van rekenkracht kwam tussen 2000 en 2010 een nieuwe methode van dataverwerking in opkomst: het zelflerende neurale netwerk.
Nieuw is het niet. Het idee om een digitale kunstmatige intelligentie te modelleren naar het menselijk brein bestaat al sinds de jaren veertig van de twintigste eeuw en is erop gebaseerd dat niet een programmeur van vlees en bloed alle mogelijke condities en beslissingen vooraf hoeft te programmeren, maar dat de computer zélf kan ontdekken hoe hij tot de gewenste uitkomsten kan komen.
Het succesvol inzetten van deze methode is wel afhankelijk van twee voorwaarden: de computer moet heel vaak kunnen oefenen (en falen) om zelf te kunnen vaststellen wat de beste strategie is, en de computer heeft heel veel verschillende scenario’s (data) nodig om mee te oefenen.
Aan deze twee voorwaarden werd in het eerste decennium van de eenentwintigste eeuw ruimschoots voldaan door de toename van het gebruik van digitale diensten via de smartphone en de exponentiële groei van de hoeveelheid data waarmee door computers geoefend kan worden. Denk bijvoorbeeld aan de miljoenen foto’s op Flickr en Facebook, die gebruikt worden voor het trainen van beeldherkenningsalgoritmes, en de honderden miljoenen teksten op Twitter en Wikipedia, waarmee een vertaalalgoritme als Google Translate getraind wordt om tekst te ‘herkennen’ en te vertalen.
Bovendien bleken de goedkope grafische computerchips die in dezelfde tijd ontwikkeld werden voor de game-industrie, bij uitstek geschikt voor het snel maken en herhalen van de berekeningen die nodig zijn om uit al die data patronen te halen waarmee een neuraal netwerk leert en zichzelf verbetert. De zelflerende methode blijkt succesvol, en de computer slaagt er daardoor steeds vaker in om patronen in tekst, beeld en geluid te herkennen en de wereld te ‘begrijpen’.
Installatie van de toekomst
Het 'Archief van de toekomst' is ook de bron van een interactieve installatie die kunstenaar en ontwerper Richard Vijgen toont in Het Nieuwe Instituut in Rotterdam. Kijk hier voor meer informatie.
De belofte van een denkende, begrijpende of zelfs ‘bewuste’ machine is aantrekkelijk. Sommige wetenschappers en ondernemers spreken de verwachting uit dat neurale netwerken een steeds groter deel van onze wereld zullen gaan begrijpen, omdat ze steeds meer patronen kunnen ontdekken in de data. Zij menen dat dit zal leiden tot een exponentiële groei van kunstmatige intelligentie, zodat die uiteindelijk de intelligentie van de mens ver zal overstijgen. Anderen denken juist dat de grenzen van de techniek in zicht zijn.
Hoe moeten we die voorspellingen duiden? Staan we op het punt overvleugeld te worden door intelligente computers, of kijken we naar een versie van de mechanical Turk, een achttiende-eeuwse truc waarbij in een ‘schaakmachine’ in werkelijkheid een mens verstopt zat die het echte denkwerk deed?
Wat ziet een computer?
De ‘mechanische Turk’ en een neuraal netwerk hebben met elkaar gemeen dat ze op het eerste gezicht moeilijk te doorgronden zijn. Beide zijn een zogenoemde black box: een gesloten geheel waarvan je kunt zien wat erin gaat en wat eruit komt, maar niet wat er binnenin gebeurt. Als een computer een gezicht herkent, wat ‘ziet’ hij dan? Is er dan sprake van ‘begrip’? En kun je de huidige snelle ontwikkelingen van kunstmatige intelligentie wel (exponentieel) extrapoleren naar de toekomst?
De installatie 20 jaar Tegenlicht: De toekomst door kunstmatige ogen gaat op zoek naar het antwoord op die vragen. Aan de hand van het archief van VPRO Tegenlicht, dat bestaat uit 555 afleveringen, laten we een zelflerende computer ‘terugkijken’ naar twintig jaar toekomstvisies gemaakt voor televisie. Wat ‘ziet’ de computer eigenlijk in die berg audiovisuele data na twee decennia van stormachtige ontwikkelingen?
'ImageNet is niet alleen de bron van veel beeldherkenningstoepassingen, maar ook van vooroordelen'
De ‘mechanische Turken’ van ImageNet
Om iets te kunnen zien moet een computer, net als een mens, eerst leren kijken. Hij moet een soort ‘script’ van stappen leren, een algoritme. Om gezichten te kunnen herkennen moet het algoritme bijvoorbeeld duizenden gezichten analyseren om daarin een patroon te herkennen en te bepalen wanneer een verzameling pixels een gezicht vormt.
Om honden en katten te kunnen ‘zien’ moet de computer duizenden afbeeldingen van honden en katten analyseren om ze te leren herkennen en onderscheiden. Om het Tegenlicht-archief te kunnen ‘bekijken’ moest het algoritme dus ook eerst miljoenen afbeeldingen bekijken om vervolgens duizenden verschillende dingen te kunnen herkennen en benoemen. Maar hoe kom je aan die ‘dingen’?
Om te voorzien in de behoefte aan grote hoeveelheden beelden om neurale netwerken mee te trainen heeft de Amerikaanse computerwetenschapper Fei-Fei Li van Stanford University in 2009 ImageNet opgezet. ImageNet is een database met veertien miljoen afbeeldingen verdeeld over twintigduizend categorieën. Afbeeldingen uit de database worden handmatig door mensen gelabeld met behulp van een tool met de toepasselijke naam Amazon Mechanical Turk. Deelnemers wijzen ieder beeld toe aan een categorie van de lijst en krijgen een paar cent voor ieder geclassificeerd beeld. Daarna neemt de computer het over en ‘leert’ zichzelf op basis van de eerder door mensen toegekende classificaties om beelden nog beter te kunnen herkennen.
Sinds 2009 heeft ImageNet zich ontwikkeld tot een toonaangevende dataset voor het trainen van beeldherkenningsalgoritmes, en veel van wat computers vandaag kunnen zien is gebaseerd op de annotaties van de ‘mechanische Turken’ van ImageNet. Dat geldt voor categorieën als ‘appel’ en ‘handgereedschap’, maar ook voor ‘slechterik’ of ‘terrorist’. Daarmee is ImageNet niet alleen de bron van veel beeldherkenningstoepassingen, maar ook van vooroordelen. Want wie bepaalt hoe een ‘slechterik’ eruitziet? De computer heeft dat zichzelf geleerd op basis van wat hem ooit door mensen is aangeleerd.
Kijken door kunstmatige ogen
Om de cruciale rol van de trainingsdata te benadrukken en inzichtelijk te maken is het algoritme dat het VPRO Tegenlicht-archief bekijkt getraind aan de hand van een selectie van ImageNet-classificaties, sommige formeel en voor de hand liggend, andere subjectief en vervreemdend. De computer bekijkt het Tegenlicht-archief dus met de samengestelde blik van de duizenden mensen die de ImageNet-data ooit handmatig hebben geclassificeerd voor een paar cent per beeld.
In de installatie in Het Nieuwe Instituut in Rotterdam wordt die blik zichtbaar gemaakt. Niet door te laten zien hoe een neuraal netwerk werkt, maar door te tonen wat het ziet. Door met het algoritme te spelen krijgt de bezoeker van de installatie een gevoel voor de mogelijkheden, maar ook voor de beperkingen van automatische beeldherkenning. Want wat zie je als je door de ogen van een computer kijkt naar het Tegenlicht-archief?
Als je bijvoorbeeld een algoritme kiest dat getraind is op het herkennen van windmolens, dan worden alle windmolens die het algoritme in beeld herkent op een tijdlijn geplaatst. Het patroon dat ontstaat kan iets zeggen over de opkomst van windenergie (of de aandacht daarvoor) in de afgelopen twintig jaar.
De crux is: het algoritme ziet alleen dat waar het op getraind is; de rest ziet het niet. De ‘herkenning’ van beelden door de computer heeft niet alleen blinde vlekken en vooroordelen, maar is ook zeker niet eenduidig, want beeldherkenning door computers gaat altijd gepaard met een zekerheidsmarge. Het algoritme weet bijvoorbeeld voor 51 procent zeker dat een bepaalde persoon een vrouw is. Door te spelen met de zekerheidsmarge kun je de grenzen van het algoritme aftasten. Waar houdt de classificatie ‘vrouw’ op en begint de classificatie ‘man’? Op deze manier ontstaan steeds andere perspectieven, zowel op het Tegenlicht-archief als op de werking van het beeldherkenningsalgoritme.
Mensen en machines
Waar zal dit toe leiden in de nabije toekomst? Kunstmatige intelligentie – of de denkende machine – staat in een lange traditie van technologisch antropomorfisme, de wens om een machine in ons evenbeeld te scheppen.
Op het eerste gezicht lijkt dat aardig te lukken. Algoritmes kunnen een auto besturen, handelen op de beurs of een tekst vertalen op een manier die bijna niet van mensenwerk te onderscheiden is. Hoe indrukwekkend dit ook is, de vergelijking met menselijke intelligentie is misplaatst. Kunstmatige neurale netwerken zijn geïnspireerd op ons huidige begrip van de werking van het menselijk brein, maar het is belangrijk om ze niet met elkaar te verwarren.
Zoals een zakrekenmachine de mens voorbijstreeft in het vermenigvuldigen van getallen, en zoals de auto ons natuurlijke vermogen om ons snel te verplaatsen met gemak inhaalt, zo kan beeldherkenning door kunstmatige intelligentie op bepaalde, zeer nauw gedefinieerde gebieden efficiënter en nauwkeuriger werken dan de mens. De belofte van kunstmatige intelligentie die de mens op álle denkbare gebieden evenaart of voorbijstreeft getuigt echter ófwel van ijdele overschatting van de technologie, ófwel van een sterk reductionistisch mensbeeld. Of van een combinatie van beide.
Kunstmatige intelligentie kan uitmuntend patronen blootleggen in enorme hoeveelheden data; patronen die geen mens ooit zou zien. Het is een nieuw stuk gereedschap waarmee we informatie op een wereldwijde, industriële schaal kunnen ontginnen. Zonder twijfel zal de grootschalige patroonherkenning door computers de komende twintig jaar leiden tot veel nieuwe kennis en toepassingen.
De uitdaging is om de technologie ook echt te benutten, te duiden en te demystificeren. Dat vraagt om nieuwe beelden, metaforen en ervaringen die ons helpen om ons op een kritische en actieve manier tot technologie te verhouden.