data delven

richtje reinsma ,

In ‘Big Data: de Shell search’ test Tegenlicht de mogelijkheden van een webtool om de internationale verstrengeling van politiek en zakenwereld te ontwarren.
Door big data als bron te gebruiken kun je als onderzoeksjournalist verhalen brengen die anders ondenkbaar zouden zijn.

Tegenlicht: Big Data: de Shell search
Maandag, nederland 2, 21.00-22.00 uur

Elke dag laten we grote hoeveelheden digitale sporen na. Waar we zijn, wat we kopen, wie we kennen. In gortdroge code notuleren onze smart phones en computers al onze gangen en sluizen de data door naar het onverzadigbare internet. Bedrijven en inlichtingendiensten grasduinen graag in onze digitale schilfers en kruimels, en kennen ons inmiddels vaak beter dan we onszelf kennen. Althans, ze kunnen ons gedrag soms beter voorspellen. Maar ook zij laten sporen na.

Voor de documentaire Big Data: de Shell search onderzocht Tegenlicht de waarde en betekenis van big data voor de journalistiek, met als tool of digitaal gereedschap de Powermap: een uitvinding van eigen makelij, ontworpen in samenwerking met documentaire-animator Rogier Klomp. De tool is nog niet zo gestroomlijnd dat hij zelfstandig online kan functioneren. Wel is de Powermap klaar voor proefnemingen.

Doel van de Powermap is om ondoorzichtige machtsnetwerken in kaart te brengen: betekenisvolle verbanden tussen personen, gebeurtenissen, tijdstippen en locaties. Zo kan indirect achterhaald worden wat, waar, hoe en met wie de machtigen der aarde ondernemen. De hoop is dat de Powermap op een dag in één handomdraai de relaties tussen specifieke politici en zakenlieden kan blootleggen, en in overzichtelijke infographics presenteren. Dat zou nuttig zijn, want zij zijn doorgaans weinig openhartig, of worden buiten schot gehouden door kordons angstvallige voorlichters.

schatkist

De kiem voor de Powermap werd al in 2012 gelegd, tijdens de twaalfde editie van de jaarlijkse transmediale masterclass Sandberg@Mediafonds. Tegenlicht-regisseur Shuchen Tan en Rogier Klomp werden aan elkaar gekoppeld en kregen de opdracht een nieuwe tool te ontwikkelen om de mogelijkheden van onderzoeksjournalistiek in het tijdperk van WikiLeaks, crowdsourcing, sociale media en big data te verkennen.

Wat zijn big data eigenlijk? Het begrip is vooralsnog niet vastgelegd in een definitie, maar het moge duidelijk zijn dat de aanduiding ‘big’ geen overstatement is. Bij het oppotten van big data wordt niet op een terabytje of petabytje meer of minder gekeken. Het gaat om datasets of verzamelingen data die zo omvangrijk zijn, dat er tientallen, honderden of duizenden servers nodig zijn om hun inhoud op te slaan en te verwerken. Voorbeeld van zo’n producent van big data is bijvoorbeeld de Large Hadron Collider, een ondergrondse deeltjesversneller in de buurt van Genève. Maar ook de Amerikaanse supermarktketen Walmart beheert een collectie klantgegevens die de ongedefinieerde grens van big data ruimschoots gepasseerd is.

De enorme toename van de voorraad openbaar toegankelijke informatie op het internet lijkt een beloftevolle goudmijn voor elke journalist, maar tijdens de masterclass werd Klomp en Tan duidelijk dat datamining, de ontginning van big data, niet meevalt. ‘Dat iets beschikbaar is, wil nog niet zeggen dat je het ook kunt vinden,’ schreef Rogier Klomp in een verslag van de masterclass. Dat verklaart ook waarom de verwachte uitbarsting van onthullende journalistieke verhalen na de lancering van WikiLeaks in 2010 uitbleef. Journalisten en redacties blijken nog niet opgewassen tegen de omvang van big data.

datamoerassen

Om dat journalistieke probleem bij de kop te nemen, begonnen Klomp en Tan te sleutelen aan de Powermap. In eerste instantie is hun tool bedoeld voor datajournalisten, maar in de toekomst zal hij mogelijk ook beschikbaar worden gesteld aan andere belangstellenden. Voor het openen van datasets is immers geen perskaart nodig. Iedereen die zin en moed heeft, kan zich in de onafzienbare datamoerassen begeven. Een van de kansen voor vernieuwende journalistiek op het internet is dan ook gelegen in crowdsourcing, waarbij mensen samen de benodigde data bij elkaar zoeken om een betekenisvol beeld te mozaïeken uit de databrij op het web.

Het team van Klomp en Tan werd versterkt door Tegenlicht-researcher William de Bruijn. Big Data: de Shell search is zowel de testcase van de Powermap als een documentaire over datajournalistiek in het algemeen. Als vertrekpunt voor de test kozen Klomp, Tan en De Bruijn een kort internetnieuwsbericht uit 2012, waarin werd gemeld dat oliemaatschappij Shell een schuld zou hebben van ruim een miljard dollar bij het Iraanse regime. Wat zou de Powermap met betrekking tot dit gegeven aan interessante informatie kunnen vinden in het digitale kielzog van Shell?

Om het af te leren pleegde Shuchen Tan om te beginnen een telefoontje volgens de journalistiek-oude stijl, en belde de persafdeling van Shell om opheldering te vragen. ‘Nee, dit is politiek te gevoelig, wij gaan daar voor de camera niks over zeggen. Dat is echt uitgesloten,’ aldus de persvoorlichter.

Vroeger, toen de wereld nog analoog was, bleef je in zo’n geval als journalist tandenknarsend achter met je lege notitieblokje. Geen verhaal. Maar voor de datajournalist is zo’n ritueel formulegesprek met een woordvoerder slechts een obligate formaliteit, een opmaat voor het echte werk: datamining en datafishing. De kunst van het opdelven, zeven, combineren en aldus cultiveren van betekenisvolle data uit massieve datasets.

Hoe had Shell deze forse uitstaande rekening opgebouwd bij de Iraanse regering? Wat dreef Shell precies voor handel in een land dat door de Verenigde Staten wordt bestempeld als schurkenstaat, en dat al jaren wordt getroffen door een steeds strakkere handelsboycot?

size matters

Bij het kijken naar Big Data: de Shell search word je deelgenoot gemaakt van het journalistieke proces anno 2013, waarbij datasets minstens zulke belangrijke bronnen vormen als mensen, en samenwerking met diverse experts en collega’s noodzakelijk is. Om de data ‘aan de praat’ te krijgen, schakelden Tan, Klomp en De Bruijn allerlei hulptroepen in, van computerprogrammeur Hay Kranen tot ship tracking-expert John van Schaik. De Shell search wordt gecombineerd met interviews van Tan met buitenlandse journalisten, waarin ze hen vraagt naar hun ervaringen en verwachtingen omtrent datajournalistiek.

Ze spreekt ook Kenneth Cukier, datajournalist bij het blad The Economist. Samen met Viktor Mayer-Schönberger, hoogleraar aan het Oxford Internet Institute, schreef hij het boek De big data revolutie. Hoe de data-explosie al onze vragen gaat beantwoorden (Big Data: a revolution that will transform how we live, work, and think, 2013). Daarin doet Cukier uit de doeken hoe de digitale documentatie van enorme hoeveelheden gebeurtenissen en handelingen die voorheen letterlijk ontelbaar waren, ons perspectief op onszelf en de manier waarop we de maatschappij inrichten compleet zullen veranderen. In een luttele twee jaar hebben wij meer informatie vastgelegd dan al onze voorouders bij elkaar in de afgelopen 2000 jaar.

Cukier legt in zijn boek uit dat deze onvoorstelbare massa data dankzij voortdurende technologische ontwikkelingen almaar grootschaliger, verfijnder en efficiënter kan worden vergaard, opgeslagen en geanalyseerd. Louter door de groei van de omvang van bepaalde pakketten data verandert hun waarde en betekenis. Size matters. Hoe meer er valt te vergelijken, hoe zekerder de verbanden worden die je kunt leggen, en op basis daarvan worden voorspellingen steeds preciezer en betrouwbaarder. Bovendien neemt niet alleen de datatechnologie een steeds grotere vlucht, ook ons begrip van de gebruiksmogelijkheden groeit.

big data: what it is and why it matters

harde feiten

Als onderzoeksjournalist kun je door big data als bron te gebruiken verhalen brengen die anders ondenkbaar zouden zijn. Cukier: ‘Je kunt bedrijven ondervragen zonder dat ze het weten. Je kijkt over hun schouder mee en ontdekt dingen over ze zonder dat zij het beseffen. Laten we maar eens interviews gaan houden met databases in plaats van met personen.’

Zijn data betrouwbaarder dan woordvoerders? Data lijken niet anders dan objectief te kunnen zijn: schone, harde feiten zonder vertekening, vrij van al dan niet opzettelijke manipulatie. Maar ook in data kunnen fouten sluipen. Bovendien zit er geen enkele narratieve lijn in: het zijn grondstoffen, cijfers zonder kop of staart. Zonder controle, interpretatie en stilering is er geen boeiend, bonafide verhaal. Daar blijft het ouderwetse journalistieke ambacht voor nodig. Ook zijn data weinig fotogeniek.
 
Kortom, de medewerking van animator Rogier Klomp was cruciaal. Voor de Tegenlicht-uitzending schiep hij een schemerige wereld vol zwevende, doorschijnende schermen waarop data en archiefwaren verschijnen: lijsten, teksten, videobeelden, foto’s, internetpagina’s. Zijn geanimeerde, ontkleurde interieurs houden het midden tussen kathedralen en kantoren. Tussen de strak in het gelid zwevende vensters door bewegen de donkere contouren van mensen, die je peinzend en zoekend door het grid van data ziet bewegen. De beelden maken het speurwerk tastbaar. Klomp verleent de documentaire de sfeer van een abstracte whodunnit.

glimp

Grappig genoeg krijg je desondanks nauwelijks zicht op wie nou precies wat heeft gedaan. Hoewel je steeds dieper doordringt in de wirwar van verstrengelde belangen van politiek en bedrijfsleven, komt er geen overzichtelijk schandaal tevoorschijn. Je komt er niet achter of de Iraanse schuld van Shell voortkomt uit een handige legale omzeiling van het handelsembargo, of uit een ingewikkelde overtreding ervan, of uit een stommiteit. Het vernieuwende en gedurfde van deze datajournalistieke documentaire is dat de focus ligt op de werking en structuur van netwerken, systemen en strategieën, in plaats van op een anekdotisch incident.

Is dit nu de nieuwe journalistiek, zonder beschuldigingen of ontknopingen, met bad guys waarvan niet valt uit te sluiten dat ze misschien wel onschuldig zijn? Ja, en het blijkt de moeite waard. Wat je te zien krijgt, biedt namelijk wel een opwindende glimp van wat zich achter de schermen tussen politici en multinationals afspeelt, aan de hand van een onbekend energiedrama in de Perzische Golf dat nog in volle gang is. Je leunt na afloop niet achterover om een afgerond verhaal te gaan verteren. Je kruipt eerder even achter de computer om zelf nog wat door te zoeken. Al ben je voorlopig thuis nog aangewezen op small data.

big data doorzoeken met google books