Bezoekverslag Big Data Expo 2023

Emile Strijbos

Expertise

29 september 2023

Jaarlijks vindt in de Jaarbeurshallen in Utrecht een tweedaagse expo plaats, waar de gelegenheid wordt geboden om kennis te vergaren op het gebied van data-analyse en informatietechnologie. Hoewel de term “big data” wellicht minder prominent aanwezig is dan voorheen, blijft de bekendheid ervan aanzienlijk. De onderwerpen die tegenwoordig aan bod komen, strekken zich uit van data-pipelines, kunstmatige intelligentie, integratie, slimme datatoepassingen tot aan dashboardontwikkeling. Dit biedt meer dan voldoende redenen voor Pancompany om deel te nemen aan deze expo.

Emile Strijbos, Competence Developer bij Pancompany, heeft deze boeiende expo bezocht en de hoogtepunten ervan deelt hij graag in deze blogpost.

De Potentie van Generative AI

Mijn eerste bijgewoonde sessie betrof een presentatie door IBM, die de kracht van generative AI (GenAI) in combinatie met Large Language Models (LMM) belichtte. Met name ChatGPT heeft recentelijk gedemonstreerd dat met de juiste vraagstelling vrijwel perfecte antwoorden gegenereerd kunnen worden op bijna alle vragen.

LMM-modellen zijn in staat om enorme hoeveelheden tekst te verwerken en hier betekenis aan te geven. Een uitdaging bij Large Language Models is echter dat het trainen ervan veel tijd vergt. Met conventionele AI moet eerst een omvangrijke trainingsset worden gecreëerd, waarbij datapunten gelabeld moeten worden. IBM legde uit dat met generative AI een trainingsset gegenereerd kan worden zonder de noodzaak van data labels, wat aanzienlijk minder tijd vereist om LMM in combinatie met generative AI te implementeren.

Ann-Elise Delbecq van IBM benadrukte hoezeer deze toepassingen grote organisaties kunnen beïnvloeden. De inzetbaarheid strekt zich uit tot Customer Service (klantenservice), softwareontwikkeling (bijvoorbeeld het vertalen van COBOL-code naar Java-code vanwege het tekort aan COBOL-programmeurs), en HR-processen. Ze illustreerde dit met een treffend voorbeeld binnen een HR-afdeling.

Traditioneel gezien wordt nieuw talent aangetrokken via de volgende stappen:

Een HR-medewerker schrijft een vacaturetekst (30 minuten).
De vacature moet worden gedeeld op LinkedIn en andere platforms (15 minuten).
Vervolgens moeten er interviews worden ingepland met de kandidaten die reageren (60 minuten).

Als dit volledige proces door generative AI kan worden uitgevoerd, levert dit bijna 2 uur tijdsbesparing per vacature op. Wanneer dit wordt toegepast op meerdere HR-medewerkers en vacatures per jaar, kunnen er honderden uren per jaar worden bespaard.

We kennen allemaal chatGPT maar deze presentatie liet zien dat sommige organisaties al een paar stappen verder zijn. Met treffende voorbeelden lieten ze zien hoe groot de impact op ons werk gaat worden. Dit maakte nogmaals duidelijk dat generative AI nog maar in de kinderschoenen staat.

Voorspellen is voorkomen

ProRail, eigenaar van het spoorwegnet, houdt het spoor dagelijks nauwlettend in de gaten, en big data speelt hier een steeds grotere rol in. Thymo van den Brug, manager Vernieuwing bij Asset Management ProRail, legt uit: “Goede data biedt inzicht in de levensduur van het spoor en helpt ons bij het maken van keuzes, bijvoorbeeld waar en wanneer we dwarsliggers, spoorstaven en wissels moeten vernieuwen of repareren.” Enkele van de activa die ze beheren omvatten 11.000 seinen, 7.000 kilometer spoor, 2.000 overwegen en 6.000 wissels.

Hoe meten ze de conditie van het spoor en andere activa? Dit wordt gedaan door onder andere een treinstel over het spoor te laten rijden dat foto’s maakt van de activa. Ook worden foto’s van drones en helikopters gebruikt om de conditie in kaart te brengen. Deze gegevens worden gebruikt om een Machine Learning-model te voeden. De kenmerken die in het model worden opgenomen, omvatten onder andere het type staal, het aantal passerende treinen, bochten en rechte stukken, enzovoort. Hiermee kunnen ze de conditie van het spoor tot wel 50 jaar vooruit plannen.

Thymo vertelde ook dat op den duur de lichtseinen langs het spoor zullen verdwijnen. De machinisten zullen steeds meer computer gestuurde systemen gebruiken, waardoor treinen veel dichter op elkaar kunnen rijden.

Ten slotte gaf hij aan dat ProRail niet van plan is om AI te gebruiken bij het nemen van beslissingen. Ze willen te allen tijde kunnen verklaren waarom bepaalde keuzes worden gemaakt. Als ze de vervanging van activa zouden laten bepalen door kunstmatige intelligentie, zouden de gevolgen van een ongeluk catastrofaal kunnen zijn.

In dit besluit kan ik me goed vinden. De toegevoegde waarde van kunstmatige intelligentie is alom bekend maar de keerzijde ervan krijgt minder aandacht. De technologie brengt risico’s met zich mee die van invloed zijn op onze samenleving en ons dagelijks leven. Denk aan werkloosheid, privacy schending maar ook aan verkeersongelukken.

Gaat data helpen om Formule E bekender te maken?

Tijdens de Big Data Expo vond ook een sessie plaats, gepresenteerd door Oracle in samenwerking met Red Bull Racing. Deze sessie richtte zich op de wijze waarop AI/ML bijdraagt aan de successen van het team. Vanwege de immense populariteit van Verstappen, was er helaas geen beschikbare plek voor mij bij deze sessie. Desalniettemin kreeg ik de gelegenheid om de presentatie van de Business Intelligence Directeur van Formule E bij te wonen.

Formule E, opgericht in 2014, streeft ernaar een serieus alternatief te bieden voor de Formule 1, die nog steeds gebruikmaakt van verbrandingsmotoren. Zowel in de Formule 1 als in Formule E wordt uitgebreid gebruik gemaakt van trackdata, oftewel gegevens die op de baan worden gegenereerd door sensoren op de baan en in de auto’s. Tot nu toe is er echter relatief weinig gedaan met gegevens buiten de baan.

Formule E erkent het belang van het gebruik van fandata om de sport te laten groeien. Ze willen zich richten op de consument, wat een verschuiving inhoudt van B2B naar B2C. Het doel is om de fanbeleving te vergroten, zodat fans vaker races bijwonen en potentiële fans worden omgezet in betrokken fans (aangezien naar verluidt de helft van de motorsportfans de sport nog niet kent). Een grotere fanbase heeft ook positieve gevolgen voor sponsors en daarmee voor de sport in het algemeen.

Hoe pakken ze dit aan?

Op het circuit meten ze de bewegingen en verplaatsingen van bezoekers. Elke bezoeker met ingeschakelde WiFi op zijn/haar telefoon kan worden gevolgd via mesh (waarbij geen persoonlijke gegevens van de bezoeker worden verzameld en het volledig voldoet aan de GDPR-richtlijnen). Hierdoor kon Formule E vaststellen dat ze de locatie van de fanzone moesten verplaatsen over een afstand van 1 kilometer, wat resulteerde in een grotere betrokkenheid van de fans.

Een andere methode omvat het meten van de mate van opwinding van kijkers die thuis op de bank zitten. Een groep kijkers kreeg een klein apparaatje op hun vinger dat niet alleen de hartslag meet, maar ook de kleinste tekenen van opwinding kan registreren. Met behulp van deze gegevens hebben ze geleerd wanneer een kijker op het puntje van zijn stoel zit en wanneer de interesse afneemt. Dit heeft hen bijvoorbeeld geleerd dat het niet boeiend is om de dashboardcamera van de coureur op de eerste plaats te tonen, omdat er niets interessants te zien is.

Ondanks de voorkeur voor de Oracle presentatie was dit verhaal voor mij een eye-opener. Sowieso was het interessant om meer te leren over Formule E, maar het was ook leerzaam om te zien hoe slim gebruik maken van data, de sport groter kan maken. Maar.. misschien toch maar de WiFi uit bij een bezoek aan een Formule E circuit?

Iceberg ahead?

Het is van essentieel belang om op de hoogte te blijven van de nieuwste technologieën en tools, vooral in de snel veranderende wereld van data. Tijdens de Big Data Expo kwam herhaaldelijk de term “Iceberg” naar voren, die voor mij nog onbekend was. We hebben de details onderzocht.

In een notendop is Iceberg een open-source opslagformaat voor data lakes en big data workloads. Het is het meest moderne opslagformaat, geïnitieerd door Netflix en ontwikkeld door Apache, en het is compatibel met populaire big data-tools zoals Apache Spark, Parquet en Avro. Waar het eerder verschenen Delta Lake ACID-transacties en schema-evolutie mogelijk maakte in een data lake, gaat Iceberg nog een stap verder, wat in veel use-cases aanzienlijke efficiëntie oplevert.

Benieuwd naar wat Emile nog meer heeft geleerd tijdens de Big Data Expo? Of wilt u weten hoe uw organisatie kan profiteren van deze ontwikkelingen? Aarzel niet om contact met ons op te nemen.