Data Saturday

5 oktober 2024

Kinepolis Utrecht

Data Saturday

Geschreven door Emile Strijbos, Consultant & Competence Developer Data Analytics bij Pancompany.

De data- en analysewereld evolueert in hoog tempo, met bijna dagelijks nieuwe tools en technologieën. Als data-professional blijf ik graag op de hoogte van de laatste trends en ontwikkelingen. Daarom besloot ik op 5 oktober Data Saturday te bezoeken, een evenement dat eerder bekend stond als SQL Saturday. Het vond plaats in de Kinepolis bioscoop in Utrecht. De dag ervoor was er ook een evenement, Fabric Friday, dat zich volledig richtte op Microsoft Fabric.

Hoewel Data Saturday breder gericht was op het Microsoft-data platform, viel het op dat veel sessies op zaterdag ook over Fabric gingen. Dit benadrukt de belangrijke positie die Fabric heeft ingenomen binnen het data-aanbod van Microsoft. Naast Fabric werden ook SQL Server, Power BI en Databricks uitgebreid besproken. Om half negen nam ik plaats in een van de comfortabele bioscoopstoelen, klaar om de dag te beginnen. Hieronder bespreek ik een aantal sessies die mij het meest inspireerden.

Empowering your data platform with AI

Laura de Bruin, Data Platform Architect, gaf ons een verhelderend overzicht van de rol van AI binnen Business Intelligence. Ze verdeelde de toepassingen van AI in drie hoofdgebieden: Digital Assistants, Self Service, en AI Services. Elk van deze categorieën werd duidelijk toegelicht.

  • Digital Assistants: Dit zijn AI-gestuurde tools zoals chatbots en virtuele assistenten die taken automatisch kunnen uitvoeren en gebruikers ondersteunen in hun dagelijkse werkzaamheden. Denk aan functies zoals codegeneratie, codeaanvulling, codetransformatie, uitleg van code en foutoplossing. Tools die dit al ondersteunen zijn onder andere GitHub Copilot, Databricks Assistant en Fabric Copilot.
  • Self Service: Met AI-gebaseerde selfservice tools kunnen gebruikers zelfstandig analyses en rapporten genereren, zonder diepgaande technische kennis. Dit versnelt besluitvormingsprocessen en vermindert de afhankelijkheid van data-specialisten. Een voorbeeld hiervan is het stellen van vragen aan de data in natuurlijke taal.
  • AI Services: Dit omvat geavanceerde AI-tools zoals machine learning-modellen en voorspellende analyses. Deze diensten helpen bij het identificeren van trends, het voorspellen van uitkomsten, en het automatiseren van complexe beslissingsprocessen. Ze zijn steeds meer geïntegreerd in platforms zoals Azure AI Services, Azure OpenAI en Databricks Machine Learning.

Laura presenteerde deze AI-toepassingen in een diagram waarin ze de tools koppelde aan verschillende gebruikersgroepen. Zo werd duidelijk dat tools zoals Copilot zowel door data scientists als door de business gebruikt kunnen worden, terwijl toepassingen zoals Azure OpenAI en Databricks Machine Learning vooral voor data scientists en data engineers geschikt zijn. Deze sessie gaf me waardevolle inzichten als data engineer met een groeiende interesse in AI.

PowerBI project files

Nicky van Vroenhoven en Daan Humblé presenteerden een inspirerende sessie over de nieuwe mogelijkheden van Power BI Project Files. Dit was een sessie waar ik al lange tijd naar uitkeek. Als Power BI-ontwikkelaar ben ik bekend met de uitdagingen van het opslaan van .pbix-bestanden in Git; het is mogelijk, maar inhoudelijke codewijzigingen zijn niet inzichtelijk. Power BI Project Files biedt een oplossing voor dit probleem.

  • PBIP: De nieuwe extensie. pbip vervangt het vertrouwde .pbix-bestand. Dit nieuwe formaat bundelt datasets, rapporten en modellen in één bestand, wat zorgt voor een betere organisatie en versiebeheer tijdens de ontwikkeling.
  • TMDL: TMDL (Tabular Model Definition Language) vervangt de model.bim-bestanden in Power BI en Analysis Services. Het TMDL-formaat is leesbaar en kan eenvoudig worden aangepast, wat het beheer van datamodellen vergemakkelijkt.
  • PBIR: Dit nieuwe formaat bevat gedetailleerde metadata over rapporten, waarbij elke pagina, visual, bladwijzer enzovoort, in afzonderlijke bestanden binnen een mapstructuur worden ingedeeld. Dit maakt het beheer van rapporten in grote organisaties eenvoudiger.

Deze nieuwe features zijn nog in public preview, maar ik ben enthousiast om de Power BI Project Files toe te passen. Hoewel ik de voordelen van TMDL zie, ben ik nog niet overtuigd om ook PBIR direct te gebruiken.  Zowel  de sprekers als mensen uit de zaal geven aan dat deze feature nog te veel kinderziektes heeft om al te gaan gebruiken.

Het belang van goede testdata

Een van de belangrijkste onderwerpen die tijdens Data Saturday naar voren kwam, was het belang van goede testdata, vooral in relatie tot privacy. Enrico van de Laar, Data Privacy Engineer bij Privinity, benadrukte dat voldoen aan de AVG niet alleen zorgt voor compliance, maar ook bijdraagt aan een positief imago, meer vertrouwen en zelfs een hogere omzet (bron: onderzoek van Capgemini).

Een herkenbaar punt voor mij was de trade-off tussen het anonimiseren van productiedata en de bruikbaarheid van deze data in testomgevingen. Volledig geanonimiseerde data voldoet weliswaar aan alle privacy-eisen, maar wordt vaak onbruikbaar voor testdoeleinden, omdat de realiteit van de dataset verloren gaat. Hierdoor geven analyses en tests geen goed beeld meer van de werkelijkheid.

Conclusie

Het bijwonen van Data Saturday heeft mij een uitgebreid overzicht gegeven van de laatste ontwikkelingen binnen het moderne data platform. Ik verliet het evenement met nieuwe vaardigheden, inzichten en een beter begrip van de nieuwste trends en technologieën. Een waardevolle dag voor iedere data-professional.

 

 

Selecteer je weergave.