Data analyseren met Excel of Python?

Of je nu een data analist, data engineer of een data scientist bent, het analyseren van data is onderdeel van je werk. Je kunt een analyse doen om het business probleem beter te begrijpen, de data te begrijpen of om de data kwaliteit te controleren. In dit blog gaat Emile Strijbos, Competence Developer Data Analytics, in op zowel de traditionele manier van data analyse als een moderne variant.

Traditionele data analyse

Traditionele data analyses worden doorgaans uitgevoerd volgens onderstaand stappenplan.

  1. Je schrijft een query in SQL en draait deze
  2. Je kopieert de resultaten naar Excel
  3. Je bewerkt de data in Excel
  4. Je maakt een grafiek of draaitabel
  5. Je start de analyse

Deze methode klinkt veel data specialisten bekend in de oren. De meesten zijn immers ervaren met SQL en Excel. Het is een proces wat uit maar liefst uit vijf stappen bestaat. Als je tijdens de analyse in Excel erachter komt dat je filter in de WHERE-clause niet juist is, dan moet je weer van vooraf aan beginnen. En wat als je deze analyse later nog eens wil doen? Sla je dan je Excel-bestand op en sla je de SQL-query in Management Studio op? Of kopieer je de SQL-query en plak je deze in de Excel? Kortom, deze traditionele methode van data-analyse kent zijn nadelen.

Python als alternatief

De laatste jaren zijn er allerlei alternatieven ontstaan voor data analyse. De scriptingtaal Python is een van de populairste alternatieven. Waarom Python zo populair is? Het is een eenvoudige taal om te leren en er zijn ontzettend veel libraries beschikbaar voor datamanipulatie en voor visualisaties. Ook wordt de taal door veel data tooling ondersteund, waaronder Azure Databricks. En er is een brede community.

Wat zijn de voordelen?

Waarom is het een interessante taal voor data analyses? De stappen in de SQL/Excel-methode kunnen met behulp van een Python script met slechts één druk op de knop worden uitgevoerd. Het schrijven van je eerste script kost de nodige inspanning , maar als je daarna een (soortgelijke) analyse vaker wilt uitvoeren, verdien je die tijdsinvestering binnen no-time terug.
Een ander groot voordeel van de Python scripts is dat erg klein is. Het is heel eenvoudig om een specifiek script elke maand te draaien en de grafieken weg te schrijven naar een bepaalde folder. In Excel kost dat meer tijd. Nog een reden om voor Python te kiezen is de kracht en schaalbaarheid. In het begin draai je je script op een subset van de data. Zodra Dit is een bewerking die je met Excel niet kan evenaren.
Daarnaast is Python accuraat en minder fout gevoelig. In Excel is het namelijk moeilijker om foutjes te ontdekken en te herstellen. Dit kunnen we het beste aantonen met een voorbeeld.  Stel je wil de som van twee velden. In Excel is die berekening eenvoudig, maar als je dit voor een lange lijst doet, dan is het onmogelijk om te controleren of iedere som goed berekend is. Door de handmatige bewerkingen of doordat je per ongeluk een verkeerde range meegeeft aan je formule kan de som nog altijd goed ogen, terwijl deze niet juist is. Zou je hetzelfde met Python doen, dan heb je simpelweg de garantie dat de som altijd goed berekend wordt. Het laatste voordeel dat we willen benoemen heeft betrekking op de samenwerking met collega’s. Doordat de gehele analyse in één script zit, is het eenvoudiger om de code te delen en gebruik te maken van versiebeheer.

Wat zijn de nadelen?

Zijn er ook nadelen als je Python vergelijkt met de SQL/Excel aanpak? Ja, die zijn er ook. Het opzetten van je Python ontwikkelomgeving kan een uitdaging zijn. Heb je geen ervaring met programmeren, dan zal het in het begin lastig zijn om op gang te komen. Excel heeft een grafische user interface, waarbinnen je je muis kunt gebruiken. Dat werkt intuïtiever dan de ontwikkelomgeving van Python waar je op het lezen en schrijven van code bent aangewezen.

Notebooks

Kies je voor een data analyse met Python, dan zijn er twee manieren van werken. Je schrijft je code in een IDE zoals Visual Studio Code of PyCharm. Of je maakt gebruik van notebooks. Notebooks zijn Python-documenten die zijn opgeknipt in verschillende blokken (cellen). Deze blokken kunnen afzonderlijk in de browser gerund kunnen. Ze zijn uitermate geschikt om de data te verkennen en visualiseren. Maar minder geschikt om code te schrijven die in productie komt te draaien. Een voordeel van het werken met notebooks is dat je verschillende talen met elkaar kunt combineren. In de eerste cel kan je de data ophalen via SQL en in je tweede cel die data via Python verkennen. Toch zijn er ook een aantal nadelen. Want het gebruik van klassen en functies is lastiger, het beschikbare geheugen is beperkter en ook debuggen en intellicense zijn slechts in beperkte mate beschikbaar.

Libraries

Enthousiast geraakt over data analyse via Python? De volgende libraries zijn erg geschikt om je verder op weg te helpen:

  • Numpy (manipulatie)
  • Pandas (manipulatie)
  • Matplotlib (visualisatie)
  • Seaborn (visualisatie)

Als proven IT expert, beschikken wij over de nodige Python-expertise. Sommige developers gebruiken de scriptingtaal al jaren, maar ook de data engineers zetten deze taal steeds vaker in. Heeft dit blog jouw interesse gewekt en wil jij je als data specialist verder ontwikkelen in bijvoorbeeld de scriptingtaal Python? Neem dan contact met ons op!

Gerelateerde berichten

Selecteer je weergave.