Bezoekverslag Big Databasetechnologie

Events

Op donderdag 23 mei hebben onze collega’s Göran en Kevin een seminar bijgewoond over Big Database technologie met ondertitel “Van Hadoop tot NoSQL en van Analytical SQL tot Translytical Databases”. Ze zijn door Rick van der Lans in een dag bijgepraat over de nieuwste technologieën op het gebied van Big Data en Analytics. De werelden van Hadoop en Spark werden uitgebreid behandeld en ook toepassingen zoals NoSQL, Graph en Streaming database servers kwamen aan bod.

Ochtend

De ochtend stond in het teken van enkele algemene vraagstukken. Wat is Big Data, wanneer spreken we van Big Data (Volume, Velocity, Variety en Veracity) en waar zien we het allemaal (in het dagelijkse leven) in terug komen. Vervolgens werd er door Rick van der Lans stilgestaan bij de uitdagingen die je op de database platformen tegenkomt wanneer je te maken hebt met Big Data.

Technieken als partitionering, het parallel processen van data, concurrency control en schaalbaarheid werden aan de hand van voorbeelden duidelijk gemaakt. Net voor de lunch werd er een start gemaakt om ons kennis te laten maken met de ‘wereld van Hadoop’.

Middag

De middag stond voor een groot deel in het teken van Hadoop en het complete ’ecosysteem‘ van dit open-source raamwerk werd toegelicht. Hieruit bleek hoe uitgebreid het is en hoe belangrijk het fundament is in de vorm van Hadoop Distributed File System (HDFS) voor de opslag van data. HDFS biedt namelijk de mogelijkheid om petabytes aan data gespreid over een groot aantal machines op te slaan.

Hierna werd gekeken naar MapReduce en de nieuwe alternatieven zoals Apache Spark voor het gedistribueerd bewerken en analyseren van data. Spark biedt de mogelijkheid voor applicaties om in geheugen data te analyseren en bestaat uit verschillende modules zoals Spark SQL, Spark Streaming, GraphX en MLib voor machine learning.

Gedurende de middag werd verder uitgelegd hoe SQL on Hadoop (de behoefte om SQL te kunnen gebruiken binnen Hadoop bleek toch te groot te zijn) werkt en met welke open-source systemen er in principe direct een start gemaakt kon worden. Zeer nuttige informatie om thuis wat mee te experimenten.

Er werd verder ook gekeken naar NoSQL Database Servers en de verschillende categorieën die hieronder vallen zoal key-value stores, document stores, column-family stores en multi-model stores.

Met het behandelen van Graph, Analytical en Streaming databases werden de technieken omtrent Big Database technologieën afgerond. Als afsluiting werd er ook gekeken naar een aantal NewSQL database servers en werd er ingegaan hoe de interne architectuur verschilt van de klassieke database servers om hedendaagse schaalbaarheid problemen op te lossen.

Kortom…

We kijken terug op een leerzame dag waar er nieuwe inzichten zijn opgedaan en waar het complexe landschap van de vele Big Database technologieën overzichtelijk gepresenteerd is. Mede door het gebruik van praktijkvoorbeelden kon regelmatig de link worden gelegd naar de opdracht waar momenteel in gewerkt wordt, iets wat de gegeven theorie dus direct waardevol maakt en waardoor het in aantal gevallen direct in de praktijk toegepast kan worden.

Gerelateerde berichten