Apache Spark i Big Data

Que és el Big Data?

Segons la primera definició facilitada per Google, aquest és un concepte que intenta processar grans quantitats de dades complint amb velocitat, volum i varietat.
L’any 2006 es va presentar ApacheHadoop, i fins al dia d’avui empreses com Amazon, IBM, Microsoft o Google el van integrar amb els seus productes de Big Data. De fet, parlar de Big Data era parlar de Hadoop, però ara això ha canviat.

Apache Spark, el nou paradigma en Big Data

El nou paradigma, Apache Spark, és considerat una evolució de Hadoop. Spark va ser dissenyat per tenir un nucli i diferents components que el van dotant de funcionalitat. En aquest sentit ja és precisament el contrari a Hadoop. Hadoop és ràpid, però Spark és molt superior. Així, Spark és capaç d’executar anàlisis de diferents ordres de magnitud d’una forma molt més ràpida del que qualsevol configuració de Hadoop podria fer.

SQL és el llenguatge de Bases de Dades més estès del món.Spark és capaç d’utilitzar diferents fonts de dades fent servir SQL com a llenguatge; CassandraDB, MongoDB, Amazon S3,Elastic Search, entre d’altres. A més a més, permet fer la gestió d’aquestes com si fossin taules de dades estructurades, fet que permet que la integració amb eines de Bussines Intelligence sigui fàcil i àgil.

Spark és capaç de convertir un gran flux de dades i processar-lo en temps real, així com integrar algoritmes de programació funcional com map, reduce, window o map. A més, també integra algoritmes clàssics de Machine Learning per poder portar a terme anàlisis predictives en un conjunt de dades obert.

Totes les funcionalitats que integra Spark l’han consolidat com a una solució barata i efectiva per superar Hadoop. El seu punt de maduresa i la comunitat que s’està creant al seu voltant, fa que a partir d’ara es parli de Spark com a la solució número 1 per al Big Data.

 Autor: Eric Risco (Programador d’Andornet)

0 replies

Leave a Reply

Want to join the discussion?
Feel free to contribute!

Deixa un comentari