Entradas

Apache Spark y Big Data

¿Qué es el Big Data?

Según la primera definición facilitada por Google, este es un concepto que intenta procesar grandes cantidades de datos cumpliendo con velocidad, volumen y variedad.
En 2006 se presentó Apache Hadoop, y hasta el día de hoy empresas como Amazon, IBM, Microsoft o Google lo integraron con sus productos de Big Data. De hecho, hablar de Big Data era hablar de Hadoop, pero ahora esta cuestión ha cambiado.

Apache Spark, el nuevo paradigma en Big Data

El nuevo paradigma, Apache Spark, es considerado una evolución de Hadoop. Spark fue diseñado para tener un núcleo y diferentes componentes con los que se pudiera obtener una gran funcionalidad. En este sentido ya es precisamente lo contrario a Hadoop. Hadoop es rápido, pero Spark es muy superior. Así, Spark es capaz de ejecutar análisis de diferentes órdenes de magnitud de una forma mucho más rápida de lo que cualquier configuración de Hadoop podría hacer.

SQL es el lenguaje de Bases de Datos más extendido del mundo. Spark es capaz de utilizar diferentes fuentes de datos utilizando SQL como lenguaje; CassandraDB, MongoDB, Amazon S3, Elastic Search, entre otros. Además, permite hacer la gestión de éstas como si fueran tablas de datos estructurados, lo que permite que la integración con herramientas de Business Intelligence sea fácil y ágil.

Además, Spark es capaz de convertir un gran flujo de datos y procesarlo en tiempo real, así como integrar algoritmos de programación funcional como map, reduce, window o map. Por si esto fuera poco, también integra algoritmos clásicos de Machine Learning para poder llevar a cabo análisis predictivos en un conjunto de datos abierto.

Todas las funcionalidades que integra Spark la han consolidado como una solución barata y efectiva para superar Hadoop. Su punto de madurez y la comunidad que se está generando a su alrededor, hace que a partir de ahora se hable de Spark como la solución número 1 para el Big Data.

Autor: Eric Risco (Programador de Andornet)