La ingestión de datos es una de las técnicas más básicas en el mundo del Big Data. Es necesario recibir set de datos masivos para después procesar los mismos. En este curso te introducirás en dos herramientas esenciales en la etapa de ingestión de datos: Flume y Sqoop.
Apache Sqoop
Apache Sqoop es una librería que permite importar datos desde un almacenamiento de datos estructurado, como una base de datos relacional, a Hadoop. Igualmente una vez que hayamos procesado los datos con Hadoop, Hive o cualquier otra herramienta podemos exportar el resultado a un base de datos relacional.Sqoop también nos permite importar datos a otras bases de datos como Hive ó HBase.
Además, durante este curso, aprenderás a ingestar los datos de una base de datos MySQL a un cluster Hadoop con Sqoop, así como tenerlos directamente en Hive y optimizar la manera de hacerlo.
Apache Flume
Apache Flume es un servicio que agrega grandes cantidades de log. Según indica la documentación, su flexible arquitectura basada en agentes podría utilizarse con otros fines distintos. En este curso podrás iniciarte en lo que es Flume y como usarlo. Además, se ingestarán datos de un fichero a nuestro cluster e incluso podrás ingestar datos de Twitter a nuestro cluster Hadoop.
Al finalizar el curso serás capaz de ingestar datos desde una base de datos u otras fuentes como logs de servidores, tareas habituales en el mundo del Big Data.
Temario
- Ingestión de datos en un cluster Hadoop
- Sqoop
- Uso de Sqoop
- Insertar una tabla específica
- Insertar datos incrementalmente
- Insertar datos directamente a Hive
- Paralelización a la hora de inyectar los datos
- Flume
- Qué es y para que sirve
- Arquitectura de Flume
- Piezas de Flume, Source, Channel, Sink
- Interceptores, qué son y para qué sirven
- Uso de Flume
Casos prácticos
-
- Ingestión en un cluster Hadoop de datos desde una base de datos MySQL a un cluster Hadoop con Sqoop
- Ingestión de un fichero de logs de un posible servidor web u otro tipo de fichero plano a tu cluster Hadoop para poder ser explotado más tarde con otras herramientas como Spark/MapReduce/etc
- Ingestión de datos de Twitter a un cluster Hadoop con Flume. Una vez terminado podrás tener los datos que se generan en Twitter para su análisis con Hadoop
Responsabilidades profesor
Presentar el contenido conforme lo presentado en el programa de formación
Dar acceso al material necesario (PDFs, ejercicios, software, etcs) para el curso contratado.
Proveer de local para impartir la formación
Responsabilidades alumno
Participar en la formación en el periodo determinado, trayendo un notebook con los requisitos mínimos necesarios para la participación en la formación, siendo estos los siguientes:
Mínimo de 4GB de memoria RAM
Mínimo de 10GB de espacio en disco (HD).
Habilitada la virtualización tanto en software como hardware
Poseer privilegios de administración
Observaciones importantes
Confirmaciones
Las confirmaciones serán enviadas a la dirección de e-mail enviada por el alumno
Cancelaciones
Los plazos para el cancelamiento de inscripciones solicitadas, son de 5 días laborales antes del inicio del curso.
En caso de cancelamiento fuera de plazo por parte del alumno, DevAcademy se reserva el derecho a cobrar un porcentaje (20%) del valor del curso.
DevAcademy se reserva el derecho de cancelar o posponer la formación, siempre y cuando avise al contratante y/o devuelva el importe íntegro en caso de cancelación
Obligaciones del alumno
Es obligatorio que el alumno cumpla con todos las obligaciones recomendadas por el profesor para seguir todos los ejercicios y no demorar ni perjudicar la clase. Es posible que días antes se envie un email como recordatorio al alumno con instrucciones a seguir u obligaciones desarrollar para poder estar preparado al comienzo de la clase.