• 687374918
  • info@devacademy.es

Big Data Integration

Detalle del plan de formación

Big Data Integration

Hoy en día, en los sistemas de producción de las compañías se pueden encontrar múltiples tecnologías Big Data, desde las Bases de Datos operacionales como por ejemplo Cassandra o Mongodb, hasta los sistemas de almacenamiento y procesamiento distribuido como Hadoop HDFS, Spark o Hive.

Pentaho Data Integration es una herramienta de la suite de Pentaho la cual provee a los desarrolladores de acciones de manipulación de datos en entornos Small y Big Data. Esta herramienta posee diversos conectores a múltiples herramientas Big Data los cuales son muy utilizados en entornos de producción de grandes y medianas empresas.

Este curso busca iniciar a los alumnos en el desarrollo de flujos de datos con Pentaho Data Integration y sistemas Big Data como Hadoop HDFS, Mongodb, Hive y Amazon Webservices.

Temario

Flujos de datos Big Data

  • Introducción a Pentaho Big Data Data Integration
  • Buenas prácticas para definición de procesos y flujos de datos Big Data
  • Parametrización: paso de desarrollo y producción
  • Trabajos
    • Copia y recuperación de datos en el HDFS
    • Lanzamiento y configuración de procesos Map Reduce
    • Lanzamiento y configuración de jobs Spark
  • Transformaciones
    • Creación de un flujo Mapper
    • Creación de un flujo Reducer
    • Ejecución de consultas a Mongodb
    • Escritura de datos en Mongodb
    • Lecutra de datos en Cassandra
    • Escritura de datos en Cassandra
    • Lectura de datos en HDFS
    • Escritura de datos en HDFS
    • Instalación y configuración step de Kafka
    • Procesamiento RealTime de datos Kafka
    • Interacción con Amazon S3

 

Ejercicios guiados

  • Ejercicio1. Volcado de log a Hive.
      • Este ejercicio guiado tiene como fin el cubrir uno de los eventos naturales en las empresas: carga y procesamiento de logs (servidor, aplicación, procesos, etcs). El alumno aprenderá a desarrollar toda la arquitectura del flujo de datos y la configuración de la herramienta, pasando por:

      • Búsqueda, lectura de archivo de log y parseo de datos
      • Selección, tratamiento y limpieza de datos
      • Escritura en HDFS

    Además, el alumno aprenderá a recuperar y consultar información de datos de HDFS y guardar en otro tipo de formado como XLS o TXT

  • Ejercicio2. Lectura de datos de Hive y volcado a Mongodb.
    Durante este ejercicio el alumno podrá entender cómo crear un flujo de datos el cual buscará realizar consultas en Hive, procesar datos y escribir en Mongodb. Además, como finalización del proceso se mandará un email a una cuenta de administración
  • Ejercicio3. Real Time Data Flows
      Durante este ejercicio los alumnos podrán realizar un ejercicio el cual busca completar un ciclo de datos Real Time, desde que se ingiere el dato en una cola de Kafka hasta que se procesa

    • Creación de consultas en MongoDB
    • Alimentación de sistema de procesamiento de colas Kafka
    • Ingestión de datos y procesamiento en Kafka
    • Almacenamiento de datos en HDFS y S3

Responsabilidades profesor

Presentar el contenido conforme lo presentado en el programa de formación
Dar acceso al material necesario (PDFs, ejercicios, software, etcs) para el curso contratado.
Proveer de local para impartir la formación

Responsabilidades alumno

Participar en la formación en el periodo determinado, trayendo un notebook con los requisitos mínimos necesarios para la participación en la formación, siendo estos los siguientes:
Mínimo de 4GB de memoria RAM
Mínimo de 10GB de espacio en disco (HD).
Habilitada la virtualización tanto en software como hardware
Poseer privilegios de administración

Observaciones importantes

Confirmaciones
Las confirmaciones serán enviadas a la dirección de e-mail enviada por el alumno

Cancelaciones
Los plazos para el cancelamiento de inscripciones solicitadas, son de 5 días laborales antes del inicio del curso.
En caso de cancelamiento fuera de plazo por parte del alumno, DevAcademy se reserva el derecho a cobrar un porcentaje (20%) del valor del curso.
DevAcademy se reserva el derecho de cancelar o posponer la formación, siempre y cuando avise al contratante y/o devuelva el importe íntegro en caso de cancelación

Obligaciones del alumno
Es obligatorio que el alumno cumpla con todos las obligaciones recomendadas por el profesor para seguir todos los ejercicios y no demorar ni perjudicar la clase. Es posible que días antes se envie un email como recordatorio al alumno con instrucciones a seguir u obligaciones desarrollar para poder estar preparado al comienzo de la clase.



DevAcademy 2024 - info@devacademy.es - Telf: 687374918