• 687374918
  • info@devacademy.es

Programa Integración de datos en Big Data

Detalle del plan de formación

Big Data. Para empezar, la integración de datos es un proceso de transformación y conciliación de datos que permita una mayor agilidad en la gestión, proporcionando datos conectados, seguros y de calidad.

Para empezar, combinar datos que se encuentran en diferentes fuentes para permitirle al usuario final tener una vista unificada de los mismos es uno de los retos en todo proyecto Big data o small data. De hecho, es una de las partes fundamentales en cualquier proyecto de analytics pues se busca mover, integrar y almacenar los datos de forma estructurada.

Por lo tanto, la aparición de nuevas tecnologias y la explosión de datos plantean un gran desafío en este aspecto. Son muchas las herramientas de BI que buscan actualizarse al mundo Big Data, cubriendo muchas tecnologías de estos proyectos. Además, son muchas otras tecnologías del Ecosistema Big Data que buscan solventar problemas concretos como alternativa a estas herramientas.

Programa de formació Big Data

Por consiguiente, en este programa de formación, DevAcademy busca formar a los profesionales en las mejores prácticas y herramientas que puedan usar en proyectos de Data Analytics, ya sea integrando diferentes fuentes tradicionales o las más innovadoras y con gran volumetría que surgen con el Big Data.

Finalmente, el programa formativo sobre la Integración de Datos haciendo uso de herramientas ETL y Big Data tiene un enfoque técnico y práctico. Además, está dirigido tanto a profesionales del sector IT como a desarrolladores que deseen implementar proyectos de Big Data y de Business Analytics (BA), así como migraciones de datos entre distintos sistemas de gestión (CRM, ERPs, etc).

En resumen, los profesionales aprenderán la parte de ingestión de datos e integración de los mismos en arquitecturas de Data Analytics con herramientas Open Source como Pentaho Data Integration , Sqoop y Flume.

Temario

  • Ingestión de datos en un cluster Hadoop
  • Sqoop
    • Uso de Sqoop
    • Insertar una tabla específica
    • Insertar datos incrementalmente
    • Insertar datos directamente a Hive
    • Paralelización a la hora de inyectar los datos
  • Flume
    • Qué es y para que sirve
    • Arquitectura de Flume
    • Piezas de Flume, Source, Channel, Sink
    • Interceptores, qué son y para qué sirven
    • Uso de Flume
  • Flujos de datos y ETLs con herramienta de integración de datos Open Source
    • Introducción a Pentaho Big Data Data Integration
    • Buenas prácticas para definición de procesos y flujos de datos Big Data
    • Parametrización: paso de desarrollo y producción
    • Trabajos
      • Copia y recuperación de datos en el HDFS
      • Lanzamiento y configuración de procesos Map Reduce
      • Lanzamiento y configuración de jobs Spark
    • Transformaciones
      • Steps de creación de un flujo Mapper
      • Steps de creación de un flujo Reducer
      • Steps de ejecución de consultas a Mongodb
      • Steps de escritura de datos en Mongodb
      • Steps de lecutra de datos en Cassandra
      • Steps de escritura de datos en Cassandra
      • Steps de lectura de datos en HDFS
      • Steps de escritura de datos en HDFS
      • Steps de instalación y configuración step de Kafka
      • Steps de procesamiento RealTime de datos Kafka
      • Steps de interacción con Amazon S3

 

Casos prácticos

    • Ingestión en un cluster Hadoop de datos desde una base de datos MySQL a un cluster Hadoop con Sqoop
    • Ingestión de un fichero de logs de un posible servidor web u otro tipo de fichero plano a tu cluster Hadoop para poder ser explotado más tarde con otras herramientas como Spark/MapReduce/etc
    • Ingestión de datos de Twitter a un cluster Hadoop con Flume. Una vez terminado podrás tener los datos que se generan en Twitter para su análisis con Hadoop
    • Creación de ETLs y flujos de datos en arquitecturas Big data:
      • Integración de tecnologías como Mongodb, Cluster con Hadoop, Hive.
      • Integración de tecnologías en la nube (Amazon AWS, Amazon S3, Amazon EMR)

 

Fechas, horario y lugar

Actualmente no hay fechas disponibles. Mándanos un email para tenerte en lista y completar un grupo para poder organizarlo.

En caso de ser empresa te ayudamos a organizarlo a medida para tus empleados o compañeros.

Responsabilidades profesor

Para empezar, deberá presentar el contenido conforme lo presentado en el programa de formación
Además, dará acceso al material necesario (PDFs, ejercicios, software, etcs) para el curso contratado.
Por último, proveerá de local para impartir la formación

Responsabilidades alumno

Participar en la formación en el periodo determinado, trayendo un notebook con los requisitos mínimos necesarios para la participación en la formación, siendo estos los siguientes:
Mínimo de 4GB de memoria RAM
Mínimo de 10GB de espacio en disco (HD).
Habilitada la virtualización tanto en software como hardware
Además, deberá poseer privilegios de administración

Observaciones importantes

Confirmaciones
Las confirmaciones serán enviadas a la dirección de e-mail enviada por el alumno

Cancelaciones
En primer lugar, los plazos para la cancelación de inscripciones solicitadas, son de 5 días laborales antes del inicio del curso. Sin embargo, en caso de cancelación fuera de plazo por parte del alumno, DevAcademy se reserva el derecho a cobrar un porcentaje (20%) del valor del curso.
Además, DevAcademy se reserva el derecho de cancelar o posponer la formación, siempre y cuando avise al contratante y/o devuelva el importe íntegro en caso de cancelación

Obligaciones del alumno
Finalmente, es obligatorio que el alumno cumpla con todos las obligaciones recomendadas por el profesor para seguir todos los ejercicios y no demorar ni perjudicar la clase. Es posible que días antes se envie un email como recordatorio al alumno con instrucciones a seguir u obligaciones desarrollar para poder estar preparado al comienzo de la clase.



DevAcademy 2024 - info@devacademy.es - Telf: 687374918