Stage OpenLineage H/F

Deux hommes regardent un écran d'ordinateur

Descriptif du poste

Et si vous faisiez équipe avec nous ? Rejoindre Dalkia, c'est plus de sens et d'implication contre le réchauffement climatique ; plus de relations humaines, avec un métier de service animé par l'esprit d'équipe ; plus de technicité, avec des projets ambitieux et innovants fondés sur nos expertises ; plus d'employabilité, avec des parcours diversifiés et individualisés. Rejoindre Dalkia, c'est rejoindre plus qu'une entreprise : un collectif de 20 000 collaborateurs engagés en faveur de la transition énergétique. Dans le groupe EDF, accueillir des personnes en situation de handicap fait partie de notre ADN. Notre objectif est d'ouvrir nos portes à toutes les compétences, toutes les énergies et toutes les personnalités sans exclusion. Le poste proposé est donc ouvert à toutes et à tous.

Description du poste :

Au sein de la Direction des Systèmes d'Information et du Numérique (DSIN), dans l’équipe Plateforme de données, vous êtes notre stagiaire DATA responsable sur l’Intégration d'un Module de Data lineage dans un Gestionnaire de Datalake sur AWS Cloud

L’objectif du poste est d’accompagner la transformation de la plateforme Data pour répondre à ces attentes, de veiller au respect des normes puis de travailler sur son évolutivité.


Objectif :

Conduire un Proof of Concept (POC) visant à intégrer un module de Data lineage dans un gestionnaire de Data Lake basé sur le CLOUD AWS.


Actions proposées :

1. **Identification du Module de Lineage approprié :**

2. **Étude de faisabilité de l'outil de Lineage :**

3. **Implémentation dans Airflow et DBT :**

4. **Introduction de la notion de Datacontract :**

5. **Introduction de la notion d'Alerting :**

Actions potentielles en cas de réussite du stage :

1. **Tracking des Incohérences dans la Pipeline d'Intégration :**

2. **Interaction avec le Data Catalog :**

 

Ce stage offre une opportunité d'approfondir les connaissances en data lineage, de mettre en pratique des solutions concrètes, et d'optimiser la gestion des données au sein d'un environnement Cloud AWS.

Votre profil

AWS
SQL
Python

Défiler pour continuer