Certification - Data Engineer

Certification Certification

Certification visée

Ce parcours de formation vise le titre à finalité professionnelle, reconnu par l’Etat, d’Expert en infrastructures de données massives RNCP 37638 de niveau 7, équivalent à Bac+5.

Organisme certificateur : Simplon.co

Date d’enregistrement : 31-05-2023

Pré-requis

Ce titre est accessible si vous avez :

  • un titre ou un diplôme de niveau Bac+3 en informatique
  • un titre ou un diplôme de niveau Bac+2 en informatique et un an d'expérience professionnelle dans le secteur des systèmes et réseaux informatiques.

Si vous ne remplissez pas ces conditions, votre candidature pourra être examinée pour une admission exceptionnelle.

Voies d’accès
Ce titre est accessible après un parcours de formation sous statut d’élève ou d’étudiant, via un contrat de professionnalisation ou d’apprentissage, après un parcours de formation continue ou par Validation des Acquis de l’Expérience.

Validation partielle

Si tous les blocs de compétences ne sont pas acquis à l'issue de la formation, une validation partielle du titre est possible.

Taux de réussite

Compte-tenu du déploiement récent de ce titre chez Simplon, nous ne sommes pas en mesure de communiquer un taux de réussite pour le moment.

Taux d’insertion

Compte-tenu du déploiement récent de ce titre chez Simplon, nous ne sommes pas en mesure de communiquer un taux d’insertion pour le moment.

Présentation Présentation

Aujourd’hui, la donnée est partout, permettant aux entreprises d'accroître le suivi de leur performance via des indicateurs toujours plus nombreux, d’analyser des comportements clients et par là même d’identifier des opportunités de marché. Le métier de Data Engineer se retrouve sur l’ensemble du cycle de vie de la donnée. Dans ce contexte, les entreprises ont besoin de structurer et mettre en oeuvre une stratégie autour des données de l'entreprise. Cela nécessite d'un part de solliciter des professionnels capables d'accompagner cette maîtrise d'ouvrage en conseillant le commanditaire, d'autre part de mobiliser des compétences spécifiques pour piloter la mise en oeuvre de la stratégie, collecter des données, les stocker, les modéliser ou encore les protéger. Le métier de Data Engineer, à l'heure du Big Data et de l'intelligence artificielle, connaît un très fort développement car il répond à un enjeu stratégique pour le futur de l'économie et des entreprises. Les besoins en matière de recrutement sont très élevés face à une pénurie de profils adaptés.

Compétences Compétences visées

C1. Analyser l’expression d’un besoin de projet data dans une étude de faisabilité en explorant, à l’aune des enjeux stratégiques de l’organisation, le besoin métier avec les parties prenantes pour valider les orientations et sélectionner les hypothèses techniques du projet avec le ou les commanditaire(s).
C2. Cartographier les données disponibles en référençant les usages, les sources, les métadonnées et les données afin de valider les hypothèses techniques du projet data.
C3. Concevoir un cadre technique d’exploitation des données en analysant les contraintes techniques, de moyens et la cartographie des données afin de définir une réponse technique adaptée aux ressources mobilisables dans le respect du RGPD et d’une démarche éco-responsable.
C4. Réaliser une veille technique et réglementaire en sélectionnant des sources et en collectant et traitant les informations collectées afin de formuler des recommandations projet toujours en phase avec l’état de l’art.
C5. Planifier la réalisation d’un projet data en attribuant les moyens nécessaires et en définissant les étapes de réalisation et les méthodes de suivi du projet afin de d’organiser sa mise en oeuvre
C6. Superviser la réalisation d’un projet data en organisant les méthodes, les outils de travail et la communication entre les parties prenantes, afin d’accompagner les membres de l’équipe dans la réussite du projet
C7. Communiquer tout au long de la réalisation du projet data sur les orientations, les réalisations et leurs impacts en élaborant la stratégie et les supports de communication afin d’informer toutes les parties prenantes des évolutions ou des opportunités internes comme externes, portés par le projet.
C8. Automatiser l’extraction de données depuis un service web, une page web (scraping), un fichier de données, une base de données et un système big data en programmant le script adapté afin de pérenniser la collecte des données nécessaires au projet.
C9. Développer des requêtes de type SQL d’extraction des données depuis un système de gestion de base de données et un système big data en appliquant le langage de requête propre au système afin de préparer la collecte des données nécessaires au projet.
C10. Développer des règles d'agrégation de données issues de différentes sources en programmant, sous forme de script, la suppression des entrées corrompues et en programmant l’homogénéisation des formats des données afin de préparer le stockage du jeu de données final.
C11. Créer une base de données dans le respect du RGPD en élaborant les modèles conceptuels et physiques des données à partir des données préparées et en programmant leur import afin de stocker le jeu de données du projet.
C12. Partager le jeu de données en configurant des interfaces logicielles et en créant des interfaces programmables afin de mettre à disposition le jeu de données pour le développement du projet.
C13. Modéliser la structure des données d’un entrepôt de données en s’appuyant sur les dimensions et les faits afin d’optimiser l’organisation des données pour les requêtes analytiques.
C14. Créer un entrepôt de données à partir des paramètres du projet, des contraintes techniques et matérielles et de la modélisation de la structure des données afin de soutenir l’analyse de l’activité et l’aide à la décision stratégique de l’organisation
C15. Intégrer les ETL nécessaires en entrée et en sortie d’un entrepôt de données afin de garantir la qualité et le bon formatage des données en respectant les modélisations logiques et physiques préalablement établies
C16. Gérer l’entrepôt de données à l’aide des outils d’administration et de supervision dans le respect du RGPD, afin de garantir les bons accès, l’intégration des évolutions structurelles et son maintien en condition opérationnelle dans le temps.
C17. Implémenter des variations dans les dimensions de l’entrepôt de données en appliquant la méthode adaptée en fonction du type de changement demandé afin d’historiser les évolutions de l’activité de l’organisation et maintenir ainsi une bonne capacité d’analyse.
 

Programme Programme

Les compétences acquises sont directement mobilisables par le stagiaire à l’issue de la formation, dans son retour en poste.
En fonction de la nécessité d’axer le déroulé de la formation sur des sujets en particulier lors d’une formation dédiée à une entreprise, le programme de formation pourra être contextualisé aux besoins et outils identifiés, et des intervenants extérieurs pourront également intervenir.

Le programme est structuré autour de 5 modules. Chaque module de formation donne lieu à des mises en situtions d'apprentissages de natures variées, d’une durée et d’une complexité progressive, se concluant par un livrable.

MODULE 1 : Les différents modèles de données et leurs cas d'utilisation
“Je suis capable de sélectionner le bon modèle de données en fonction du besoin l”
Ce premier module vise à donner les clés à l'apprenant des différents modèles de données qu'il sera amené à exploiter.

Modèle relationnel
- Enjeu d'intégrité : gestion des transactions dans un système de production OLTP (OnLine Transaction Processing Database)
- Opérations CRUD (Create Read Update Delete)
- Normalisation des données
- Modèle logique, conceptuel et physique de données
- Requêtes SQL DDL (Data Definition Language) et DML (Data Manipulation Language)

Modèles pour l'analyse de données
- Dénormalisation et NoSQL
- Schéma on Read vs Schéma on Write
- OLAP (Online Analytical Processing) et modèle Multidimensionnel

MODULE 2 : Nettoyage et analyse exploratoire de données
“Je suis capable de préparer les données en vue de leur exploitation"
Ce second module permet à l'apprenant de sélectionner, nettoyer et intégrer des données dans une base de données adaptée à l'aide d'outils spécialisés

Boite à outils du data engineer
- Systèmes de versionning
- Logiciels d'analyse et de visualisation (Par ex: R, Python, Knime)
- Sources et formats de données : Open Data, csv, xls, odt, json

Analyse exploratoire et nettoyage
- Types de données
- Données qualitatives et quantitatives
- Valeurs manquantes et aberrantes
- Visualisation

MODULE 3: Informatique décisionnelle
"Je suis capable de mettre en place un outil d'aide à la décision"
Ce troisième module permet d'acquérir les compétences nécessaires à la mise en place d'un data warehouse et de son alimentation à partir d'un cadre d'exploitation défini

Data warehousing
- Analyse d'un cadre d'exploitation
- Faits et dimensions
- Schéma en étoile
- Architecture technique
- Rapports et tableaux de bord

Alimentation
- Principes de l'ETL (Extract Transform Load)
- Sources d'entrée et zones de sortie
- Outils d'ETL

MODULE 4: AMOA et Cadre technique d'exploitation
"Je comprends et formalise les enjeux de l'entreprise"
Ce quatrième module permet à l'apprenant de conseiller un commanditaire sur un projet data et recenser et formaliser les besoins spécifiques en exploitation de la donnée

Recueil du besoin
- L'entreprise, ses fonctions et ses services
- Techniques d'entretien
- Veille sectorielle et technique

Conseil du commanditaire
- Analyse du besoin
- étude faisabilité
- note de synthèse

Formalisation du cadre technique d'exploitation
- Inventaire systématique
- Les référentiels et leur structure
- Droit de la donnée
- Conception d'un cahier des charges

MODULE 5 : Le Big Data et ses applications
"Je maitrise les V du Big Data"

Enjeux du Big Data
- Volume : architectures distribuées
- Vitesse : du batch au streaming
- Variété : gestion de données hétérogènes

Outils du Big Data
- Principes du Map Reduce
- Écosystème Hadoop et Spark
- Formats de fichiers optimisés

Data Lake
- Schéma d'architecture
- Catalogue de données
- Gouvernance du data lak

Admission Admission

À titre indicatif, la durée de la formation est de

- pour un parcours avec une période d'alternance : 6mois en intensif +12 mois en alternance
- pour un parcours sans alternance : 12 mois de formation intensive incluant une période d'application en entreprise (PAE).
La durée peut être adaptée selon le positionnement et le contexte du parcours.

La certification est constituée de 4 blocs de compétences.
Chaque bloc de compétence est validé par une ou plusieurs modalités d’évaluation suivantes adaptées aux compétences :

  • Deux études de cas (E1, E6)
  • Un cas pratique (E3)
  • Quatre mises en situations (E2, E4, E5, E7)

Toutes les compétences (100%) doivent être acquises pour obtenir de la certification

Pour les personnes en situation de handicap

Les formations Simplon sont ouvertes à toutes et tous, inclusives et accueillantes pour les personnes en situation de handicap. Concernant les modalités physiques de la formation,c’est environ 7h par jour de station assise, dans un open space (donc parfois bruyant), avec la nécessité de se déplacer dans la salle et d’éventuellement transporter son ordinateur. Concernant les modalités organisationnelles, il y a possibilité de télétravail ou, en présentiel, d’isolement dans une salle pour se reposer, même s’il y a la nécessité de travailler régulièrement en groupe. 

La mise en place d’aménagements est possible, n'hésitez pas à prendre contact avec l'équipe de la Fabrique. En fonction des aménagements, ceux-ci se font soit uniquement avec le ou la référente handicap et l’équipe pédagogique soit avec l’appui des Services Public de l’Emploi et les partenaires spécialisés (Agefiph et ressource Handicap Formation). 

Retourner en haut