Big data | Les architectures et infrastructures Mixte : présentiel / à distance

Dernière mise à jour : 06/05/2024

Bannière visuelle de présentation de la formation

Présentation

Cette formation vous présente l'architecture et l'infrastructure sous-jacente des projets Big Data. Nous commencerons par définir le cadre d'un projet Big Data, puis expliquerons comment le type et la quantité de données traitées impactent l'architecture au niveau du stockage ou du traitement. Quelles sont les évolutions spécifiques par rapport aux standards (serveurs, SGBD, systèmes de fichiers, etc.) et quels sont les avantages spécifiques des solutions ou produits NoSQL comme Hadoop ?

 

Apprenez √† installer, configurer, s√©curiser et surveiller des clusters Hadoop multi-nŇďuds, offrant ainsi une infrastructure de qualit√© aux d√©veloppeurs et aux analystes.

Informations éligibilité financement Actions Collectives

Formation pouvant être prise en charge à 100% dans le cadre des Actions Collectives.

Pour en bénéficier, contactez-nous à hello.institute@docaposte.fr et complétez votre inscription sur campusAtlas. 

https://www.docaposteinstitute.com/wp-content/uploads/2023/08/Eligible-actions-co-1.png

Objectifs

  • Comprendre les principaux concepts du Big Data ainsi que l'√©cosyst√®me technologique d'un projet Big Data
  • Savoir analyser les difficult√©s propres √† un projet Big Data
  • D√©terminer la nature des donn√©es manipul√©es
  • Appr√©hender les √©l√©ments de s√©curit√©, d'√©thique et les enjeux juridiques
  • Exploiter les architectures Big Data
  • Mettre en place des socles techniques complets pour des projets Big Data

Programme

Définition et contexte spécifique des projets Big Data

  • Origines du Big Data
  • Les donn√©es au cŇďur des sujets : explosion des donn√©es, connexions Big Data et IoT (Internet des objets), donn√©es structur√©es, donn√©es semi-structur√©es, donn√©es non structur√©es et donn√©es structur√©es
  • Les limites des architecturales actuelles
  • Les d√©finitions des syst√®mes Big Data
  • Principes de fonctionnement
  • Diff√©rentes offres de march√©

 

Propriété des données, environnement de traitement légal et sécurité

  • S√©curit√© √©thique et questions juridiques
  • Donn√©es personnelles
  • Informations confidentielles, interdictions
  • R√©glementation des Donn√©es Num√©riques par la CNIL
  • Accords Nationaux

 

Impact des choix technologiques liés à l'infrastructure et à l'architecture Big Data

  • Architectures d√©cisionnelles "traditionnelles" (Datastores, Data Warehouses, Data Marts, etc.)
  • Philosophie des bases NoSQL¬†: Column Family, orient√© document, cl√©-valeur, diagramme
  • Plusieurs acteurs (MongoDB, Cassandra, etc.)
  • Big Table / Big Query
  • Moteur de base de donn√©es (Exadata)
  • Base de donn√©es vectorielle (Sybase IQ)
  • Hadoop, syst√®me enti√®rement autonome ?
  • Impacts √©conomiques

 

Mise en Ňďuvre et √©laboration d'une strat√©gie d√©di√©e au Big Data

  • Besoins en sujet de Big Data
  • Atteindre les impartiaux cabinet au bon droit des conjoncture
  • Outils du march√© d√©di√©s au Big Data
  • R√©pondre aux attentes d'un collaborateur

 

Architectures distribuées

  • Probl√©matiques et objectifs
  • Des conjoncture coh√©rentes, disponibles et tol√©rantes aux pannes ?
  • Les architectures lourdement parall√®les
  • L'ouverture aux traitements complexes (datamining, intention learning, etc.)
  • Paradigmes de calculs distribu√©s
  • Les bases NoSQL et le calcul distribu√©
  • Qualit√© des donn√©es (Dataquality)
  • Liens entre infrastructure et qualit√© des donn√©es
  • Pas de qualit√©, pas d'analyse
  • Les 4 V
  • Bases √† chaud et √† froid
  • Les apports d'un outil de Dataquality
  • Pourquoi utiliser un ETL ?
  • Illustration via Talend Data Integration
  • Analyser les donn√©es en les fusionnant avec les donn√©es internes
  • Le Master Data Management (MDM)

 

Préparation et visage du cluster Hadoop

  • Principes de fonctionnement de Hadoop Distributed File System (HDFS)
  • Principes de fonctionnement de MapReduce
  • Design ¬ę type ¬Ľ du cluster

 

Installation d'une plateforme Hadoop

  • Type de d√©ploiement
  • Installation d'Hadoop
  • Installation de divers composants (Hive, Pig, HBase, Flume‚Ķ)
  • Diff√©rences parmi les distributions Cloudera, Hortonworks et MapR

 

Gestion d'un cluster Hadoop

  • Gestion des nŇďuds du cluster Hadoop
  • Les TaskTracker, JobTracker dans MapReduce
  • Gestion des services via les schedulers
  • Gestion des logs

 

Gestion des données pour HDFS

  • Import de conjoncture externes (fichiers, bases de conjoncture relationnelles) enthousiasme HDFS
  • Manipulation des fichiers HDFS

 

Configuration avancée

  • Gestion des autorisations et de la s√©curit√©
  • Reprise sur √©chec d'un name node (MRV1)
  • Haute disponibilit√© d'un NameNode (MRV2/YARN)

 

Monitoring et optimisation

  • Monitoring (Ambari, Ganglia‚Ķ)
  • Benchmarking/profiling d'un cluster
  • Les outils Apache GridMix, Vaidya
  • Taille des blocs
  • Autres options de tuning (maniement de la compression, visage m√©moire‚Ķ)

Public visé

  • Chefs de projets
  • Architectes
  • D√©veloppeurs
  • Data Scientists ou toute personne souhaitant conna√ģtre les outils pour concevoir une architecture Big Data...

Modalités pédagogiques

Docaposte Institute propose plusieurs dispositifs pédagogiques adaptés aux apprenants :

 

  • Formation en pr√©sentiel
    • En groupe (inter-entreprises ou intra-entreprise)
    • En individuel (monitorat)
    • En journ√©e ou en cours du soir (sur demande sp√©cifique)
  • Formation en distanciel
    • Distanciel synchrone
    • Distanciel asynchrone

 

 

Prérequis

  • Avoir une bonne culture g√©n√©rale des syst√®mes d'information et plus particuli√®rement
  • Avoir des connaissances de base des mod√®les relationnels, des statistiques et des langages de programmation.

Moyens et supports pédagogiques

  • ¬∑¬†¬†¬†¬†¬†¬† Apports¬†des connaissances communes.
  • ¬∑¬†¬†¬†¬†¬†¬† Mises en situation sur le th√®me de la formation¬†et des cas concrets.
  • ¬∑¬†¬†¬†¬†¬†¬† M√©thodologie d'apprentissage attractive, interactive et participative.
  • ¬∑¬†¬†¬†¬†¬†¬† Equilibre th√©orie / pratique : 60 % / 40 %.
  • ¬∑¬†¬†¬†¬†¬†¬† Supports de cours fournis au format papier et/ou num√©rique.
  • ¬∑¬†¬†¬†¬†¬†¬† Ressources documentaires en ligne et r√©f√©rences mises √† disposition par le formateur.
  • ¬∑¬†¬†¬†¬†¬†¬† Pour les formations en pr√©sentiel dans les locaux mis¬†√† disposition, les apprenants¬†sont accueillis dans une salle de cours √©quip√©e d'un r√©seau Wi-Fi, d'un tableau blanc ou paperboard. Un ordinateur avec les logiciels appropri√©s est mis √† disposition (le cas √©ch√©ant).
  • ¬†

Modalités d'évaluation et de suivi

En amont de la formation

·       Recueil des besoins des apprenants afin de disposer des informations essentielles au bon déroulé de la formation (profil, niveau, attentes particulières...).

·       Auto-positionnement des apprenants afin de mesurer le niveau de départ.

Tout au long de la formation

¬∑¬†¬†¬†¬†¬†¬† √Čvaluation continue des acquis avec¬†des questions orales, des exercices, des QCM, des cas pratiques ou mises en situation...

A la fin de la formation

·       Auto-positionnement des apprenants afin de mesurer l'acquisition des compétences.

·       Evaluation par le formateur des compétences acquises par les apprenants.

·       Questionnaire de satisfaction à chaud afin de recueillir la satisfaction des apprenants à l'issue de la formation.

·       Questionnaire de satisfaction à froid afin d'évaluer les apports ancrés de la formation et leurs mises en application au quotidien.

Accessibilité

Nos formations peuvent être adaptées à certaines conditions de handicap. Nous contacter pour toute information et demande spécifique.

M'inscrire à la formation

Valider la pré-inscription
Inscription possible jusqu'à 10 jours avant démarrage formation

Prochaines Sessions

  • D√©sol√©, cette formation n'est pas programm√©e pour le moment.

    Si vous êtes responsable formation, vous pouvez faire une requête pour l'organiser en INTRA dans votre entreprise.

Dans la même catégorie

Catalogue de formation propulsé par Dendreo,
Plateforme dédiée pour les OF