Passer au contenu
24 h

Informatique

5$/h – Sciences des données (datascience) – Niveau 3

Objectif général

Cette formation pratiques vise à acquérir les compétences en sciences des données. À la fin de ce cours, les étudiants seront capables réaliser un projet intégrateur. Il s’agit de la préparation des données pour l’IA, intégration de réseaux de neurones artificiels, de l’apprentissage profond et l’analyse des données massive.

Contenu

Introduction à la science de données

  • Objectifs de l’exploration des données
  • Approches de l’apprentissage automatique : supervisé, non supervisé et semi supervisé.
  • Données prétraitées vs données brutes
  • Matériels : CPU vs GPU
  • Logiciels spécialisés : Jupyter notebook, Spyder, Python, Pycharm
  • Bibliothèques à source ouverte disponibles : Numpy, Pandas, SciPy, Matplotlib
  • Applications de la science de données
  • Vision par ordinateur : reconnaissance faciale, analyse d’images médicale, télédétection.
  • Traitement naturel du langage
  • Reconnaissance automatique de la parole
  • Robotique

Préparation des données pour l’IA

  • Nettoyage des données.
  • Transformation des données.
  • Inspection et visualisation des données.
  • Manipulation des données image

Apprentissage machine supervisé et réseaux de neurones

  • Étapes d’un algorithme d’apprentissage supervisé : préparation des données, ingénierie des caractéristiques, choix de l’algorithme, teste et validation
  • Algorithmes d’apprentissage supervisé : Classification Bayésienne, Réseaux de neurones artificiels, Machine à vecteurs de support (SVM), Arbre de décision.
  • Application des algorithmes d’apprentissage supervisé : Vision par ordinateur, Reconnaissance de formes, Reconnaissance vocale, Traitement automatique du langage.
  • Réseaux de neurones artificiels : structure, fonction d’activation et apprentissage.

Apprentissage profond

  • Architecture des réseaux de neurones à convolution
  • Les étapes d’un réseau de neurones à convolution.
  • Architecture des réseaux de neurones récurrent.
  • Différents types de réseaux de neurones récurrent.

Analyse des données massives (Big data)

  • Données massives : disponibilité des données, données structurées vs non structurées, capacité de stockage et d’analyse.
  • Propriétés des données massives : Volume, Vélocité et Variété.
  • Outils des données massives :
  • Systèmes d’orchestration (Kubernetes, Docker swarm)
    Traitement distribué (Apache Spark)
    Stockage distribué (Apache Hadoop)
    Bases de données (SQL vs No SQL)
  • Application des données massives : Apprentissage machine, science et recherche, détection des fraudes, santé, IoT.

Application : déploiement d’une application machine Learning en cloud : Conception, développement et déploiement

Préalables

Connaissances de base en programmation et mathématiques de base.