Data Science, les fondamentaux

image_print

DURÉE DU COURS :2 jours (14 heures)

OBJECTIFS DE LA FORMATION :

À l’issue de la formation, le participant sera en mesure de :

  • Connaître les principes de base de la data science et l’organisation de la démarche
  • Appréhender l’application de la data science afin de résoudre des questions et ses limites
  • Développer sa capacité d’analyse et d’interprétation des chiffres par la représentation graphique
  • Comprendre comment utiliser les outils de la data science et développer les modèles à des fins professionnelles
  • Ouverture sur l’enjeu de l’exploitation de la donnée dans un contexte concurrentiel et d’amélioration continue
  • Appréhender l’organisation et l’infrastructure pour les services et pour les projets de data science

PUBLIC CIBLE

Directeurs/responsables des SI, responsables de projets en lien avec l’analyse de données, responsables d’études statistiques.

PRÉREQUIS

Aucun

PROGRAMME DU COURS

Qu’est-ce que la data science ?

  • Les fondamentaux : big data, data lake, data mining, intelligence artificielle, machine et deep learning, text mining.
  • Les nouveaux défis : l’émergence et la multiplication de nouvelles sources de données.
  • Hétérogénéité des données, flux temps réel et explosion des volumes de données, à prendre en compte.
  • L’écosystème technologique du big data.
  • Démystifier le monde de la data science : analyse descriptive, prédictive et prescriptive.
  • Le métier, les outils et les méthodes du data scientist.
  • Introduction au machine learning, à l’analyse supervisée et à l’analyse non supervisée.
  • Notions de sur et sous-apprentissage.

Les méthodes et les modèles de la data science

  • Collecte, préparation et exploration des données.
  • L’importance de la démarche de la qualité des données (nettoyer, transformer, enrichir).
  • Définition des métriques.
  • Les méthodes statistiques de base. 
  • Les principales classes d’algorithmes supervisés : arbres de décision, K plus proches voisins, régression, Naive Bayes.
  • Les principales classes d’algorithmes non supervisés : clustering, ACP, CAH, réseaux de neurones.
  • Le text mining et les autres familles d’algorithmes.

Représentation graphique et restitution des données

  • Les langages de l’analyse statistique R et Python.
  • Leurs environnements de développement (R-Studio, Anaconda, PyCharm) et leurs librairies (Pandas, machine learning).
  • Les outils de DataViz (Power BI, Qlik, tableau, etc.).
  • Modélisation des données : représentation des processus, des flux, des contrôles et des conditions.
  • Modélisation des données : les outils (Orange, Power BI).
  • Communiquer les résultats par le data storytelling : organiser le visuel (diagrammes, classements, cartographies).
  • Communiquer les résultats par le data storytelling : restituer la signification des résultats.

Modélisation d’un problème de data science

  • Récapitulatif de la démarche.
  • Analyse de deux cas métier, à titre d’exemple la relation client et la détection des fraudes, mais peuvent être autres.
  • Cas métier 1 : la relation client dans l’assurance.
  • Cibler les campagnes marketing. Comprendre les causes d’attrition client. Quels produits pour quels clients ?
  • Cas métier 2 : la détection des fraudes.
  • Comparer la recherche par statistiques classiques et data mining.
  • Détection par méthode supervisée. Détection par méthode non supervisée.
image_print