Data Science, les fondamentaux
DURÉE DU COURS :2 jours (14 heures)
OBJECTIFS DE LA FORMATION :
À l’issue de la formation, le participant sera en mesure de :
- Connaître les principes de base de la data science et l’organisation de la démarche
- Appréhender l’application de la data science afin de résoudre des questions et ses limites
- Développer sa capacité d’analyse et d’interprétation des chiffres par la représentation graphique
- Comprendre comment utiliser les outils de la data science et développer les modèles à des fins professionnelles
- Ouverture sur l’enjeu de l’exploitation de la donnée dans un contexte concurrentiel et d’amélioration continue
- Appréhender l’organisation et l’infrastructure pour les services et pour les projets de data science
PUBLIC CIBLE
Directeurs/responsables des SI, responsables de projets en lien avec l’analyse de données, responsables d’études statistiques.
PRÉREQUIS
Aucun
PROGRAMME DU COURS
Qu’est-ce que la data science ?
- Les fondamentaux : big data, data lake, data mining, intelligence artificielle, machine et deep learning, text mining.
- Les nouveaux défis : l’émergence et la multiplication de nouvelles sources de données.
- Hétérogénéité des données, flux temps réel et explosion des volumes de données, à prendre en compte.
- L’écosystème technologique du big data.
- Démystifier le monde de la data science : analyse descriptive, prédictive et prescriptive.
- Le métier, les outils et les méthodes du data scientist.
- Introduction au machine learning, à l’analyse supervisée et à l’analyse non supervisée.
- Notions de sur et sous-apprentissage.
Les méthodes et les modèles de la data science
- Collecte, préparation et exploration des données.
- L’importance de la démarche de la qualité des données (nettoyer, transformer, enrichir).
- Définition des métriques.
- Les méthodes statistiques de base.
- Les principales classes d’algorithmes supervisés : arbres de décision, K plus proches voisins, régression, Naive Bayes.
- Les principales classes d’algorithmes non supervisés : clustering, ACP, CAH, réseaux de neurones.
- Le text mining et les autres familles d’algorithmes.
Représentation graphique et restitution des données
- Les langages de l’analyse statistique R et Python.
- Leurs environnements de développement (R-Studio, Anaconda, PyCharm) et leurs librairies (Pandas, machine learning).
- Les outils de DataViz (Power BI, Qlik, tableau, etc.).
- Modélisation des données : représentation des processus, des flux, des contrôles et des conditions.
- Modélisation des données : les outils (Orange, Power BI).
- Communiquer les résultats par le data storytelling : organiser le visuel (diagrammes, classements, cartographies).
- Communiquer les résultats par le data storytelling : restituer la signification des résultats.
Modélisation d’un problème de data science
- Récapitulatif de la démarche.
- Analyse de deux cas métier, à titre d’exemple la relation client et la détection des fraudes, mais peuvent être autres.
- Cas métier 1 : la relation client dans l’assurance.
- Cibler les campagnes marketing. Comprendre les causes d’attrition client. Quels produits pour quels clients ?
- Cas métier 2 : la détection des fraudes.
- Comparer la recherche par statistiques classiques et data mining.
- Détection par méthode supervisée. Détection par méthode non supervisée.