Analyse de données (06_XDADD)
- Coefficient : 3
- Volume Horaire: 80.0h estimées de travail (dont 45.0h EdT)
- CTD : 36h encadrées
- Labo : 9h encadrées
- Travail personnel hors EdT : 35h
Liste des AATs
Description
Ce cours propose une approche progressive et appliquée des principales méthodes d’analyse statistique et de modélisation des données. À travers des projets, des études de cas et des apports théoriques ciblés (just-in-time teaching), les étudiants apprendront à :
Modéliser des données par des distributions adaptées, estimer leurs paramètres et interpréter des intervalles de confiance (AAV1).
Construire et interpréter des tests d’hypothèse (p-value, ANOVA, MANOVA, etc.) et en expliciter la portée et les limites (AAV2).
Mener des régressions multiples et maîtriser les fondements méthodologiques sous-jacents (moindres carrés, équations normales…) (AAV3).
Réduire la dimension des données par des méthodes adaptées (ACP, etc.) et en tirer des interprétations pertinentes (AAV4).
Mettre en œuvre des méthodes de partitionnement non supervisées (K-means, etc.) et exploiter les clusters à des fins prédictives (AAV5).
Évaluer la qualité des modèles (goodness-of-fit, interprétation de coefficients, matrices de confusion, scores de précision/rappel, etc.) afin de valider leur pertinence (AAV6).
L’accent est mis sur l’articulation entre la rigueur statistique et l’interprétation critique, afin de développer des compétences transférables à des contextes variés d’analyse de données.
Acquis d'Apprentissage visés (AAv)
AAV1 [heures: 0, B1,B4] : À la fin du cours d’analyse de données, l'étudiant sera capable de choisir, en motivant son choix, une distribution à paramètres pour modéliser un jeu de données fourni et d’en estimer le ou les paramètres en construisant des intervalles de confiance, tout en sachant expliquer la signification et la portée de ces estimations.
AAV2 [heures: 0, B3,B4] : À la fin du cours d’analyse de données, l'étudiant sera capable de construire des tests d'hypothèse (dans les contextes de p-value, ANOVA, MANOVA...) et d'en calculer les statistiques associées pour conclure quant à des jeux de données fournis. En outre, l'étudiant sera capable d'expliciter la portée et la validité des conclusions.
AAV3 [heures: 0, B3,B2] : À la fin du cours d’analyse de données, l'étudiant sera capable de mener à bien des régressions (principalement linéaires multiples) sur des jeux de donnés fournis, en maîtrisant les méthodes sous-jacentes (moindres carrés, équations normales...).
AAV4 [heures: 0, B2,B3] : À la fin du cours d’analyse de données, l'étudiant sera capable de choisir et mettre en oeuvre sur des jeux de données fourni une méthode adaptée de réduction de la dimension (type ACP par exemple), et d'en interpréter les résultats.
AAV5 [heures: 0, B2,B3] : À la fin du cours d’analyse de données, l'étudiant sera capable de choisir et mettre en oeuvre sur des jeux de données fournis, des méthode de partitionnement non supervisées (type K-means par exemple). En outre, l'étudiant sera capable d'utiliser les clusters construits à des fins prédictives.
AAV6 [heures: 0, B3,B4] : À la fin du cours d’analyse de données, l'étudiant sera capable de mener une analyse de la qualité d'un modèle construit en utilisant les méthodes proposées dans le cours. Par exemple : "goodness of fit" (AAV1) pour comparer des distributions différentes, signification de coefficients identifiés dans une régression, matrice de confusion ou scores de précision et rappel, dans le cas ou le modèle est utilisé pour classifier les données de façon supervisée.
Modalités d'évaluation
Chaque AAV sera évalué en contrôle continu lors de la réalisations de projets et d'études de cas ;
En outre, les rendus écrits seront utilisés pour des épreuves de validation critique permettant d'évaluer les AAV : les étudiants recevront une version d'un rapport (le leur en général) qui aura été altérée (certaines erreurs conceptuelles, méthodologiques ou de cohérence y auront été introduites).
En temps limité, et éventuellement à l'oral, et sans documents, il devront :
- Identifier les erreurs ;
- Expliquer en quoi ce sont des erreurs (justification) ;
- Proposer les corrections adaptées.
Mots clés
- Analyse statistique
- Modélisation probabiliste
- Estimation et intervalles de confiance
- Tests d’hypothèses (p-value, ANOVA, MANOVA)
- Régressions linéaires multiples
- Réduction de dimension (ACP)
- Partitionnement et clustering (K-means, méthodes non supervisées)
- Validation de modèles (goodness-of-fit, précision, rappel, matrices de confusion)
- Pensée critique et interprétation des résultats
Pré-requis
Mathématiques : notions de base en probabilités, algèbre linéaire, calcul matriciel.
Statistiques : moyenne, variance, corrélation, distributions usuelles.
Informatique : manipulation de données avec Python, notions élémentaires de programmation.
Méthodologie : capacité à lire et interpréter des données chiffrées, goût pour l’analyse critique.