Gros débats ces temps-ci sur la place et le futur des statistiques dans le vaste domaine de l’analyse de données. Tout le monde parle du Big Data et des approches informatiques pour extraire des tendances et réaliser des prédictions sans avoir de modèle statistique. Avec le Big Data et l’apprentissage automatisé (machine learning), tout est supposément plus simple et plus efficace.. Plus besoin de modèles statistiques compliqués ni de statisticiens qui nous parlent en chinois!
Ca semble trop beau pour être vrai? C’est probablement le cas.. Les statisticiens d’expérience vous diront que c’est simplement un nouvel emballage de méthodes statistiques connues, mais sans se préoccuper des limites des modèles et des conditions d’utilisation. Bref, on semble avoir réinventer la roue.. mais en pire!
Un excellent billet du Dr Norm Malhoff (professeur de statistiques et auteur d’un excellent livre gratuit sur les modèles statistiques en contexte computationnel) qui s’insurge des fausses promesses du Big data et du Machine Learning : Losing Ground to CS, Losing Image Among Students
Toutefois, la profession est en train de faire son examen de conscience.. car il y a encore de gros efforts à faire pour mettre à jour l’enseignement des statistiques et exposer les étudiant(e)s aux méthodes modernes d’analyse de données :
Why are we still teaching about the t-tests?
Time to Embrace a New Identity?
Bonne lecture!