Archives de catégorie : Statistique

Les statistiques ont un avenir? :)

Gros débats ces temps-ci sur la place et le futur des statistiques dans le vaste domaine de l’analyse de données. Tout le monde parle du Big Data et des approches informatiques pour extraire des tendances et réaliser des prédictions sans avoir de modèle statistique. Avec le Big Data et l’apprentissage automatisé (machine learning), tout est supposément plus simple et plus efficace.. Plus besoin de modèles statistiques compliqués ni de statisticiens qui nous parlent en chinois!

Ca semble trop beau pour être vrai? C’est probablement le cas.. Les statisticiens d’expérience vous diront que c’est simplement un nouvel emballage de méthodes statistiques connues, mais sans se préoccuper des limites des modèles et des conditions d’utilisation. Bref, on semble avoir réinventer la roue.. mais en pire!

Un excellent billet du Dr Norm Malhoff (professeur de statistiques et auteur d’un excellent livre gratuit sur les modèles statistiques en contexte computationnel) qui s’insurge des fausses promesses du Big data et du Machine Learning :  Losing Ground to CS, Losing Image Among Students

Toutefois, la profession est en train de faire son examen de conscience.. car il y a encore de gros efforts à faire pour mettre à jour l’enseignement des statistiques et exposer les étudiant(e)s aux méthodes modernes d’analyse de données :

Why are we still teaching about the t-tests? 

Time to Embrace a New Identity?

Bonne lecture!

Calcul d’un éta carré à l’aide du F seulement

Question posée par des clients dans la dernière année : est-ce possible de calculer une force d’association (éta carré ou \(\eta^2\)) seulement avec le rapport F et les degrés de liberté, sans passer par la table complète de l’ANOVA (i.e., le calcul des sommes de carrés)?

Réponse. Oui, tout à fait. Voici la démonstration :

1. On sait que :

$$
F = \frac{MS_B} {MS_W} = \frac{SS_B/(k-1)} {SS_W/(N-k)}.
$$

Donc \(SS_B = F \times MS_W \times (k-1)\), et \(SS_W = MS_W \times (N-k)\).

2. On sait aussi que :

$$
\eta^2 = \frac{SS_B}{SS_B + SS_W}
$$

3. Donc, si on substitue (1) dans (2) :

$$
\eta^2 = \frac{F \times MS_W \times (k-1)}{F \times MS_W \times (k-1) + MS_W \times (N-k)}
$$

4. Le term \(MS_W\) au numérateur et au dénominateur peut être simplifié, ce qui laisse  :

$$
\eta^2 = \frac{F (k-1)}{F (k-1) + (N-k)} = \frac{F (df_B)}{F (df_B) + (df_W)}
$$

Donc, c’est possible de calculer un éta carré seulement avec le rapport F et les degrés de liberté, sans passer par la table complète d’ANOVA.

Par exemple, si on obtient un rapport \(F(1,8) = 25.0\), l’éta-carré sera de :

$$
\eta^2 = \frac{F (df_B)}{F (df_B) + (df_W)} = \frac{25.0 (1)}{25.0 (1) + (8)} = \frac{25}{33} = 0.758
$$

Dois-je mettre à jour ma version de SPSS?

IBM SPSS (car SPSS a été acquis par IBM en 2009) propose une mise à jour pratiquement annuelle, à l’automne, de leur produit principal, SPSS Statistics.   Devant cette avalanche de versions (la dernière version 21 date d’août 2012), une question revient fréquemment : qu’est-ce qui a changé avec la nouvelle version SPSS? Est-ce que ça vaut la peine de faire la mise à jour?

IBM a une page détaillée sur les ajouts de chaque version. On y traite des changements de la version 15 à la version 21. Quelques « punchs » :

  • SPSS 15 (2006) : ajout des modèles linéaires généralisés et des modèles Generalized Estimating Equations (GEE)
  • SPSS 16 (2007) : importation nouveau format Excel 2007 (xlsx), latent class analysis dans le module SPSS Amos, support pour R, nouveau module SPSS Neural networks
  • SPSS 17 (2008) : éditeur de syntaxe amélioré, imputation multiple, changer la langue des menus directement dans SPSS
  • SPSS 18 (2009) : modules sont indépendants (plus besoin de SPSS base), ajouts de tests non-paramétriques, compatible avec Windows 7
  • SPSS 19 (2010) : ajout modèles linéaires mixtes généralisés (GLMM), support Excel 2010
  • SPSS 20 (2011) : usage de GLMM pour modèles hiérarchiques
  • SPSS 21 (2012) : protection par mot de passe de fichiers et sorties, comparaison de datasets pour erreurs (YEAH!!!), exportation des sorties en Excel

Bonne consultation!

Calculer sa puissance sans se ruiner?

La question du nombre de participants nécessaire à la réalisation d’une recherche empirique relève de l’analyse de puissance. C’est une opération incontournable dans la planification ou la réalisation d’une étude.

Il existe plusieurs logiciels payants pour réaliser ce travail, mais un logiciel gratuit est offert depuis une dizaine d’années par un groupe de chercheurs allemands, en version Windows et OS X : G*Power version 3.

C’est un essentiel à avoir dans son coffre d’outils statistiques.

Cours sur l’analyse longitudinale

L’analyse de données longitudinales est un champ actuel, stimulant et en plein essor en statistiques multivariées. Un chercheur prolifique dans ce domaine est Don Hedeker, auteur du livre Longitudinal Data Analysis.

Son cours est disponible en ligne avec explications, bases de données, exemples de code SAS et tout la tralala.. Un must à consulter si vous êtes intéressé au domaine!

Les Proceedings de SAS sont disponibles..

Chaque année depuis les années ’80, SAS organise un congrès international (anciennement appelé SUGI et maintenant SAS Global Forum) où des milliers de statisticiens, programmeurs, analystes et autres professionnels convergent pour échanger des trucs pour améliorer leur travail avec SAS. Au fil des ans, près de 25 000 présentations ont été réalisées, dont les comptes rendus sont disponibles en format PDF. Une mine d’or pour toute personne intéressée à parfaire ses connaissances SAS.

 

Ajuster ou non le niveau alpha?

Lorsque l’on fait un grand nombre de tests d’hypothèses, une question est généralement soulevé par les reviewers : avez-vous corrigé pour le nombre de tests? Ce dilemne est d’autant plus important qu’une bonne étude a souvent davantage de variables dépendantes et donc sera plus sujette à l’inflation du niveau alpha.

Voici quelques bonnes références qui discutent du problème de la « multiplicity » :