TEST.KHIDEUX : Effectuer un test statistique du Khi-deux en Excel
=TEST.KHIDEUX(plage_réelle; plage_attendue)La formule TEST.KHIDEUX est une fonction statistique avancée permettant de réaliser un test d'indépendance du Khi-deux (Chi-square test) directement dans Excel. Ce test statistique évalue si deux variables catégoriques sont indépendantes l'une de l'autre en comparant les fréquences observées avec les fréquences attendues. Largement utilisée dans les domaines de la recherche, du marketing, de la qualité et de l'épidémiologie, cette formule aide à prendre des décisions basées sur des données fiables. Le test du Khi-deux calcule une statistique qui mesure l'écart entre les données réelles collectées et les données théoriquement attendues sous l'hypothèse d'indépendance. Plus la valeur du Khi-deux est élevée, plus l'écart entre l'observé et l'attendu est important, suggérant une possible dépendance entre les variables. La fonction retourne une probabilité (p-value) qui permet de déterminer si cette dépendance est statistiquement significative. Dans cet article complet, nous explorerons en détail la syntaxe de TEST.KHIDEUX, ses paramètres essentiels, des exemples concrets tirés de situations réelles, et les meilleures pratiques pour l'utiliser correctement dans vos analyses de données.
Syntaxe et paramètres
La formule TEST.KHIDEUX suit la syntaxe suivante : =TEST.KHIDEUX(plage_reelle; plage_attendue). Cette structure simple mais puissante nécessite deux paramètres obligatoires qui doivent être soigneusement préparés. Le premier paramètre, **plage_reelle**, représente les fréquences observées dans vos données réelles. Il s'agit des valeurs que vous avez effectivement mesurées ou comptées lors de votre étude. Cette plage doit contenir des nombres positifs représentant les occurrences ou les fréquences observées pour chaque catégorie. Le deuxième paramètre, **plage_attendue**, contient les fréquences théoriquement attendues si les deux variables étaient parfaitement indépendantes. Ces valeurs sont généralement calculées à partir des distributions marginales selon la formule : (total ligne × total colonne) / total général. Conseil pratique : Les deux plages doivent avoir exactement les mêmes dimensions et le même nombre de cellules. Excel vérifie cette correspondance et retournera une erreur si les dimensions ne correspondent pas. Les valeurs attendues doivent toujours être positives et supérieures à zéro pour éviter les erreurs de calcul. Le résultat retourné est une probabilité entre 0 et 1, où une valeur proche de 0 indique une forte dépendance entre les variables, tandis qu'une valeur proche de 1 suggère une indépendance.
actual_rangeexpected_rangeExemples pratiques
Analyse d'association entre genre et préférence de produit
=TEST.KHIDEUX(B2:C3;B5:C6)La plage B2:C3 contient les fréquences observées (45, 30, 35, 55). La plage B5:C6 contient les fréquences attendues calculées selon l'indépendance : ((45+30)×(45+35))/165≈28.6, ((45+30)×(30+55))/165≈46.4, etc. Le résultat indiquera si le genre et la préférence produit sont indépendants.
Contrôle qualité : défauts de production par ligne
=TEST.KHIDEUX(A2:A4;B2:B4)Les données observées (12, 18, 15) sont comparées aux valeurs attendues (15, 15, 15) qui représentent une distribution égale des défauts. La formule évalue si les écarts observés sont dus au hasard ou à une différence réelle entre les lignes.
Étude épidémiologique : association entre tabagisme et maladie
=TEST.KHIDEUX(B2:C3;B5:C6)Les fréquences observées incluent tous les cas croisés. Les fréquences attendues sont calculées sous l'hypothèse que le tabagisme et la maladie sont indépendants. Un résultat faible indique une association significative.
Points clés à retenir
- TEST.KHIDEUX effectue un test d'indépendance du Khi-deux en comparant les fréquences observées aux fréquences attendues, retournant une p-value pour l'interprétation.
- Une p-value inférieure à 0.05 indique généralement une dépendance statistiquement significative entre les variables, tandis qu'une p-value supérieure à 0.05 suggère l'indépendance.
- Les deux plages (observée et attendue) doivent avoir exactement les mêmes dimensions et contenir uniquement des nombres positifs pour éviter les erreurs.
- Les fréquences attendues doivent être calculées selon la formule (somme ligne × somme colonne) / total général pour assurer la validité du test.
- TEST.KHIDEUX est disponible en Excel 2007 et 2010 sous le nom français, tandis que CHISQ.TEST est la version anglaise recommandée pour les versions récentes.
Astuces de pro
Créez toujours un tableau séparé pour les fréquences attendues plutôt que de les calculer directement dans la formule. Cela rend votre modèle transparent, facile à auditer et à corriger si nécessaire.
Impact : Améliore la maintenabilité du fichier et facilite la détection d'erreurs de calcul. Permet aussi à d'autres utilisateurs de comprendre et de valider votre logique statistique.
Utilisez des noms de plages (menu Formules > Définir un nom) pour vos données observées et attendues. Par exemple : =TEST.KHIDEUX(donnees_observees;donnees_attendues). Cela rend vos formules lisibles et moins sensibles aux erreurs de référence.
Impact : Réduit les bugs liés aux références cassées et améliore la documentation du fichier. Les formules deviennent auto-documentées et plus faciles à maintenir.
Vérifiez toujours que la somme des fréquences observées égale la somme des fréquences attendues. Une divergence indique une erreur de calcul des effectifs attendus.
Impact : Prévient les erreurs silencieuses qui pourraient invalider votre analyse statistique complète.
Pour les tableaux de contingence 2×2, assurez-vous que chaque cellule a un effectif attendu d'au moins 5. Si ce n'est pas le cas, utilisez le test exact de Fisher (non disponible directement en Excel, nécessite des outils externes ou des calculs manuels).
Impact : Garantit la validité statistique de votre test et la fiabilité de vos conclusions.
Combinaisons utiles
TEST.KHIDEUX avec SI pour interprétation automatique
=SI(TEST.KHIDEUX(B2:C3;B5:C6)<0.05;"Dépendance significative";"Indépendance")Cette combinaison évalue automatiquement le résultat du test et retourne une interprétation en texte clair. Si la p-value est inférieure à 0.05, la formule indique une dépendance statistiquement significative, sinon elle indique l'indépendance. Très utile pour les rapports automatisés.
TEST.KHIDEUX avec ARRONDI pour affichage contrôlé
=ARRONDI(TEST.KHIDEUX(B2:C3;B5:C6);4)Arrondit la p-value à 4 décimales pour une présentation plus claire dans les rapports. Cela améliore la lisibilité sans perdre de précision statistique importante. Particulièrement utile pour les présentations professionnelles.
TEST.KHIDEUX avec INDIRECT pour formules dynamiques
=TEST.KHIDEUX(INDIRECT("B2:C"&LIGNE());INDIRECT("B5:C"&LIGNE()))Utilise INDIRECT pour créer des références dynamiques qui s'adaptent automatiquement selon les lignes. Permet de créer des modèles réutilisables où les plages se mettent à jour automatiquement en fonction du contexte.
Erreurs courantes
Cause : Les plages de valeurs réelles ou attendues contiennent du texte, des espaces vides, ou des valeurs non numériques. Cela peut aussi survenir si les dimensions des deux plages ne correspondent pas.
Solution : Vérifiez que toutes les cellules des deux plages contiennent uniquement des nombres. Supprimez les espaces inutiles et assurez-vous que les deux plages ont exactement le même nombre de lignes et de colonnes. Utilisez Ctrl+H pour remplacer les espaces par rien si nécessaire.
Cause : Les références de cellules utilisées dans la formule pointent vers des cellules supprimées, des feuilles supprimées, ou des plages invalides.
Solution : Vérifiez que les plages B2:C3 et B5:C6 (ou vos références) existent réellement et ne contiennent pas d'erreurs. Utilisez le gestionnaire de noms ou la vérification des liens pour identifier les références cassées. Recréez les références manuellement si nécessaire.
Cause : Les valeurs attendues contiennent des zéros ou des nombres négatifs, ce qui est mathématiquement impossible pour un test du Khi-deux. Cela peut aussi survenir si la plage attendue ne contient que des zéros.
Solution : Recalculez les fréquences attendues en utilisant la formule correcte : (total ligne × total colonne) / total général. Vérifiez que tous les totaux sont positifs et non nuls. Si vous obtenez des zéros, augmentez la taille de votre échantillon ou regroupez les catégories avec de faibles effectifs.
Checklist de dépannage
- 1.Vérifiez que les deux plages (observée et attendue) ont exactement le même nombre de lignes et de colonnes. Les dimensions incompatibles causent des erreurs #VALUE!
- 2.Confirmez que toutes les cellules contiennent des nombres positifs. Les zéros, nombres négatifs ou texte causent des erreurs #NUM! ou #VALUE!
- 3.Validez que la somme des fréquences observées égale la somme des fréquences attendues. Une divergence indique une erreur de calcul.
- 4.Vérifiez que les fréquences attendues sont calculées correctement selon la formule : (somme ligne × somme colonne) / total général.
- 5.Assurez-vous que vous avez suffisamment d'observations (généralement au moins 5 par cellule attendue) pour la validité statistique du test.
- 6.Confirmez que les références de cellules ne pointent pas vers des cellules supprimées ou des feuilles inexistantes. Utilisez Ctrl+Maj+F9 pour recalculer le classeur.
Cas particuliers
Tableau 1×1 (une seule cellule dans chaque plage)
Comportement : Excel retourne une p-value, mais le test n'est pas statistiquement significatif avec un seul effectif. Le résultat est mathématiquement correct mais statistiquement non interprétable.
Solution : Augmentez le nombre de catégories ou regroupez vos données différemment pour avoir au moins 2×2 cellules.
Les tests du Khi-deux nécessitent au moins 2 catégories pour être significatifs.
Effectifs attendus très inégaux (certains >> 5, d'autres << 5)
Comportement : Excel calcule quand même la p-value, mais la validité statistique est compromise. Le test peut donner des résultats trompeurs.
Solution : Regroupez les catégories avec de faibles effectifs attendus ou collectez plus de données. Vérifiez que tous les effectifs attendus sont ≥ 5.
C'est une limitation bien connue du test du Khi-deux, pas un bug d'Excel.
Fréquences attendues calculées à partir de données arrondies
Comportement : Les arrondis successifs peuvent causer des divergences minimes entre la somme des observées et la somme des attendues, affectant légèrement la p-value.
Solution : Conservez la précision maximale dans les calculs intermédiaires. Utilisez au moins 6 décimales pour les fréquences attendues avant d'arrondir l'affichage.
Cet effet est généralement négligeable avec des effectifs modérés (>100).
Limitations
- •TEST.KHIDEUX ne fonctionne qu'avec des données catégoriques (fréquences). Les données continues doivent d'abord être regroupées en catégories, ce qui peut entraîner une perte d'information.
- •Le test suppose que les observations sont indépendantes. Si vos données contiennent des observations appairées ou répétées, vous devez utiliser d'autres tests comme le test de McNemar.
- •La validité statistique du test du Khi-deux nécessite que chaque cellule ait un effectif attendu d'au moins 5. Avec des effectifs plus faibles, les résultats peuvent être non fiables et nécessitent le test exact de Fisher (non disponible directement en Excel).
- •TEST.KHIDEUX n'est disponible que dans Excel 2007 et versions ultérieures. Les versions antérieures (2003 et avant) ne supportent pas cette fonction, nécessitant des calculs manuels du Khi-deux avec SOMME et d'autres fonctions de base.
Alternatives
Compatibilité
✓ Excel
Depuis Excel 2007
=TEST.KHIDEUX(plage_reelle;plage_attendue) ou =CHISQ.TEST(actual_range,expected_range) en anglais✓Google Sheets
=CHISQ.TEST(observed_range,expected_range) - Google Sheets utilise la syntaxe anglaise uniquementFonctionne de manière identique mais avec les paramètres en anglais. Les séparateurs peuvent être des virgules ou des points-virgules selon les paramètres régionaux.
✓LibreOffice
=CHISQ.TEST(observed_range;expected_range) - LibreOffice Calc supporte les deux syntaxes selon la langue