PEARSON : Calculer le coefficient de corrélation de Pearson dans Excel
=PEARSON(matrice1; matrice2)La formule PEARSON est un outil statistique fondamental pour analyser la relation linéaire entre deux variables quantitatives. Elle retourne le coefficient de corrélation de Pearson, une valeur comprise entre -1 et 1 qui mesure l'intensité et la direction de la relation entre deux ensembles de données. Un coefficient proche de 1 indique une corrélation positive forte, tandis qu'une valeur proche de -1 révèle une corrélation négative forte. Une valeur autour de 0 suggère l'absence de relation linéaire. En contexte professionnel, PEARSON s'avère indispensable pour les analyses de marché, les études scientifiques et les rapports financiers. Elle permet de déterminer rapidement si deux variables évoluent ensemble ou en sens inverse, ce qui facilite la prise de décision stratégique. Que vous analysiez la corrélation entre les dépenses publicitaires et les ventes, ou entre la température et la consommation d'énergie, PEARSON fournit une mesure statistique rigoureuse et fiable.
Syntaxe et paramètres
La syntaxe de PEARSON est simple mais puissante : =PEARSON(matrice1; matrice2). Le paramètre matrice1 représente la première plage de données numériques que vous souhaitez analyser, tandis que matrice2 correspond à la seconde plage. Ces deux paramètres sont obligatoires et doivent contenir exactement le même nombre de points de données. Excel calcule alors la covariance des deux variables et la divise par le produit de leurs écarts-types respectifs. Il est crucial que les deux matrices aient des dimensions identiques. Si matrice1 contient 50 valeurs, matrice2 doit également en contenir 50. Les valeurs doivent être numériques ; les textes et les cellules vides sont ignorés automatiquement. Pour des analyses plus sophistiquées, vous pouvez combiner PEARSON avec des conditions ou des filtres. Attention : PEARSON mesure uniquement les relations linéaires. Si vos données présentent une relation non-linéaire, le coefficient peut être proche de zéro malgré une forte dépendance entre les variables.
array1array2Exemples pratiques
Analyse de corrélation entre dépenses publicitaires et chiffre d'affaires
=PEARSON(B2:B13;C2:C13)B2:B13 contient les dépenses publicitaires mensuelles (5000€ à 15000€), C2:C13 contient les chiffres d'affaires correspondants (50000€ à 180000€). La formule retourne un coefficient de 0,94, indiquant une très forte corrélation positive.
Corrélation entre température extérieure et consommation énergétique
=PEARSON(D2:D31;E2:E31)D2:D31 contient les températures quotidiennes (5°C à 25°C), E2:E31 contient la consommation en kWh. La formule retourne -0,87, révélant une forte corrélation négative : plus il fait froid, plus la consommation augmente.
Étude d'efficacité : heures de formation vs performance commerciale
=PEARSON(F2:F26;G2:G26)F2:F26 contient les heures de formation (10 à 80 heures), G2:G26 contient les taux de conversion (15% à 45%). La formule retourne 0,32, indiquant une faible corrélation positive.
Points clés à retenir
- PEARSON retourne un coefficient entre -1 et 1 mesurant la corrélation linéaire entre deux variables. Proche de 1 = corrélation positive forte, proche de -1 = corrélation négative forte, proche de 0 = pas de relation linéaire.
- Les deux matrices doivent avoir exactement le même nombre d'éléments et contenir uniquement des valeurs numériques. Les cellules vides et le texte causent des erreurs #VALUE! ou #NUM!.
- PEARSON mesure uniquement les relations linéaires. Visualisez toujours vos données avec un graphique de dispersion pour détecter les relations non-linéaires ou les valeurs aberrantes.
- CORREL est un alias de PEARSON retournant des résultats identiques. Choisissez selon vos préférences de lisibilité. RSQ (coefficient de détermination) offre une perspective complémentaire en pourcentage de variance expliquée.
- Combinez PEARSON avec d'autres fonctions (IF, INDEX, TINV) pour créer des analyses avancées comme des matrices de corrélation, des interprétations automatisées ou des tests de significativité statistique.
Astuces de pro
Utilisez des plages nommées pour vos analyses PEARSON : créez un nom pour chaque variable (ex: "Publicite" et "Ventes") puis écrivez =PEARSON(Publicite;Ventes). C'est plus lisible et facilite la maintenance.
Impact : Améliore la clarté du code Excel, réduit les erreurs de référence et permet de modifier les plages sans éditer la formule.
Toujours visualisez vos données avec un graphique de dispersion avant d'interpréter PEARSON. Une corrélation de 0,9 peut être trompeuse s'il existe une relation non-linéaire ou des valeurs aberrantes.
Impact : Évite les conclusions erronées et vous permet de détecter les anomalies ou les patterns cachés dans vos données.
Testez la robustesse de votre corrélation en recalculant PEARSON sur des sous-ensembles de données. Si le coefficient varie énormément, vos résultats dépendent fortement de quelques points aberrants.
Impact : Augmente la fiabilité de vos analyses et vous permet d'identifier les données problématiques nécessitant un nettoyage.
Combinez PEARSON avec FORECAST ou TREND pour créer des modèles de prédiction. Plus la corrélation est forte, plus vos prédictions seront précises.
Impact : Transforme une simple analyse de corrélation en outil prédictif puissant pour la planification et les prévisions.
Combinaisons utiles
Corrélation conditionnelle avec IF et PEARSON
=IF(PEARSON(B2:B13;C2:C13)>0.7;"Forte corrélation positive";IF(PEARSON(B2:B13;C2:C13)<-0.7;"Forte corrélation négative";"Corrélation faible"))Cette combinaison calcule PEARSON et l'interprète automatiquement en texte lisible. Elle retourne une description de la force et de la direction de la corrélation, idéale pour les rapports automatisés.
Matrice de corrélation avec PEARSON et INDEX
=PEARSON(INDEX($A$2:$D$13;;COLUMN()-1);INDEX($A$2:$D$13;;COLUMN()))Combinaison avancée pour créer une matrice de corrélation multi-variables. Chaque cellule calcule la corrélation entre deux colonnes différentes, utile pour l'analyse multivariée.
Test de significativité avec PEARSON et TINV
=ABS(PEARSON(B2:B13;C2:C13)*SQRT(COUNT(B2:B13)-2)/SQRT(1-PEARSON(B2:B13;C2:C13)^2))>TINV(0.05;COUNT(B2:B13)-2)Combine PEARSON avec la distribution t de Student pour tester si la corrélation est statistiquement significative au niveau 5%. Retourne VRAI si la corrélation est significative, FAUX sinon.
Erreurs courantes
Cause : Une ou plusieurs cellules contiennent du texte, des espaces vides non gérés, ou des valeurs non numériques dans l'une des deux matrices.
Solution : Vérifiez que toutes les cellules des deux plages contiennent uniquement des nombres. Utilisez NETTOYER() ou SUBSTITUTE() pour éliminer les caractères indésirables. Vous pouvez aussi utiliser =PEARSON(IF(ISNUMBER(B2:B13),B2:B13),IF(ISNUMBER(C2:C13),C2:C13)) en formule matricielle.
Cause : Les références de cellules dans la formule pointent vers des plages supprimées, déplacées ou inexistantes.
Solution : Vérifiez que les plages B2:B13 et C2:C13 existent réellement et qu'aucune ligne ou colonne n'a été supprimée. Recalculez les références manuellement si nécessaire. Utilisez le gestionnaire de noms pour vérifier les plages nommées.
Cause : Les deux matrices n'ont pas le même nombre d'éléments, ou l'une des matrices contient une seule valeur unique (écart-type = 0).
Solution : Assurez-vous que B2:B13 et C2:C13 contiennent exactement le même nombre de cellules. Si une variable est constante (toutes les valeurs identiques), PEARSON retourne #NUM!. Modifiez vos données ou utilisez une autre métrique statistique.
Checklist de dépannage
- 1.Vérifiez que les deux matrices contiennent exactement le même nombre de cellules (même nombre de lignes et de colonnes)
- 2.Assurez-vous que toutes les cellules contiennent des valeurs numériques ; supprimez ou convertissez le texte, les espaces et les caractères spéciaux
- 3.Confirmez que les références de cellules existent et n'ont pas été supprimées ou déplacées (utilisez Ctrl+[ pour tracer les références)
- 4.Vérifiez qu'aucune des deux variables n'est constante (toutes les valeurs identiques), ce qui génère #NUM!
- 5.Testez avec un sous-ensemble de données pour isoler le problème et confirmer que le reste des données est valide
- 6.Utilisez la fonction TRACE ERREUR ou l'Analyseur de formules (Formules > Vérifier les formules) pour diagnostiquer les erreurs complexes
Cas particuliers
Une des deux matrices contient une valeur unique répétée (ex: tous les 5)
Comportement : PEARSON retourne #NUM! car l'écart-type de cette variable est zéro, rendant impossible le calcul du coefficient.
Solution : Vérifiez vos données source. Si c'est intentionnel, utilisez une autre métrique ou excluez cette variable de l'analyse.
Cela révèle souvent des problèmes de données : valeurs mal importées, filtres appliqués incorrectement ou erreurs de saisie.
Les deux matrices contiennent seulement 1 ou 2 points de données
Comportement : PEARSON retourne une valeur (avec 1 point, retour du point lui-même ; avec 2 points, corrélation parfaite de 1 ou -1), mais statistiquement invalide.
Solution : Augmentez le nombre d'observations. Avec moins de 10 points, les résultats ne sont pas fiables. Minimum recommandé : 30 observations.
Toujours documenter le nombre de points utilisés dans votre analyse pour la transparence statistique.
Les données contiennent des valeurs extrêmes (outliers) très éloignées de la moyenne
Comportement : PEARSON est sensible aux valeurs aberrantes. Un seul outlier peut modifier significativement le coefficient, même avec des centaines d'autres points.
Solution : Identifiez et analysez les outliers séparément. Considérez l'utilisation d'une corrélation robuste (médiane) ou supprimez les outliers justifiés après investigation.
Visualisez toujours avec un graphique de dispersion pour détecter les outliers avant d'interpréter PEARSON.
Limitations
- •PEARSON mesure uniquement les relations linéaires. Une corrélation de 0 ne signifie pas que les variables sont indépendantes ; elles peuvent avoir une relation non-linéaire (exponentielle, logarithmique, etc.) que PEARSON ne détecte pas.
- •PEARSON est très sensible aux valeurs aberrantes (outliers). Un seul point extrême peut distordre le coefficient, particulièrement avec un petit nombre d'observations. Nettoyez vos données avant l'analyse.
- •PEARSON ne mesure pas la causalité, uniquement l'association. Une forte corrélation entre deux variables ne signifie pas que l'une cause l'autre ; une troisième variable peut influencer les deux (corrélation fallacieuse).
- •PEARSON suppose que les données suivent une distribution normale et que la relation est homoscédastique (variance constante). Avec des données fortement asymétriques ou hétéroscédastiques, les résultats peuvent être trompeurs. Utilisez des tests statistiques supplémentaires pour valider.
Alternatives
Retourne R² (le carré du coefficient de corrélation), qui représente la proportion de variance expliquée. Plus intuitif pour certaines analyses.
Quand : Utilisez RSQ quand vous avez besoin de connaître le pourcentage de variation d'une variable expliqué par l'autre. Exemple : RSQ=0,81 signifie que 81% de la variance est expliquée.
Compatibilité
✓ Excel
Depuis Excel 2007
=PEARSON(matrice1; matrice2) - Disponible dans toutes les versions modernes (2007, 2010, 2013, 2016, 2019, 365)✓Google Sheets
=PEARSON(array1; array2) - Syntaxe identique, fonctionne exactement comme dans ExcelGoogle Sheets utilise des points-virgules ou des virgules selon les paramètres régionaux. Disponible dans tous les classeurs Google Sheets modernes.
✓LibreOffice
=PEARSON(array1; array2) - Syntaxe compatible avec LibreOffice Calc et OpenOfficeQuestions fréquentes
Besoin d'automatiser vos analyses statistiques et de générer des rapports de corrélation en un clic? ElyxAI vous offre des templates Excel intelligents qui exploitent PEARSON et d'autres formules avancées pour transformer vos données en insights actionnables. Découvrez comment simplifier vos analyses avec ElyxAI dès aujourd'hui.