La matrice de variance-covariance expliquée simplement

La matrice de variance-covariance : définition, construction pas à pas, écriture matricielle, exemples à deux et trois variables, propriétés et lien avec l'ACP.

Virageprépa

23 juin 2026

La matrice de variance-covariance résume en un seul objet la dispersion d'un ensemble de variables et la façon dont elles varient ensemble. C'est un outil de base des statistiques et des maths appliquées, qu'on retrouve notamment en ECG et au cœur de méthodes comme l'analyse en composantes principales.
Cet article en donne la définition, la méthode de construction pas à pas, son écriture matricielle, deux exemples numériques complets (à deux puis trois variables), les propriétés à retenir et un mot sur ses prolongements.

Définition

Pour un vecteur aléatoire X = (X₁, …, X_p), la matrice de variance-covariance Σ est la matrice carrée p × p dont le coefficient situé en ligne i et colonne j est la covariance entre Xᵢ et Xⱼ :
Σᵢⱼ = Cov(Xᵢ, Xⱼ).
Sur la diagonale, on retrouve les variances, puisque Cov(Xᵢ, Xᵢ) = Var(Xᵢ). Hors diagonale, on lit la covariance entre deux variables distinctes. Comme Cov(Xᵢ, Xⱼ) = Cov(Xⱼ, Xᵢ), la matrice est toujours symétrique : elle est égale à sa transposée.

Construction pas à pas

À partir de données, la construction suit une logique simple. Étape 1 — calculer la moyenne de chaque variable. Étape 2 — centrer les données, c'est-à-dire soustraire à chaque valeur la moyenne de sa variable. Étape 3 — pour chaque couple de variables, calculer la moyenne des produits des écarts centrés : c'est leur covariance. Étape 4 — ranger variances (diagonale) et covariances (hors diagonale) dans la matrice.
Le centrage est l'étape clé : c'est en travaillant sur les écarts à la moyenne, et non sur les valeurs brutes, qu'on mesure réellement comment deux variables s'écartent ensemble de leur tendance centrale.

Exemple à deux variables

Prenons deux variables observées sur 4 individus : X = (2, 4, 4, 6) et Y = (3, 3, 5, 5).
Les moyennes valent 4 pour X et 4 pour Y. Les écarts centrés de X sont (−2, 0, 0, 2) et ceux de Y sont (−1, −1, 1, 1).
Variance de X : moyenne de (4, 0, 0, 4) = 2. Variance de Y : moyenne de (1, 1, 1, 1) = 1. Covariance : moyenne des produits (−2)(−1), (0)(−1), (0)(1), (2)(1), soit moyenne de (2, 0, 0, 2) = 1.
La matrice de variance-covariance s'écrit donc :

[ 2 1 ]
[ 1 1 ]

Écriture matricielle

On peut éviter de traiter les covariances une à une grâce à une formule matricielle. Notons Xᶜ le tableau des données centrées, avec les n observations en lignes et les p variables en colonnes. Alors :
Σ = (1/n) · Xᶜᵀ · Xᶜ.
Le produit Xᶜᵀ·Xᶜ rassemble d'un coup tous les produits scalaires entre colonnes centrées : le coefficient (i, j) du résultat est la somme des produits des écarts de la variable i et de la variable j, qu'il suffit de diviser par n. Sur l'exemple précédent, la colonne centrée de X est (−2, 0, 0, 2) et celle de Y est (−1, −1, 1, 1) ; leur produit scalaire vaut (−2)(−1) + 0 + 0 + (2)(1) = 4, et 4/4 = 1 redonne bien la covariance lue plus haut.

Exemple à trois variables

Passons à trois variables sur 4 individus : X = (1, 3, 5, 7), Y = (3, 5, 3, 5), Z = (6, 6, 4, 4).
Les moyennes valent 4, 4 et 5. Les écarts centrés sont : X → (−3, −1, 1, 3), Y → (−1, 1, −1, 1), Z → (1, 1, −1, −1).
On calcule les variances : Var(X) = moyenne de (9, 1, 1, 9) = 5 ; Var(Y) = moyenne de (1, 1, 1, 1) = 1 ; Var(Z) = moyenne de (1, 1, 1, 1) = 1.
Puis les covariances : Cov(X, Y) = moyenne de (3, −1, −1, 3) = 1 ; Cov(X, Z) = moyenne de (−3, −1, −1, −3) = −2 ; Cov(Y, Z) = moyenne de (−1, 1, 1, −1) = 0.
La matrice s'écrit :

[ 5 1 −2 ]
[ 1 1 0 ]
[ −2 0 1 ]

On lit directement la structure des liens : X et Z varient en sens opposé (covariance négative), tandis que Y et Z n'ont aucun lien linéaire (covariance nulle). La symétrie de la matrice se vérifie d'un coup d'œil.

Variance empirique : 1/n ou 1/(n − 1) ?

Selon le contexte, on rencontre deux conventions. La version « 1/n » correspond à la variance de la distribution observée. La version « 1/(n − 1) », dite estimateur sans biais, est souvent privilégiée en statistique inférentielle, lorsqu'on cherche à estimer la variance d'une population à partir d'un échantillon. Les deux ne diffèrent que par le facteur de normalisation, et l'écart devient négligeable quand n est grand. L'essentiel est de préciser la convention utilisée, car selon les manuels et les filières l'une ou l'autre est retenue par défaut.

Propriétés à retenir

Plusieurs propriétés structurent cet objet. D'abord, la matrice est symétrique (Σᵢⱼ = Σⱼᵢ). Ensuite, elle est semi-définie positive : pour tout vecteur v, on a vᵀΣv ≥ 0 — ce qui traduit le fait qu'une variance ne peut pas être négative, vᵀΣv étant la variance de la combinaison linéaire correspondante des variables. Étant symétrique réelle, elle est diagonalisable dans une base orthonormée, et ses valeurs propres sont toutes réelles et positives ou nulles. Enfin, lorsqu'une variable est combinaison linéaire exacte des autres, le déterminant s'annule : la matrice n'est plus inversible, signe d'une redondance dans les données.

De la covariance à la corrélation

On passe de la matrice de covariance à la matrice de corrélation en divisant chaque covariance par le produit des écarts-types des deux variables. On obtient alors des coefficients compris entre −1 et 1, indépendants des unités de mesure. Dans l'exemple à deux variables, la corrélation entre X et Y vaut 1 / (√2 × 1), soit environ 0,71. Dans l'exemple à trois variables, la corrélation entre X et Z vaut −2 / (√5 × 1), soit environ −0,89 : un lien négatif marqué, là où Y et Z affichent une corrélation nulle.
La corrélation est souvent plus parlante que la covariance pour comparer des intensités, justement parce qu'elle gomme l'effet des unités et des échelles.

Interprétation

Le signe de la covariance indique le sens de la relation : positif si les deux variables ont tendance à augmenter ensemble, négatif si l'une augmente quand l'autre diminue, proche de zéro s'il n'y a pas de lien linéaire marqué. L'intensité, elle, se lit mieux sur la corrélation, qui normalise l'échelle. Un point de vigilance : une covariance (ou une corrélation) proche de zéro signale l'absence de lien linéaire, pas l'absence de tout lien — deux variables peuvent être liées par une relation non linéaire tout en ayant une covariance nulle.

Un mot sur l'analyse en composantes principales

La matrice de variance-covariance est le point de départ de l'analyse en composantes principales (ACP), une méthode courante de réduction de dimension. L'idée : diagonaliser la matrice pour identifier les directions selon lesquelles les données varient le plus (les vecteurs propres associés aux plus grandes valeurs propres). On peut alors résumer un jeu de données à quelques axes principaux en perdant peu d'information. C'est l'une des raisons pour lesquelles cette matrice occupe une place centrale en maths appliquées.

FAQ

La diagonale contient les variances de chaque variable, puisque la covariance d'une variable avec elle-même est sa variance. Hors diagonale, on trouve les covariances entre variables distinctes.

Parce que la covariance est symétrique : Cov(Xᵢ, Xⱼ) = Cov(Xⱼ, Xᵢ). Le coefficient en (i, j) est donc égal à celui en (j, i), ce qui rend la matrice égale à sa transposée.

La matrice de corrélation est la version normalisée de la matrice de covariance : chaque coefficient est divisé par le produit des écarts-types, ce qui donne des valeurs entre −1 et 1, sans unité, plus faciles à comparer.

Parce que pour tout vecteur v, la quantité vᵀΣv est la variance d'une combinaison linéaire des variables, qui ne peut pas être négative. Cette propriété garantit aussi que les valeurs propres sont positives ou nulles.

Aller plus loin avec Virage Prépa. Les statistiques et l'algèbre des matrices (comme le rang d'une matrice) sont au cœur des maths appliquées en ECG. Pour les travailler avec méthode, Virage Prépa propose cours particuliers, annales corrigées et concours blancs encadrés par des étudiants des meilleures écoles.

Youtube

Instagram

Tiktok

Comprenez pourquoi les meilleurs étudiants choisissent ViragePrépa

N’hésitez pas à nous adresser vos demandes à l'aide de ce formulaire de contact. Nous vous répondrons dans les plus brefs délais.

Comprenez pourquoi les meilleurs étudiants choisissent ViragePrépa

N’hésitez pas à nous adresser vos demandes à l'aide de ce formulaire de contact. Nous vous répondrons dans les plus brefs délais.

Nos derniers articles

Mathématiques

23 juin 2026

Les bases mathématiques à maîtriser avant la prépa

Prépa

23 juin 2026

Les polynômes de Legendre : cours et propriétés

Mathématiques

23 juin 2026

Le rang d'une matrice : définition et méthode de calcul

Géopolitique

22 juin 2026

Pays émergents : définition, BRICS et enjeux en 2026

Mathématiques

23 juin 2026

Les bases mathématiques à maîtriser avant la prépa

Prépa

23 juin 2026

Les polynômes de Legendre : cours et propriétés

Mathématiques

23 juin 2026

Le rang d'une matrice : définition et méthode de calcul

Mathématiques

23 juin 2026

Les bases mathématiques à maîtriser avant la prépa

Prépa

23 juin 2026

La matrice de variance-covariance expliquée simplement

Définition

Construction pas à pas

Exemple à deux variables

Écriture matricielle

Exemple à trois variables

Variance empirique : 1/n ou 1/(n − 1) ?

Propriétés à retenir

De la covariance à la corrélation

Interprétation

Un mot sur l'analyse en composantes principales

Comprenez pourquoi les meilleurs étudiants choisissent ViragePrépa

Comprenez pourquoi les meilleurs étudiants choisissent ViragePrépa

Nos derniers articles

Nos derniers articles

Les bases mathématiques à maîtriser avant la prépa

Les polynômes de Legendre : cours et propriétés

Le rang d'une matrice : définition et méthode de calcul

Pays émergents : définition, BRICS et enjeux en 2026

Les bases mathématiques à maîtriser avant la prépa

Les polynômes de Legendre : cours et propriétés

Le rang d'une matrice : définition et méthode de calcul

Les bases mathématiques à maîtriser avant la prépa

Les polynômes de Legendre : cours et propriétés

Intégrer le top 5 des grandes écoles facilement

Intégrer le top 5 des grandes écoles facilement

Intégrer le top 5 des grandes écoles facilement