Aide réalisation ACP, tri des variables
Fermémamiemando Messages postés 33553 Date d'inscription jeudi 12 mai 2005 Statut Modérateur Dernière intervention 7 mars 2025 - 17 janv. 2023 à 18:49
- Aide réalisation ACP, tri des variables
- Tri excel - Guide
- Logiciel tri photo gratuit - Guide
- Triez cette liste par ordre alphabétique des villes et par note de la meilleure à la moins bonne. quel mot est formé par les 8 premières lettres de la colonne code ? ✓ - Forum Excel
- Tri automatique excel sans macro ✓ - Forum Excel
- En cours de traitement sur le site de tri local ✓ - Forum Consommation & Internet
2 réponses
9 déc. 2022 à 18:56
Bonjour, c'est vrai qu'il peut être difficile de savoir quelles variables supprimer dans une analyse en composantes principales (ACP). L'une des principales raisons pour lesquelles l'inertie expliquée par les composantes principales peut être faible est que les variables utilisées ne sont pas suffisamment corrélées entre elles. Cela peut se produire si les variables choisies ne sont pas suffisamment représentatives de la structure sous-jacente des données, ou si elles ne sont pas suffisamment corrélées entre elles pour pouvoir être bien expliquées par les composantes principales.
Pour savoir quelles variables supprimer, il peut être utile d'examiner les valeurs propres de la matrice de corrélation. Les valeurs propres sont les valeurs de la matrice de corrélation qui sont utilisées pour calculer les composantes principales. Si une variable a une valeur propre faible, cela signifie qu'elle n'est pas suffisamment corrélée aux autres variables pour être bien expliquée par les composantes principales. Dans ce cas, il peut être judicieux de la supprimer pour améliorer l'inertie expliquée par les composantes principales.
Il est également possible d'utiliser le test KMO pour déterminer quelles variables supprimer. Le test KMO mesure la "suitabilité" de la matrice de corrélation pour une ACP. Si la valeur MSA du KMO est inférieure à 0,5, cela signifie que les variables ne sont pas suffisamment corrélées entre elles pour une ACP. Dans ce cas, il peut être judicieux de supprimer certaines variables pour améliorer l'inertie expliquée par les composantes principales.
En général, il est recommandé de choisir des variables qui sont suffisamment corrélées entre elles et qui sont représentatives de la structure sous-jacente des données. Cela permettra d'améliorer l'inertie expliquée par les composantes principales et de mieux comprendre les dynamiques des espaces ruraux que vous étudiez.
17 janv. 2023 à 18:49
Bonjour,
Je trouve que ce lien résume bien ce qu'il faut comprendre d'une ACP. Notamment ce passage semble répondre à ta question :
Nous voyons que les deux premiers axes expliquent plus de 80% de l’information. Nous retiendrons donc les axes 1 et 2.
De façon plus générale, on ne retient un axe que sous la condition que la valeur propre qui lui est associée est supérieure ou égale à 1.
Une autre façon de voir est la suivante. Il y a V=9 variables. Il faut donc retenir les axes pour lesquels le pourcentage d’inertie est supérieur à 100/V=100/9=11.1. Il faut donc exclure les axes 3 et 4. Dans le cas présent, l’analyse est assez tranchée et l’analyse est de ce fait facilitée puisque nous ne retenons que deux axes.
Pour rappel, les vecteurs propres permettent de définir les axes de l'ACP.
La valeur propre qui lui correspond donne une idée de son importance : plus une valeur propre est importante, plus la projection du nuage de point sur l'axe correspondant est dispersé, et donc mieux l'axe permet d'isoler des sous nuages de points qui vont décrire une tendance.
Intuition pas rigoureuse de ce qu'est une valeur propre et un vecteur propre, mais qui permet de comprendre de quoi il s'agit : si on prend une ellipse, elle a deux valeurs propres associées à deux axes : son grand axe (qui a la plus grande valeur propre, car elle disperse le plus les points de l'ellipse) et son petit axe (la seconde valeur propre, et qui une fois le première dispersion faite, est la meilleur dispersion possible). Si l'ellipse est parfaite il n'y a pas d'autre valeur propre, le nuage de point est parfaitement caractérisé. Si la forme n'était pas tout à fait une ellipse on trouverait d'autres valeurs propres, mais significativement plus petites.
On peut reproduire suivre le même raisonnement sur un nuage de point, et c'est exactement ce que fait une ACP. Ce faisant, on ramène un nuage de points dans un espace de grande dimension en un nuage de point dans un espace de plus petite dimension (plongement). C'est sur la base de ce plongement qu'on interprète les données. En effet, chaque axe peut être caractérisé par une combinaison linéaire de variables (aka un vecteur propre), et donc cette combinaison linéaire induit une corrélation entre ces variables.
Algorithmiquement parlant on peut une ACP, arrêter quand on veut dans la réduction du nombre de dimensions. Mais on sent si on repense à l'exemple de l'ellipse que si on s'arrête trop tôt, on caractérise mal l'ellipse, si on s'arrête trop tard on s'attarde sur des détails. L'inertie permet de traduire cette notion et montre qu'elle est directement reliée aux valeurs propres, donc à la pertinence d'un axe. Les critères d'arrêt évoqués dans le passage que j'ai cité sont autant de manière de décider quand s'arrêter, mais tu comprends que ces critères sont indicatifs et qu'on pourrait très bien choisir des valeurs voisines pour décider ou non de l'arrêt.
Bonne chance