Pays | new | mag | tv | rad | cin | otr |
---|---|---|---|---|---|---|
bel | 35.3 | 20.5 | 27.5 | 1.2 | 1.4 | 14.2 |
dk | 76.1 | 11.8 | 9.6 | 0.8 | 0.4 | 1.3 |
fr | 28.6 | 27.5 | 24.8 | 6.6 | 0.8 | 11.7 |
al | 46.0 | 27.9 | 15.8 | 5.1 | 1.2 | 3.9 |
gr | 26.0 | 28.2 | 35.3 | 5.7 | 0.0 | 4.8 |
ir | 63.7 | 5.4 | 19.6 | 6.2 | 0.0 | 5.1 |
Introduction
L’Analyse en Composantes Principales (ACP) également appelée PCA en anglais (Principal Component Analysis) est l’une des méthodes d’analyse de données qui permet d’explorer des jeux de données multidimensionnels constituées de variables quantitatives (continues ou discrètes) qui sont représentées sous la forme d’un tableau à M observations / N variables.
L’ACP permet de :
- Réduire les données en beaucoup moins de variables qu’on appelle des scores : ce sont les moyennes pondérées des variables originales.
- Visualiser et analyser rapidement les corrélations entre les différentes variables
- Visualiser et analyser M observations initialement décrite par N variables sur un graphique à deux ou 3 dimensions construit de sorte que la dispersion entre les données soit le plus préservé possible.
- Construire un ensemble de facteurs non corrélés
- Dégager des tendances dans un jeu de données.
Contexte
Les donées représentent la répartition (en pourcentages) des dépenses publicitaires par média dans seize pays d’Europe en 1990. On se propose d’analyse les grandes tendances des dépenses publicitaires par média et par pays en utilisant l’analyse en composantes principales
Chargement des données
Ci-dessous les premières lignes du jeu de données.
EXploration et description des données .
vars | n | mean | sd | median | trimmed | mad | min | max | range | skew | kurtosis | se | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
new | 1 | 16 | 49.77 | 19.00 | 48.20 | 49.48 | 25.57 | 25.1 | 78.60 | 53.50 | 0.17 | -1.53 | 4.75 |
mag | 2 | 16 | 19.24 | 6.66 | 18.65 | 19.59 | 7.04 | 5.4 | 28.20 | 22.80 | -0.17 | -0.95 | 1.67 |
tv | 3 | 16 | 20.34 | 12.84 | 18.65 | 20.02 | 15.94 | 2.2 | 43.02 | 40.82 | 0.15 | -1.39 | 3.21 |
rad | 4 | 16 | 3.94 | 3.06 | 3.10 | 3.77 | 3.26 | 0.0 | 10.30 | 10.30 | 0.45 | -1.14 | 0.76 |
cin | 5 | 16 | 0.54 | 0.47 | 0.45 | 0.51 | 0.59 | 0.0 | 1.40 | 1.40 | 0.35 | -1.31 | 0.12 |
otr | 6 | 16 | 6.16 | 4.10 | 4.55 | 5.93 | 2.52 | 1.3 | 14.20 | 12.90 | 0.71 | -1.10 | 1.03 |
Le jeu de données dont nous disposons contiennent 16 observations représentant des pays sur lesquels les techniques de publicités utilisées ont été évalués. Chaque variable représente la part d’un type de publicité utilisé par le pays. Il y a par exemple “new” qui représente la part de publicité consacrée aux journaux.
En Europe (16 pays analysés), 1990, les journaux représentent la moitié des dépenses publicitaires devant la télévision et les magazines. Le cinéma est très peu utilisé.
L’utilisation des journaux “new” varie de 25.1 % à 78.60 % selon les pays avec une moyenne de 49.77 % , une médiane à de 48.20 % et un écart type de 19. Cette donnée est disponible pour tous les observations du dataset.
L’utilisation des magazines “mag” varie de 5.4 % à 28.20 % selon les pays avec une moyenne de 19.24 % , une médiane à de 18.65 % et un écart type de 6.66. Cette donnée est disponible pour tous les observations du dataset.
La télévision représent 20,34% des dépenses publicitaire alors que le cinéma ne représente que 0.54%
On remarque que les différentes méthodes de pulicité ont différentes étendues avec des moyennes qui sont différentes les une des autres. Afin de réduire l’effet des variabilités intrinseque de chaque variable, nous allons procéder à une normalisation des données. Ainsi au niveau de l’acp, nous procédérons à une procédure normée.
Matrice de corrélation
Matrice des pvalue
On remarque que le type de publicité “new” est fortement corrélé avec “mag” et “tv” En regardant la matrice des pvalues de corrélation on voit que ces corrélation sont significatives. Il faut remarquer que les coef de corrélation sont de signe -. On en déduit que lorsque “new” augmente d’une unité, “mag” et “tv” diminuent d’une unité.
Nous allons renommer les observations pour faciliter l’intépretation des sorties.
PCA
L’ACP, ou Analyse en Composantes Principales, est une approche statistique qui est employée pour résumer l’information contenue dans une matrice. De façon très résumée, en pratique l’ACP va rechercher l’axe dans lequel les observations sont le plus dispersée.
Comme expliquer plus haut, les données utilisées ici décrivent la part de chaque type de publicités utilisé par différents pays. Elles contiennent 16 individus (pays) décrits par 7 variables ( type de publicités).
Valeurs propres / Variances
Les valeurs propres (eigenvalues en anglais) mesurent la quantité de variance expliquée par chaque axe principal. Les valeurs propres sont grandes pour les premiers axes et petits pour les axes suivants. Autrement dit, les premiers axes correspondent aux directions portant la quantité maximale de variation contenue dans le jeu de données. Nous examinons les valeurs propres pour déterminer le nombre de composantes principales à prendre en considération.
eigenvalue | variance.percent | cumulative.variance.percent | |
---|---|---|---|
Dim.1 | 2.6990468 | 44.9841134 | 44.98411 |
Dim.2 | 1.5430481 | 25.7174685 | 70.70158 |
Dim.3 | 0.7775508 | 12.9591803 | 83.66076 |
Dim.4 | 0.5795016 | 9.6583592 | 93.31912 |
Dim.5 | 0.4008445 | 6.6807420 | 99.99986 |
Dim.6 | 0.0000082 | 0.0001366 | 100.00000 |
La somme de toutes les valeurs propres donne une variance totale de 6.
La proportion de variance expliquée par chaque valeur propre est donnée dans la deuxième colonne. Par exemple, 2.699 divisé par 6 est égal à 0.4498, ou, environ 44.98% de la variation est expliquée par cette première valeur propre. Le pourcentage cumulé expliqué est obtenu en ajoutant les proportions successives de variances expliquées. Par exemple, 44.98% plus 25.71% sont égaux à 70.70%, et ainsi de suite. Par conséquent, environ 70.70% de la variance totale est expliquée par les deux premières valeurs propres.
Les valeurs propres peuvent être utilisées pour déterminer le nombre d’axes principaux à conserver après l’ACP. Soit en prenant toutes composantes dont la valeur prope est supérieure à 1 (information totale divisée par nombre de variable) lorsque les données sont normalisées, soit en limitant le nombre d’axes à un nombre qui représente une certaine fraction de la variance totale, souvent 80%. Une autre façon de procéder est d’utiliser le test des éboulis, le « coude » du graphique (scree plot) où les valeurs propres semblent se stabiliser est trouvé et les facteurs ou composants à gauche de ce point doivent être conservés comme significatifs. Dans notre cas ici en fixant un minimun de 80% de la variance totale des données, on retient les trois premières composantes qui représentent 83.66% de la variance totale des données. Ceci se confirme aussi au niveau du scree plot.
Les Variables
Une ACP consiste donc en la transformation des d variables originelles, fortement liées entre elles, en nouvelles variables décorrélées les unes des autres par construction. Ces nouvelles variables sont nommées composantes principales, ou plus simplement axes.
Corrélation entre composantes
Corrélation entre variables natives
Comme on peut le voit sur ces deux matrices de corrélations, les variables d’origines (new, mag …) sont plus ou moins fortement négativement ou positivement corrélées entre elles, mais elles ont été remplacées par de nouvelles variables (composantes principales) toutes décorrélées les unes des aurtres. A présent, nous allons analyser les résultats pour les variables actives (corrélation entre variables et les axes, cosinus-carré et contributions).
Les corrélations,
La corrélation entre une variable et une composante principale (PC) est utilisée comme coordonnées de la variable sur la composante principale. La représentation des variables diffère de celle des observations: les observations sont représentées par leurs projections, mais les variables sont représentées par leurs corrélations.
Le graphique ci-dessus (à droite) est également connu sous le nom de graphique de corrélation. des variables. Il montre les relations entre toutes les variables. Il peut être interprété comme suit:
- Plus une variable possède une qualité de représentation élevée dans l’ACP, plus sa flèche est longue;
- Plus deux variables sont corrélées, plus leurs flèches pointent dans la même direction (dans le cercle de corrélation, le coefficient de corrélation est symbolisé par les angles géométriques entre les flèches);
- plus une variable est proche d’un axe principal de l’ACP, plus elle est liée à lui.
On retrouve les liens qu’on avait déjà établi grace au coéfficient de corrélation linéaire. A savoir l’utilisation de “new” comme moyen de publicité est fortement corrélé (négativement) avec l’utilisation de “tv”, “mag” ou encore “rad”. Les Pays ayant donc tendance à utiliser plus les “new” comme moyen de publicité utilisent moins les “tv”, “mag” ou encore “rad”. Alors que les pays utilisant la télévision comme moyen de publicié ont tendance à utiliser aussi la radio.
La figure de gauche nous montre les coordonnées de chaque variable d’origine sur les nouvelle composantes. Ce coefficient est compris entre -1 et + 1. Lorsque les corrélations sont positives, cela signifie que les variables varient en moyenne dans le même sens, elles augmentent et diminuent ensemble. Si le coefficient de corrélation est inférieur à 0, cela signifie que la liaison est de sens opposé.
Qualité de représentation
La qualité de représentation des variables sur la carte de l’ACP s’appelle cos2 (cosinus carré) . On note qu’un cos2 élevé indique une bonne représentation de la variable sur les axes principaux en considération. Dans ce cas, la variable est positionnée à proximité de la circonférence du cercle de corrélation. Un faible cos2 indique que la variable n’est pas parfaitement représentée par les axes principaux. Dans ce cas, la variable est proche du centre du cercle.
On remarque que la variable new est parfaitement représentée par seulement une composantes principale (Dim.1), son cos2 sur cet axe est quasiment égale à 1. La variable tv y est également bien représentée. Les deux premières dimensions permet de bien représenter la majorité des variables natives à part “rad” qui est plutôt bien représentée sur la troisième dimension. En utilisant les trois premières dimensions, on a une bonne représentation de toutes les variables natives.
Contributions des variables aux axes principaux
Les contributions des variables dans la définition d’un axe principal donné, sont exprimées en pourcentage.
Les variables qui ne sont pas en corrélation avec un axe ou qui sont corrélées avec les derniers axes sont des variables à faible apport et peuvent être supprimées pour simplifier l’analyse globale.
Ceci rejoint nos analyses précédentes. On voit que te type de média “rad” ne contribue pas fortement à la construction des deux premières dimensions, mais a un impact important sur la troisième dimension. Ceci montre encore l’intéret de retenir les trois premières compposantes pour une bonne explication des données. Il est donc important de ne pas oublié que la troisième dimension n’est pas représenté ici.
Représentation des médias dim1, dim3
En faisant une représentation de la première et la troisième dimension, on remarque que la variable “rad” est beaucoup mieux corrélée à la troisième dimension comme nous l’avons remarqué sur la matrice précédente.
Les individus
Ce graphique représente la distance des pays du barycentre sur les deux premières composantes. Un pays situé au centre de ce graphique a tendance à avoir des valeurs moyennes pour toutes les variables, inversement les pays qui s’éloignent du barycentre sont ont des valeurs éloignés de la moyenne et enfin la distance entre les pays traduit leur différence ou similitude. On peut voir graphiquement que le groupe (Suède et Norvège) et celui (Portugal et Grèce) ont des habitudes publicitaires opposés, le premier groupe utilise plus des journaux et moins de télévision et le second groupe fait l’inverse. C’est le cas aussi entre la Belgique et le groupe (Finlande et Irlande) qui ont des habitudes différentes alors que le Royaume Uni et l’Autriche qui se situent au près du barycentre ont des valeurs proches de la moyenne dans chaque média utilisé.
Qualité de représentation et Contribution des individus
Quelles sont les individus qui influencent les plus les résultats de l’ACP? Nous chercherons pour axe les pays qui ont les plus d’impacts dans la construction de chacune des axes.
Comme on l’a vu dans le précédent graphique, les pays proche du cercle de corrélation contribuent fortement à la construction des axes contrairement à ceux qui sont au niveau du centre. Plus la qualité de représentation (tab5) d’un pays est élevée pour une dimension, mieux il est représenté sur cette dimension. On peut voit la Suède très bien représentée sur la dimension 1 et la Belgique sur la dimension 2. La figure ci dessous montre la représentation des pays en dim1, dim3.
Dim.1 | Dim.2 | Dim.3 | Dim.4 | Dim.5 | |
---|---|---|---|---|---|
bel | 1.48 | 27.45 | 0.40 | 4.45 | 25.53 |
dk | 13.42 | 2.69 | 2.59 | 0.04 | 0.88 |
fr | 9.03 | 6.72 | 2.94 | 0.01 | 3.90 |
al | 0.20 | 4.37 | 0.73 | 34.47 | 1.65 |
gr | 11.80 | 3.01 | 5.39 | 1.88 | 3.38 |
ir | 2.50 | 14.74 | 7.45 | 16.50 | 0.71 |
it | 6.72 | 3.69 | 27.27 | 0.14 | 9.62 |
ne | 0.08 | 5.24 | 6.39 | 2.77 | 30.78 |
por | 12.72 | 1.89 | 0.02 | 8.06 | 0.17 |
esp | 3.13 | 3.31 | 31.15 | 3.81 | 3.83 |
uk | 0.17 | 0.76 | 4.45 | 1.56 | 9.95 |
aut | 0.04 | 3.24 | 7.88 | 1.00 | 5.70 |
fin | 4.30 | 7.68 | 0.06 | 0.24 | 2.01 |
nor | 16.11 | 2.28 | 0.04 | 11.39 | 1.13 |
sue | 15.71 | 0.24 | 2.35 | 0.23 | 0.38 |
sui | 2.61 | 12.69 | 0.89 | 13.47 | 0.39 |
C’est aussi la meme analyse pour la contribution des différents pays pour la construction des dimensions (tab6). La Norvège et la Suède qui contribue à elles deux 30% de la construction de la dimension 1. C’est la Belgique et l’Irlande qui s’illustrent dans le cas de la dimension 2 contribuant à 42% pour la construction de cette dimension. Pour la dimension 3, c’est plutôt l’Espagne et l’Italie contribuant à 59%. Comme on peut le voir sur la figure ci dessus (dimensions 1 et 3), l’Espagne et l’Italie y sont bien représentées.
Classification ascendante hiérarchique (CAH)
La classification hiérarchique ascendant est une technique statistique visant à partitionner une population en différents sous-groupes, appelé aussi classes ou clusters. La CAH cherche à ce que les individus au sein d’une même classe soient les plus proches possibles (homogénéité intra-classe) tandis que les classes soient les plus dissemblables possibles. Ce nom vient du fait qu’on commence avec les observations individuelles, qui sont regroupées progressivement jusqu’à ce qu’on obtienne un seul groupe.
Gain d’inertie
Dendrogramme
Le graphique à gauche nous montre le gain d’inertie associé à l’ajout d’un cluster supplémentleaire. Nous observons sur ce graphique qu’au delà de 3-4 clusters le gain d’inertie n’est plus significatif. Nous allons donc utiliser 3 clusters pour regrouper les pays. Le graphique de droite montre l’arbre de construction des clusters, des pays les plus ressemblants jusqu’aux dissemblants.
Etude des clusters
On se donne maintenant la tâche d’étudier les clusters afin de comprendre les différences entre clusters et les similitudes entre les pays regroupés ensemble.
Les pays du cluster 1 sont caractérisés par une utilisation de journaux comme moyen de plubicité plus grandes que les autres pays. En moyenne le recours aux journaux est de 72.56% alors que la moyenne générale est de 49.77%. Par effet inverse le recours à la télévision et des magazines est beaucoup plus faible que dans les autres pays. Ce sont majoritairement les pays de l’Europe de l’Est : La Finlande, la Suède…
Les pays du cluster 2 sont caractérisés par une utilisation du cinéma, des magazines et des moyens de plubicité non formels plus grande que les autres pays. En moyenne les recours cinéma, magazines et des moyens de plubicité non formels sont respectivement de 0.92%, 24.10% et 10.58% alors que les moyennes générales pour ces types de média sont de 0.53%, 19.24% et 6.15%. L’utilisation des autres médias est dans la moyenne. Ce sont majoritairement les pays du centre de l’Europe : La France, l’Allemagne, la Suisse…
Les pays du cluster 3 sont caractérisés par une utilisation de la télévision comme moyen de plubicité plus grandes que les autres pays. En moyenne le recours à la télévision est de 32.48% alors que la moyenne générale est de 20.34%. Par effet inverse le recours aux journaux est beaucoup plus faible que dans les autres pays. Ce sont majoritairement les pays du sud de l’Europe : le Portugal, l’Espagne, l’Italie…
Conclusion
L’ACP la classification sont des méthodes largement utilisée dans tous les domaines qui traitent des données. Elle nous a permis de décrire et expliquer la distribution conjointe des dépenses publicitaires en 1990 de certains pays d’Europe. On n’a pu metrre en évidence que les habitudes publicitaire sont similaires selon les différentes région d’Europe.