Indicateurs pour Mesurer la Relation entre deux Variables qualitatives
tutoriel
Rstudio
Datamangement
Statistique
Published
August 8, 2024
Lorsque nous travaillons avec des données qualitatives, que ce soit des variables nominales ou ordinales, il est tout aussi important de comprendre les relations entre elles. Contrairement aux variables quantitatives, les techniques classiques de corrélation ne s’appliquent pas. Dans cet article, nous allons découvrir comment étudier la liaison entre deux variables qualitatives. C’est une étape indispensable pendant l’exploration des données. Si vous souhaitez faire une analyse bivariée entre variables quantitatives n’hésitez pas à consulter notre article dédié à ce sujet. Vous trouverez aussi ici des informations précieuses pour la statistique descriptive.
Le Test du Chi-Carré
Le test du chi-carré est l’un des indicateurs les plus fondamentaux pour étudier l’indépendance entre deux variables catégorielles. Il permet de déterminer si les fréquences observées diffèrent significativement des fréquences attendues sous l’hypothèse d’indépendance.
La statistique chi-carré est calculée à partir d’un tableau de contingence croisant les modalités des deux variables. Une p-valeur inférieure au seuil de significativité (généralement 0,05) indique qu’il existe une relation significative entre les variables. Bien que ce test nous informe sur l’existence d’une relation, il ne nous renseigne pas sur sa force.
Le V de Cramér
Le V de Cramér est une version normalisée du coefficient de contingence, variant de 0 à 1. Il permet de comparer la force de l’association entre différentes paires de variables catégorielles. Une valeur de 0 indique une indépendance totale, tandis qu’une valeur de 1 correspond à une association parfaite. Généralement, on considère qu’une valeur supérieure à 0,5 indique une association forte.
L’Indice Phi (φ)
Le coefficient Phi mesure l’association entre deux variables qualitatives dichotomiques, telles que des variables binaires (oui/non). Comparable au coefficient de corrélation de Pearson, il varie de -1 à +1, où 0 indique une absence d’association, +1 une association positive parfaite, et -1 une association négative parfaite. Le coefficient phi est particulièrement utile pour évaluer la relation entre des variables binaires telles que la présence ou l’absence d’une maladie, l’exposition ou non à un facteur de risque, ou le succès ou l’échec d’un traitement. Par exemple, il pourrait être utilisé pour mesurer l’association entre le tabagisme (fumeur/non-fumeur) et le développement d’une maladie pulmonaire (présente/absente).
Application
Comment utiliser R pour calculer ces principaux indicateurs. Nous allons utiliser des données synthétiques pour illustrer ces notions
library(ggplot2)library(rcompanion) # Contenant la fonction de calcul du coef de Cramerset.seed(123) # Pour rendre le travail reproductiblen <-200# Taille de l'échantillon# Nous allons créer des données fictives sur le tabagismesmoking <-sample(c("Fumeur", "Non-fumeur"), n, replace =TRUE, prob =c(0.3, 0.7))# Création des données sur la maladie pulmonaire, en tenant compte du statut tabagiquelung_disease <-sapply(smoking, function(x) {if(x =="Fumeur") {sample(c("Malade", "Sain"), 1, prob =c(0.6, 0.4)) } else {sample(c("Malade", "Sain"), 1, prob =c(0.2, 0.8)) }})data <-data.frame(smoking, lung_disease)## NB : je reviendrai sur les fonctions apply dans un autre article# Visualisationggplot(data, aes(x = smoking, fill = lung_disease)) +geom_bar(position ="fill") +labs(title ="Relation entre Tabagisme et Maladie Pulmonaire",x ="Statut Tabagique", y ="Proportion",fill ="État de Santé") +theme_minimal()
# Création du tableau de contingencecont_table <-table(data$smoking, data$lung_disease)print(cont_table)
Malade Sain
Fumeur 39 16
Non-fumeur 32 113
# Test du Chi-carréchi_test <-chisq.test(cont_table)print(chi_test)
Pearson's Chi-squared test with Yates' continuity correction
data: cont_table
X-squared = 39.434, df = 1, p-value = 3.393e-10
# V de Cramercramer_v <-cramerV(cont_table)round(cramer_v, 3)
Cramer V
0.456
Interprétation
L’analyse bivariée tabagisme - maladie pulmonaire révèle que le test du Chi-carré est statistiquement significatif, indiquant une association entre le tabagisme et la maladie pulmonaire. Le V de Cramér, avec une valeur de 0,44, suggère que cette association est modérée. Il existe donc une relation notable entre le fait de fumer et la probabilité de développer une maladie pulmonaire, mais cette relation n’est pas extrêmement forte. Cela pourrait indiquer qu’il existe d’autres facteurs en jeu qui influencent également la survenue de maladies pulmonaires, en plus du tabagisme. (Ceci n’est que des données fictives générées)