<- 10
x <- "Bonjour" y
Bienvenue dans l’initiation à la programmation RStudio !
RStudio est un environnement de développement intégré (IDE) pour la programmation en R. Il est utilisé pour la manipulation et l’analyse de données, la création de graphiques et la génération de rapports. Dans cet article, nous allons explorer les bases de la programmation en R avec l’interface RStudio.
Affectation de variables
La première étape de la programmation en R consiste à affecter des valeurs à des variables. Les variables en R peuvent contenir des nombres, des chaînes de caractères, des listes et d’autres types de données. Pour affecter une valeur à une variable en R, utilisez le symbole d’affectation <-. Par exemple :
Affichage de valeurs
utilisez la fonction “print()” pour afficher les valeurs de variables, par exemple :
print(x)
[1] 10
print(y)
[1] "Bonjour"
Types de données
En R, il existe plusieurs types de données, qui peuvent être regroupés en six grandes catégories : les données numériques, les données de caractères, les données logiques, les dates et heures, les facteurs et les données manquantes.
Données numériques
Les données numériques sont les nombres. On distingue les nombres entiers (par exemple : 1, 2, 3) des nombres à virgule flottante (par exemple : 1.5, 2.7, 3.14).
<- 5
a <- 3
b class(b)
[1] "numeric"
Données de caractères
Une chaîne de caractères est une séquence de caractères entourée de guillemets ou d’apostrophes simples. Les chaînes de caractères sont souvent utilisées pour stocker des données textuelles. Elles sont souvent utilisées pour stocker des noms, des adresses, des textes, etc. Par exemple :
<- "Bonjour"
x <- 'le monde'
y class(y)
[1] "character"
Données logiques
Les données logiques ne peuvent prendre que deux valeurs : TRUE (vrai) ou FALSE (faux). Ces données sont souvent utilisées pour stocker des résultats de tests ou de conditions.
Dates et heures
En R, les dates sont stockées sous la forme de types de données spécifiques appelés “Date” et “POSIXct” (pour “POSIX calendar time”).
Le type de données “Date” est utilisé pour stocker des dates calendaires (jour, mois et année). Les dates peuvent être créées en utilisant la fonction “as.Date()” ou en entrant directement la date dans le format “AAAA-MM-JJ”. Par exemple :
<- as.Date("2023-03-26")
date1 <- as.Date("26/03/2023", format = "%d/%m/%Y")
date2 class(date1)
[1] "Date"
Le type de données “POSIXct” est utilisé pour stocker des dates et heures, avec une précision jusqu’à la seconde. Les dates et heures peuvent être créées en utilisant la fonction “as.POSIXct()” ou en entrant directement la date et l’heure dans le format “AAAA-MM-JJ HH:MM:SS”. Par exemple :
<- as.POSIXct("2023-03-26 10:30:00")
datetime1 <- as.POSIXct("26/03/2023 10:30:00",
datetime2 format = "%d/%m/%Y %H:%M:%S")
Facteurs
Les facteurs sont utilisés pour représenter des variables catégorielles, telles que des variables nominales ou ordinales. Les facteurs sont créés en utilisant la fonction “factor()”. Par exemple, pour créer un facteur représentant les niveaux de satisfaction (“faible”, “moyen” et “élevé”), on peut utiliser la commande suivante :
<- factor(c("moyen", "faible", "élevé", "moyen", "élevé"))
satisfaction class(satisfaction)
[1] "factor"
Données manquantes
Les données manquantes sont des valeurs qui ne sont pas disponibles ou qui n’ont pas été renseignées pour une observation donnée. En R, les données manquantes sont représentées par NA (Not Available) ou NaN (Not a Number) pour les calculs mathématiques.
Il est important de connaître les différents types de données en R car cela peut influencer le type d’opérations que vous pouvez effectuer sur ces données. Par exemple, il n’est pas possible d’additionner une chaîne de caractères à un nombre.
Opérations mathématiques
Utilisez les opérateurs arithmétiques standard (+, -, *, /) pour effectuer des opérations mathématiques, par exemple :
<- a + b
c print(c)
[1] 8
structures et types de données en R :
Vecteurs
Un vecteur est une séquence ordonnée d’éléments du même type. Les éléments peuvent être des nombres, des chaînes de caractères ou d’autres objets en R. Pour créer un vecteur, vous pouvez utiliser la fonction “c()” (pour “combine”). Par exemple :
<- c(1, 2, 3, 4, 5)
v <- c("un", "deux", "trois")
w print(v)
[1] 1 2 3 4 5
class(w)
[1] "character"
Remarquez une différence pour un vecteur. Le résultat renvoie “character” indiquant que w est un vecteur de chaîne de caractère.
Listes
Une liste est une collection ordonnée d’objets de différents types. Chaque élément de la liste peut être de type différent et peut être accédé en utilisant son index. Pour créer une liste, vous pouvez utiliser la fonction “list()”. Par exemple :
<- list(1, "deux", TRUE, c(4, 5, 6))
l print(l)
[[1]]
[1] 1
[[2]]
[1] "deux"
[[3]]
[1] TRUE
[[4]]
[1] 4 5 6
class(l)
[1] "list"
Data frames
Un data frame est une structure de données tabulaire qui peut contenir des vecteurs de différents types. Les data frames sont souvent utilisés pour stocker des données en vue de leur analyse. Pour créer un data frame, vous pouvez utiliser la fonction ” data.frame() “. Par exemple :
<- data.frame(nom = c("Jean", "Pierre", "Lucie"),
df age = c(25, 32, 27),
ville = c("Paris", "Lyon", "Marseille"))
print(df)
nom age ville
1 Jean 25 Paris
2 Pierre 32 Lyon
3 Lucie 27 Marseille
class(df)
[1] "data.frame"
Ces structures de données sont au cœur de la programmation en R et sont largement utilisées dans l’analyse de données.
Les matrices
Les matrices sont des tableaux de données rectangulaires, où chaque élément est du même type de données. Les matrices peuvent être créées en utilisant la fonction “matrix()”. Par exemple, pour créer une matrice de 3 lignes et 2 colonnes contenant des nombres aléatoires, on peut utiliser la commande suivante
Indexation
L’indexation est une opération courante en R qui permet d’extraire des éléments spécifiques d’un objet de données, tels qu’une chaîne de caractères, un vecteur, une liste ou un data frame. Voici quelques exemples d’indexation pour chaque type de données :
Chaîne de caractères :
On peut accéder à un caractère spécifique d’une chaîne en utilisant la fonction str_sub() du package “tidyverse” (Je consacrerai un article spécial à ce super package.) et en indiquant la position du départ et de fin du caractère souhaité. Par exemple :
library(tidyverse)
── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
✔ dplyr 1.0.10 ✔ readr 2.1.4
✔ forcats 1.0.0 ✔ stringr 1.5.0
✔ ggplot2 3.4.1 ✔ tibble 3.2.1
✔ lubridate 1.9.2 ✔ tidyr 1.3.0
✔ purrr 1.0.1
── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
✖ dplyr::filter() masks stats::filter()
✖ dplyr::lag() masks stats::lag()
ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
<- "Bonjour"
chaine str_sub(chaine,1,1) # renvoie "B"
[1] "B"
str_sub(chaine,4,4) # renvoie "j"
[1] "j"
Remarquez que quand vous spécifiez uniquement la position de départ, la fonction tous les caractères restants à partie de ce caractère. Par exemple
str_sub(chaine,4) # renvoie "jour". Le 4eme caractère et tous ceux qui viennent après
[1] "jour"
Vecteur :
Pour un vecteur, on utilise également l’opérateur de crochet [ ]. On peut spécifier une seule position pour extraire un élément unique ou une plage de positions pour extraire plusieurs éléments. Par exemple :
<- c(1, 2, 3, 4, 5)
vecteur 3] # renvoie 3 vecteur[
[1] 3
2:4] # renvoie 2 3 4 vecteur[
[1] 2 3 4
Liste :
L’indexation des listes se fait de la même manière que pour les vecteurs, à l’aide de l’opérateur de crochet [ ]. Cependant, les éléments d’une liste peuvent être de types différents, ce qui permet une indexation plus complexe. Par exemple :
<- list(1:3, "Bonjour", TRUE)
liste 1]][2] # renvoie 2 (deuxième élément du premier élément de la liste) liste[[
[1] 2
2]] # renvoie "Bonjour" liste[[
[1] "Bonjour"
3]] # renvoie TRUE liste[[
[1] TRUE
Data frame :
Les data frames sont des objets de données rectangulaires dans lesquels chaque colonne peut être de type différent. On peut accéder aux éléments d’un data frame en utilisant l’opérateur de crochet [ ] et en indiquant la position de la ligne et de la colonne souhaitées. Par exemple :
<- data.frame(nom = c("Jean", "Luc", "Marie"), age = c(25, 30, 28))
df 2, 1] # renvoie "Luc" (deuxième ligne, première colonne) df[
[1] "Luc"
1:2, 2] # renvoie 25 30 (première et deuxième ligne, deuxième colonne) df[
[1] 25 30
Création de script
La création de scripts est un élément clé de la programmation avec RStudio. Les scripts permettent de regrouper plusieurs commandes dans un même fichier, ce qui facilite leur exécution ultérieure. Pour créer un nouveau script, il suffit de cliquer sur File -> New File -> R Script ou d’utiliser le raccourci clavier Ctrl + Shift + N. Voici un exemple de script :
Affichage de graphiques
RStudio offre des fonctionnalités avancées pour créer et afficher des graphiques. Il est possible de créer des graphiques simples comme des graphiques plus complexes en utilisant des bibliothèques de graphiques. Voici un exemple de graphique simple :
# Affichage de graphiques
<- 1:10
x <- x^2
y plot(x, y, "l", main = "Fonction x^2")
Dans cet exemple, nous avons créé deux variables x et y contenant des valeurs numériques. Pour chaque valeur de x est associée une valeur de y = x au carré. Ensuite, nous avons tracé le graphique de y en fonction de x à l’aide de la fonction plot().
Commentaires
Dans RStudio, vous pouvez ajouter des commentaires en utilisant le même symbole “#” suivi du texte de votre commentaire. Vous pouvez ajouter un commentaire sur une ligne en tapant “#” suivi du texte du commentaire, ou vous pouvez ajouter un commentaire sur plusieurs lignes en utilisant la syntaxe des blocs de commentaires. Par exemple
# Ceci est un commentaire sur une ligne
# Ceci est un commentaire sur
# plusieurs lignes
Lorsque vous exécutez le code dans la console de RStudio, les commentaires sont ignorés et ne sont donc pas pris en compte dans le résultat final.
Charger des packages
R dispose également de nombreux packages qui étendent les fonctionnalités de base de R. Pour charger un package, utilisez la commande library(). Par exemple, pour charger le package dplyr qui permet de manipuler les données.
library(dplyr)
L’initiation aux premières commandes de R est une étape importante pour les débutants en data science. Les différents types de données tels que les chaînes de caractères, les vecteurs, les listes, les data frames et les dates sont essentiels à comprendre pour travailler efficacement avec R.