Objectifs

Installer les différents packages

Les installation de paquets sur R se font simplement via la fonction : install.packages()
L’ensemble des packages R se trouvent sur le repo du CRAN : http://cran.r-project.org

install.packages("tidyverse", repos='http://cran.r-project.org')

Charger un paquet

Pour utiliser une librairie, la commande suivante chargera le paquet :

library(tidyverse)

La suite tidyverse

tidyverse est un ensemble de packages cohérent permettant d’accéder à une collection de fonctionnalités conçues pour fonctionner ensemble (syntaxe, resultats…)
On retrouve des details de ces librairies a cette adresse

ggplot2 (visualisation)
dplyr (manipulation des donnees)
tidyr (remise en forme des donnees)
purrr (programmation)
readr (importation de donnees)
tibble (tableaux de donnees)
forcats (variables qualitatives)
stringr (chaines de caracteres)

tibble

Tibble est une évolution / extension du classique data frame vu précédemment, ce format ajoute des fonctionnalités, pour autant il reste compatible avec l’objet data frame, il est toujours possible de passer de l’un à l’autre. Tibble est un objet à part entière et retourne un objet de classe tibble.

data.frame to tibble

as_tibble(df)

tibble to data.frame

as.data.frame(tib)

Charger un fichier

Nous allons utiliser dans un premier temps un fichier issu d’une compétition sur le site kaggle : à cette adresse
Vous pouvez telecharger le zip dans la partie Data > Data Sources

Kaggle est un site de compétitions data science, où à partir d’un problème posé, plusieurs data scientists proposent des solutions au travers de modèles statistiques.

Ici le jeu de données est une liste de cours de bourse du S&P500, le S&P500 est un indice au meme titre que le CAC40 français, rassemblant les 500 plus grandes sociétés cotées en bourse americaine, tenant compte des volumes échangés.

Lecture du fichier

df = read_csv('C:/Users/DIONGA/Downloads/dataset/s&p 500/all_stocks_5yr.csv')
Parsed with column specification:
cols(
  date = col_date(format = ""),
  open = col_double(),
  high = col_double(),
  low = col_double(),
  close = col_double(),
  volume = col_double(),
  Name = col_character()
)

Nombre de lignes et de colonnes

dim(df)
[1] 619040      7

Explorer le jeu de données

df %>% View()

Afficher les 5 premieres lignes

df %>% print(5, width = Inf)

Opérations de manipulations / transformations

Filtre sur une journée ou sur un volume

Petite précision, si l’on souhaite obtenir de la documentation sur une fonction, il suffit de taper son nom dans la console précédé par ?
Exemple : ?filter

Le sigle %>% permet d’enchainer les operations, plus largement il passe en argument les données (dataframe) à la fonction qui suit, ou le resultat de la fonction à la fonction suivante.

filter(df, date == "2018-02-07") %>% count()
filter(df, volume > 5927662) %>% count()
df %>% filter(date == "2018-02-07") %>% count()

Même résultat ici

Sélectionner des colonnes

Le signe - permet de retirer des colonnes

df %>% select(-low, -high)

Ici on passe une expression réguliere à la fonction filter(), le but étant d’obtenir toutes les ouvertures et fermetures dont le nom contient “GOO”, ici cela sortira les cours de Google

df %>% filter(grepl("GOO", Name)) %>% select(Name, open, close) 

Trier les données

Pour un ordre décroissant : arrange(desc(date))

df %>% filter(grepl("GOO", Name)) %>% select(Name, date, open, close) %>% arrange(date)

Transformer des colonnes

Pour extraire des informations d’un format date, nous allons installer le package lubridate :

install.packages("lubridate", repos='http://cran.r-project.org')
library(lubridate)

df <- df %>% mutate(year = year(date), month = month(date), day = day(date)) %>% select(-date)
df

Réaliser des agregats

Cela nous permet ici d’avoir la moyenne du cours d’ouverture et de fermeture par an et par entreprise

df %>% group_by(year, Name) %>% mutate(mean_open = mean(open), mean_close = mean(close)) %>% select(year, Name, mean_open, mean_close) %>% distinct

Summarise aggrége des données et restitue un résultat résumé de plusieurs colonnes

df %>% group_by(year, Name) %>% summarise(mean_open = mean(open), mean_close = mean(close))

Summarise dispose de l’operateur n(), qui retourne le nombre de lignes concernées par le groupe, ici 226 puisque la bourse n’est ouverte que sur les jours ouvrés.

df %>% group_by(year, Name) %>% summarise(nb = n())

Ecrire un fichier

df.w <- df %>% group_by(year, Name) %>% mutate(mean_open = mean(open), mean_close = mean(close)) %>% select(year, Name, mean_open, mean_close) %>% distinct

Si on veut maintenant persister notre dataframe df.w dans un fichier, on peut utiliser la fonction write_csv()

df.w %>% write_csv('C:/Users/DIONGA/Downloads/dataset/s&p 500/sp500_agg.csv')

Synthèse

Fonctionnalité Fonctions R
Lire un fichier csv read_csv()
Afficher les premières lignes du csv print()
Réaliser des filtres, des opérations de restriction filter()
Sélectionner des colonnes (le signe moins en supprime) select(col1, -col2)
Passer des expressions régulières à la fonction filter filter(repl("GOO", col1))
Transformer des colonnes (datetime…) mutate()
Réaliser des agrégats group_by()
Ecrire un fichier csv write_csv()
