Objectifs
- Savoir installer et charger des packages/librairies
- Comprendre la suite tidyvers
- Lire et écrire un fichier
- Manipuler, explorer, transformer, trier des données
Installer les différents packages
Les installation de paquets sur R se font simplement via la fonction : install.packages()
L’ensemble des packages R se trouvent sur le repo du CRAN : http://cran.r-project.org
install.packages("tidyverse", repos='http://cran.r-project.org')
Charger un paquet
Pour utiliser une librairie, la commande suivante chargera le paquet :
library(tidyverse)
La suite tidyverse
tidyverse est un ensemble de packages cohérent permettant d’accéder à une collection de fonctionnalités conçues pour fonctionner ensemble (syntaxe, resultats…)
On retrouve des details de ces librairies a cette adresse
ggplot2
(visualisation)
dplyr
(manipulation des donnees)
tidyr
(remise en forme des donnees)
purrr
(programmation)
readr
(importation de donnees)
tibble
(tableaux de donnees)
forcats
(variables qualitatives)
stringr
(chaines de caracteres)
tibble
Tibble est une évolution / extension du classique data frame vu précédemment, ce format ajoute des fonctionnalités, pour autant il reste compatible avec l’objet data frame, il est toujours possible de passer de l’un à l’autre. Tibble est un objet à part entière et retourne un objet de classe tibble.
data.frame to tibble
as_tibble(df)
tibble to data.frame
as.data.frame(tib)
Charger un fichier
Nous allons utiliser dans un premier temps un fichier issu d’une compétition sur le site kaggle : à cette adresse
Vous pouvez telecharger le zip dans la partie Data > Data Sources
Kaggle est un site de compétitions data science, où à partir d’un problème posé, plusieurs data scientists proposent des solutions au travers de modèles statistiques.
Ici le jeu de données est une liste de cours de bourse du S&P500, le S&P500 est un indice au meme titre que le CAC40 français, rassemblant les 500 plus grandes sociétés cotées en bourse americaine, tenant compte des volumes échangés.
Lecture du fichier
df = read_csv('C:/Users/DIONGA/Downloads/dataset/s&p 500/all_stocks_5yr.csv')
Parsed with column specification:
cols(
date = [34mcol_date(format = "")[39m,
open = [32mcol_double()[39m,
high = [32mcol_double()[39m,
low = [32mcol_double()[39m,
close = [32mcol_double()[39m,
volume = [32mcol_double()[39m,
Name = [31mcol_character()[39m
)
Nombre de lignes et de colonnes
dim(df)
[1] 619040 7
Explorer le jeu de données
df %>% View()
Afficher les 5 premieres lignes
df %>% print(5, width = Inf)
Opérations de manipulations / transformations
Filtre sur une journée ou sur un volume
Petite précision, si l’on souhaite obtenir de la documentation sur une fonction, il suffit de taper son nom dans la console précédé par ?
Exemple : ?filter
Le sigle %>%
permet d’enchainer les operations, plus largement il passe en argument les données (dataframe) à la fonction qui suit, ou le resultat de la fonction à la fonction suivante.
filter(df, date == "2018-02-07") %>% count()
filter(df, volume > 5927662) %>% count()
df %>% filter(date == "2018-02-07") %>% count()
Même résultat ici
Sélectionner des colonnes
Le signe - permet de retirer des colonnes
df %>% select(-low, -high)
Ici on passe une expression réguliere à la fonction filter(), le but étant d’obtenir toutes les ouvertures et fermetures dont le nom contient “GOO”, ici cela sortira les cours de Google
df %>% filter(grepl("GOO", Name)) %>% select(Name, open, close)
Trier les données
Pour un ordre décroissant : arrange(desc(date))
df %>% filter(grepl("GOO", Name)) %>% select(Name, date, open, close) %>% arrange(date)
Transformer des colonnes
Pour extraire des informations d’un format date, nous allons installer le package lubridate
:
install.packages("lubridate", repos='http://cran.r-project.org')
library(lubridate)
df <- df %>% mutate(year = year(date), month = month(date), day = day(date)) %>% select(-date)
df
Réaliser des agregats
Cela nous permet ici d’avoir la moyenne du cours d’ouverture et de fermeture par an et par entreprise
df %>% group_by(year, Name) %>% mutate(mean_open = mean(open), mean_close = mean(close)) %>% select(year, Name, mean_open, mean_close) %>% distinct
Summarise aggrége des données et restitue un résultat résumé de plusieurs colonnes
df %>% group_by(year, Name) %>% summarise(mean_open = mean(open), mean_close = mean(close))
Summarise dispose de l’operateur n()
, qui retourne le nombre de lignes concernées par le groupe, ici 226 puisque la bourse n’est ouverte que sur les jours ouvrés.
df %>% group_by(year, Name) %>% summarise(nb = n())
Ecrire un fichier
df.w <- df %>% group_by(year, Name) %>% mutate(mean_open = mean(open), mean_close = mean(close)) %>% select(year, Name, mean_open, mean_close) %>% distinct
Si on veut maintenant persister notre dataframe df.w dans un fichier, on peut utiliser la fonction write_csv()
df.w %>% write_csv('C:/Users/DIONGA/Downloads/dataset/s&p 500/sp500_agg.csv')
Synthèse
Lire un fichier csv |
read_csv() |
Afficher les premières lignes du csv |
print() |
Réaliser des filtres, des opérations de restriction |
filter() |
Sélectionner des colonnes (le signe moins en supprime) |
select(col1, -col2) |
Passer des expressions régulières à la fonction filter |
filter(repl("GOO", col1)) |
Transformer des colonnes (datetime…) |
mutate() |
Réaliser des agrégats |
group_by() |
Ecrire un fichier csv |
write_csv() |
---
title: "Charger et mettre en forme des données"
output: html_notebook
---


# Objectifs

* Savoir installer et charger des packages/librairies
* Comprendre la suite tidyvers
* Lire et écrire un fichier
* Manipuler, explorer, transformer, trier des données


# Installer les différents packages

Les installation de paquets sur R se font simplement via la fonction : install.packages()  
L'ensemble des packages R se trouvent sur le repo du CRAN : http://cran.r-project.org  

```{r}
install.packages("tidyverse", repos='http://cran.r-project.org')
```


# Charger un paquet

Pour utiliser une librairie, la commande suivante chargera le paquet :

```{r}
library(tidyverse)
```


# La suite tidyverse

tidyverse est un ensemble de packages cohérent permettant d'accéder à une collection de fonctionnalités conçues pour fonctionner ensemble (syntaxe, resultats...)  
On retrouve des details de ces librairies a [cette adresse](https://www.tidyverse.org/)
  
`ggplot2` (visualisation)  
`dplyr` (manipulation des donnees)  
`tidyr` (remise en forme des donnees)  
`purrr` (programmation)  
`readr` (importation de donnees)   
`tibble` (tableaux de donnees)  
`forcats` (variables qualitatives)   
`stringr` (chaines de caracteres)  

## tibble

Tibble est une évolution / extension du classique data frame vu précédemment, ce format ajoute des fonctionnalités, pour autant il reste compatible avec l'objet data frame, il est toujours possible de passer de l'un à l'autre. Tibble est un objet à part entière et retourne un objet de classe tibble.

**data.frame to tibble**

`as_tibble(df)`

**tibble to data.frame**

`as.data.frame(tib)`


# Charger un fichier

Nous allons utiliser dans un premier temps un fichier issu d'une compétition sur le site kaggle : à [cette adresse](https://www.kaggle.com/camnugent/sandp500#individual_stocks_5yr.zip)  
Vous pouvez telecharger le zip dans la partie Data > Data Sources  
  
Kaggle est un site de compétitions data science, où à partir d'un problème posé, plusieurs data scientists proposent des solutions au travers de modèles statistiques.  
  
Ici le jeu de données est une liste de cours de bourse du S&P500, le S&P500 est un indice au meme titre que le CAC40 français, rassemblant les 500 plus grandes sociétés cotées en bourse americaine, tenant compte des volumes échangés.

# Lecture du fichier

```{r}
df = read_csv('C:/Users/DIONGA/Downloads/dataset/s&p 500/all_stocks_5yr.csv')
```

**Nombre de lignes et de colonnes**

```{r}
dim(df)
```

**Explorer le jeu de données**

```{r}
df %>% View()
```

**Afficher les 5 premieres lignes**


```{r}
df %>% print(5, width = Inf)
```


# Opérations de manipulations / transformations

**Filtre sur une journée ou sur un volume**

Petite précision, si l'on souhaite obtenir de la documentation sur une fonction, il suffit de taper son nom dans la console précédé par ?  
Exemple : `?filter`  

Le sigle `%>%` permet d'enchainer les operations, plus largement il passe en argument les données (dataframe) à la fonction qui suit, ou le resultat de la fonction à la fonction suivante.

```{r}
filter(df, date == "2018-02-07") %>% count()
filter(df, volume > 5927662) %>% count()
```


```{r}
df %>% filter(date == "2018-02-07") %>% count()
```

Même résultat ici

**Sélectionner des colonnes**

Le signe - permet de retirer des colonnes

```{r}
df %>% select(-low, -high)
```


Ici on passe une expression réguliere à la fonction filter(), le but étant d'obtenir toutes les ouvertures et fermetures dont le nom contient "GOO", ici cela sortira les cours de Google  

```{r}
df %>% filter(grepl("GOO", Name)) %>% select(Name, open, close) 
```


**Trier les données**

Pour un ordre décroissant : `arrange(desc(date))`
 
```{r}
df %>% filter(grepl("GOO", Name)) %>% select(Name, date, open, close) %>% arrange(date)
```


**Transformer des colonnes**

Pour extraire des informations d'un format date, nous allons installer le package `lubridate` :  

```{r}
install.packages("lubridate", repos='http://cran.r-project.org')
```

```{r}
library(lubridate)

df <- df %>% mutate(year = year(date), month = month(date), day = day(date)) %>% select(-date)
df
```


**Réaliser des agregats**

Cela nous permet ici d'avoir la moyenne du cours d'ouverture et de fermeture par an et par entreprise

```{r}
df %>% group_by(year, Name) %>% mutate(mean_open = mean(open), mean_close = mean(close)) %>% select(year, Name, mean_open, mean_close) %>% distinct
```


Summarise aggrége des données et restitue un résultat résumé de plusieurs colonnes

```{r}
df %>% group_by(year, Name) %>% summarise(mean_open = mean(open), mean_close = mean(close))
```


Summarise dispose de l'operateur `n()`, qui retourne le nombre de lignes concernées par le groupe, ici 226 puisque la bourse n'est ouverte que sur les jours ouvrés.

```{r}
df %>% group_by(year, Name) %>% summarise(nb = n())
```


# Ecrire un fichier

```{r}
df.w <- df %>% group_by(year, Name) %>% mutate(mean_open = mean(open), mean_close = mean(close)) %>% select(year, Name, mean_open, mean_close) %>% distinct
```

Si on veut maintenant persister notre dataframe df.w dans un fichier, on peut utiliser la fonction `write_csv()`

```{r}
df.w %>% write_csv('C:/Users/DIONGA/Downloads/dataset/s&p 500/sp500_agg.csv')
```

# Synthèse

|Fonctionnalité|Fonctions R|
|--|--|
|Lire un fichier csv|`read_csv()`|
|Afficher les premières lignes du csv|`print()`|
|Réaliser des filtres, des opérations de restriction|`filter()`|
|Sélectionner des colonnes (le signe moins en supprime)|`select(col1, -col2)`|
|Passer des expressions régulières à la fonction filter|`filter(repl("GOO", col1))`|
|Transformer des colonnes (datetime...)|`mutate()`|
|Réaliser des agrégats|`group_by()`|
|Ecrire un fichier csv|`write_csv()`|
