Débuter avec les pandas

Installation ou configuration

Des instructions détaillées sur la configuration ou l’installation des pandas peuvent être trouvées [ici dans la documentation officielle][1].

Installer des pandas avec Anaconda

L’installation de pandas et du reste de la pile [NumPy][2] et [SciPy][3] peut être un peu difficile pour les utilisateurs inexpérimentés.

Le moyen le plus simple d’installer non seulement des pandas, mais aussi Python et les packages les plus populaires qui composent la pile SciPy (IPython, NumPy, Matplotlib, …) est avec [Anaconda][4], une plateforme multiplateforme (Linux, Mac OS X, Windows) Distribution Python pour l’analyse de données et le calcul scientifique.

Après avoir exécuté un programme d’installation simple, l’utilisateur aura accès aux pandas et au reste de la pile SciPy sans avoir à installer quoi que ce soit d’autre et sans avoir à attendre la compilation d’un logiciel.

Les instructions d’installation pour Anaconda [peuvent être trouvées ici][5].

Une liste complète des packages disponibles dans le cadre de la distribution Anaconda [peut être trouvée ici][6].

Un avantage supplémentaire de l’installation avec Anaconda est que vous n’avez pas besoin de droits d’administrateur pour l’installer, il s’installera dans le répertoire personnel de l’utilisateur, ce qui rend également trivial la suppression d’Anaconda à une date ultérieure (supprimez simplement ce dossier).

Installer des pandas avec Miniconda

La section précédente a expliqué comment installer les pandas dans le cadre de la distribution Anaconda. Cependant, cette approche signifie que vous installerez plus d’une centaine de packages et implique le téléchargement du programme d’installation d’une taille de quelques centaines de mégaoctets.

Si vous souhaitez avoir plus de contrôle sur les packages ou si vous avez une bande passante Internet limitée, l’installation de pandas avec [Miniconda][7] peut être une meilleure solution.

[Conda][8] est le gestionnaire de paquets sur lequel repose la distribution Anaconda. Il s’agit d’un gestionnaire de packages multiplateforme et indépendant du langage (il peut jouer un rôle similaire à une combinaison pip et virtualenv).

[Miniconda][7] vous permet de créer une installation Python autonome minimale, puis d’utiliser la commande [Conda][8] pour installer des packages supplémentaires.

Vous aurez d’abord besoin de Conda pour être installé et le téléchargement et l’exécution de Miniconda le feront pour vous. Le programme d’installation [peut être trouvé ici][7].

L’étape suivante consiste à créer un nouvel environnement conda (ceux-ci sont analogues à un virtualenv mais ils vous permettent également de spécifier précisément quelle version de Python installer également). Exécutez les commandes suivantes à partir d’une fenêtre de terminal :

conda create -n name_of_my_env python

Cela créera un environnement minimal dans lequel seul Python sera installé. Pour vous mettre dans cet environnement, exécutez :

source activate name_of_my_env

Sous Windows la commande est :

activate name_of_my_env

La dernière étape requise consiste à installer des pandas. Cela peut être fait avec la commande suivante :

conda install pandas

Pour installer une version spécifique de pandas :

conda install pandas=0.13.1

Pour installer d’autres packages, IPython par exemple :

conda install ipython

Pour installer la distribution complète d’Anaconda :

conda install anaconda

Si vous avez besoin de packages disponibles pour pip mais pas pour conda, installez simplement pip et utilisez pip pour installer ces packages :

conda install pip
pip install django

[1] : http://pandas.pydata.org/pandas-docs/stable/install.html [2] : http://www.numpy.org/ [3] : http://www.scipy.org/ [4] : http://docs.continuum.io/anaconda/ [5] : http://docs.continuum.io/anaconda/install.html [6] : http://docs.continuum.io/anaconda/pkg-docs.html [7] : http://conda.pydata.org/miniconda.html [8] : http://conda.pydata.org/docs/

Habituellement, vous installez des pandas avec l’un des gestionnaires de paquets.

exemple de pip :

pip install pandas

Cela nécessitera probablement l’installation d’un certain nombre de dépendances, y compris NumPy, nécessitera un compilateur pour compiler les morceaux de code requis et peut prendre quelques minutes.

Installer via anaconda

Commencez par télécharger anaconda depuis le site Continuum. Soit via l’installateur graphique (Windows/OSX) soit en exécutant un script shell (OSX/Linux). Cela inclut les pandas !


Si vous ne voulez pas que les 150 packages soient regroupés de manière pratique dans anaconda, vous pouvez installer miniconda. Soit via l’installateur graphique (Windows) ou le script shell (OSX/Linux).

Installez pandas sur miniconda en utilisant :

conda install pandas

Pour mettre à jour les pandas vers la dernière version dans anaconda ou miniconda, utilisez :

conda update pandas

Statistiques descriptives

Les statistiques descriptives (moyenne, écart type, nombre d’observations, minimum, maximum et quartiles) des colonnes numériques peuvent être calculées à l’aide de la méthode .describe(), qui renvoie une trame de données pandas de statistiques descriptives.

In [1]: df = pd.DataFrame({'A': [1, 2, 1, 4, 3, 5, 2, 3, 4, 1], 
                           'B': [12, 14, 11, 16, 18, 18, 22, 13, 21, 17], 
                           'C': ['a', 'a', 'b', 'a', 'b', 'c', 'b', 'a', 'b', 'a']})

In [2]: df
Out[2]: 
   A   B  C
0  1  12  a
1  2  14  a
2  1  11  b
3  4  16  a
4  3  18  b
5  5  18  c
6  2  22  b
7  3  13  a
8  4  21  b
9  1  17  a

In [3]: df.describe()
Out[3]:
               A          B
count  10.000000  10.000000
mean    2.600000  16.200000
std     1.429841   3.705851
min     1.000000  11.000000
25%     1.250000  13.250000
50%     2.500000  16.500000
75%     3.750000  18.000000
max     5.000000  22.000000

Notez que puisque ‘C’ n’est pas une colonne numérique, elle est exclue de la sortie.

In [4]: df['C'].describe()
Out[4]:
count     10
unique     3
freq       5
Name: C, dtype: object

Dans ce cas, la méthode résume les données catégorielles par nombre d’observations, nombre d’éléments uniques, mode et fréquence du mode.

Bonjour le monde

Une fois Pandas installé, vous pouvez vérifier s’il fonctionne correctement en créant un ensemble de données de valeurs distribuées de manière aléatoire et en traçant son histogramme.

import pandas as pd  # This is always assumed but is included here as an introduction.
import numpy as np
import matplotlib.pyplot as plt

np.random.seed(0)

values = np.random.randn(100) # array of normally distributed random numbers
s = pd.Series(values) # generate a pandas series
s.plot(kind='hist', title='Normally distributed random values') # hist computes distribution
plt.show()   

[![entrez la description de l’image ici][1]][1]

Vérifiez certaines statistiques des données (moyenne, écart-type, etc.)

s.describe()
# Output: count    100.000000
# mean       0.059808
# std        1.012960
# min       -2.552990
# 25%       -0.643857
# 50%        0.094096
# 75%        0.737077
# max        2.269755
# dtype: float64

[1] : http://i.stack.imgur.com/EbrKm.jpg