Primeros pasos con los pandas

Instalación o Configuración

Se pueden encontrar instrucciones detalladas sobre cómo configurar o instalar pandas aquí en la documentación oficial.

Instalando pandas con Anaconda

Instalar pandas y el resto de la pila NumPy y SciPy puede ser un poco difícil para usuarios sin experiencia.

La forma más sencilla de instalar no solo pandas, sino también Python y los paquetes más populares que componen la pila SciPy (IPython, NumPy, Matplotlib, …) es con Anaconda, un multiplataforma (Linux, Mac OS X, Windows) Distribución de Python para análisis de datos y computación científica.

Después de ejecutar un instalador simple, el usuario tendrá acceso a pandas y al resto de la pila de SciPy sin necesidad de instalar nada más y sin necesidad de esperar a que se compile ningún software.

Las instrucciones de instalación de Anaconda se pueden encontrar aquí.

Una lista completa de los paquetes disponibles como parte de la distribución de Anaconda se puede encontrar aquí.

Una ventaja adicional de instalar con Anaconda es que no necesita derechos de administrador para instalarlo, se instalará en el directorio de inicio del usuario, y esto también hace que sea trivial eliminar Anaconda en una fecha posterior (simplemente elimine esa carpeta).

Instalando pandas con Miniconda

La sección anterior describió cómo instalar pandas como parte de la distribución de Anaconda. Sin embargo, este enfoque significa que instalará más de cien paquetes e implica la descarga del instalador, que tiene un tamaño de unos pocos cientos de megabytes.

Si desea tener más control sobre qué paquetes, o si tiene un ancho de banda de Internet limitado, instalar pandas con Miniconda puede ser una mejor solución.

Conda es el administrador de paquetes sobre el que se basa la distribución de Anaconda. Es un administrador de paquetes que es multiplataforma e independiente del idioma (puede desempeñar un papel similar a una combinación de pip y virtualenv).

Miniconda le permite crear una instalación de Python autónoma mínima y luego usar el comando Conda para instalar paquetes adicionales.

Primero necesitará que Conda esté instalado y descargar y ejecutar Miniconda lo hará por usted. El instalador se puede encontrar aquí.

El siguiente paso es crear un nuevo entorno conda (son análogos a un virtualenv pero también le permiten especificar con precisión qué versión de Python instalar). Ejecute los siguientes comandos desde una ventana de terminal:

conda create -n name_of_my_env python

Esto creará un entorno mínimo con solo Python instalado en él. Para ponerte dentro de este entorno, ejecuta:

source activate name_of_my_env

En Windows el comando es:

activate name_of_my_env

El paso final requerido es instalar pandas. Esto se puede hacer con el siguiente comando:

conda install pandas

Para instalar una versión específica de pandas:

conda install pandas=0.13.1

Para instalar otros paquetes, IPython por ejemplo:

conda install ipython

Para instalar la distribución completa de Anaconda:

conda install anaconda

Si necesita algún paquete que esté disponible para pip pero no para conda, simplemente instale pip y use pip para instalar estos paquetes:

conda install pip
pip install django

Por lo general, instalaría pandas con uno de los administradores de paquetes.

ejemplo de pipa:

pip install pandas

Esto probablemente requerirá la instalación de una serie de dependencias, incluido NumPy, requerirá un compilador para compilar los bits de código necesarios y puede tardar unos minutos en completarse.

Instalar a través de anaconda

Primero descargar anaconda del sitio de Continuum. Ya sea a través del instalador gráfico (Windows/OSX) o ejecutando un script de shell (OSX/Linux). ¡Esto incluye pandas!


Si no desea los 150 paquetes convenientemente agrupados en anaconda, puede instalar miniconda. Ya sea a través del instalador gráfico (Windows) o script de shell (OSX/Linux).

Instale pandas en miniconda usando:

conda install pandas

Para actualizar pandas a la última versión en anaconda o miniconda use:

conda update pandas

Estadísticas descriptivas

Las estadísticas descriptivas (media, desviación estándar, número de observaciones, mínimo, máximo y cuartiles) de las columnas numéricas se pueden calcular utilizando el método .describe(), que devuelve un marco de datos pandas de estadísticas descriptivas.

In [1]: df = pd.DataFrame({'A': [1, 2, 1, 4, 3, 5, 2, 3, 4, 1], 
                           'B': [12, 14, 11, 16, 18, 18, 22, 13, 21, 17], 
                           'C': ['a', 'a', 'b', 'a', 'b', 'c', 'b', 'a', 'b', 'a']})

In [2]: df
Out[2]: 
   A   B  C
0  1  12  a
1  2  14  a
2  1  11  b
3  4  16  a
4  3  18  b
5  5  18  c
6  2  22  b
7  3  13  a
8  4  21  b
9  1  17  a

In [3]: df.describe()
Out[3]:
               A          B
count  10.000000  10.000000
mean    2.600000  16.200000
std     1.429841   3.705851
min     1.000000  11.000000
25%     1.250000  13.250000
50%     2.500000  16.500000
75%     3.750000  18.000000
max     5.000000  22.000000

Tenga en cuenta que dado que C no es una columna numérica, se excluye de la salida.

In [4]: df['C'].describe()
Out[4]:
count     10
unique     3
freq       5
Name: C, dtype: object

En este caso, el método resume datos categóricos por número de observaciones, número de elementos únicos, moda y frecuencia de la moda.

Hola Mundo

Una vez que se haya instalado Pandas, puede verificar si funciona correctamente creando un conjunto de datos de valores distribuidos aleatoriamente y trazando su histograma.

import pandas as pd  # This is always assumed but is included here as an introduction.
import numpy as np
import matplotlib.pyplot as plt

np.random.seed(0)

values = np.random.randn(100) # array of normally distributed random numbers
s = pd.Series(values) # generate a pandas series
s.plot(kind='hist', title='Normally distributed random values') # hist computes distribution
plt.show()   

ingrese la descripción de la imagen aquí

Verifique algunas de las estadísticas de los datos (media, desviación estándar, etc.)

s.describe()
# Output: count    100.000000
# mean       0.059808
# std        1.012960
# min       -2.552990
# 25%       -0.643857
# 50%        0.094096
# 75%        0.737077
# max        2.269755
# dtype: float64