Primeros pasos con el aprendizaje automático

Instalación o configuración usando Python

1) aprender ciencia

scikit-learn es un módulo de Python para aprendizaje automático construido sobre SciPy y distribuido bajo la licencia BSD de 3 cláusulas. Cuenta con varios algoritmos de clasificación, regresión y agrupamiento, que incluyen máquinas de vectores de soporte, bosques aleatorios, aumento de gradiente, k-means y DBSCAN, y está diseñado para interactuar con las bibliotecas numéricas y científicas de Python NumPy y SciPy.

La versión estable actual de scikit-learn requiere:

  • Python (>= 2.6 o >= 3.3),
  • NúmPy (>= 1.6.1),
  • SciPy (>= 0.9).

Para la mayoría de las instalaciones, el administrador de paquetes de python pip puede instalar python y todas sus dependencias:

pip install scikit-learn

Sin embargo, para los sistemas Linux, se recomienda utilizar el administrador de paquetes conda para evitar posibles procesos de compilación.

conda install scikit-learn

Para verificar que tiene scikit-learn, ejecute en shell:

python -c 'import sklearn; print(sklearn.__version__)'

Instalación de Windows y Mac OSX:

Canopy y Anaconda incluyen una versión reciente de scikit-learn, además de un gran conjunto de bibliotecas científicas de python para Windows, Mac OSX (también relevante para Linux).

Repositorio de código fuente oficial: https://github.com/scikit-learn/scikit-learn


2) Plataforma Numenta para Computación Inteligente

Numenta Platform for Intelligent Computing (NuPIC) es una plataforma de inteligencia artificial que implementa los algoritmos de aprendizaje HTM. HTM es una teoría computacional detallada de la neocorteza. En el núcleo de HTM se encuentran algoritmos de aprendizaje continuo basados ​​en el tiempo que almacenan y recuperan patrones espaciales y temporales. NuPIC es adecuado para una variedad de problemas, particularmente la detección de anomalías y la predicción de fuentes de datos de transmisión.

Los binarios de NuPIC están disponibles para:

linux x86 64 bits OS X 10.9 OS X 10.10 ventanas de 64 bits

Se requieren las siguientes dependencias para instalar NuPIC en todos los sistemas operativos.

  • Pitón 2.7
  • pepita>=8.1.2
  • herramientas de configuración>=25.2.0
  • rueda>=0.29.0
  • entumecido
  • Compilador de C++ 11 como gcc (4.8+) o clang

Requisitos adicionales de OS X:

  • Herramientas de línea de comandos de Xcode

Ejecute lo siguiente para instalar NuPIC:

pip install nupic

Repositorio de código fuente oficial: https://github.com/numenta/nupic


3) nilearn

Nilearn es un módulo de Python para un aprendizaje estadístico rápido y sencillo sobre datos de neuroimagen. Aprovecha la caja de herramientas de Python de scikit-learn para estadísticas multivariadas con aplicaciones como modelado predictivo, clasificación, decodificación o análisis de conectividad.

Las dependencias requeridas para usar el software son:

  • Pitón >= 2.6,
  • herramientas de configuración
  • Numpy >= 1.6.1
  • SciPy >= 0.9
  • Scikit-aprender >= 0.14.1
  • Nibabel >= 1.1.0

Si está utilizando funcionalidades de trazado de nilearn o ejecutando los ejemplos, se requiere matplotlib >= 1.1.1.

Si desea ejecutar las pruebas, necesita nariz >= 1.2.1 y cobertura >= 3.6.

Primero asegúrese de haber instalado todas las dependencias enumeradas anteriormente. Luego puede instalar nilearn ejecutando el siguiente comando en un símbolo del sistema:

pip install -U --user nilearn

Repositorio de código fuente oficial: https://github.com/nilearn/nilearn/

4) Usando Anaconda

Muchas bibliotecas científicas de Python están disponibles en Anaconda. Puede obtener los archivos de instalación desde aquí. Por un lado, al usar Anaconda, no necesita instalar ni configurar muchos paquetes, tiene licencia BSD y tiene un proceso de instalación trivial, disponible para Python 3 y Python 2, mientras que, por otro lado, le brinda menos flexibilidad. Como ejemplo, algunos paquetes de python de aprendizaje profundo de última generación pueden usar una versión diferente de numpy que Anaconda instalada. Sin embargo, este inconveniente se puede solucionar utilizando otra instalación de python por separado (en Linux y MAC, la predeterminada, por ejemplo).

La configuración de Anaconda le solicita la selección de la ubicación de instalación y también le solicita la opción de adición de RUTA. Si agrega Anaconda a su PATH, se espera que su sistema operativo encuentre Anaconda Python como predeterminado. Por lo tanto, las modificaciones y futuras instalaciones estarán disponibles solo para esta versión de Python.

Para que quede claro, después de la instalación de Anaconda y lo agregas a PATH, usando Ubuntu 14.04 a través de la terminal si escribes

python

Python Anaconda vía Terminal

Listo, Anaconda Python es su Python predeterminado, puede comenzar a disfrutar usando muchas bibliotecas de inmediato. Sin embargo, si desea utilizar su antiguo Python

/usr/bin/python

Python predeterminado a través de la terminal

En pocas palabras, Anaconda es una de las formas más rápidas de iniciar el aprendizaje automático y el análisis de datos con Python.

Instalación o configuración usando lenguaje R

[Paquetes](https://www.wikiod.com/es/r/instalando-paquetes#Descargar e instalar paquetes desde repositorios) son colecciones de funciones R, datos y compilados código en un formato bien definido. Los repositorios públicos (y privados) se utilizan para alojar colecciones de paquetes de R. La mayor colección de paquetes R está disponible en CRAN. Algunos de los paquetes de aprendizaje automático de R más populares son, entre otros, los siguientes:

1) parte

Descripción: Partición recursiva para árboles de clasificación, regresión y supervivencia. Una implementación de la mayor parte de la funcionalidad del libro de 1984 de Breiman, Friedman, Olshen y Stone.

Se puede instalar desde CRAN usando el siguiente código:

install.packages("rpart")

Cargue el paquete:

library(rpart)

Fuente oficial: https://cran.r-project.org/web/packages/rpart/index.html


2) e1071

Descripción: Funciones para el análisis de clases latentes, transformada de Fourier de tiempo corto, agrupamiento difuso, máquinas de vectores de soporte, cálculo de la ruta más corta, agrupamiento en bolsas, clasificador bayesiano ingenuo, etc.

Instalación desde CRAN:

install.packages("e1071")

Cargando el paquete:

library(e1071)

Fuente oficial: https://cran.r-project.org/web/packages/e1071/index.html


3) bosque aleatorio

Descripción: Clasificación y regresión basada en un bosque de árboles utilizando entradas aleatorias.

Instalación desde CRAN:

install.packages("randomForest")

Cargando el paquete:

library(randomForest)

Fuente oficial: https://cran.r-project.org/web/packages/randomForest/index.html


4) intercalación

Descripción: Funciones misceláneas para entrenar y trazar modelos de clasificación y regresión.

Instalación desde CRAN:

install.packages("caret")

Cargando el paquete:

library(caret)

Fuente oficial: https://cran.r-project.org/web/packages/caret/index.html