Premiers pas avec l'apprentissage automatique

Installation ou configuration à l’aide de Python

1) scikit apprendre

scikit-learn est un module Python pour l’apprentissage automatique construit sur SciPy et distribué sous la licence BSD à 3 clauses. Il comporte divers algorithmes de classification, de régression et de clustering, notamment des machines vectorielles de support, des forêts aléatoires, l’amplification de gradient, k-means et DBSCAN, et est conçu pour interagir avec les bibliothèques numériques et scientifiques Python NumPy et SciPy.

La version stable actuelle de scikit-learn [nécessite][1] :

  • Python (>= 2.6 ou >= 3.3),
  • NumPy (>= 1.6.1),
  • SciPy (>= 0,9).

Pour la plupart des installations, le gestionnaire de packages python pip peut installer python et toutes ses dépendances :

pip install scikit-learn

Cependant, pour les systèmes Linux, il est recommandé d’utiliser le gestionnaire de packages “conda” pour éviter d’éventuels processus de construction.

conda install scikit-learn

Pour vérifier que vous avez scikit-learn, exécutez en shell :

python -c 'import sklearn; print(sklearn.__version__)'

Installation Windows et Mac OSX :

[Canopy][2] et [Anaconda][3] proposent tous deux une version récente de scikit-learn, en plus d’un large ensemble de bibliothèques scientifiques python pour Windows, Mac OSX (également pertinent pour Linux).

Dépôt officiel du code source : https://github.com/scikit-learn/scikit-learn


2) Plate-forme Numenta pour l’informatique intelligente

La plate-forme Numenta pour l’informatique intelligente (NuPIC) est une plate-forme d’intelligence artificielle qui implémente les algorithmes d’apprentissage HTM. HTM est une théorie computationnelle détaillée du néocortex. Au cœur de HTM se trouvent des algorithmes d’apprentissage continu basés sur le temps qui stockent et rappellent des modèles spatiaux et temporels. NuPIC est adapté à une variété de problèmes, en particulier la détection d’anomalies et la prédiction des sources de données en continu.

Les binaires NuPIC sont disponibles pour :

Linux x86 64 bits OS X 10.9 OS X 10.10 Windows 64 bits

Les dépendances suivantes sont nécessaires pour installer NuPIC sur tous les systèmes d’exploitation.

-Python 2.7

  • pip>=8.1.2
  • outils de configuration>=25.2.0
  • roue>=0.29.0
  • numpy
  • Compilateur C++ 11 comme gcc (4.8+) ou clang

Configuration requise supplémentaire pour OS X :

  • Outils de ligne de commande Xcode

Exécutez ce qui suit pour installer NuPIC :

pip install nupic

Dépôt officiel du code source : https://github.com/numenta/nupic


3) nilearn

Nilearn est un module Python pour un apprentissage statistique rapide et facile sur les données de NeuroImaging. Il exploite la boîte à outils scikit-learn Python pour les statistiques multivariées avec des applications telles que la modélisation prédictive, la classification, le décodage ou l’analyse de connectivité.

Les dépendances requises pour utiliser le logiciel sont :

-Python >= 2.6,

  • outils de configuration -Numpy >= 1.6.1
  • SciPy >= 0,9
  • Scikit-learn >= 0.14.1
  • Nibabel >= 1.1.0

Si vous utilisez les fonctionnalités de traçage nilearn ou si vous exécutez les exemples, matplotlib >= 1.1.1 est requis.

Si vous voulez exécuter les tests, vous avez besoin d’un nez >= 1.2.1 et d’une couverture >= 3.6.

Assurez-vous d’abord que vous avez installé toutes les dépendances répertoriées ci-dessus. Ensuite, vous pouvez installer nilearn en exécutant la commande suivante dans une invite de commande :

pip install -U --user nilearn

Dépôt officiel du code source : https://github.com/nilearn/nilearn/

4) Utilisation d’Anaconda

De nombreuses bibliothèques scientifiques Python sont facilement disponibles dans Anaconda. Vous pouvez obtenir les fichiers d’installation à partir de [ici][3]. D’une part, en utilisant Anaconda, vous n’avez pas à installer et à configurer de nombreux packages, il est sous licence BSD et a un processus d’installation trivial, disponible pour Python 3 et Python 2, tandis que, d’autre part, il vous donne moins de flexibilité. Par exemple, certains packages python d’apprentissage en profondeur à la pointe de la technologie peuvent utiliser une version différente de numpy puis Anaconda installé. Cependant, cet inconvénient peut être traité en utilisant une autre installation python séparément (sous linux et MAC votre installation par défaut par exemple).

La configuration d’Anaconda vous invite à sélectionner l’emplacement d’installation et vous invite également à ajouter l’option PATH. Si vous ajoutez Anaconda à votre PATH, il est prévu que votre système d’exploitation trouve Anaconda Python par défaut. Par conséquent, les modifications et les futures installations ne seront disponibles que pour cette version de Python.

Pour être clair, après l’installation d’Anaconda et vous l’ajoutez à PATH, en utilisant Ubuntu 14.04 via le terminal si vous tapez

python

[![Anaconda Python via Terminal][4]][4]

Voilà, Anaconda Python est votre Python par défaut, vous pouvez commencer à utiliser de nombreuses bibliothèques immédiatement. Cependant, si vous souhaitez utiliser votre ancien Python

/usr/bin/python

[![Python par défaut via Terminal][5]][5]

En bref, Anaconda est l’un des moyens les plus rapides de démarrer l’apprentissage automatique et l’analyse de données avec Python.

[1] : http://scikit-learn.org/stable/install.html [2] : https://www.enought.com/products/canopy/ [3] : https://www.continuum.io/downloads [4] : https://i.stack.imgur.com/U9ot4.jpg [5] : https://i.stack.imgur.com/hhJUO.jpg

Installation ou configuration à l’aide du langage R

[Packages](https://www.wikiod.com/fr/r/installation-de-packages#Télécharger et installer des packages à partir de référentiels) sont des collections de fonctions R, de données et compilées code dans un format bien défini. Les référentiels publics (et privés) sont utilisés pour héberger des collections de packages R. La plus grande collection de packages R est disponible auprès du CRAN. Certains des packages d’apprentissage automatique R les plus populaires sont, entre autres, les suivants :

1) pièce de rechange

Description : partitionnement récursif pour les arbres de classification, de régression et de survie. Une implémentation de la plupart des fonctionnalités du livre de 1984 de Breiman, Friedman, Olshen et Stone.

Il peut être installé à partir du CRAN en utilisant le code suivant :

install.packages("rpart")

Chargez le package :

library(rpart)

Source officielle : https://cran.r-project.org/web/packages/rpart/index.html


2) e1071

Description : Fonctions pour l’analyse des classes latentes, la transformée de Fourier à court terme, le clustering flou, les machines à vecteurs de support, le calcul du chemin le plus court, le clustering en sac, le classificateur Bayes naïf, etc.

Installation depuis le CRAN :

install.packages("e1071")

Chargement du colis :

library(e1071)

Source officielle : https://cran.r-project.org/web/packages/e1071/index.html


3) forêt aléatoire

Description : Classification et régression basées sur une forêt d’arbres utilisant des entrées aléatoires.

Installation depuis le CRAN :

install.packages("randomForest")

Chargement du colis :

library(randomForest)

Source officielle : https://cran.r-project.org/web/packages/randomForest/index.html


4) caret

Description : Fonctions diverses pour l’entraînement et le tracé de modèles de classification et de régression.

Installation depuis le CRAN :

install.packages("caret")

Chargement du colis :

library(caret)

Source officielle : https://cran.r-project.org/web/packages/caret/index.html