Premiers pas avec nltk

Fonction de téléchargement de NLTK

Vous pouvez installer NLTK sur pip (pip install nltk). Une fois installé, de nombreux composants ne seront pas présents et vous ne pourrez pas utiliser certaines fonctionnalités de NLTK.

À partir de votre shell Python, exécutez la fonction ntlk.download() pour sélectionner les packages supplémentaires que vous souhaitez installer à l’aide de l’interface utilisateur. Alternativement, vous pouvez utiliser python -m nltk.downloader [package_name].


  • Pour télécharger tous les forfaits disponibles.

    nltk.download(‘all’)


  • Pour télécharger un package spécifique.

    nltk.download(‘package-name’)


  • Pour télécharger tous les packages d’un dossier spécifique.

    import nltk

    dwlr = nltk.downloader.Downloader()

    chunkers, corpora, grammars, help, misc,

    models, sentiment, stemmers, taggers, tokenizers

    for pkg in dwlr.packages(): if pkg.subdir== ’taggers’: dwlr.download(pkg.id)


  • Pour télécharger tous les packages sauf Corpora Folder.

    import nltk

    dwlr = nltk.downloader.Downloader()

    for pkg in dwlr.corpora(): dwlr._status_cache[pkg.id] = ‘installed’

    dwlr.download(‘all’)

Installation ou configuration

NLTK nécessite les versions Python 2.7 ou 3.4+.

Ces instructions considèrent la version python - 3.5


  • Mac/Unix :

    1. Install NLTK: run sudo pip install -U nltk
    2. Install Numpy (optional): run sudo pip install -U numpy
    3. Test installation: run python then type import nltk

    NOTE : For older versions of Python it might be necessary to install setuptools (see http://pypi.python.org/pypi/setuptools) and to install pip (sudo easy_install pip).


  • Les fenêtres :

    These instructions assume that you do not already have Python installed on your machine.
    
    *32-bit binary installation*
    
    1. Install Python 3.5: http://www.python.org/downloads/ (avoid the 64-bit versions)
    2. Install Numpy (optional): http://sourceforge.net/projects/numpy/files/NumPy/ (the version that specifies pythnon3.5)
    3. Install NLTK: http://pypi.python.org/pypi/nltk
    4. Test installation: `Start>Python35`, then type `import nltk`
    

  • Installation de logiciels tiers :

    Please see: https://github.com/nltk/nltk/wiki/Installing-Third-Party-Software
    

Référence : http://www.nltk.org/install.html

Installation NLTK avec Conda.

Pour installer NLTK avec anaconda / conda de Continuum.

Si vous utilisez Anaconda, nltk sera probablement déjà téléchargé à la racine (bien que vous deviez peut-être encore télécharger divers packages manuellement).

Utilisation de conda :

conda install nltk 

Pour mettre à jour nltk en utilisant conda :

conda update nltk

Avec ‘anaconde’ :

Si vous utilisez plusieurs environnements python dans anaconda, activez d’abord l’environnement dans lequel vous souhaitez installer nltk. Vous pouvez vérifier l’environnement actif à l’aide de la commande

conda info --envs

L’environnement avec le signe * avant le chemin du répertoire est celui qui est actif. Pour modifier l’utilisation de l’environnement actif

activate <python_version>
for eg. activate python3.5

Vérifiez maintenant la liste des packages installés dans cet environnement à l’aide de commnad

conda list

Si vous ne trouvez pas ’nltk’ dans la liste, utilisez

conda install -c anaconda nltk=3.2.1

Pour plus d’informations, vous pouvez consulter https://anaconda.org/anaconda/nltk.


Pour installer mini-conda a.k.a. conda : http://conda.pydata.org/docs/install/quick.html

Pour installer ‘anaconda’ : https://docs.continuum.io/anaconda/install

Avec NLTK

Vous pouvez utiliser NLTK (en particulier le package nltk.tokenize) pour effectuer la détection des limites de phrase :

import nltk
text = "This is a test. Let's try this sentence boundary detector."
text_output = nltk.tokenize.sent_tokenize(text)
print('text_output: {0}'.format(text_output))

Production:

text_output: ['This is a test.', "Let's try this sentence boundary detector."]

Termes de base