Primeros pasos con nltk

Función de descarga de NLTK

Puede instalar NLTK sobre pip (pip install nltk). Una vez instalado, muchos componentes no estarán presentes y no podrá utilizar algunas de las funciones de NLTK.

Desde su shell de Python, ejecute la función ntlk.download() para seleccionar qué paquetes adicionales desea instalar mediante la interfaz de usuario. Alternativamente, puede usar python -m nltk.downloader [nombre_del_paquete].


  • Para descargar todos los paquetes disponibles.

    nltk.download(‘all’)


  • Para descargar un paquete específico.

    nltk.download(‘package-name’)


  • Para descargar todos los paquetes de una carpeta específica.

    import nltk

    dwlr = nltk.downloader.Downloader()

    chunkers, corpora, grammars, help, misc,

    models, sentiment, stemmers, taggers, tokenizers

    for pkg in dwlr.packages(): if pkg.subdir== ’taggers’: dwlr.download(pkg.id)


  • Para descargar todos los paquetes excepto Carpeta Corpora.

    import nltk

    dwlr = nltk.downloader.Downloader()

    for pkg in dwlr.corpora(): dwlr._status_cache[pkg.id] = ‘installed’

    dwlr.download(‘all’)

Instalación o configuración

NLTK requiere las versiones Python 2.7 o 3.4+.

Estas instrucciones consideran la versión python - 3.5


  • Mac/Unix:

    1. Install NLTK: run sudo pip install -U nltk
    2. Install Numpy (optional): run sudo pip install -U numpy
    3. Test installation: run python then type import nltk

    NOTE : For older versions of Python it might be necessary to install setuptools (see http://pypi.python.org/pypi/setuptools) and to install pip (sudo easy_install pip).


  • Ventanas:

    These instructions assume that you do not already have Python installed on your machine.
    
    *32-bit binary installation*
    
    1. Install Python 3.5: http://www.python.org/downloads/ (avoid the 64-bit versions)
    2. Install Numpy (optional): http://sourceforge.net/projects/numpy/files/NumPy/ (the version that specifies pythnon3.5)
    3. Install NLTK: http://pypi.python.org/pypi/nltk
    4. Test installation: `Start>Python35`, then type `import nltk`
    

  • Instalación de software de terceros:

    Please see: https://github.com/nltk/nltk/wiki/Installing-Third-Party-Software
    

Referencia: http://www.nltk.org/install.html

Instalación de NLTK con Conda.

Para instalar NLTK con anaconda / conda de Continuum.

Si está utilizando Anaconda, lo más probable es que nltk ya esté descargado en la raíz (aunque es posible que aún necesite descargar varios paquetes manualmente).

Usando conda:

conda install nltk 

Para actualizar nltk usando conda:

conda update nltk

Con anaconda:

Si está utilizando varios entornos de python en anaconda, primero active el entorno en el que desea instalar nltk. Puede verificar el entorno activo usando el comando

conda info --envs

El entorno con el signo * antes de la ruta del directorio es el activo. Para cambiar el uso del entorno activo

activate <python_version>
for eg. activate python3.5

Ahora verifique la lista de paquetes instalados en este entorno usando commnad

conda list

Si no encuentra ’nltk’ en la lista, use

conda install -c anaconda nltk=3.2.1

Para obtener más información, puede consultar https://anaconda.org/anaconda/nltk.


Para instalar mini-conda a.k.a. conda: http://conda.pydata.org/docs/install/quick.html

Para instalar anaconda: https://docs.continuum.io/anaconda/install

Con NLTK

Puede usar NLTK (especialmente, el paquete nltk.tokenize) para realizar la detección de límites de oraciones:

import nltk
text = "This is a test. Let's try this sentence boundary detector."
text_output = nltk.tokenize.sent_tokenize(text)
print('text_output: {0}'.format(text_output))

Producción:

text_output: ['This is a test.', "Let's try this sentence boundary detector."]

Términos básicos