Primeros pasos con nltk
Función de descarga de NLTK
Puede instalar NLTK sobre pip
(pip install nltk
). Una vez instalado, muchos componentes no estarán presentes y no podrá utilizar algunas de las funciones de NLTK.
Desde su shell de Python, ejecute la función ntlk.download()
para seleccionar qué paquetes adicionales desea instalar mediante la interfaz de usuario. Alternativamente, puede usar python -m nltk.downloader [nombre_del_paquete]
.
-
Para descargar todos los paquetes disponibles.
nltk.download(‘all’)
-
Para descargar un paquete específico.
nltk.download(‘package-name’)
-
Para descargar todos los paquetes de una carpeta específica.
import nltk
dwlr = nltk.downloader.Downloader()
chunkers, corpora, grammars, help, misc,
models, sentiment, stemmers, taggers, tokenizers
for pkg in dwlr.packages(): if pkg.subdir== ’taggers’: dwlr.download(pkg.id)
-
Para descargar todos los paquetes excepto Carpeta Corpora.
import nltk
dwlr = nltk.downloader.Downloader()
for pkg in dwlr.corpora(): dwlr._status_cache[pkg.id] = ‘installed’
dwlr.download(‘all’)
Instalación o configuración
NLTK requiere las versiones Python
2.7 o 3.4+.
Estas instrucciones consideran la versión python
- 3.5
-
Mac/Unix:
- Install NLTK: run
sudo pip install -U nltk
- Install Numpy (optional): run
sudo pip install -U numpy
- Test installation: run
python
then typeimport nltk
NOTE : For older versions of Python it might be necessary to install setuptools (see http://pypi.python.org/pypi/setuptools) and to install pip (sudo easy_install pip).
- Install NLTK: run
-
Ventanas:
These instructions assume that you do not already have Python installed on your machine. *32-bit binary installation* 1. Install Python 3.5: http://www.python.org/downloads/ (avoid the 64-bit versions) 2. Install Numpy (optional): http://sourceforge.net/projects/numpy/files/NumPy/ (the version that specifies pythnon3.5) 3. Install NLTK: http://pypi.python.org/pypi/nltk 4. Test installation: `Start>Python35`, then type `import nltk`
-
Instalación de software de terceros:
Please see: https://github.com/nltk/nltk/wiki/Installing-Third-Party-Software
Referencia: http://www.nltk.org/install.html
Instalación de NLTK con Conda.
Para instalar NLTK con anaconda
/ conda
de Continuum.
Si está utilizando Anaconda, lo más probable es que nltk ya esté descargado en la raíz (aunque es posible que aún necesite descargar varios paquetes manualmente).
Usando conda
:
conda install nltk
Para actualizar nltk
usando conda
:
conda update nltk
Con anaconda
:
Si está utilizando varios entornos de python en anaconda, primero active el entorno en el que desea instalar nltk. Puede verificar el entorno activo usando el comando
conda info --envs
El entorno con el signo * antes de la ruta del directorio es el activo. Para cambiar el uso del entorno activo
activate <python_version>
for eg. activate python3.5
Ahora verifique la lista de paquetes instalados en este entorno usando commnad
conda list
Si no encuentra ’nltk’ en la lista, use
conda install -c anaconda nltk=3.2.1
Para obtener más información, puede consultar https://anaconda.org/anaconda/nltk.
Para instalar mini-conda a.k.a. conda
: http://conda.pydata.org/docs/install/quick.html
Para instalar anaconda
: https://docs.continuum.io/anaconda/install
Con NLTK
Puede usar NLTK (especialmente, el paquete nltk.tokenize
) para realizar la detección de límites de oraciones:
import nltk
text = "This is a test. Let's try this sentence boundary detector."
text_output = nltk.tokenize.sent_tokenize(text)
print('text_output: {0}'.format(text_output))
Producción:
text_output: ['This is a test.', "Let's try this sentence boundary detector."]