Primeros pasos con lxml
¿Por qué necesitamos lxml y cómo usarlo?
Primero, ¿por qué necesitamos lxml?
lxml.etree es una API genérica para el manejo de XML y HTML. Su objetivo es la compatibilidad con ElementTree y es compatible con todo el conjunto de información XML. Es adecuado tanto para contenido mixto como para XML centrado en datos. Su generalidad lo convierte en la mejor opción para la mayoría de las aplicaciones.
La biblioteca lxml es una extensión de las antiguas libxml2 y libxsit y tiene algunos beneficios importantes:
- API de python muy fácil
- Bien documentado
- No hay necesidad de lidiar con la gestión de la memoria
- No hay necesidad de preocuparse por la falla de segmentación
También proporciona una forma muy natural de manejar cualquier formato de datos XML. Los datos se convierten automáticamente a tipos de datos de Python y se pueden manipular con operadores normales de Python
**¡Excelente! ahora, ¿cómo puedo usarlo? **
En máquinas Linux, puede instalar la biblioteca lxml usando apt-get:
sudo apt-get install python-lxml
Para importar y usar la biblioteca:
from lxml import etree
Para analizar el archivo xml, puede usar:
try:
parser = ET.XMLParser(remove_comments=False, remove_blank_text=True)
tree = ET.parse(file, parser=parser)
except (Exception):
print ('Failed to open file %s' % file, exc_info=True)
return tree
instalación lxml
Instalar lxml es muy fácil, se ha convertido en un trabajo fácil desde Python 2.7.9 (porque viene con una utilidad que ayuda a los desarrolladores a descargar la dependencia de instalación de una manera fácil como Maven para Java) al principio debe ejecutar el comando y luego comenzar a codificar .
pip install lxml
La segunda forma es instalar usando easy_install. Se pueden encontrar más instrucciones detalladas aquí
Instalación o configuración
Instrucciones detalladas sobre cómo configurar o instalar lxml.