Primeros pasos con lxml

¿Por qué necesitamos lxml y cómo usarlo?

Primero, ¿por qué necesitamos lxml?

lxml.etree es una API genérica para el manejo de XML y HTML. Su objetivo es la compatibilidad con ElementTree y es compatible con todo el conjunto de información XML. Es adecuado tanto para contenido mixto como para XML centrado en datos. Su generalidad lo convierte en la mejor opción para la mayoría de las aplicaciones.

La biblioteca lxml es una extensión de las antiguas libxml2 y libxsit y tiene algunos beneficios importantes:

  1. API de python muy fácil
  2. Bien documentado
  3. No hay necesidad de lidiar con la gestión de la memoria
  4. No hay necesidad de preocuparse por la falla de segmentación

También proporciona una forma muy natural de manejar cualquier formato de datos XML. Los datos se convierten automáticamente a tipos de datos de Python y se pueden manipular con operadores normales de Python

**¡Excelente! ahora, ¿cómo puedo usarlo? **

En máquinas Linux, puede instalar la biblioteca lxml usando apt-get:

sudo apt-get install python-lxml

Para importar y usar la biblioteca:

from lxml import etree

Para analizar el archivo xml, puede usar:

    try:
        parser = ET.XMLParser(remove_comments=False, remove_blank_text=True)
        tree = ET.parse(file, parser=parser)
    except (Exception):
        print ('Failed to open file %s' % file, exc_info=True)
    return tree

instalación lxml

Instalar lxml es muy fácil, se ha convertido en un trabajo fácil desde Python 2.7.9 (porque viene con una utilidad que ayuda a los desarrolladores a descargar la dependencia de instalación de una manera fácil como Maven para Java) al principio debe ejecutar el comando y luego comenzar a codificar .

pip install lxml

La segunda forma es instalar usando easy_install. Se pueden encontrar más instrucciones detalladas aquí

Instalación o configuración

Instrucciones detalladas sobre cómo configurar o instalar lxml.