Introdução ao lxml

Por que precisamos de lxml e como usá-lo?

Primeiro, por que precisamos de lxml ?

lxml.etree é uma API genérica para manipulação de XML e HTML. Ele visa a compatibilidade com ElementTree e suporta todo o conjunto de informações XML. Ele é adequado tanto para conteúdo misto quanto para XML centrado em dados. Sua generalidade o torna a melhor escolha para a maioria das aplicações.

A biblioteca lxml, é uma extensão das antigas libxml2 e libxsit e possui alguns benefícios importantes:

  1. API Python muito fácil
  2. Bem documentado
  3. Não há necessidade de lidar com gerenciamento de memória
  4. Não há necessidade de se preocupar com falha de segmentação

Também fornece uma maneira muito natural de lidar com qualquer formato de dados XML. Os dados são convertidos automaticamente em tipos de dados Python e podem ser manipulados com operadores Python normais

Excelente! agora como posso usá-lo?

Em máquinas Linux você pode instalar a biblioteca lxml usando apt-get:

sudo apt-get install python-lxml

Para importar e usar a biblioteca:

from lxml import etree

Para analisar o arquivo xml, você pode usar:

    try:
        parser = ET.XMLParser(remove_comments=False, remove_blank_text=True)
        tree = ET.parse(file, parser=parser)
    except (Exception):
        print ('Failed to open file %s' % file, exc_info=True)
    return tree

instalação do lxml

Instalar o lxml é muito fácil, tornou-se um trabalho fácil desde o Python 2.7.9 (porque vem com um utilitário que ajuda os desenvolvedores a baixar a dependência de instalação de maneira fácil como o Maven para Java) primeiro você precisa executar o comando e começar a codificar .

pip install lxml

A segunda maneira é instalar usando easy_install. Mais detalhes podem ser encontrados aqui

Instalação ou Configuração

Instruções detalhadas sobre como configurar ou instalar o lxml.