Começando com scrapy

Instalação do Scrapy

pré-requisito de instalação scrapy:

  • Python 2.7 ou superior 3.3
  • pacotes Python pip e setuptools. -lxml
  • OpenSSL.

Você pode instalar o Scrapy usando pip. Para instalar usando pip execute:

pip install Scrapy

Instalação específica da plataforma


Anaconda

Esta é a maneira recomendada de instalar o Scrapy.

Se você já instalou o Anaconda ou Miniconda, a empresa Scrapinghub mantém pacotes oficiais do conda para Linux, Windows e OS X.

Para instalar o Scrapy usando conda, execute:

conda install -c scrapinghub scrapy

Ubuntu 9.10 ou superior

Use os Pacotes Ubuntu oficiais, que já resolvem todas as dependências para você e são continuamente atualizados com as últimas correções de bugs.

Se você preferir construir as dependências python localmente em vez de depender de pacotes do sistema, você precisará instalar as dependências não python necessárias primeiro:

sudo apt-get install python-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev

Você pode instalar o Scrapy com pip depois disso:

pip install Scrapy

Archlinux

Você pode seguir as instruções genéricas ou instalar o Scrapy do pacote AUR Scrapy:

yaourt -S scrapy

Janelas

O Scrapy com Python 3 ainda não é suportado no Windows.

Siga estas etapas para instalar o scrapy no Windows:

  • Instale o Python 2.7

  • ajuste a variável de ambiente PATH para incluir caminhos para scripts executáveis ​​e adicionais do Python. Os seguintes caminhos precisam ser adicionados ao PATH:

    C:\Python27;C:\Python27\Scripts;

  • Instale o pywin32 de aqui

  • vamos instalar o Scrapy:

      pip install Scrapy
    

Mac OS X

Construir as dependências do Scrapy requer a presença de um compilador C e cabeçalhos de desenvolvimento. No OS X, isso normalmente é fornecido pelas ferramentas de desenvolvimento Xcode da Apple. Para instalar as ferramentas de linha de comando do Xcode, abra uma janela de terminal e execute:

xcode-select --install

Há um problema conhecido que impede o pip de atualizar os pacotes do sistema. Isso deve ser resolvido para instalar com sucesso o Scrapy e suas dependências. Aqui estão algumas soluções propostas:

  • (Recomendado) Não use python do sistema, instale uma versão nova e atualizada que não entre em conflito com o resto do seu sistema. Veja como fazer isso usando o gerenciador de pacotes homebrew:

    • Install homebrew following the instructions in http://brew.sh/

    • Update your PATH variable to state that homebrew packages should be used before system packages (Change .bashrc to .zshrc accordantly if you’re using zsh as default shell):

      echo "export PATH=/usr/local/bin:/usr/local/sbin:$PATH" >> ~/.bashrc
      
    • Reload .bashrc to ensure the changes have taken place:

      source ~/.bashrc
      
    • Install python:

      brew install python
      
    • Latest versions of python have pip bundled with them so you won’t need to install it separately. If this is not the case, upgrade python:

      brew update; brew upgrade python
      
  • (Opcional) Instale o Scrapy dentro de um ambiente python isolado.

Esse método é uma solução alternativa para o problema do OS X acima, mas é uma boa prática geral para gerenciar dependências e pode complementar o primeiro método.

virtualenv é uma ferramenta que você pode usar para criar ambientes virtuais em python. Recomendamos a leitura de um tutorial como http://docs.python-guide.org/en/latest/dev/virtualenvs/ para começar.

Após qualquer uma dessas soluções alternativas, você poderá instalar o Scrapy:

pip install Scrapy

Criando um projeto

Antes de começar a trabalhar com scrapy, você deve iniciar um projeto onde deseja armazenar seu código. Entre no diretório e execute este código

scrapy startproject helloProject

A terceira parte deste código é o nome do projeto. Este código criará um diretório “helloProject” com o seguinte conteúdo:

helloProject/
    scrapy.cfg            # deploy configuration file

    helloProject/         # project's Python module, you'll import your code from here
        __init__.py

        items.py          # project items file

        pipelines.py      # project pipelines file

        settings.py       # project settings file

        spiders/          # a directory where you'll later put your spiders
            __init__.py