Começando com scrapy
Nesta página
Instalação do Scrapy
pré-requisito de instalação scrapy:
- Python 2.7 ou superior 3.3
- pacotes Python pip e setuptools. -lxml
- OpenSSL.
Você pode instalar o Scrapy usando pip. Para instalar usando pip
execute:
pip install Scrapy
Instalação específica da plataforma
Anaconda
Esta é a maneira recomendada de instalar o Scrapy.
Se você já instalou o Anaconda ou Miniconda, a empresa Scrapinghub mantém pacotes oficiais do conda para Linux, Windows e OS X.
Para instalar o Scrapy usando conda, execute:
conda install -c scrapinghub scrapy
Ubuntu 9.10 ou superior
Use os Pacotes Ubuntu oficiais, que já resolvem todas as dependências para você e são continuamente atualizados com as últimas correções de bugs.
Se você preferir construir as dependências python localmente em vez de depender de pacotes do sistema, você precisará instalar as dependências não python necessárias primeiro:
sudo apt-get install python-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev
Você pode instalar o Scrapy com pip
depois disso:
pip install Scrapy
Archlinux
Você pode seguir as instruções genéricas ou instalar o Scrapy do pacote AUR Scrapy:
yaourt -S scrapy
Janelas
O Scrapy com Python 3 ainda não é suportado no Windows.
Siga estas etapas para instalar o scrapy no Windows:
-
Instale o Python 2.7
-
ajuste a variável de ambiente PATH para incluir caminhos para scripts executáveis e adicionais do Python. Os seguintes caminhos precisam ser adicionados ao PATH:
C:\Python27;C:\Python27\Scripts;
-
Instale o pywin32 de aqui
-
vamos instalar o Scrapy:
pip install Scrapy
Mac OS X
Construir as dependências do Scrapy requer a presença de um compilador C e cabeçalhos de desenvolvimento. No OS X, isso normalmente é fornecido pelas ferramentas de desenvolvimento Xcode da Apple. Para instalar as ferramentas de linha de comando do Xcode, abra uma janela de terminal e execute:
xcode-select --install
Há um problema conhecido que impede o pip
de atualizar os pacotes do sistema. Isso deve ser resolvido para instalar com sucesso o Scrapy e suas dependências. Aqui estão algumas soluções propostas:
-
(Recomendado) Não use python do sistema, instale uma versão nova e atualizada que não entre em conflito com o resto do seu sistema. Veja como fazer isso usando o gerenciador de pacotes homebrew:
-
Install homebrew following the instructions in http://brew.sh/
-
Update your
PATH
variable to state that homebrew packages should be used before system packages (Change.bashrc
to.zshrc
accordantly if you’re using zsh as default shell):echo "export PATH=/usr/local/bin:/usr/local/sbin:$PATH" >> ~/.bashrc
-
Reload
.bashrc
to ensure the changes have taken place:source ~/.bashrc
-
Install python:
brew install python
-
Latest versions of python have
pip
bundled with them so you won’t need to install it separately. If this is not the case, upgrade python:brew update; brew upgrade python
-
-
(Opcional) Instale o Scrapy dentro de um ambiente python isolado.
Esse método é uma solução alternativa para o problema do OS X acima, mas é uma boa prática geral para gerenciar dependências e pode complementar o primeiro método.
virtualenv é uma ferramenta que você pode usar para criar ambientes virtuais em python. Recomendamos a leitura de um tutorial como http://docs.python-guide.org/en/latest/dev/virtualenvs/ para começar.
Após qualquer uma dessas soluções alternativas, você poderá instalar o Scrapy:
pip install Scrapy
Criando um projeto
Antes de começar a trabalhar com scrapy, você deve iniciar um projeto onde deseja armazenar seu código. Entre no diretório e execute este código
scrapy startproject helloProject
A terceira parte deste código é o nome do projeto. Este código criará um diretório “helloProject” com o seguinte conteúdo:
helloProject/
scrapy.cfg # deploy configuration file
helloProject/ # project's Python module, you'll import your code from here
__init__.py
items.py # project items file
pipelines.py # project pipelines file
settings.py # project settings file
spiders/ # a directory where you'll later put your spiders
__init__.py