Débuter avec scrapy

Installation de Scrapy

prérequis de l’installation scrapy :

  • Python 2.7 ou supérieur 3.3
  • packages Python pip et setuptools. -lxml
  • OpenSSL.

Vous pouvez installer Scrapy en utilisant pip. Pour installer à l’aide de pip, exécutez :

pip install Scrapy

Installation spécifique à la plate-forme


Anaconda

C’est la méthode recommandée pour installer Scrapy.

Si vous avez déjà installé Anaconda ou Miniconda, la société Scrapinghub gère les packages conda officiels pour Linux, Windows et OS X.

Pour installer Scrapy à l’aide de conda, exécutez :

conda install -c scrapinghub scrapy

Ubuntu 9.10 ou supérieur

Utilisez les [packages Ubuntu][1] officiels, qui résolvent déjà toutes les dépendances pour vous et sont continuellement mis à jour avec les dernières corrections de bogues.

Si vous préférez créer les dépendances python localement au lieu de vous fier aux packages système, vous devrez d’abord installer leurs dépendances non python requises :

sudo apt-get install python-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev

Vous pouvez installer Scrapy avec pip après cela :

pip install Scrapy

Archlinux

Vous pouvez suivre les instructions génériques ou installer Scrapy à partir du package AUR Scrapy :

yaourt -S scrapy

Les fenêtres

Scrapy avec Python 3 n’est pas encore supporté sous Windows.

Suivez ces étapes pour installer scrapy sur Windows :

  • Installer Python 2.7

  • Ajustez la variable d’environnement PATH pour inclure les chemins vers l’exécutable Python et les scripts supplémentaires. Les chemins suivants doivent être ajoutés à PATH :

    C:\Python27;C:\Python27\Scripts;

  • Installez pywin32 depuis [ici][2]

  • installons Scrapy :

      pip install Scrapy
    

Mac OS X

La construction des dépendances de Scrapy nécessite la présence d’un compilateur C et d’en-têtes de développement. Sur OS X, cela est généralement fourni par les outils de développement Xcode d’Apple. Pour installer les outils de ligne de commande Xcode, ouvrez une fenêtre de terminal et exécutez :

xcode-select --install

Il existe un [problème connu][3] qui empêche « pip » de mettre à jour les packages système. Ceci doit être résolu pour installer avec succès Scrapy et ses dépendances. Voici quelques solutions proposées :

  • (Recommandé) N’utilisez pas le système python, installez une nouvelle version mise à jour qui n’entre pas en conflit avec le reste de votre système. Voici comment le faire en utilisant le gestionnaire de paquets homebrew :

    • Install homebrew following the instructions in http://brew.sh/

    • Update your PATH variable to state that homebrew packages should be used before system packages (Change .bashrc to .zshrc accordantly if you’re using [zsh][4] as default shell):

      echo "export PATH=/usr/local/bin:/usr/local/sbin:$PATH" >> ~/.bashrc
      
    • Reload .bashrc to ensure the changes have taken place:

      source ~/.bashrc
      
    • Install python:

      brew install python
      
    • Latest versions of python have pip bundled with them so you won’t need to install it separately. If this is not the case, upgrade python:

      brew update; brew upgrade python
      
  • (Facultatif) Installez Scrapy dans un environnement python isolé.

Cette méthode est une solution de contournement pour le problème OS X ci-dessus, mais c’est une bonne pratique globale pour la gestion des dépendances et peut compléter la première méthode.

[virtualenv][5] est un outil que vous pouvez utiliser pour créer des environnements virtuels en python. Nous vous recommandons de lire un tutoriel comme http://docs.python-guide.org/en/latest/dev/virtualenvs/ pour commencer.

Après l’une de ces solutions de contournement, vous devriez pouvoir installer Scrapy :

pip install Scrapy

[1] : http://doc.scrapy.org/en/latest/topics/ubuntu.html#topics-ubuntu [2] : https://sourceforge.net/projects/pywin32/ [3] : https://github.com/pypa/pip/issues/2468 [4] : http://www.zsh.org/ [5] : https://virtualenv.pypa.io/en/latest/

Création d’un projet

Avant de commencer à travailler avec scrapy, vous devez démarrer un projet dans lequel vous souhaitez stocker votre code. Entrez dans le répertoire et exécutez ce code

scrapy startproject helloProject

La troisième partie de ce code est le nom du projet. Ce code créera un répertoire “helloProject” avec le contenu suivant :

helloProject/
    scrapy.cfg            # deploy configuration file

    helloProject/         # project's Python module, you'll import your code from here
        __init__.py

        items.py          # project items file

        pipelines.py      # project pipelines file

        settings.py       # project settings file

        spiders/          # a directory where you'll later put your spiders
            __init__.py