Premiers pas avec le bigdata

## Exemple de mégadonnées Les données volumineuses sont un terme désignant des ensembles de données si volumineux ou si complexes que les applications de traitement de données traditionnelles sont inadéquates pour les traiter. Les défis incluent l’analyse, la capture, la conservation des données, la recherche, le partage, le stockage, le transfert, la visualisation, l’interrogation, la mise à jour et la confidentialité des informations.

Un exemple général de big data :

Données collectées par le site de réseautage social facebook. Facebook collecte chaque jour des centaines de téraoctets (To) de données. Les données collectées peuvent être des images, des vidéos, des publications, des mises à jour, etc. Les données varient de structurées à non structurées. Un like, un partage ou une réaction peut être une donnée structurée car nous en connaissons clairement la structure. Alors que les mises à jour ou les publications sont des données non structurées qui ne suivent pas exactement une structure. Toutes ces données forment ensemble le BigData !

Qu’est-ce que le Big Data ?

Le Big Data, dans sa forme la plus élémentaire, peut être décrit comme le terme générique mesuré par différents aspects des données. Ces différents aspects sont

Volume (énorme quantité de données), vélocité (plus grandes vitesses de flux de données), variété (données structurées, non structurées et semi-structurées) et véracité (prendre les bonnes décisions basées sur les données).

Ces mesures étaient difficiles à prendre en charge par les bases de données relationnelles sur la vieillesse. Le besoin d’un nouveau système s’est fait sentir et le traitement du Big Data est venu à la rescousse. Bien que de nombreuses personnes aient une compréhension différente de ce qu’est le Big Data, voici quelques-unes des définitions du Big Data données par les leaders de l’industrie du secteur des données :

Définitions :

  • “Le Big Data dépasse la portée des environnements matériels couramment utilisés et des outils logiciels pour le capturer, le gérer et le traiter dans un temps écoulé tolérable pour sa population d’utilisateurs. (Teradata Article de magazine, 2011)
  • “Les mégadonnées font référence à des ensembles de données dont la taille dépasse la capacité de outils logiciels de base de données typiques pour capturer, stocker, gérer et analyser.” (Institut mondial McKinsey, 2012)
  • “Les mégadonnées sont une collection d’ensembles de données si vastes et complexes qu’elles devient difficile à traiter en utilisant la gestion de base de données à portée de main outils.” (Wikipédia, 2014)
  • “Les Big Data sont des données à volume élevé, à grande vitesse et/ou à grande variété actifs informationnels qui nécessitent de nouvelles formes de traitement pour permettre prise de décision améliorée, récupération d’informations et optimisation des processus” (Gartner, 2012)

Quand les données deviennent « Big » ?

[![entrez la description de l’image ici][1]][1]

                     IOPS:Input/Output Operations Per Second

[1] : http://i.stack.imgur.com/2733E.png

Qu’est-ce que le Big Data ?

Les mégadonnées impliquent les données produites par différents appareils et applications. Vous trouverez ci-dessous quelques-uns des domaines qui relèvent du Big Data.

  • Black Box Data : C’est un composant d’hélicoptères, d’avions et jets, etc. Il capte les voix de l’équipage de conduite, les enregistrements de microphones et écouteurs, et les informations de performance du avion.

  • Données de médias sociaux : les médias sociaux tels que Facebook et Twitter informations et les opinions publiées par des millions de personnes à travers le globe.

  • Données boursières : Les données boursières contiennent des informations sur les décisions « acheter » et « vendre » prises sur une part de différentes sociétés faites par les clients.

  • Données du réseau électrique : les données du réseau électrique contiennent des informations consommées par un nœud particulier par rapport à une station de base.

  • Données de transport : les données de transport incluent le modèle, la capacité, la distance et la disponibilité d’un véhicule.

  • Search Engine Data : Les moteurs de recherche récupèrent beaucoup de données différentes bases de données.

  • Données de capteurs : Données provenant de différents appareils travaillant sur des capteurs, par exemple : données météorologiques (météo et climat), données sismiques (tremblement de terre), données océaniques (marées, tsunami, etc.).

[![entrez la description de l’image ici][1]][1]

Ainsi, le Big Data comprend un volume énorme, une vitesse élevée et une variété extensible de données. Les données qu’il contient seront de trois types.

1. Structured data : Mostly data from Relational Databases.

2. Semi Structured data : XML data, email data.

3. Unstructured data : Word, PDF, Text, Media Logs.

[1] : http://i.stack.imgur.com/wLILr.jpg