Primeiros passos com bigdata

Exemplo de Big Data

Big data é um termo para conjuntos de dados tão grandes ou complexos que os aplicativos tradicionais de processamento de dados são inadequados para lidar com eles. Os desafios incluem análise, captura, curadoria de dados, pesquisa, compartilhamento, armazenamento, transferência, visualização, consulta, atualização e privacidade das informações.

Um exemplo geral de big data:

Dados coletados pelo site de rede social facebook. O Facebook coleta centenas de terabytes (TB) de dados todos os dias. Os dados coletados podem ser imagens, vídeos, postagens, atualizações, etc. Os dados variam de estruturados a não estruturados. Uma curtida, compartilhamento ou reação podem ser dados estruturados, pois conhecemos claramente a estrutura deles. Considerando que atualizações ou postagens são dados não estruturados que não seguem exatamente uma estrutura. Todos esses dados juntos formam o BigData!

O que é Big Data?

Big Data, em sua forma mais básica, pode ser descrito como o termo guarda-chuva metrificado por diferentes aspectos dos dados. Esses diferentes aspectos são

Volume(Enorme quantidade de Dados), Velocidade(Maior velocidade de fluxo de dados), Variedade(Dados Estruturados, Não Estruturados e Semiestruturados) e Veracidade(Tomar decisões corretas com base em dados).

Essas métricas eram difíceis de serem atendidas por bancos de dados relacionais antigos. Surgiu a necessidade de um novo sistema e o processamento de Big Data veio em socorro. Embora muitas pessoas tenham uma compreensão diferente sobre o que é Big Data, aqui estão algumas das definições de Big Data dadas por líderes do setor no setor de dados:

Definições:

  • “Big data excede o alcance de ambientes de hardware comumente usados e ferramentas de software para capturá-lo, gerenciá-lo e processá-lo em um tempo decorrido tolerável para sua população de usuários.” (Teradata Artigo de revista, 2011)
  • “Big data refere-se a conjuntos de dados cujo tamanho está além da capacidade de ferramentas típicas de software de banco de dados para capturar, armazenar, gerenciar e analisar." (O McKinsey Global Institute, 2012)
  • “Big data é uma coleção de conjuntos de dados tão grandes e complexos que torna-se difícil de processar usando o gerenciamento de banco de dados disponível Ferramentas." (Wikipédia, 2014)
  • “Big Data são de alto volume, alta velocidade e/ou alta variedade ativos de informação que requerem novas formas de processamento para permitir tomada de decisão aprimorada, recuperação de insights e otimização de processos” (Gartner, 2012)

Quando os dados se tornam “Grandes”?

digite a descrição da imagem aqui

                     IOPS:Input/Output Operations Per Second

O que vem em Big Data?

Big data envolve os dados produzidos por diferentes dispositivos e aplicativos. Abaixo estão alguns dos campos que estão sob o guarda-chuva de Big Data.

  • Black Box Data: É um componente de helicópteros, aviões e jatos, etc. Captura vozes da tripulação de voo, gravações de microfones e fones de ouvido, e as informações de desempenho do aeronave.

  • Dados de mídia social: mídias sociais como Facebook e Twitter mantêm informações e os pontos de vista postados por milhões de pessoas em todo o globo.

  • Dados da Bolsa de Valores: Os dados da bolsa de valores contêm informações sobre as decisões de ‘comprar’ e ‘vender’ tomadas em uma ação de diferentes empresas feitas pelos clientes.

  • Dados da rede elétrica: Os dados da rede elétrica contêm informações consumidas por um nó particular em relação a uma estação base.

  • Dados de transporte: os dados de transporte incluem modelo, capacidade, distância e disponibilidade de um veículo.

  • Dados do mecanismo de pesquisa: os mecanismos de pesquisa recuperam muitos dados de bancos de dados diferentes.

  • Dados do Sensor: Dados de diferentes dispositivos que trabalham em sensores, exemplo: Dados meteorológicos (tempo e clima), dados sísmicos (terremotos), dados oceânicos (marés, tsunamis etc.).

digite a descrição da imagem aqui

Assim, Big Data inclui grande volume, alta velocidade e variedade extensível de dados. Os dados nele serão de três tipos.

1. Structured data : Mostly data from Relational Databases.

2. Semi Structured data : XML data, email data.

3. Unstructured data : Word, PDF, Text, Media Logs.