Primeros pasos con Big Data

Ejemplo de grandes datos

Big data es un término para conjuntos de datos que son tan grandes o complejos que las aplicaciones de procesamiento de datos tradicionales son inadecuadas para manejarlos. Los desafíos incluyen el análisis, la captura, la conservación de datos, la búsqueda, el intercambio, el almacenamiento, la transferencia, la visualización, la consulta, la actualización y la privacidad de la información.

Un ejemplo general de big data:

Datos recopilados por el sitio de redes sociales facebook. Facebook recopila cientos de terabytes (TB) de datos todos los días. Los datos recopilados pueden ser imágenes, videos, publicaciones, actualizaciones, etc. Los datos varían de estructurados a no estructurados. Un me gusta, compartir o reaccionar puede ser información estructurada ya que conocemos claramente la estructura de la misma. Mientras que las actualizaciones o publicaciones son datos no estructurados que no siguen exactamente una estructura. ¡Todos estos datos juntos forman BigData!

¿Qué es Big Data?

Big Data, en su forma más básica, se puede describir como el término general medido por diferentes aspectos de los datos. Estos diferentes aspectos son

Volumen (Gran cantidad de datos), Velocidad (Mayores velocidades de flujo de datos), Variedad (Datos estructurados, no estructurados y semiestructurados) y Veracidad (Tomar decisiones correctas basadas en datos).

Estas métricas eran difíciles de manejar en las bases de datos relacionales antiguas. Surgió la necesidad de un nuevo sistema y el procesamiento de Big Data vino al rescate. Si bien muchas personas tienen una comprensión diferente de lo que es Big Data, estas son algunas de las definiciones de Big Data dadas por los líderes de la industria en el sector de datos:

Definiciones:

  • “Big data supera el alcance de los entornos de hardware de uso común y herramientas de software para capturarlo, administrarlo y procesarlo en un tiempo transcurrido tolerable para su población de usuarios”. (Teradata Artículo de revista, 2011)
  • “Big data se refiere a conjuntos de datos cuyo tamaño está más allá de la capacidad de herramientas típicas de software de base de datos para capturar, almacenar, administrar y analizar." (Instituto Global McKinsey, 2012)
  • “Big data es una colección de conjuntos de datos tan grandes y complejos que se vuelve difícil de procesar utilizando la gestión de base de datos disponible instrumentos." (Wikipedia, 2014)
  • “Big Data son datos de gran volumen, alta velocidad y/o gran variedad activos de información que requieren nuevas formas de procesamiento para permitir toma de decisiones mejorada, recuperación de información y optimización de procesos” (Gartner, 2012)

¿Cuándo los datos se vuelven “grandes”?

ingrese la descripción de la imagen aquí

                     IOPS:Input/Output Operations Per Second

¿Qué se incluye en Big Data?

Big data involucra los datos producidos por diferentes dispositivos y aplicaciones. A continuación se presentan algunos de los campos que se encuentran bajo el paraguas de Big Data.

  • Datos de caja negra: es un componente de helicópteros, aviones y jets, etc. Captura voces de la tripulación de vuelo, grabaciones de micrófonos y auriculares, y la información de rendimiento de los aeronave.

  • Datos de redes sociales: las redes sociales como Facebook y Twitter se mantienen información y las opiniones publicadas por millones de personas en todo el globo.

  • Datos bursátiles: Los datos bursátiles contienen información sobre las decisiones de ‘comprar’ y ‘vender’ tomadas sobre una acción de diferentes empresas realizado por los clientes.

  • Datos de la red eléctrica: los datos de la red eléctrica contienen información consumida por un nodo particular con respecto a una estación base.

  • Datos de transporte: los datos de transporte incluyen modelo, capacidad, distancia y disponibilidad de un vehículo.

  • Datos del motor de búsqueda: los motores de búsqueda recuperan muchos datos de diferentes bases de datos.

  • Datos de sensores: datos de diferentes dispositivos que trabajan con sensores, por ejemplo: datos meteorológicos (tiempo y clima), datos sísmicos (terremotos), datos oceánicos (mareas, tsunamis, etc.).

ingrese la descripción de la imagen aquí

Por lo tanto, Big Data incluye un gran volumen, alta velocidad y una variedad extensible de datos. Los datos en él serán de tres tipos.

1. Structured data : Mostly data from Relational Databases.

2. Semi Structured data : XML data, email data.

3. Unstructured data : Word, PDF, Text, Media Logs.