Big Data
Big Data (del idioma inglés grandes datos) es en el sector de tecnologías de la información y la comunicación una referencia a los sistemas que manipulan grandes conjuntos de datos (o data sets).
"Big data" es un término aplicado a conjuntos de datos que superan la capacidad del software habitual para ser capturados, gestionados y procesados en un tiempo razonable. Los tamaños del "big data" se encuentran constantemente en movimiento creciente, de esta forma en 2012 se encontraba dimensionada en un tamaño de una docena de terabytes hasta varios petabytes de datos en un único data set. En la metodología MIKE2.0 dedicada a investigar temas relacionados con la gestión de información, definen big data en términos de permutaciones útiles, complejidad y dificultad para borrar registros individuales.
En el año 2001 un informe de investigación que se fundamentaba en congresos y presentaciones relacionadas, el analista Doug Laney del META Group (ahora Gartner) definía el crecimiento constante de datos como una oportunidad y reto para investigar en el volumen, la velocidad y la variedad. Gartner continúa usando big data como referencia de este.
Las dificultades más habituales en estos casos de manipulación de inmensas cantidades de datos se centran en la captura, el almacenado,3 búsqueda, compartir, análisis y visualización. La tendencia a manipular ingentes cantidades de datos se debe a la necesidad en muchos casos de incluir los datos relacionados del análisis en un gran conjunto de datos relacionado, tal es el ejemplo de los análisis de negocio, los datos de enfermedades infecciosas, o el combate con el crimen organizado.
El límite superior de procesamiento se ha ido desplazando a lo largo de los años, de esta forma los límites que estaban fijados en 2008 rondaban los órdenes de petabytes a zettabytes de datos. Los científicos con cierta regularidad encuentran limitaciones debido a la gran cantidad de datos en ciertas áreas, tales como la meteorología, la genómica, la conectómica, las complejas simulaciones de procesos físicos y las investigaciones relacionadas con los procesos biológicos y ambientales. Las limitaciones también afectan a los motores de búsqueda en internet, a los sistemas finanzas y a la informática de negocios.
Los data sets crecen en volumen debido en parte a la introducción de información ubicua procedente de los sensores inalámbricos y los dispositivos móviles (por ejemplo las VANETs), del constante crecimiento de los históricos de aplicaciones (por ejemplo de los logs), cámaras (sistemas de teledetección), micrófonos o lectores de radio-frequency identification.
La capacidad para almacenar datos de la humanidad se ha doblado a un ritmo de cuarenta meses desde los años ochenta. En 2012 cada día cerca de 2.5 quintillón (2.5×1018) bytes de datos fueron creados.
Fuente (y más información) en wikipedia.org.
NdE
En el post "Nueva economía 20+20. La economía de los datos", donde el grupo ZZZINC.net explica el desarrollo de una investigación, adelantada por ellos junto a Medialab Prado, que aborda y analiza la emergencia del sector de la economía de los datos, los autores sugieren que "A partir de una magnitud determinada, en la que la unidad de medida es ya el Petabyte (1000 terabytes), hablamos de Big Data. En esta escala, manipular la información, hacerla accesible, y extraer su significado presenta un conjunto nuevo de problemas, pero también de oportunidades. No se trata tan solo sin embargo de una cuestión de volumen de datos; igualmente importante es que los grandes datasets operan a partir de flujos de información dinámicos y cambiantes. Junto al tamaño de volumen de datos, es igualmente relevante la variable de la multiplicidad de funciones de los datos analizados."
Explican en ZZZINC.net que "La lógica del Big Data hará posible nuevas formas de investigación científica, de gestión organizativa, de administración política y social, y de expresión personal. Estamos sólo en el principio de esta era; solamente una compañía como Google procesa un Petabyte de información cada hora. Pero no son solo los procesos científicos o económicos los que generan información. A raiz del auge de la Web Social y la popularización de tecnologías personales como la telefonía móvil, todos los ciudadanos se han convertido en grandes productores de datos. Hoy en día, por el simple hecho de etiquetar fotos en internet, actualizar nuestro estado en facebook o twitter, utilizar una bicicleta en una red pública o puntuar un restaurante en una web de recomendaciones gastronómicas, estamos contribuyendo a la construcción colectiva de datasets que se convierten en una posible mina de conocimiento a explotar. La economía de los datos surge al explorar estas estructuras de datos para detectar nuevas oportunidades para la generación de servicios y productos. Las industrias data-driven o industrias de los datos son aquellas que producen valor creando servicios y plataformas alrededor de la recogida, preservación, protección, puesta en uso y análisis de estas grandes estructuras de información." (zzzinc.net/tag/big-data/).
Por otro lado, en www.ibm.com/developerworks/ssa/local/im/que-es-big-data el autor (Ricardo Barranco Fragoso) afirman que "el concepto de Big Data aplica para toda aquella información que no puede ser procesada o analizada utilizando procesos o herramientas tradicionales. Sin embargo, Big Data no se refiere a alguna cantidad en específico, ya que es usualmente utilizado cuando se habla en términos de petabytes y exabytes de datos…"
Resumiendo lo publicado en distintas fuentes, entendemos entonces que el término Big Data se aplica, primeramente, a un inmenso volumen de información. Cuál escala debe cumplir la cantidad de información para recibir la etiqueta Big Data depende de la fuente, ZZZINC.net dice que esta cantidad es un Petabyte, mientras que Barranco de IBM aparentemente sugiere que es un número que evoluciona, de modo que "Big Data aplica para toda aquella información que no puede ser procesada o analizada utilizando procesos o herramientas tradicionales", coincidiendo con la Wikipedia: "Big data es un término aplicado a conjuntos de datos que superan la capacidad del software habitual para ser capturados, gestionados y procesados en un tiempo razonable" (aunque la Wikipedia también sugiere que Big Data no son los datos sino "los sistemas que manipulan grandes conjuntos de datos").
Fuente: wikipedia.org / zzzinc.net / ibm.com