fbpx
Wikipedia

Macrodatos

Los macrodatos,[1]​ también llamados datos masivos, inteligencia de datos, datos a gran escala o big data (terminología en idioma inglés utilizada comúnmente) es un término que hace referencia a conjuntos de datos tan grandes y complejos que precisan de aplicaciones informáticas no tradicionales de procesamiento de datos para tratarlos adecuadamente. Los datos son la reproducción simbólica de un atributo o variable cuantitativa o cualitativa; según la RAE «Información sobre algo concreto que permite su conocimiento exacto o sirve para deducir las consecuencias derivadas de un hecho».[2]​ Por ende, los procedimientos usados para encontrar patrones repetitivos dentro de esos datos son más sofisticados y requieren un software especializado. En textos científicos en español, con frecuencia se usa directamente el término en inglés big data, tal como aparece en el ensayo de Viktor Schönberger La revolución de los datos masivos.[3][4]

Un sistema de representación creado por IBM que muestra macrodatos que consisten en las ediciones de Wikipedia realizadas por el bot Pearle. Su visualización más racional aparece acompañada de colores y posiciones en su representación.
"Big Data" se refiere a un fenómeno tecnológico que ha surgido desde mediados de los años ochenta. A medida que las computadoras han mejorado en capacidad y velocidad, las mayores posibilidades de almacenamiento y procesamiento también han generado nuevos problemas. Pero estos nuevos requisitos, que pueden observarse en patrones y tendencias nunca antes vistos en el manejo de estos conjuntos de datos fenomenalmente grandes, pueden ser difíciles de implementar sin nuevas herramientas analíticas que permitan ir orientando a los usuarios, destacando los posibles puntos de interés. El programa XDATA de DARPA y la comunidad de investigadores y artistas que se han reunido allí, serán esenciales para avanzar en el estado del arte relativo a los llamados 'macrodatos'.

El uso moderno del término "big data" tiende a referirse al análisis del comportamiento del usuario, extrayendo valor de los datos almacenados, y formulando predicciones a través de los patrones observados. La disciplina dedicada a los datos masivos se enmarca en el sector de las tecnologías de la información y la comunicación. Esta disciplina se ocupa de todas las actividades relacionadas con los sistemas que manipulan grandes conjuntos de datos. Las dificultades más habituales vinculadas a la gestión de estos grandes volúmenes de datos se centran en la recolección y el almacenamiento de los mismos,[5]​ en las búsquedas, las comparticiones, y los análisis,[6]​ y en las visualizaciones y representaciones. La tendencia a manipular enormes volúmenes de datos se debe en muchos casos a la necesidad de incluir dicha información para la creación de informes estadísticos y modelos predictivos utilizados en diversas materias, como los análisis sobre negocios, sobre publicidad, sobre enfermedades infecciosas, sobre el espionaje y el seguimiento a la población, o sobre la lucha contra el crimen organizado.[7]

El límite superior de procesamiento ha ido creciendo a lo largo de los años.[8]​ Se estima que el mundo almacenó unos 5 zettabytes en 2014. Si se pone esta información en libros, convirtiendo las imágenes y todo eso a su equivalente en letras, se podría hacer 4500 pilas de libros que lleguen hasta el sol.[9]​ Los científicos con cierta regularidad encuentran límites en el análisis debido a la gran cantidad de datos en ciertas áreas, tales como la meteorología, la genómica,[10]​ la conectómica (una aproximación al estudio del cerebro; en inglés:Connectomics; en francés: Conectomique), las complejas simulaciones de procesos físicos[11]​ y las investigaciones relacionadas con los procesos biológicos y ambientales.[12]​ Las limitaciones también afectan a los motores de búsqueda en internet, a los sistemas de finanzas y a la informática de negocios. Los data sets crecen en volumen debido en parte a la recolección masiva de información procedente de los sensores inalámbricos y los dispositivos móviles (por ejemplo las VANET), el constante crecimiento de los históricos de aplicaciones (por ejemplo de los registros), las cámaras (sistemas de teledetección), los micrófonos, los lectores de identificación por radiofrecuencia.[13][14]​ La capacidad tecnológica per cápita a nivel mundial para almacenar datos se dobla aproximadamente cada cuarenta meses desde los años 1980.[15]​ Se estima que en 2012 cada día fueron creados cerca de 2.5 trillones de bytes de datos.[16]

Los sistemas de gestión de bases de datos relacionales y los paquetes de software utilizados para visualizar datos, a menudo tienen dificultades para manejar big data. Este trabajo puede requerir "un software masivamente paralelo que se ejecute en decenas, cientos o incluso miles de servidores".[17]​ Lo que califica como "big data" varía según las capacidades de los usuarios y sus herramientas, y las capacidades de expansión hacen que big data sea un objetivo en movimiento. "Para algunas organizaciones, enfrentar cientos de gigabytes de datos por primera vez puede provocar la necesidad de reconsiderar las opciones de administración de datos. Para otros, puede tomar decenas o cientos de terabytes antes de que el tamaño de los datos se convierta en una consideración importante".[18]

Definición

El término ha estado en uso desde la década de 1990, y algunos otorgan crédito a John Mashey[19]​ por popularizarlo. Big data o macrodatos es un término que hace referencia a una cantidad de datos tal que supera la capacidad del software convencional para ser capturados, administrados y procesados en un tiempo razonable. El volumen de los datos masivos crece constantemente. En el 2012, se estimaba su tamaño de entre una docena de terabytes hasta varios petabyte de datos en un único conjunto de datos. En la metodología MIKE2.0, dedicada a investigar temas relacionados con la gestión de información, definen big data[20]​ en términos de permutaciones útiles, complejidad y dificultad para borrar registros individuales.

Se ha definido también como datos lo suficientemente masivos como para poner de relieve cuestiones y preocupaciones en torno a la efectividad del anonimato desde una perspectiva más práctica que teórica.[21]

En el 2001, en un informe de investigación que se fundamentaba en congresos y presentaciones relacionadas,[22]​ la META Group (ahora Gartner) definía el crecimiento constante de datos como una oportunidad y un reto para investigar en el volumen, la velocidad y la variedad. Gartner' continúa usando datos masivos como referencia.[23]​ Además, grandes proveedores del mercado de datos masivos están desarrollando soluciones para atender las demandas más críticas sobre cómo procesar tal cantidad de datos, como MapR y Cloudera.

Una definición de 2016 establece que "Big data representa los activos de información caracterizados por un volumen, velocidad y variedad tan altos que requieren una tecnología específica y métodos analíticos para su transformación en valor".[24]​ Además, algunas organizaciones agregan una nueva V, veracidad para describirlo,[25]​ revisionismo cuestionado por algunas autoridades de la industria.[26]​ Las tres V (volumen, variedad y velocidad) se han ampliado a otras características complementarias del big data:

  • Aprendizaje automático: los grandes datos a menudo no preguntan por qué y simplemente detectan los patrones.[27]
  • Huella digital: el Big Data es a menudo un subproducto libre de costo de la interacción digital.

Una definición de 2018 establece que "Big Data es donde se necesitan herramientas informáticas paralelas para manejar los datos", y señala: "Esto representa un cambio distinto y claramente definido en la informática utilizada a través de teorías de programación paralelas y pérdidas de algunas de las garantías y capacidades hechas por el modelo relacional de Codd".[28]

La creciente madurez del concepto describe de manera clara y bien nítida, la diferencia entre "Big Data (Datos a gran escala)" y "Business intelligence (Inteligencia empresarial)":

  • La Business intelligence usa estadísticas descriptivas con datos con alta densidad de información para medir cosas, detectar tendencias, etc.
  • Por su parte, el Big Data usa estadísticas inductivas y conceptos de identificación de sistemas no lineales,[29]​ para inferir leyes (regresiones, relaciones no lineales y efectos causales) a partir de grandes conjuntos de datos con baja densidad de información, con la finalidad de revelar relaciones y dependencias, o para realizar predicciones de resultados y comportamientos.[30]

Características

Los macrodatos se pueden describir por las siguientes características:[31]

  • Volumen: la cantidad de datos generados y guardados.
  • Variedad: el tipo y naturaleza de los datos para ayudar a las personas a analizar los datos y usar los resultados de forma eficaz. Los macrodatos usan textos, imágenes, audio y vídeo. También completan pedazos ¿Qué pedazos? pedidos a través de la fusión de datos.
  • Velocidad: en este contexto, la velocidad a la cual se generan y procesan los datos para cumplir las exigencias y desafíos de su análisis.
  • Veracidad: la calidad de los datos capturados puede variar mucho y así afectar a los resultados del análisis.
  • Valor: los datos generados deben ser útiles, accionables y tener valor.[32]

Arquitectura

Los repositorios de big data han existido en muchas formas, a menudo creadas por corporaciones con una necesidad especial. Históricamente, los proveedores comerciales ofrecían sistemas de administración de bases de datos paralelos para big data a partir de la década de 1990. Durante muchos años, WinterCorp publicó un informe de base de datos más grande.[33]

Teradata Corporation en 1984, comercializó el sistema de procesamiento paralelo DBC 1012. Los sistemas Teradata fueron los primeros en almacenar y analizar 1 terabyte de datos en 1992. Los discos duros eran de 2,5 GB en 1991, por lo que la definición de big data evoluciona continuamente según la Ley de Kryder. Teradata instaló el primer sistema basado en RDBMS de clase petabyte en 2007. A partir de 2017, hay unas pocas docenas de bases de datos relacionales de Teradata de clase Petabyte instaladas, la mayor de las cuales excede de 50 PB. Los sistemas hasta 2008 eran datos relacionales estructurados al 100 %. Desde entonces, Teradata ha agregado tipos de datos no estructurados, incluidos XML, JSON y Avro.

En 2000, Seisint Inc. (ahora LexisNexis Group) desarrolló un marco de intercambio de archivos distribuido basado en C++ para el almacenamiento y consultas de datos. El sistema almacena y distribuye datos estructurados, semiestructurados y no estructurados en varios servidores. Los usuarios pueden crear consultas en un dialecto de C++ llamado ECL. ECL utiliza un método de "aplicar esquema en lectura" para inferir la estructura de los datos almacenados cuando se consulta, en lugar de cuando se almacena. En 2004, LexisNexis adquirió Seisint Inc.[34]​ y en 2008 adquirió ChoicePoint, Inc.[35]​y su plataforma de procesamiento paralelo de alta velocidad. Las dos plataformas se fusionaron en sistemas HPCC (o cluster de computación de alto rendimiento) y en 2011, HPCC fue de código abierto bajo la licencia Apache v2.0. Quantcast File System estuvo disponible aproximadamente al mismo tiempo.[36]

El CERN y otros experimentos de física han recopilado grandes conjuntos de datos durante muchas décadas, generalmente analizados a través de computadoras de alto rendimiento (supercomputadores) en lugar de las arquitecturas de mapas reducidos de productos, que generalmente se refieren al movimiento actual de "big data".

En 2004, Google publicó un documento sobre un proceso llamado MapReduce que utiliza una arquitectura similar. El concepto MapReduce proporciona un modelo de procesamiento en paralelo, y se lanzó una implementación asociada para procesar grandes cantidades de datos. Con MapReduce, las consultas se dividen y distribuyen a través de nodos paralelos y se procesan en paralelo (el paso del Mapa). Los resultados se recopilan y se entregan (el paso Reducir). El marco fue muy exitoso, por lo que otros quisieron replicar el algoritmo. Por lo tanto, una implementación del marco MapReduce fue adoptada por un proyecto de código abierto Apache llamado Hadoop.[37]​Apache Spark se desarrolló en 2012 en respuesta a las limitaciones del paradigma MapReduce, ya que agrega la capacidad de configurar muchas operaciones (no solo el mapa seguido de la reducción).

MIKE2.0 es un enfoque abierto para la administración de la información que reconoce la necesidad de revisiones debido a las implicaciones de big data identificadas en un artículo titulado "Oferta de soluciones de Big Data".[38]​La metodología aborda el manejo de big data en términos de permutaciones útiles de fuentes de datos, complejidad en interrelaciones y dificultad para eliminar (o modificar) registros individuales.[39]

Los estudios de 2012 mostraron que una arquitectura de capas múltiples es una opción para abordar los problemas que presenta el big data. Una arquitectura paralela distribuida distribuye datos entre múltiples servidores; estos entornos de ejecución paralela pueden mejorar drásticamente las velocidades de procesamiento de datos. Este tipo de arquitectura inserta datos en un DBMS paralelo, que implementa el uso de los marcos MapReduce y Hadoop. Este tipo de marco busca hacer que el poder de procesamiento sea transparente para el usuario final mediante el uso de un servidor de aplicaciones para el usuario.[40]

El análisis de big data para aplicaciones de fabricación se comercializa como una arquitectura 5C (conexión, conversión, cibernética, cognición y configuración).[41]

El lago de datos permite que una organización cambie su enfoque del control centralizado a un modelo compartido para responder a la dinámica cambiante de la administración de la información. Esto permite una segregación rápida de datos en el lago de datos, lo que reduce el tiempo de sobrecarga.[42][43]

Tecnología

Existen muchísimas herramientas para el manejo de big data. Algunos ejemplos incluyen Hadoop, NoSQL, Cassandra, inteligencia empresarial, aprendizaje automático y MapReduce. Estas herramientas tratan con algunos de los tres tipos de big data:[44]

  • Datos estructurados: datos que tienen bien definidos su longitud y su formato, como las fechas, los números o las cadenas de caracteres. Se almacenan en tablas. Un ejemplo son las bases de datos relacionales y los almacenes de datos.
  • Datos no estructurados: datos en el formato tal y como fueron recolectados, carecen de un formato específico. No se pueden almacenar dentro de una tabla ya que no se puede desgranar su información a tipos básicos de datos. Algunos ejemplos son los PDF, documentos multimedia, correos electrónicos o documentos de texto.
  • Datos semiestructurados: datos que no se limitan a campos determinados, pero que contiene marcadores para separar los diferentes elementos. Es una información poco regular como para ser gestionada de una forma estándar. Estos datos poseen sus propios metadatos semiestructurados[45]​ que describen los objetos y las relaciones entre ellos, y pueden acabar siendo aceptados por convención. Como ejemplos tenemos los archivos tipo hojas de cálculo, HTML, XML o JSON.

Un informe de 2011 del McKinsey Global Institute caracteriza los componentes principales y el ecosistema de big data de la siguiente manera:[46]

Los big data multidimensionales también se pueden representar como cubos de datos o, matemáticamente, tensores. Los sistemas de bases de datos Array se han propuesto proporcionar almacenamiento y soporte de consultas de alto nivel en este tipo de datos. Las tecnologías adicionales que se aplican a big data incluyen un cálculo basado en tensor eficiente,[47]​ como el aprendizaje de subespacio multilineal,[48]​ bases de datos de procesamiento paralelo masivo (MPP), aplicaciones basadas en búsqueda, extracción de datos,[49]​ sistemas de archivos distribuidos, bases de datos distribuidas, nube e infraestructura basada en HPC(aplicaciones, almacenamiento y recursos informáticos)[50]​ e Internet. A pesar de que se han desarrollado muchos enfoques y tecnologías, sigue siendo difícil llevar a cabo el aprendizaje automático con grandes datos.[51]

Algunas bases de datos relacionales de MPP tienen la capacidad de almacenar y administrar petabytes de datos. Implícita es la capacidad de cargar, supervisar, realizar copias de seguridad y optimizar el uso de las tablas de datos de gran tamaño en el RDBMS.[52]

El programa de Análisis Topológico de Datos de DARPA busca la estructura fundamental de los conjuntos de datos masivos y en 2008 la tecnología se hizo pública con el lanzamiento de una compañía llamada Ayasdi.[53]

Los profesionales de los procesos de análisis de big data generalmente son hostiles al almacenamiento compartido más lento,[54]​ prefieren el almacenamiento de conexión directa (DAS) en sus diversas formas, desde unidad de estado sólido (SSD) hasta disco SATA de gran capacidad enterrado dentro de nodos de procesamiento paralelo. La percepción de las arquitecturas de almacenamiento compartidas, la red de área de almacenamiento (SAN) y el almacenamiento conectado a la red (NAS), es que son relativamente lentas, complejas y costosas. Estas cualidades no son consistentes con los sistemas de análisis de datos grandes que prosperan en el rendimiento del sistema, infraestructura de productos básicos y bajo costo.

La entrega de información real o casi en tiempo real es una de las características definitorias del análisis de big data. Por lo tanto, se evita la latencia siempre que sea posible. Los datos en la memoria son buenos; los datos en el disco giratorio en el otro extremo de una conexión FC SAN no lo son. El costo de una SAN en la escala necesaria para las aplicaciones analíticas es mucho mayor que otras técnicas de almacenamiento.

Hay ventajas y desventajas para el almacenamiento compartido en el análisis de big data, pero los practicantes de análisis de big data a partir de 2011 no lo favorecieron.

Captura

¿De dónde provienen todos estos datos? Los fabricamos directa e indirectamente segundo tras segundo. Un iPhone hoy en día tiene más capacidad de cómputo que la NASA cuando el ser humano llegó a la Luna,[55]​ por lo que la cantidad de datos generados por persona y en unidad de tiempo es muy grande. Catalogamos la procedencia de los datos según las siguientes categorías:[56]

  • Generados por las propias personas. El hecho de enviar correos electrónicos o mensajes por WhatsApp, publicar un estado en Facebook, publicar relaciones laborales en Linkedin, tuitear contenidos o responder a una encuesta por la calle son cosas que hacemos a diario y que crean nuevos datos y metadatos que pueden ser analizados. Se estima que cada minuto al día se envían más de 200 millones de correos electrónicos, se comparten más de 700 000 piezas de contenido en Facebook, se realizan dos millones de búsquedas en Google o se editan 48 horas de vídeo en YouTube.[57]​ Por otro lado, las trazas de utilización en un sistema ERP, incluir registros en una base de datos o introducir información en una hoja de cálculo son otras formas de generar estos datos.
  • Obtenidas a partir de transacciones. La facturación, tarjetas de fidelización, las llamadas telefónicas, las conexiones torres de telefonía, los accesos a wifis públicas, el pago con tarjetas de crédito o las transacciones entre cuentas bancarias generan información que tratada puede ser datos relevantes. Por ejemplo transacciones bancarias: Lo que el usuario conoce como un ingreso de X euros, el sistema lo capturará como una acción llevada a cabo en una fecha y momento determinado, en un lugar concreto, entre unos usuarios registrados, y con ciertos metadatos.
  • Mercadotecnia electrónica y web. Se genera una gran cantidad de datos cuando se navega por internet. Con la web 2.0 se ha roto el paradigma webmaster-contenido-lector y los mismos usuarios se convierten en creadores de contenido gracias a su interacción con el sitio. Existen muchas herramientas de seguimiento utilizadas en su mayoría con fines de mercadotecnia y análisis de negocio. Los movimientos de ratón quedan grabados en mapas de calor y queda registro de cuánto pasamos en cada página y cuándo las visitamos.
  • Obtenidos a partir de las interacciones máquina a máquina (M2M). Son datos obtenidos a partir de la recogida de métricas obtenidas desde dispositivos (medidores, sensores de temperatura, de luz, de altura, de presión, de sonido…) que transforman las magnitudes físicas o químicas y las convierten en datos. Existen desde hace décadas, pero la llegada de las comunicaciones inalámbricas (wifi, Bluetooth, RFID, etc.) ha revolucionado el mundo de los sensores. Algunos ejemplos son los GPS en la automoción, los sensores de signos vitales (muy útil para seguros de vida), pulseras en los festivales,[58]​ monitorizadores del funcionamiento y conducción de autoḿoviles (se obtiene información muy útil para las aseguradoras),[59]​ los smartphone (son sensores de localización).
  • Datos biométricos recolectados. En general provienen de servicios de seguridad, defensa y servicios de inteligencia.[60]​ Son cantidades de datos generados por lectores biométricos como escáneres de retina, escáneres de huellas digitales, o lectores de cadenas de ADN. El propósito de estos datos es proporcionar mecanismos de seguridad y suelen estar custodiados por los ministerios de defensa y departamentos de inteligencia. Un ejemplo de aplicación es el cruce de ADN entre una muestra de un crimen y una muestra en nuestra base de datos.

Transformación

Una vez encontradas las fuentes de los datos necesarios, muy posiblemente dispongamos de un sinfín de tablas de origen que no estarán relacionadas. El siguiente objetivo es hacer que los datos se recojan en un mismo lugar y darles un formato adecuado.

Aquí entran en juego las plataformas extraer, transformar y cargar (ETL). Su propósito es extraer los datos de las diferentes fuentes y sistemas, para después hacer transformaciones (conversiones de datos, limpieza de datos sucios, cambios de formato, etc.) y finalmente cargar los datos en la base de datos o almacén de datos especificada.[61]​ Un ejemplo de plataforma ETL es el Pentaho Data Integration, más concretamente su aplicación Spoon.

Almacenamiento NoSQL

El término NoSQL se refiere a Not Only SQL (no solo SQL) y son sistemas de almacenamiento que no cumplen con el esquema entidad-relación.[62]​ Proveen un sistema de almacenamiento mucho más flexible y concurrente y permiten manipular grandes cantidades de información de manera mucho más rápida que las bases de datos relacionales.

Distinguimos cuatro grandes grupos de bases de datos NoSQL:

  • Almacenamiento clave-valor (key-value): los datos se almacenan de forma similar a los mapas o diccionarios de datos, donde se accede al dato a partir de una clave única.[63]​ Los valores (datos) son aislados e independientes entre ellos, y no son interpretados por el sistema. Pueden ser variables simples como enteros o caracteres, u objetos. Por otro lado, este sistema de almacenamiento carece de una estructura de datos clara y establecida, por lo que no requiere un formateo de los datos muy estricto.[64]

Son útiles para operaciones simples basadas en las claves. Un ejemplo es el aumento de velocidad de carga de un sitio web que puede utilizar diferentes perfiles de usuario, teniendo mapeados los archivos que hay que incluir según el id de usuario y que han sido calculados con anterioridad. Apache Cassandra es la tecnología de almacenamiento clave-valor más reconocida por los usuarios.[65]

  • Almacenamiento documental: las bases de datos documentales guardan un gran parecido con las bases de datos Clave-Valor, diferenciándose en el dato que guardan. Si en el anterior no se requería una estructura de datos concreta, en este caso guardamos datos semiestructurados.[65]​ Estos datos pasan a llamarse documentos, y pueden estar formateados en XML, JSON, Binary JSON o el que acepte la misma base de datos.
Todos los documentos tienen una clave única con la que pueden ser accedidos e identificados explícitamente. Estos documentos no son opacos al sistema, por lo que pueden ser interpretados y lanzar queries sobre ellos.[63]​ Un ejemplo que aclare cómo se usa lo encontramos en un blog: se almacena el autor, la fecha, el título, el resumen y el contenido del post.

CouchDB o MongoDB[65]​ son quizá las más conocidas. Hay que hacer mención especial a MapReduce, una tecnología de Google inicialmente diseñada para su algoritmo PageRank, que permite seleccionar un subconjunto de datos, agruparlos o reducirlos y cargarlos en otra colección, y a Hadoop que es una tecnología de Apache diseñada para almacenar y procesar grandes cantidades de datos.

  • Almacenamiento en grafo: las bases de datos en grafo rompen con la idea de tablas y se basan en la teoría de grafos, donde se establece que la información son los nodos y las relaciones entre la información son las aristas,[65]​ algo similar al modelo relacional. Su mayor uso se contempla en casos de relacionar grandes cantidades de datos que pueden ser muy variables. Por ejemplo, los nodos pueden contener objetos, variables y atributos diferentes en unos y otros. Las operaciones JOIN se sustituyen por recorridos a través del grafo, y se guarda una lista de adyacencias entre los nodos.[63]​ Encontramos un ejemplo en las redes sociales: en Facebook cada nodo se considera un usuario, que puede tener aristas de amistad con otros usuarios, o aristas de publicación con nodos de contenidos. Soluciones como Neo4J y GraphDB[65]​ son las más conocidas dentro de las bases de datos en grafo.
  • Almacenamiento orientado a columnas: por último, este almacenamiento es parecido al documental. Su modelo de datos es definido como «un mapa de datos multidimensional poco denso, distribuido y persistente».[63]​ Se orienta a almacenar datos con tendencia a escalar horizontalmente, por lo que permite guardar diferentes atributos y objetos bajo una misma clave. A diferencia del documental y el clave-valor, en este caso se pueden almacenar varios atributos y objetos, pero no serán interpretables directamente por el sistema. Permite agrupar columnas en familias y guardar la información cronológicamente, mejorando el rendimiento. Esta tecnología se acostumbra a usar en casos con 100 o más atributos por clave.[65]​ Su precursor es BigTable de Google, pero han aparecido nuevas soluciones como HBase o HyperTable.

Análisis de datos

El análisis permite mirar los datos y explicar lo que esta pasando. Teniendo los datos necesarios almacenados según diferentes tecnologías de almacenamiento, nos daremos cuenta que necesitaremos diferentes técnicas de análisis de datos como las siguientes:

  • Asociación: permite encontrar relaciones entre diferentes variables.[66]​ Bajo la premisa de causalidad, se pretende encontrar una predicción en el comportamiento de otras variables. Estas relaciones pueden ser los sistemas de ventas cruzadas en los comercios electrónicos.
  • Minería de datos (data mining): tiene como objetivo encontrar comportamientos predictivos. Engloba el conjunto de técnicas que combina métodos estadísticos y de aprendizaje automático con almacenamiento en bases de datos.[67]​ Está estrechamente relacionada con los modelos utilizados para descubrir patrones en grandes cantidades de datos.
  • Agrupación (clustering): el análisis de clústeres es un tipo de minería de datos que divide grandes grupos de individuos en grupos más pequeños de los cuales no conocíamos su parecido antes del análisis.[67]​ El propósito es encontrar similitudes entre estos grupos, y el descubrimiento de nuevos, conociendo cuáles son las cualidades que lo definen. Es una metodología apropiada para encontrar relaciones entre resultados y hacer una evaluación preliminar de la estructura de los datos analizados. Existen diferentes técnicas y algoritmos de clusterización.[68]
  • Análisis de texto (text analytics): gran parte de los datos generados por las personas son textos, como correos, búsquedas web o contenidos. Esta metodología permite extraer información de estos datos y así modelar temas y asuntos o predecir palabras.[69]

Visualización de datos

 
Esto es una infografía.

Tal y como el Instituto Nacional de Estadística dice en sus tutoriales, «una imagen vale más que mil palabras o que mil datos».[70]​ La mente agradece mucho más una presentación bien estructurada de resultados estadísticos en gráficos o mapas en vez de en tablas con números y conclusiones. En los macrodatos se llega un paso más allá: parafraseando a Edward Tufte, uno de los expertos en visualización de datos más reconocidos a nivel mundial «el mundo es complejo, dinámico, multidimensional, el papel es estático y plano. ¿Cómo vamos a representar la rica experiencia visual del mundo en la mera planicie?».

Mondrian[71]​ es una plataforma que permite visualizar la información a través de los análisis llevados a cabo sobre los datos que disponemos. Con esta plataforma se intenta llegar a un público más concreto, y una utilidad más acotada como un cuadro de mando integral de una organización. En los últimos años se han generalizado otras plataformas como Tableau, Power BI y Qlik.[72]

Por otro lado, las infografías se han vuelto un fenómeno viral, donde se recogen los resultados de los diferentes análisis sobre nuestros datos, y son un material atractivo, entretenido y simplificado para audiencias masivas.[73]

Aplicaciones

El uso de big data ha sido utilizado por la industria de los medios, las empresas y los gobiernos para dirigirse con mayor precisión a su público y aumentar la eficiencia de sus mensajes.

El big data ha aumentado la demanda de especialistas en administración de la información tanto que Software AG, Oracle Corporation, IBM, Microsoft, SAP, EMC, HP y Dell han gastado más de $ 15 mil millones en firmas de software especializadas en administración y análisis de datos. En 2010, esta industria valía más de $ 100 mil millones y crecía a casi un 10 por ciento anual: aproximadamente el doble de rápido que el negocio del software en general.[74]

Las economías desarrolladas usan cada vez más tecnologías intensivas en datos. Hay 4600 millones de suscripciones de teléfonos móviles en todo el mundo, y entre 1000 y 2000 millones de personas que acceden a Internet. Entre 1990 y 2005, más de mil millones de personas en todo el mundo ingresaron a la clase media, lo que significa que más personas se volvieron más alfabetizadas, lo que a su vez llevó al crecimiento de la información. La capacidad efectiva mundial para intercambiar información a través de redes de telecomunicaciones era de 281 petabytes en 1986, 471 petabytes en 1993, 2.2 exabytes en 2000, 65 exabytes en 2007[75]​ y las predicciones cifran el tráfico de internet en 667 exabytes anualmente para 2014. Según una estimación, un tercio de la información almacenada en todo el mundo está en forma de texto alfanumérico e imágenes fijas,[76]​ que es el formato más útil para la mayoría de las aplicaciones de big data. Esto también muestra el potencial de los datos aún no utilizados (es decir, en forma de contenido de video y audio).

Si bien muchos proveedores ofrecen soluciones estándar para big data, los expertos recomiendan el desarrollo de soluciones internas personalizadas para resolver el problema de la compañía si la empresa cuenta con capacidades técnicas suficientes.[77]

Gobierno

El uso y la adopción de big data dentro de los procesos gubernamentales permite eficiencias en términos de costo, productividad e innovación, pero no viene sin sus defectos.[78]​ El análisis de datos a menudo requiere que varias partes del gobierno (central y local) trabajen en colaboración y creen procesos nuevos para lograr el resultado deseado.

Los datos masivos se usan habitualmente para influenciar el proceso democrático. Los representantes del pueblo pueden ver todo lo que hacen los ciudadanos, y los ciudadanos pueden dictar la vida pública de los representantes mediante tuits y otros métodos de extender ideas en la sociedad. Las campañas presidenciales de Obama y Trump los usaron de manera generalizada[79]​ y hay expertos que advierten de que hay que «reinventar la democracia representativa. Si no, es posible que se convierta en una dictadura de la información».[80]

El Banco Interamericano de Desarrollo (BID) ha desarrollado estudios en América Latina en los que presenta distintos casos del uso de Macrodatos en el diseño e implementación de políticas públicas. Destacando intervenciones en temas de movilidad urbana, ciudades inteligentes y seguridad, entre otras temáticas. Las recomendaciones de los mismos han girado en torno a cómo construir instituciones públicas que logren, mediante el uso de datos masivos, a ser más transparentes y ayuden a tomar mejores decisiones.[81]

Desarrollo internacional

La investigación sobre el uso efectivo de las tecnologías de información y comunicación para el desarrollo (también conocido como ICT4D) sugiere que la tecnología de big data puede hacer contribuciones importantes pero también presentar desafíos únicos para el desarrollo internacional.[82][83]​ Los avances en el análisis de big data ofrecen oportunidades rentables para mejorar la toma de decisiones en áreas de desarrollo críticas como la atención médica, el empleo, la productividad económica, la delincuencia, la seguridad y el manejo de recursos y desastres naturales.[84]​ Además, los datos generados por el usuario ofrecen nuevas oportunidades para ofrecer una voz inaudita. Sin embargo, los desafíos de larga data para las regiones en desarrollo, como la infraestructura tecnológica inadecuada y la escasez de recursos económicos y humanos exacerban las preocupaciones existentes con los grandes datos, como la privacidad, la metodología imperfecta y los problemas de interoperabilidad.[84]

Industria

El big data proporciona una infraestructura para la transparencia en la industria manufacturera, que es la capacidad de desentrañar incertidumbres como el rendimiento y la disponibilidad de componentes inconsistentes. La fabricación predictiva como un enfoque aplicable para el tiempo de inactividad y la transparencia cercanos a cero requiere una gran cantidad de datos y herramientas de predicción avanzadas para un proceso sistemático de datos en información útil.[85]​ Un marco conceptual de fabricación predictiva comienza con la adquisición de datos donde se encuentran disponibles diferentes tipos de datos sensoriales, tales como acústica, vibración, presión, corriente, voltaje y datos de controlador. Una gran cantidad de datos sensoriales, además de los datos históricos, construyen los grandes datos en la fabricación. Los big data generados actúan como la entrada en herramientas predictivas y estrategias preventivas como Pronósticos y Gestión de Salud (PHM).[86]

Medios

Los profesionales en medios y publicidad abordan los grandes datos como muchos puntos de información procesables sobre millones de personas. La industria parece alejarse del enfoque tradicional de utilizar entornos de medios específicos, como periódicos, revistas o programas de televisión, y en su lugar aprovecha a los consumidores con tecnologías que llegan a las personas objetivo en momentos óptimos en ubicaciones óptimas. El objetivo final es servir o transmitir, un mensaje o contenido que (estadísticamente hablando) esté en línea con la mentalidad del consumidor. Por ejemplo, los entornos de publicación adaptan cada vez más los mensajes (anuncios publicitarios) y el contenido (artículos) para atraer a los consumidores que han sido recolectados exclusivamente a través de diversas actividades de extracción de datos.[87]

Música

El reconocimiento de emociones musicales (REM) (Music Emotion Recognition MER) es un campo de investigación científica reciente y en plena evolución. A grandes rasgos se puede decir que el REM gira en torno a varias ideas respecto a la comprensión psicológica de la relación entre el afecto humano y la música. Una de las ideas centrales del REM radica en la capacidad de poder determinar mediante sistemas automáticos ingresando diversos datos (señales musicales) y variables (parámetros computacionales), cuáles y qué tipo de emociones son percibidas desde las composiciones musicales, e intentan percibir cómo cada una de las formas de sus rasgos estructurales pueden producir cierto tipo de reacciones características en los oyentes.[89]

Seguros

Los proveedores de seguro médico recopilan datos sobre "determinantes sociales", como el consumo de alimentos y televisión, el estado civil, el tamaño de la vestimenta y los hábitos de compra, desde los cuales hacen predicciones sobre los costos de salud para detectar problemas de salud en sus clientes. Es controvertido si estas predicciones se están utilizando actualmente para fijar precios.[90]

Deportes

En un ámbito donde se mueve tanto dinero, suelen utilizar las nuevas tecnologías antes que los usuarios de base. Nos encontramos por ejemplo que el análisis de los partidos constituye una parte fundamental en el entrenamiento de los profesionales, y la toma de decisiones de los entrenadores.

Amisco[91]​ es un sistema aplicado por equipos de algunas de las ligas más importantes de Europa desde el 2001. Consta de 8 cámaras y diversos ordenadores instalados en los estadios, que registran los movimientos de los jugadores a razón de 25 registros por segundo, y luego envían los datos a una central donde hacen un análisis masivo de los datos. La información que se devuelve como resultado incluye una reproducción del partido en dos dimensiones, los datos técnicos y estadísticas, y un resumen de los datos físicos de cada jugador, permitiendo seleccionar varias dimensiones y visualizaciones diferentes de datos.[91]

Finanzas

El crecimiento de datos en el mundo financiero obliga al uso del big data para el procesamiento rápido de datos, gestión de la omnicanalidad, segmentación avanzada de clientes, creación de estrategias de precios dinámicos, gestión de riesgos, prevención de fraudes, apoyo en la toma de decisiones, detectar tendencias de consumo, definir nuevas formas de hacer mejor las cosas, detectar alertas y otro tipo de eventos complejos, hacer un seguimiento avanzado de la competencia.[92]

Mercadotecnia y ventas

Los macrodatos cada vez se utilizan más para segmentación avanzada de los consumidores, automatizar la personalización de los productos, adaptar las comunicaciones al momento del ciclo de venta, captar nuevas oportunidades de venta, apoyo en la toma de decisiones a tiempo real, gestión de crisis.[93][94]

Investigación

La búsqueda encriptada y la formación de clúster en big data se demostraron en marzo de 2014 en la Sociedad Estadounidense de Educación en Ingeniería. Gautam Siwach participó en abordar los desafíos de Big Data por el Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT y Amir Esmailpour, en el Grupo de Investigación de UNH, investigó las características clave de Big Data como la formación de clusters y sus interconexiones. Se centraron en la seguridad de los macrodatos y la orientación del término hacia la presencia de diferentes tipos de datos en forma cifrada en la interfaz de la nube al proporcionar las definiciones sin procesar y los ejemplos de tiempo real dentro de la tecnología. Además, propusieron un enfoque para identificar la técnica de codificación para avanzar hacia una búsqueda acelerada sobre texto encriptado que conduzca a las mejoras de seguridad en big data.[95]

En marzo de 2012, la Casa Blanca anunció una "Iniciativa de Big Data" nacional que consistía en seis departamentos y agencias federales comprometiendo más de $ 200 millones para proyectos de investigación de big data.

La iniciativa incluyó una subvención de la National Science Foundation "Expeditions in Computing" de $ 10 millones durante 5 años para el AMPLab[96]​ en la Universidad de California, Berkeley.[97]​ El AMPLab también recibió fondos de DARPA, y más de una docena de patrocinadores industriales y utiliza big data para atacar una amplia gama de problemas, desde predecir la congestión del tráfico[98]​ hasta combatir el cáncer.[99]

La Iniciativa Big Data de la Casa Blanca también incluyó un compromiso del Departamento de Energía de proporcionar $ 25 millones en financiamiento durante 5 años para establecer el Instituto de Administración, Análisis y Visualización de Datos Escalables (SDAV),[100]​ dirigido por Lawrence Berkeley National Laboratory del Departamento de Energía. Laboratorio. El Instituto SDAV tiene como objetivo reunir la experiencia de seis laboratorios nacionales y siete universidades para desarrollar nuevas herramientas que ayuden a los científicos a gestionar y visualizar datos en las supercomputadoras del Departamento.

El estado de Massachusetts anunció la Iniciativa Big Data de Massachusetts en mayo de 2012, que proporciona fondos del gobierno estatal y de empresas privadas a una variedad de instituciones de investigación. El Instituto de Tecnología de Massachusetts alberga el Centro de Ciencia y Tecnología de Intel para Big Data en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT, que combina fondos y esfuerzos de investigación gubernamentales, corporativos e institucionales.[101]

La Comisión Europea está financiando el Foro público privado de Big Data, que duró dos años, a través de su Séptimo Programa de Framework para involucrar a empresas, académicos y otras partes interesadas en la discusión de problemas de big data. El proyecto tiene como objetivo definir una estrategia en términos de investigación e innovación para guiar las acciones de apoyo de la Comisión Europea en la implementación exitosa de la economía de big data. Los resultados de este proyecto se utilizarán como aportación para Horizonte 2020, su próximo programa.

El gobierno británico anunció en marzo de 2014 la fundación del Instituto Alan Turing, que lleva el nombre del pionero de la informática y el descifrador de códigos, que se centrará en nuevas formas de recopilar y analizar grandes conjuntos de datos.[102]

En el Día de la Inspiración del Canadian Open Data Experience (CODE) de la Universidad de Waterloo Stratford Campus, los participantes demostraron cómo el uso de la visualización de datos puede aumentar la comprensión y el atractivo de los grandes conjuntos de datos y comunicar su historia al mundo.[103]

Para que la fabricación sea más competitiva en los Estados Unidos (y en el mundo), es necesario integrar más ingenio e innovación estadounidenses en la fabricación; Por lo tanto, la National Science Foundation ha otorgado al centro de investigación cooperativa Industry Industry para Intelligent Maintenance Systems (IMS) en la Universidad de Cincinnati para que se concentre en el desarrollo de herramientas y técnicas predictivas avanzadas aplicables en un entorno de big data.[104]​ En mayo de 2013, el IMS Center celebró una reunión de la junta asesora de la industria centrada en big data, donde presentadores de varias compañías industriales discutieron sus preocupaciones, problemas y objetivos futuros en el entorno de big data.

Ciencias sociales computacionales: cualquier persona puede usar Interfaces de programación de aplicaciones (API) proporcionadas por grandes titulares de datos, como Google y Twitter, para realizar investigaciones en las ciencias sociales y del comportamiento.[105]​ A menudo, estas API se proporcionan de forma gratuita. Tobias Preis usó los datos de Tendencias de Google para demostrar que los usuarios de Internet de países con un producto interno bruto (PIB) per cápita más alto tienen más probabilidades de buscar información sobre el futuro que la información sobre el pasado. Los hallazgos sugieren que puede haber un vínculo entre el comportamiento en línea y los indicadores económicos del mundo real.[106][107][108]​ Los autores del estudio examinaron los registros de consultas de Google realizados por la relación del volumen de búsquedas para el año siguiente ('2011') con el volumen de búsquedas del año anterior ('2009'), al que denominaron 'índice de orientación futura'.[109]​ Compararon el índice de orientación futura con el PIB per cápita de cada país y encontraron una fuerte tendencia en los países donde los usuarios de Google informan más sobre el futuro para tener un PIB más alto. Los resultados sugieren que potencialmente puede haber una relación entre el éxito económico de un país y el comportamiento de búsqueda de información de sus ciudadanos capturado en Big Data.

Tobias Preis y sus colegas Helen Susannah Moat y H. Eugene Stanley introdujeron un método para identificar los precursores en línea de los movimientos bursátiles, utilizando estrategias de negociación basadas en los datos del volumen de búsquedas provistos por Google Trends.[110]​ Su análisis del volumen de búsqueda de Google para 98 términos de relevancia financiera variable, publicado en Scientific Reports,[111]​ sugiere que los aumentos en el volumen de búsqueda para términos de búsqueda relevantes financieramente tienden a preceder grandes pérdidas en los mercados financieros.[112][113][114][115][116][117]

Los grandes conjuntos de datos vienen con desafíos algorítmicos que anteriormente no existían. Por lo tanto, existe una necesidad de cambiar fundamentalmente las formas de procesamiento.

Los talleres sobre algoritmos para conjuntos de datos masivos modernos (MMDS) reúnen a científicos informáticos, estadísticos, matemáticos y profesionales del análisis de datos para analizar los desafíos algorítmicos del big data.[118]

Muestreo de datos masivos

Una pregunta de investigación importante que se puede hacer sobre los conjuntos de datos grandes es si necesita ver los datos completos para sacar ciertas conclusiones sobre las propiedades de los datos o si una muestra es lo suficientemente buena.

El nombre big data contiene un término relacionado con el tamaño, y esta es una característica importante de big data. Pero el muestreo (estadísticas) permite la selección de puntos de datos correctos dentro del conjunto de datos más grande para estimar las características de toda la población. Por ejemplo, hay alrededor de 600 millones de tuits producidos todos los días. ¿Es necesario mirarlos a todos para determinar los temas que se discuten durante el día? ¿Es necesario mirar todos los tuits para determinar el sentimiento sobre cada uno de los temas? En la fabricación de diferentes tipos de datos sensoriales, como acústica, vibración, presión, corriente, voltaje y datos del controlador están disponibles en intervalos de tiempo cortos. Para predecir el tiempo de inactividad, puede que no sea necesario examinar todos los datos, pero una muestra puede ser suficiente. Big data se puede desglosar por varias categorías de puntos de datos, como datos demográficos, psicográficos, de comportamiento y transaccionales. Con grandes conjuntos de puntos de datos, los especialistas en marketing pueden crear y utilizar segmentos de consumidores más personalizados para una orientación más estratégica.

Se han realizado algunos trabajos en algoritmos de muestreo para big data. Se ha desarrollado una formulación teórica para el muestreo de datos de Twitter.[119]

Salud y medicina

Hacia mediados del 2009, el mundo experimentó una pandemia de gripe A, llamada gripe porcina o H1N1. La web Google Flu Trends[120]​ intentó predecirla a partir de los resultados de las búsquedas. Google Flu Trends usaba los datos de las búsquedas de los usuarios que contenían síntomas parecidos a la enfermedad de la gripe y los agrupó según ubicación y fecha, y pretendía predecir la actividad de la gripe hasta con dos semanas de antelación más que los sistemas tradicionales. Sin embargo, en el 2013 se descubrió que predijo el doble de visitas al médico de las que hubo en realidad. Sus creadores cometieron dos errores: a) la nueva herramienta había generado muchísimo interés en el público, que la consultaba más por curiosidad que por necesidad, lo que generó ruido en la información, y b) los algoritmos de predicción de los buscadores. En un artículo en la revista Science en el 2014, se analizaron los errores cometidos por Google Flu Trends: "querer sustituir con técnicas de datos masivos los métodos más tradicionales y probados de recolección y análisis de datos, en vez de sólo aplicar dichas técnicas como complemento, como hizo Brittany Wenger con Cloud4cancer". Google Flu Trends dejó de funcionar.[121]

Más concretamente, en Nueva Zelanda[122]​ cruzaron los datos de las tendencias de gripe de Google con datos existentes de los sistemas de salud nacionales, y comprobaron que estaban alineados. Los gráficos mostraron una correlación con las búsquedas de síntomas relacionados con la gripe y la extensión de la pandemia en el país. Los países con sistemas de predicción poco desarrollados pueden beneficiarse de una predicción fiable y pública para abastecer a su población de las medidas de seguridad oportunas.

Entre 1853 y 1854, en Londres, una epidemia de cólera mató a miles de personas. El médico John Snow estudió los registros de defunciones, y descubrió que la mayor parte de los casos se presentaron en un barrio específico: las personas habían bebido agua de un mismo pozo. Cuando lo clausuraron, el número de casos comenzó a disminuir.[123]

En el 2012, en la Feria de Ciencias de Google, Brittany Wenger, estudiante de 18 años, presentó el proyecto de diseño de un software para ayudar al diagnóstico temprano del cáncer de mama. Denominó a la plataforma Cloud4cancer, que utiliza una red de inteligencia artificial y las bases de datos de los hospitales para diferenciar una muestra de un tejido benigno de una de un tumor maligno. El sistema inteligente diseñado por Wenger distingue en segundos los dos tipo de tumores, ingresando a la plataforma las características observadas. Es posible que este sistema se aplique más adelante a otros padecimientos, como la leucemia.[124]

Defensa y seguridad

Para incrementar la seguridad frente a los ataques de las propias organizaciones, ya sean empresas en el entorno económico o los propios ministerios de defensa en el entorno de ciberataques, se contempla la utilidad de las tecnologías de big data en escenarios como la vigilancia y seguridad de fronteras, lucha contra el terrorismo y crimen organizado, contra el fraude, planes de seguridad ciudadana o planeamiento táctico de misiones e inteligencia militar.[125]

Caso específico del proyecto Aloja

 
Una de las máquinas del Marenostrum, Supercomputador del BSC

El proyecto Aloja[126]​ ha sido iniciado por una apuesta en común del Barcelona Supercomputing Center (BSC) y Microsoft Research. El objetivo de este proyecto de big data quiere «conseguir una optimización automática en despliegues de Hadoop en diferentes infraestructuras».

Caso específico de sostenibilidad

Conservation International es una organización con el propósito de concienciar a la sociedad de cuidar el entorno de una manera responsable y sostenible. Con la ayuda de la plataforma Vertica Analytics de HP, han situado 1000 cámaras a lo largo de dieciséis bosques en cuatro continentes. Estas cámaras incorporan unos sensores, y a modo de cámara oculta graban el comportamiento de la fauna. Con estas imágenes y los datos de los sensores (precipitaciones, temperatura, humedad, solar…) consiguen información sobre cómo el cambio climático o el desgaste de la tierra afecta en su comportamiento y desarrollo.[127]

Críticas

Las críticas al paradigma del big data vienen en dos formas, aquellas que cuestionan las implicaciones del enfoque en sí mismo, y las que cuestionan la forma en que se realiza actualmente.[128]​ Un enfoque de esta crítica es el campo de los estudios de datos críticos.

Críticas al paradigma de los grandes datos

"Un problema crucial es que no sabemos mucho sobre los microprocesos empíricos subyacentes que conducen a la aparición de las [se] características de red típicas de Big Data".[129]​ En su crítica, Snijders, Matzat y Reips señalan que a menudo se hacen suposiciones muy fuertes sobre las propiedades matemáticas que pueden no reflejar en absoluto lo que realmente está sucediendo a nivel de los microprocesos. Mark Graham ha criticado ampliamente la afirmación de Chris Anderson de que los macrodatos marcarán el final de la teoría:[130]​ centrándose en particular en la noción de que los macrodatos siempre deben contextualizarse en sus contextos sociales, económicos y políticos.[131]​ Incluso cuando las empresas invierten sumas de ocho y nueve cifras para obtener información de la transmisión de información de proveedores y clientes, menos del 40 % de los empleados tienen procesos y habilidades suficientemente maduros para hacerlo. Para superar este déficit de perspicacia, los grandes datos, sin importar cuán exhaustivos o bien analizados, se complementen con un "gran juicio", según un artículo de Harvard Business Review.[132]

En la misma línea, se ha señalado que las decisiones basadas en el análisis de big data inevitablemente "están informadas por el mundo como lo fueron en el pasado o, en el mejor de los casos, como lo es actualmente". Alimentados por una gran cantidad de datos sobre experiencias pasadas, los algoritmos pueden predecir el desarrollo futuro si el futuro es similar al pasado.[133]​ Si la dinámica de sistemas del futuro cambia (si no es un proceso estacionario), el pasado puede decir poco sobre el futuro. Para hacer predicciones en entornos cambiantes, sería necesario tener un conocimiento profundo de la dinámica de los sistemas, que requiere teoría. Como respuesta a esta crítica, Alemany Oliver y Vayre sugirieron usar el "razonamiento abductivo como un primer paso en el proceso de investigación para traer contexto a las huellas digitales de los consumidores y hacer que emerjan nuevas teorías".[134]​ Además, se ha sugerido combinar enfoques de big data con simulaciones por computadora, tales como modelos basados en agentes y Sistemas Complejos. Los modelos basados en agentes son cada vez mejores para predecir el resultado de las complejidades sociales de escenarios futuros incluso desconocidos a través de simulaciones por computadora que se basan en una colección de algoritmos mutuamente interdependientes.[135][136]​ Finalmente, el uso de métodos multivariantes que exploran la estructura latente de los datos, como el análisis factorial y el análisis de conglomerados, han demostrado ser útiles como enfoques analíticos que van más allá de los enfoques bi-variados (tablas cruzadas) típicamente empleados con conjuntos de datos más pequeños.

En salud y biología, los enfoques científicos convencionales se basan en la experimentación. Para estos enfoques, el factor limitante es la información relevante que puede confirmar o refutar la hipótesis inicial.[137]​ Ahora se acepta un nuevo postulado en ciencias biológicas: la información provista por los datos en grandes volúmenes (ómicas) sin hipótesis previas es complementaria y a veces necesaria para los enfoques convencionales basados en la experimentación.[138]​ En los enfoques masivos, la formulación de una hipótesis relevante para explicar los datos es el factor limitante.[139]​ La lógica de búsqueda se invierte y se deben considerar los límites de la inducción ("Gloria de la ciencia y el escándalo de la filosofía", C. D. Broad, 1926).

Los defensores de la privacidad están preocupados por la amenaza a la privacidad que representa el aumento del almacenamiento y la integración de la información de identificación personal; los paneles de expertos han publicado varias recomendaciones de políticas para adaptar la práctica a las expectativas de privacidad.[140][141][142]​ El uso indebido de Big Data en varios casos por los medios, las empresas e incluso el gobierno ha permitido la abolición de la confianza en casi todas las instituciones fundamentales que sostienen a la sociedad.[143]

Nayef Al-Rodhan sostiene que se necesitará un nuevo tipo de contrato social para proteger las libertades individuales en un contexto de Big Data y corporaciones gigantes que poseen grandes cantidades de información. El uso de Big Data debería supervisarse y regularse mejor a nivel nacional e internacional.[144]​ Barocas y Nissenbaum argumentan que una forma de proteger a los usuarios individuales es informando sobre los tipos de información que se recopila, con quién se comparte, bajo qué limitaciones y con qué fines.[145]

Críticas del modelo 'V'

El modelo 'V' de Big Data es concertante ya que se centra en la escalabilidad computacional y carece de una pérdida en torno a la perceptibilidad y la comprensibilidad de la información. Esto llevó al marco de Cognitive Big Data, que caracteriza la aplicación Big Data de acuerdo con:[146]

  • Completar los datos: comprensión de lo no obvio de los datos;
  • Correlación de datos, causalidad y predictibilidad: la causalidad como requisito no esencial para lograr la previsibilidad;
  • Explicación e interpretación: los seres humanos desean comprender y aceptar lo que entienden, donde los algoritmos no lo resuelven;
  • Nivel de toma de decisiones automatizada: algoritmos que respaldan la toma de decisiones automatizada y el autoaprendizaje algorítmico;

Crítica de la novedad

Grandes conjuntos de datos han sido analizados por máquinas de computación durante más de un siglo, incluida la analítica del censo estadounidense realizada en 1890 por las máquinas de tarjetas perforadas de IBM que computaron estadísticas que incluían medias y variaciones de poblaciones en todo el continente. En décadas más recientes, experimentos científicos como el CERN han producido datos en escalas similares a los "grandes datos" comerciales actuales. Sin embargo, los experimentos científicos han tendido a analizar sus datos utilizando clusters y grids especializados de computación de alto rendimiento (supercomputación), en lugar de nubes de computadoras básicas baratas como en la ola comercial actual, lo que implica una diferencia en la cultura y la tecnología.

Críticas de la ejecución de macrodatos

Ulf-Dietrich Reips y Uwe Matzat escribieron en 2014 que el big data se había convertido en una "moda" en la investigación científica. La investigadora danah boyd ha expresado su preocupación sobre el uso de big data en la ciencia, descuidando principios como elegir una muestra representativa por estar demasiado preocupado por manejar grandes cantidades de datos.[147]​ Este enfoque puede generar sesgos en los resultados de una forma u otra. La integración a través de recursos de datos heterogéneos -algunos que pueden considerarse grandes datos y otros no- presenta desafíos logísticos y analíticos formidables, pero muchos investigadores sostienen que tales integraciones probablemente representen las nuevas fronteras más prometedoras en la ciencia.[148]​ En el provocativo artículo "Preguntas críticas para Big Data",[149]​ los autores titulan big data como parte de la mitología: "los grandes conjuntos de datos ofrecen una forma superior de inteligencia y conocimiento [...], con el aura de la verdad, la objetividad y precisión". Los usuarios de big data a menudo "se pierden en el gran volumen de números", y "trabajar con Big Data sigue siendo subjetivo, y lo que cuantifica no necesariamente tiene un reclamo más cercano sobre la verdad objetiva". Los desarrollos recientes en el dominio de BI, como los informes proactivos, apuntan especialmente a mejoras en la usabilidad de big data, a través del filtrado automatizado de datos y correlaciones no útiles.[150]

El análisis de macrodatos suele ser poco profundo en comparación con el análisis de conjuntos de datos más pequeños. [194] En muchos proyectos de big data, no hay grandes análisis de datos, pero el desafío es extraer, transformar y cargar parte del preprocesamiento de datos.[151]

Big data es una palabra de moda y un "término vago",[152][153]​ pero al mismo tiempo una "obsesión" con empresarios, consultores, científicos y medios de comunicación. Las muestras de datos grandes como Google Flu Trends no generaron buenas predicciones en los últimos años, lo que exageró los brotes de gripe en un factor de dos. Del mismo modo, los premios de la Academia y las predicciones electorales basadas únicamente en Twitter fueron más a menudo fuera del objetivo. Los grandes datos a menudo presentan los mismos desafíos que los datos pequeños; agregar más datos no resuelve los problemas de sesgo, pero puede enfatizar otros problemas. En particular, las fuentes de datos como Twitter no son representativas de la población en general, y los resultados extraídos de dichas fuentes pueden dar lugar a conclusiones erróneas. Google Translate, que se basa en el análisis estadístico de big data de textos, hace un buen trabajo al traducir páginas web. Sin embargo, los resultados de dominios especializados pueden ser dramáticamente sesgados. Por otro lado, los macrodatos también pueden introducir nuevos problemas, como el problema de las comparaciones múltiples: la prueba simultánea de un gran conjunto de hipótesis probablemente produzca muchos resultados falsos que erróneamente parecen significativos. Ioannidis argumentó que "la mayoría de los resultados de investigación publicados son falsos"[154]​ debido esencialmente al mismo efecto: cuando muchos equipos científicos e investigadores realizan cada uno experimentos (es decir, procesan una gran cantidad de datos científicos, aunque no con big data), la probabilidad de que un resultado "significativo" sea falso crece rápidamente, incluso más cuando se publican resultados positivos. Además, los resultados del análisis de big data son tan buenos como el modelo en el que se basan. En un ejemplo, Big Data participó en el intento de predecir los resultados de las elecciones presidenciales de EE. UU. en 2016[155]​ con diversos grados de éxito. Forbes predijo: "Si usted cree en el análisis de Big Data, es hora de comenzar a planificar para la presidencia de Hillary Clinton y todo lo que eso implica".[156]

Virtualización de big data

La virtualización de big data es una forma de recopilar información de múltiples fuentes en el mismo lugar. El ensamblaje es virtual: a diferencia de otros métodos, la mayoría de los datos permanecen en su lugar y se toman bajo demanda directamente desde el sistema de origen.[157]

Véase también

Referencias

  1. «Macrodatos e inteligencia de datos, alternativas a big data». Consultado el 11 de abril de 2017. 
  2. Musicco, Daniela. «Data drive / human drive: el reto de la Data Comunicación». COMUNICACIÓN Y HOMBRE. Consultado el 12 de junio de 2020. 
  3. «"Los datos masivos (o big data) son el nuevo oro"». eldiario.es. Consultado el 23 de mayo de 2017. 
  4. Hernández García, Claudia (diciembre del 2018). [www.comoves.unam.mx «Big data: o cómo los datos masivos están cambiando el mundo»] |url= incorrecta (ayuda). ¿Cómo ves? (Ciudad de México: Dirección General de Divulgación de la Ciencia (UNAM)) 21 (241): 8-13. Consultado el 2 de diciembre de 2018. 
  5. Kusnetzky, Dan. What is "Big Data?". ZDNet. http://blogs.zdnet.com/virtualization/?p=1708 el 21 de febrero de 2010 en Wayback Machine.
  6. Vance, Ashley. Start-Up Goes After Big Data With Hadoop Helper. New York Times Blog. 22 de abril de 2010. http://bits.blogs.nytimes.com/2010/04/22/start-up-goes-after-big-data-with-hadoop-helper/?dbk
  7. Cukier, K. (25 February 2010). «Data, data everywhere». The Economist. http://www.economist.com/specialreports/displaystory.cfm?story_id=15557443
  8. Málaga Hoy. «El imparable crecimiento del uso del Big Data». https://www.malagahoy.es. Consultado el 23 de octubre de 2018. 
  9. Martin Hilbert, experto en redes digitales: “Obama y Trump usaron el Big Data para lavar cerebros” http://www.theclinic.cl/2017/01/19/martin-hilbert-experto-redes-digitales-obama-trump-usaron-big-data-lavar-cerebros/
  10. Community cleverness required. Nature, 455(7209), 1. 2008. http://www.nature.com/nature/journal/v455/n7209/full/455001a.html
  11. Sandia sees data management challenges spiral. HPC Projects. 4 August 2009. . Archivado desde el original el 11 de mayo de 2011. Consultado el 22 de abril de 2011. 
  12. Reichman,O.J., Jones, M.B., and Schildhauer, M.P. 2011. Challenges and Opportunities of Open Data in Ecology. Science 331(6018): 703-705.DOI:10.1126/science.1197962
  13. Hellerstein, Joe. Parallel Programming in the Age of Big Data. Gigaom Blog. 9 November 2008. http://gigaom.com/2008/11/09/mapreduce-leads-the-way-for-parallel-programming/
  14. Segaran, Toby and Hammerbacher, Jeff. Beautiful Data. 1st Edition. O'Reilly Media. Pg 257.
  15. «The World’s Technological Capacity to Store, Communicate, and Compute Information.» Martin Hilbert y Priscila López (2011), Science, 332(6025), 60-65; free access to the article through here: martinhilbert.net/WorldInfoCapacity.html
  16. [1]
  17. Jacobs, A. (6 de julio de 2009). «"The Pathologies of Big Data"». ACMQueue. 
  18. Magoulas, Roger, Lorica, Ben (Febrero, 2009). «"Introduction to Big Data"». Release 2.0 (en inglés). Sebastopol CA: O'Reilly Media. 
  19. Mashey, John R. (1998). Big Data ... and the Next Wave of InfraStress (en inglés). Usenix. 
  20. Big Data Definition
  21. Douglas Patterson (2012), Big Ethics for Big Data .
  22. Douglas, Laney. «3D Data Management: Controlling Data Volume, Velocity and Variety». Gartner. Consultado el 6 de febrero de 2001. 
  23. Beyer, Mark. «Gartner Says Solving 'Big Data' Challenge Involves More Than Just Managing Volumes of Data». Gartner. Consultado el 13 de julio de 2011. 
  24. De Mauro, Greco, Grimaldi, Andrea, Marco, Michele (2016). A Formal definition of Big Data based on its essential Features (en inglés). Emerald Group Publishing. 
  25. «What is Big Data?». Villanova University. 
  26. InformationWeek (ed.). «Big Data: Avoid 'Wanna V' Confusion». 
  27. Mayer-Schönberger, Cukier, Viktor, Kenneth (2013). Houghton Mifflin Harcourt, ed. Big Data: A Revolution that Will Transform how We Live, Work, and Think. 
  28. Fox, Charles (2018). Data Science for Transport. Springer International Publishing. ISBN 978-3-319-72952-7. 
  29. Billings, Stephen A. (2013). Nonlinear System Identification: NARMAX Methods in the Time, Frequency, and Spatio-Temporal Domains. John Wiley & Sons. ISBN 9781118535554. 
  30. Pierre Delort (3 de abril de 2013). Les Echos, ed. «Big Data car Low-Density Data ? La faible densité en information comme facteur discriminant» (en francés). 
  31. . www.datahack.es. Archivado desde el original el 16 de octubre de 2018. Consultado el 16 de octubre de 2018. 
  32. Matthew Hicks (8 de noviembre de 2003). «Survey: Biggest Databases Approach 30 Terabytes». 
  33. O'Harrow Jr., Robert (15 de julio de 2004). «LexisNexis To Buy Seisint For $775 Million». Washington Post. 
  34. Nakashima, O'Harrow Jr., Ellen, Robert (22 de febrero de 2008). «LexisNexis Parent Set to Buy ChoicePoint». Washington Post. 
  35. Nicole Hemsoth. «Quantcast Opens Exabyte-Ready File System». 
  36. Dean, Ghemawat, Jeffrey, Sanjay (2004). «MapReduce: Simplified Data Processing on Large Clusters». Search Storage. 
  37. «Big Data Solution Offering». MIKE 2.0. 
  38. «Big Data Definition». MIKE 2.0. 
  39. Boja, Pocovnicu, Bătăgan, Catalin, Adrian, Lorena (2012). «Distributed Parallel Architecture for "Big Data"». Informatica Economică (vol. 16, no. 2). 
  40. . Imscenter.net. Archivado desde el original el 27 de mayo de 2016. Consultado el 29 de septiembre de 2018. 
  41. Wills, John (2014). Solving key business challenges with a Big Data Lake. HCL. 
  42. Marynowski, Santin, Pimentel, Joa ̃o Eugenio, Altair Olivo, Andrey Ricardo (14 de febrero de 2015). «Method for Testing the Fault Tolerance of MapReduce Frameworks». Computer Networks. 
  43. Purcell, Bernice (2013). «The emergence of Big Data technology and Analytics». Holy Family University. 
  44. Lopez García, David (2012-2013). . Archivado desde el original el 1 de enero de 2015. Consultado el 18 de octubre de 2014. 
  45. James Manyika, Michael Chui, Brad Brown, Jacques Bughin, Richard Dobbs, Charles Roxburgh, and Angela Hung Byers (2011). «Big data: The next frontier for innovation, competition, and productivity». McKinsey&Company. 
  46. «"Future Directions in Tensor-Based Computation and Modeling"». 2009. 
  47. Haiping Lu, K. N. Plataniotis, A. N. Venetsanopoulos (2011). «A Survey of Multilinear Subspace Learning for Tensor Data». Pattern Recognition. 
  48. Pllana, Sabri; Janciak, Ivan; Brezany, Peter; Wöhrer, Alexander (2011). «A Survey of the State of the Art in Data Mining and Integration Query Languages». International Conference on Network-Based Information Systems (NBIS 2011). Computer Society. 
  49. Yandong Wang ; Robin Goldstone ; Weikuan Yu ; Teng Wang (2014). «Characterization and Optimization of Memory-Resident MapReduce on HPC Systems». IEEE. 
  50. L’Heureux, A.; Grolinger, K.; Elyamany, H. F.; Capretz, M. A. M. (2017). «Machine Learning With Big Data: Challenges and Approaches - IEEE Journals & Magazine». ieeexplore.ieee.org (en inglés estadounidense). 
  51. Monash, Curt (2009). «eBay's two enormous data warehouses | DBMS 2 : DataBase Management System Services». www.dbms2.com. 
  52. «"Resources on how Topological Data Analysis is used to analyze big data"». Ayasdi (en inglés estadounidense). 
  53. John Webster (1 de abril de 2011). «Storage area networks need not apply». CNET (en inglés). 
  54. Paniagua, Soraya (Junio - septiembre 2013). «A world of sensors, from Data to Big Data». Revista Telos. 
  55. “Conceptos básicos de Big Data”, TRC Informática SL, 2013.
  56. Paniagua, Soraya (junio-septiembre 2013). «A world of sensors, from Data to Big Data». Revista Telos. 
  57. Big Data en los Festivales de Música el 17 de marzo de 2018 en Wayback Machine.. The Box Populi. 8 de Marzo 2018
  58. Tecnología IoT y big data: el futuro del sector asegurador. 15 de febrero de 2018
  59. Kohlwey, Edmund; Sussman, Abel; Trost, Jason; Maurer, Amber (2011). «Leveraging the Cloud for Big Data Biometrics». IEEE World Congress on Services. 
  60. Tomsen, Christian; Pedersen, Torben Bach (2009). «pygrametl: A Powerful Programming Framework for Extract–Transform–Load Programmers». 1DB Technical Report; No. 25, Department of Computer Science, Aalborg University. 
  61. Martín, Adriana; Chávez, Susana; Rodríguez, Nelson R.; Valenzuela, Adriana; Murazzo, Maria A. (2013). «Bases de datos NoSql en cloud computing». WICC. Consultado el 18 de octubre de 2014. 
  62. Hecht, Robin; Jablonski, Stefan (2011). «NoSQL Evaluation, a use case oriented survey». International Conference on Cloud and Service Computing. 
  63. Seeger, Marc (21 de septiembre de 2009). Key-Value stores: a practical overview. Consultado el 1 de enero de 2015. 
  64. Bianchi Widder, Maria Belén (septiembre de 2012). «Els beneficis de l’ús de tecnologies NoSQL». UPCommons. Consultado el 1 de enero de 2015. 
  65. Vila, M Amparo; Sanchez, Daniel; Escobar, Luis (2004). «Relaciones Causales en Reglas de Asociación». XII Congreso Español sobre tecnologías y lógica Fuzzy. 
  66. Manyika, James; Chui, Michael; Brown, Brad; Bughin, Jacques; Dobbs, Richard; Roxburgh, Charles; Byers, Angela Hung (Mayo de 2011). «Big data: The next frontier for innovation, competition, and productivity». McKinsey. Consultado el 1 de enero de 2015. 
  67. Jain, A.K.; Murty, M.N.; Flynn, P.J. (septiembre de 1999). «Data Clustering: A Review». ACM Computing Surveys 31 (3). Consultado el 1 de enero de 2015. 
  68. Maltby, Dylan (9 de octubre de 2011). . ASIST 2011 (New Orleans). Archivado desde el original el 1 de enero de 2015. Consultado el 1 de enero de 2015. 
  69. «Primeros pasos / Información más atractiva». 
  70. Theus, Martin (2003). «Interactive Data Visualization using Mondrian». Journal of Statistical Software. 
  71. «Tableau vs Qlikview | Tableau vs Power BI | Power BI vs Qlikview - 2018». SelectHub (en inglés estadounidense). 27 de agosto de 2018. Consultado el 16 de octubre de 2018. 
  72. Albarracín, Pablo (12 de agosto de 2013). . Revista América Economía Tecno. Archivado desde el original el 1 de enero de 2015. Consultado el 18 de octubre de 2014. 
  73. «Data, data everywhere». The Economist (en inglés). 25 de febrero de 2010. 
  74. Hilbert, Martin; López, Priscila. «The World’s Technological Capacity to Store, Communicate, and Compute Information». MartinHilbert.net (en inglés estadounidense). 
  75. Hilbert, Martin (2014-03). «What Is the Content of the World's Technologically Mediated Information and Communication Capacity: How Much Text, Image, Audio, and Video?». The Information Society (en inglés) 30 (2): 127-143. ISSN 0197-2243. doi:10.1080/01972243.2013.873748. 
  76. Rajpurohit, Anmol (11 de julio de 2014). «Interview: Amy Gershkoff, Director of Customer Analytics & Insights, eBay on How to Design Custom In-House BI Tools». www.kdnuggets.com (en inglés estadounidense). 
  77. Davis, Aaron. «The government and big data: Use, problems and potential». Computerworld (en inglés). Consultado el 27 de agosto de 2018. 
  78. Martin Hilbert, experto en redes digitales: “Obama y Trump usaron el Big Data para lavar cerebros” http://www.theclinic.cl/2017/01/19/martin-hilbert-experto-redes-digitales-obama-trump-usaron-big-data-lavar-cerebros/
  79. Lissardy, Gerardo (6 de abril de 2017). «Martin Hilbert, gurú del Big Data: "La democracia no está preparada para la era digital y está siendo destruida"». BBC News Mundo (en inglés británico). Consultado el 27 de agosto de 2018. 
  80. Rodríguez. Patricio / Palomino. Norma/ Moncada. Javier (Julio de 2017). «El uso de datos masivos y sus técnicas analíticas para el diseño e implementación de políticas públicas en Latinoamérica y el Caribe (2017)». BID (en español). Consultado el 29 de noviembre de 2018. 
  81. «White Paper: Big Data for Development: Opportunities & Challenges (2012) | United Nations Global Pulse». www.unglobalpulse.org (en inglés). Consultado el 27 de agosto de 2018. 
  82. «Big Data, Big Impact: New Possibilities for International Development». World Economic Forum. Consultado el 27 de agosto de 2018. 
  83. Hilbert, Martin (2013). «Big Data for Development: From Information - to Knowledge Societies». SSRN Electronic Journal (en inglés). ISSN 1556-5068. doi:10.2139/ssrn.2205145. Consultado el 27 de agosto de 2018. 
  84. «Prognostics and health management design for rotary machinery systems—Reviews, methodology and applications». Mechanical Systems and Signal Processing (en inglés) 42 (1-2): 314-334. 1 de enero de 2014. ISSN 0888-3270. doi:10.1016/j.ymssp.2013.06.004. Consultado el 27 de agosto de 2018. 
  85. . Industrial Technology Research Institute (en inglés). Archivado desde el original el 27 de agosto de 2018. Consultado el 27 de agosto de 2018. 
  86. Nick, Couldry, (2014). «Advertising, big data and the clearance of the public realm: marketers' new approaches to the content subsidy». eprints.lse.ac.uk (en inglés). Consultado el 27 de agosto de 2018. 
  87. «Why Digital Advertising Agencies Suck at Acquisition and are in Dire Need of an AI Assisted Upgrade». Insincerely Yours (en inglés estadounidense). 15 de abril de 2018. Consultado el 27 de agosto de 2018. 
  88. Luján Villar, Juan David; Luján Villar, Roberto Carlos. «Reconocimiento de emociones musicales a través de datos y tecnologías digitales». COMUNICACIÓN Y HOMBRE. Consultado el 12 de junio de 2020. 
  89. Allen, Marshall (17 de julio de 2018). «Health Insurers Are Vacuuming Up Details About You — And It Could Raise Your Rates — ProPublica». ProPublica (en inglés estadounidense). Consultado el 27 de agosto de 2018. 
  90. Reilly, Thomas; Korkusuz, Feza (2009). . p. 209. ISBN 0-203-89368-9. Archivado desde el original el 1 de enero de 2015. 
  91. «Big Data y finanzas - datahack, especialistas en Big Data, más que una escuela y un máster». www.datahack.es. Consultado el 16 de octubre de 2018. 
  92. «Por qué mezclar Big Data, Marketing y Ventas es una buena idea - datahack, especialistas en Big Data, más que una escuela y un máster». www.datahack.es. Consultado el 16 de octubre de 2018. 
  93. Europa Press. «Big Data, una formación en crecimiento». Consultado el 26 de febrero de 2019. 
  94. Siwach, Gautam; Esmailpour, Amir (2014). . Department of Electrical and Computer Engineering The University of New Haven (West Haven, CT, USA). Archivado desde el original el 9 de agosto de 2014. 
  95. «AMPLab - UC Berkeley». AMPLab - UC Berkeley (en inglés estadounidense). Consultado el 29 de septiembre de 2018. 
  96. «NSF Leads Federal Efforts In Big Data | NSF - National Science Foundation». www.nsf.gov (en inglés). 2012. 
  97. Timothy Hunter, Teodor Moldovan, Matei Zaharia, Justin Ma, Michael Franklin, Pieter Abbeel, Alexandre Bayen (2011). «Scaling the Mobile Millennium System in the Cloud». AMPLab - UC Berkeley (en inglés estadounidense). 
  98. David Patterson (5 de diciembre de 2011). «David Patterson: Enlist Computer Scientists in Cancer Fight». The New York Times (en inglés). 
  99. «Secretary Chu Announces New Institute to Help Scientists Improve Massive Data Set Research on DOE Supercomputers». Energy.gov (en inglés). 
  100. «Welcome to Big Data at CSAIL | bigdata CSAIL». bigdata.csail.mit.edu (en inglés). 
  101. «Welcome to Big Data at CSAIL | bigdata CSAIL». bigdata.csail.mit.edu (en inglés). 19 de marzo de 2014. 
  102. «Inspiration day at University of Waterloo, Stratford Campus». BetaKit (en inglés canadiense). 28 de febrero de 2014. 
  103. JayLee, Edzel Lapira, Behrad Bagheri, Hung-an Kao (1 de octubre de 2013). «Recent advances and trends in predictive manufacturing systems in big data environment». Manufacturing Letters (en inglés) 1 (1): 38-41. ISSN 2213-8463. doi:10.1016/j.mfglet.2013.09.005. 
  104. «International Journal of Internet Science, Volume 9, Issue 1». www.ijis.net. 
  105. Preis, Tobias; Moat, Helen Susannah; Stanley, H. Eugene; Bishop, Steven R. (5 de abril de 2012). «Quantifying the Advantage of Looking Forward». Scientific Reports 2. ISSN 2045-2322. PMC 3320057. PMID 22482034. doi:10.1038/srep00350. Consultado el 29 de septiembre de 2018. 
  106. Marks, Paul (5 de abril de 2012). «Online searches for future linked to economic success». New Scientist (en inglés estadounidense). Consultado el 29 de septiembre de 2018. 
  107. Johnston, Casey (6 de abril de 2012). «Google Trends reveals clues about the mentality of richer nations». Ars Technica (en inglés estadounidense). Consultado el 29 de septiembre de 2018. 
  108. Tobias Preis (24 de mayo de 2012). «Supplementary Information: The Future Orientation Index is available for download». 
  109. Ball, Philip (26 de abril de 2013). «Counting Google searches predicts market movements». Nature (en inglés). ISSN 1476-4687. doi:10.1038/nature.2013.12879. Consultado el 29 de septiembre de 2018. 
  110. Preis, Tobias; Moat, Helen Susannah; Stanley, H. Eugene (25 de abril de 2013). «Quantifying Trading Behavior in Financial Markets Using Google Trends». Scientific Reports 3. ISSN 2045-2322. PMC 3635219. PMID 23619126. doi:10.1038/srep01684. Consultado el 29 de septiembre de 2018. 
  111. Bilton, Nick. «Google Search Terms Can Predict Stock Market, Study Finds». Bits Blog (en inglés). Consultado el 29 de septiembre de 2018. 
  112. Matthews, Christopher. «Trouble With Your Investment Portfolio? Google It!». Time (en inglés estadounidense). ISSN 0040-781X. Consultado el 29 de septiembre de 2018. 
  113. Ball, Philip (26 de abril de 2013). «Counting Google searches predicts market movements». Nature (en inglés). ISSN 1476-4687. doi:10.1038/nature.2013.12879. Consultado el 29 de septiembre de 2018. 
  114. Bernhard Warner (25 de marzo de 2013). «"'Big Data' Researchers Turn to Google to Beat the Markets"». www.bloomberg.com. Consultado el 29 de septiembre de 2018. 
  115. «Hamish McRae: Need a valuable handle on investor sentiment? Google it». The Independent (en inglés británico). Consultado el 29 de septiembre de 2018. 
  116. Richard Waters (25 de abril de 2013). «Subscribe to read». Financial Times (en inglés británico). Consultado el 29 de septiembre de 2018. 
  117. «Workshop on Algorithms for Modern Massive Data Sets (MMDS)». web.stanford.edu. Consultado el 29 de septiembre de 2018. 
  118. Deepan Palguna; Vikas Joshi; Venkatesan Chakaravarthy; Ravi Kothari & L. V. Subramaniam (2015). Analysis of Sampling Algorithms for Twitter. International Joint Conference on Artificial Intelligence.
  119. [2]
  120. Rodríguez Manzano, Anayansi (diciembre del 2018). «El uso de los datos masivos para salvar vidas». ¿Cómo ves? (Ciudad de México: Dirección General de Divulgación de la Ciencia (UNAM)) 21 (241): 16-19. 
  121. Wilson, N; Mason, M; Tobias, M; Peacey, M; Huang, Q S; Baker, M (Eurosurveillance Edition 2009). «Interpreting “Google Flu Trends” data for pandemic H1N1 influenza: The New Zealand Experience». Eurosurveillance Edition 2009. 14 / Issue 44 (4). 
  122. Rodríguez Manzano, Anayansi (diciembre del 2018). «El uso de los datos masivos para salvar vidas». ¿Cómo ves? (Ciudad de México: Dirección General de Divulgación de la Ciencia (UNAM)) 21 (241): 16-19. 
  123. Rodríguez Manzano, Anayansi (diciembre del 2018). «El uso de los datos masivos para salvar vidas». ¿Cómo ves? (Ciudad de México: Dirección General de Divulgación de la Ciencia (UNAM)) 21 (241): 16-19. 
  124. Carrillo Ruiz, Jose Antonio; Marco de Lucas, Jesus E.; Cases Vega, Fernando; Dueñas Lopez, Juan Carlos; Cristino Fernandez, Jose; Gonzalez Muñoz de Morales, Guillermo; Pereda Laredo, Luis Fernando (Marzo de 2013). «Big Data en los entornos de Defensa y Seguridad». Instituto Español de Estudios Estratégicos. 
  125. «El BSC y Microsoft Research Center optimizarán Big Data con el proyecto Aloja». Computing. 31 de julio de 2014. Consultado el 1 de enero de 2015. 
  126. How Big Data Is Helping to Save the Planet.. 15 de septiembre de 2014. 
  127. Kimble, C.; Milolidakis, G. (2015). "Big Data and Business Intelligence: Debunking the Myths". Global Business and Organizational Excellence. 35 (1): 23–34. arXiv:1511.03085. doi:10.1002/joe.21642.
  128. Snijders, C.; Matzat, U.; Reips, U.-D. (2012). "'Big Data': Big gaps of knowledge in the field of Internet". International Journal of Internet Science. 7: 1–5.
  129. Anderson, Chris (23 de junio de 2008). «The End of Theory: The Data Deluge Makes the Scientific Method Obsolete». WIRED (en inglés estadounidense). Consultado el 29 de septiembre de 2018. 
  130. Graham, Mark (9 de marzo de 2012). «Big data and the end of theory?». the Guardian (en inglés). Consultado el 29 de septiembre de 2018. 
  131. «Good Data Won’t Guarantee Good Decisions». Harvard Business Review. 1 de abril de 2012. Consultado el 29 de septiembre de 2018. 
  132. TEDx Talks (13 de enero de 2015), Big data requires big visions for big change | Martin Hilbert | TEDxUCL, consultado el 29 de septiembre de 2018 .
  133. Alemany Oliver, Mathieu; Vayre, Jean- Sébastien (2015-03). «Big data and the future of knowledge production in marketing research: Ethics, digital traces, and abductive reasoning». Journal of Marketing Analytics (en inglés) 3 (1): 5-13. ISSN 2050-3318. doi:10.1057/jma.2015.1. Consultado el 29 de septiembre de 2018. 
  134. Rauch, Jonathan (1 de abril de 2002). «Seeing Around Corners». The Atlantic (en inglés estadounidense). Consultado el 29 de septiembre de 2018. 
  135. Epstein, J. M., & Axtell, R. L. (1996). Growing Artificial Societies: Social Science from the Bottom Up. A Bradford Book.
  136. «Accueil - Big Data Paris 2019». Big Data Paris 2019 (en francés). Consultado el 29 de septiembre de 2018. 
  137. Tambe, Sanjeev (29 de octubre de 2015). BIG DATA IN BIOSCIENCES. doi:10.13140/RG.2.1.3685.0645. Consultado el 29 de septiembre de 2018. 
  138. Harford, Tim (28 de marzo de 2014). «Big data: are we making a big mistake?». Financial Times (en inglés británico). Consultado el 29 de septiembre de 2018. 
  139. «Don’t Build a Database of Ruin». Harvard Business Review. 23 de agosto de 2012. Consultado el 29 de septiembre de 2018. 
  140. Bond-Graham, Darwin (3 de diciembre de 2013). «Iron Cagebook». www.counterpunch.org (en inglés estadounidense). Consultado el 29 de septiembre de 2018. 
  141. Bond-Graham, Darwin (11 de septiembre de 2013). «Inside the Tech industry’s Startup Conference». www.counterpunch.org (en inglés estadounidense). Consultado el 29 de septiembre de 2018. 
  142. Goldring, Kira. «Is Big Data being used for good?». theperspective.com/. Consultado el 29 de septiembre de 2018. 
  143. Al-Rodhan, Nayef (16 de septiembre de 2014). . hir.harvard.edu (en inglés estadounidense). Archivado desde el original el 13 de abril de 2017. Consultado el 29 de septiembre de 2018. 
  144. Barocas, Solon; Nissenbaum, Helen; Lane, Julia; Stodden, Victoria; Bender, Stefan; Nissenbaum, Helen (2014/06). Privacy, Big Data, and the Public Good (en inglés). Cambridge University Press. pp. 44-75. ISBN 9781107590205. doi:10.1017/cbo9781107590205.004. Consultado el 29 de septiembre de 2018. 
  145. Lugmayr, Artur; Stockleben, Bjoern; Scheib, Christoph; Mailaparampil, Mathew; Mesia, Noora; Ranta, Hannu (1 de junio de 2016). A COMPREHENSIVE SURVEY ON BIG-DATA RESEARCH AND ITS IMPLICATIONS – WHAT IS REALLY 'NEW' IN BIG DATA? -IT'S COGNITIVE BIG DATA!. Consultado el 29 de septiembre de 2018. 
  146. «"Privacy and Publicity in the Context of Big Data"». www.danah.org. Consultado el 29 de septiembre de 2018. 
  147. Jones, MB; Schildhauer, MP; Reichman, OJ; Bowers, S (2006). "The New Bioinformatics: Integrating Ecological Data from the Gene to the Biosphere". Annual Review of Ecology, Evolution, and Systematics. 37 (1)
  148. Boyd, D.; Crawford, K. (2012). "Critical Questions for Big Data". Information, Communication & Society. 15 (5): 662–679.
  149. Failure to Launch: From Big Data to Big Decisions el 6 de diciembre de 2016 en Wayback Machine., Forte Wares.
  150. «Interview: Michael Berthold, KNIME Founder, on Research, Creativity, Big Data, and Privacy, Part 2». www.kdnuggets.com (en inglés estadounidense). Consultado el 29 de septiembre de 2018. 
  151. «"Big Data" is an overused buzzword and this Twitter bot proves it - SiliconANGLE». SiliconANGLE (en inglés estadounidense). 26 de octubre de 2015. Consultado el 29 de septiembre de 2018. 
  152. Harford, Tim (28 de marzo de 2014). «Big data: are we making a big mistake?». Financial Times (en inglés británico). Consultado el 29 de septiembre de 2018. 
  153. Ioannidis, John P. A. (2005-8). «Why Most Published Research Findings Are False». PLoS Medicine 2 (8). ISSN 1549-1277. PMC 1182327. PMID 16060722. doi:10.1371/journal.pmed.0020124. Consultado el 29 de septiembre de 2018. 
  154. Lohr, Steve; Singer, Natasha (10 de noviembre de 2016). «How Data Failed Us in Calling an Election» (en inglés). Consultado el 29 de septiembre de 2018. 
  155. Markman, Jon. «Big Data And The 2016 Election». Forbes (en inglés). Consultado el 29 de septiembre de 2018. 
  156. . www.datawerks.com (en inglés estadounidense). Archivado desde el original el 10 de abril de 2018. Consultado el 14 de mayo de 2018. 

Enlaces externos

  • Big Data ofrecido por las grandes empresas (SAP, Oracle, Microsoft y otros)
  • Actualidad del Big Data
  • IBM crea una universidad de Big Data para aprender gratis
  • Lo más buscado en Wikipedia en 2018 / Cuáles fueron las personalidades y los eventos más consultados en la enciclopedia en línea
  • Los ojos uruguayos de Wikipedia (21 de septiembre de 2012)
  •   Datos: Q858810
  •   Multimedia: Big data

macrodatos, macrodatos, también, llamados, datos, masivos, inteligencia, datos, datos, gran, escala, data, terminología, idioma, inglés, utilizada, comúnmente, término, hace, referencia, conjuntos, datos, grandes, complejos, precisan, aplicaciones, informática. Los macrodatos 1 tambien llamados datos masivos inteligencia de datos datos a gran escala o big data terminologia en idioma ingles utilizada comunmente es un termino que hace referencia a conjuntos de datos tan grandes y complejos que precisan de aplicaciones informaticas no tradicionales de procesamiento de datos para tratarlos adecuadamente Los datos son la reproduccion simbolica de un atributo o variable cuantitativa o cualitativa segun la RAE Informacion sobre algo concreto que permite su conocimiento exacto o sirve para deducir las consecuencias derivadas de un hecho 2 Por ende los procedimientos usados para encontrar patrones repetitivos dentro de esos datos son mas sofisticados y requieren un software especializado En textos cientificos en espanol con frecuencia se usa directamente el termino en ingles big data tal como aparece en el ensayo de Viktor Schonberger La revolucion de los datos masivos 3 4 Un sistema de representacion creado por IBM que muestra macrodatos que consisten en las ediciones de Wikipedia realizadas por el bot Pearle Su visualizacion mas racional aparece acompanada de colores y posiciones en su representacion Big Data se refiere a un fenomeno tecnologico que ha surgido desde mediados de los anos ochenta A medida que las computadoras han mejorado en capacidad y velocidad las mayores posibilidades de almacenamiento y procesamiento tambien han generado nuevos problemas Pero estos nuevos requisitos que pueden observarse en patrones y tendencias nunca antes vistos en el manejo de estos conjuntos de datos fenomenalmente grandes pueden ser dificiles de implementar sin nuevas herramientas analiticas que permitan ir orientando a los usuarios destacando los posibles puntos de interes El programa XDATA de DARPA y la comunidad de investigadores y artistas que se han reunido alli seran esenciales para avanzar en el estado del arte relativo a los llamados macrodatos El uso moderno del termino big data tiende a referirse al analisis del comportamiento del usuario extrayendo valor de los datos almacenados y formulando predicciones a traves de los patrones observados La disciplina dedicada a los datos masivos se enmarca en el sector de las tecnologias de la informacion y la comunicacion Esta disciplina se ocupa de todas las actividades relacionadas con los sistemas que manipulan grandes conjuntos de datos Las dificultades mas habituales vinculadas a la gestion de estos grandes volumenes de datos se centran en la recoleccion y el almacenamiento de los mismos 5 en las busquedas las comparticiones y los analisis 6 y en las visualizaciones y representaciones La tendencia a manipular enormes volumenes de datos se debe en muchos casos a la necesidad de incluir dicha informacion para la creacion de informes estadisticos y modelos predictivos utilizados en diversas materias como los analisis sobre negocios sobre publicidad sobre enfermedades infecciosas sobre el espionaje y el seguimiento a la poblacion o sobre la lucha contra el crimen organizado 7 El limite superior de procesamiento ha ido creciendo a lo largo de los anos 8 Se estima que el mundo almaceno unos 5 zettabytes en 2014 Si se pone esta informacion en libros convirtiendo las imagenes y todo eso a su equivalente en letras se podria hacer 4500 pilas de libros que lleguen hasta el sol 9 Los cientificos con cierta regularidad encuentran limites en el analisis debido a la gran cantidad de datos en ciertas areas tales como la meteorologia la genomica 10 la conectomica una aproximacion al estudio del cerebro en ingles Connectomics en frances Conectomique las complejas simulaciones de procesos fisicos 11 y las investigaciones relacionadas con los procesos biologicos y ambientales 12 Las limitaciones tambien afectan a los motores de busqueda en internet a los sistemas de finanzas y a la informatica de negocios Los data sets crecen en volumen debido en parte a la recoleccion masiva de informacion procedente de los sensores inalambricos y los dispositivos moviles por ejemplo las VANET el constante crecimiento de los historicos de aplicaciones por ejemplo de los registros las camaras sistemas de teledeteccion los microfonos los lectores de identificacion por radiofrecuencia 13 14 La capacidad tecnologica per capita a nivel mundial para almacenar datos se dobla aproximadamente cada cuarenta meses desde los anos 1980 15 Se estima que en 2012 cada dia fueron creados cerca de 2 5 trillones de bytes de datos 16 Los sistemas de gestion de bases de datos relacionales y los paquetes de software utilizados para visualizar datos a menudo tienen dificultades para manejar big data Este trabajo puede requerir un software masivamente paralelo que se ejecute en decenas cientos o incluso miles de servidores 17 Lo que califica como big data varia segun las capacidades de los usuarios y sus herramientas y las capacidades de expansion hacen que big data sea un objetivo en movimiento Para algunas organizaciones enfrentar cientos de gigabytes de datos por primera vez puede provocar la necesidad de reconsiderar las opciones de administracion de datos Para otros puede tomar decenas o cientos de terabytes antes de que el tamano de los datos se convierta en una consideracion importante 18 Indice 1 Definicion 2 Caracteristicas 3 Arquitectura 4 Tecnologia 4 1 Captura 4 2 Transformacion 4 3 Almacenamiento NoSQL 4 4 Analisis de datos 4 5 Visualizacion de datos 5 Aplicaciones 5 1 Gobierno 5 2 Desarrollo internacional 5 3 Industria 5 4 Medios 5 5 Musica 5 6 Seguros 5 7 Deportes 5 8 Finanzas 5 9 Mercadotecnia y ventas 6 Investigacion 6 1 Muestreo de datos masivos 6 2 Salud y medicina 6 3 Defensa y seguridad 6 4 Caso especifico del proyecto Aloja 6 5 Caso especifico de sostenibilidad 7 Criticas 7 1 Criticas al paradigma de los grandes datos 7 2 Criticas del modelo V 7 3 Critica de la novedad 7 4 Criticas de la ejecucion de macrodatos 8 Virtualizacion de big data 9 Vease tambien 10 Referencias 11 Enlaces externosDefinicion EditarEl termino ha estado en uso desde la decada de 1990 y algunos otorgan credito a John Mashey 19 por popularizarlo Big data o macrodatos es un termino que hace referencia a una cantidad de datos tal que supera la capacidad del software convencional para ser capturados administrados y procesados en un tiempo razonable El volumen de los datos masivos crece constantemente En el 2012 se estimaba su tamano de entre una docena de terabytes hasta varios petabyte de datos en un unico conjunto de datos En la metodologia MIKE2 0 dedicada a investigar temas relacionados con la gestion de informacion definen big data 20 en terminos de permutaciones utiles complejidad y dificultad para borrar registros individuales Se ha definido tambien como datos lo suficientemente masivos como para poner de relieve cuestiones y preocupaciones en torno a la efectividad del anonimato desde una perspectiva mas practica que teorica 21 En el 2001 en un informe de investigacion que se fundamentaba en congresos y presentaciones relacionadas 22 la META Group ahora Gartner definia el crecimiento constante de datos como una oportunidad y un reto para investigar en el volumen la velocidad y la variedad Gartner continua usando datos masivos como referencia 23 Ademas grandes proveedores del mercado de datos masivos estan desarrollando soluciones para atender las demandas mas criticas sobre como procesar tal cantidad de datos como MapR y Cloudera Una definicion de 2016 establece que Big data representa los activos de informacion caracterizados por un volumen velocidad y variedad tan altos que requieren una tecnologia especifica y metodos analiticos para su transformacion en valor 24 Ademas algunas organizaciones agregan una nueva V veracidad para describirlo 25 revisionismo cuestionado por algunas autoridades de la industria 26 Las tres V volumen variedad y velocidad se han ampliado a otras caracteristicas complementarias del big data Aprendizaje automatico los grandes datos a menudo no preguntan por que y simplemente detectan los patrones 27 Huella digital el Big Data es a menudo un subproducto libre de costo de la interaccion digital Una definicion de 2018 establece que Big Data es donde se necesitan herramientas informaticas paralelas para manejar los datos y senala Esto representa un cambio distinto y claramente definido en la informatica utilizada a traves de teorias de programacion paralelas y perdidas de algunas de las garantias y capacidades hechas por el modelo relacional de Codd 28 La creciente madurez del concepto describe de manera clara y bien nitida la diferencia entre Big Data Datos a gran escala y Business intelligence Inteligencia empresarial La Business intelligence usa estadisticas descriptivas con datos con alta densidad de informacion para medir cosas detectar tendencias etc Por su parte el Big Data usa estadisticas inductivas y conceptos de identificacion de sistemas no lineales 29 para inferir leyes regresiones relaciones no lineales y efectos causales a partir de grandes conjuntos de datos con baja densidad de informacion con la finalidad de revelar relaciones y dependencias o para realizar predicciones de resultados y comportamientos 30 Caracteristicas EditarLos macrodatos se pueden describir por las siguientes caracteristicas 31 Volumen la cantidad de datos generados y guardados Variedad el tipo y naturaleza de los datos para ayudar a las personas a analizar los datos y usar los resultados de forma eficaz Los macrodatos usan textos imagenes audio y video Tambien completan pedazos Que pedazos pedidos a traves de la fusion de datos Velocidad en este contexto la velocidad a la cual se generan y procesan los datos para cumplir las exigencias y desafios de su analisis Veracidad la calidad de los datos capturados puede variar mucho y asi afectar a los resultados del analisis Valor los datos generados deben ser utiles accionables y tener valor 32 Arquitectura EditarLos repositorios de big data han existido en muchas formas a menudo creadas por corporaciones con una necesidad especial Historicamente los proveedores comerciales ofrecian sistemas de administracion de bases de datos paralelos para big data a partir de la decada de 1990 Durante muchos anos WinterCorp publico un informe de base de datos mas grande 33 Teradata Corporation en 1984 comercializo el sistema de procesamiento paralelo DBC 1012 Los sistemas Teradata fueron los primeros en almacenar y analizar 1 terabyte de datos en 1992 Los discos duros eran de 2 5 GB en 1991 por lo que la definicion de big data evoluciona continuamente segun la Ley de Kryder Teradata instalo el primer sistema basado en RDBMS de clase petabyte en 2007 A partir de 2017 hay unas pocas docenas de bases de datos relacionales de Teradata de clase Petabyte instaladas la mayor de las cuales excede de 50 PB Los sistemas hasta 2008 eran datos relacionales estructurados al 100 Desde entonces Teradata ha agregado tipos de datos no estructurados incluidos XML JSON y Avro En 2000 Seisint Inc ahora LexisNexis Group desarrollo un marco de intercambio de archivos distribuido basado en C para el almacenamiento y consultas de datos El sistema almacena y distribuye datos estructurados semiestructurados y no estructurados en varios servidores Los usuarios pueden crear consultas en un dialecto de C llamado ECL ECL utiliza un metodo de aplicar esquema en lectura para inferir la estructura de los datos almacenados cuando se consulta en lugar de cuando se almacena En 2004 LexisNexis adquirio Seisint Inc 34 y en 2008 adquirio ChoicePoint Inc 35 y su plataforma de procesamiento paralelo de alta velocidad Las dos plataformas se fusionaron en sistemas HPCC o cluster de computacion de alto rendimiento y en 2011 HPCC fue de codigo abierto bajo la licencia Apache v2 0 Quantcast File System estuvo disponible aproximadamente al mismo tiempo 36 El CERN y otros experimentos de fisica han recopilado grandes conjuntos de datos durante muchas decadas generalmente analizados a traves de computadoras de alto rendimiento supercomputadores en lugar de las arquitecturas de mapas reducidos de productos que generalmente se refieren al movimiento actual de big data En 2004 Google publico un documento sobre un proceso llamado MapReduce que utiliza una arquitectura similar El concepto MapReduce proporciona un modelo de procesamiento en paralelo y se lanzo una implementacion asociada para procesar grandes cantidades de datos Con MapReduce las consultas se dividen y distribuyen a traves de nodos paralelos y se procesan en paralelo el paso del Mapa Los resultados se recopilan y se entregan el paso Reducir El marco fue muy exitoso por lo que otros quisieron replicar el algoritmo Por lo tanto una implementacion del marco MapReduce fue adoptada por un proyecto de codigo abierto Apache llamado Hadoop 37 Apache Spark se desarrollo en 2012 en respuesta a las limitaciones del paradigma MapReduce ya que agrega la capacidad de configurar muchas operaciones no solo el mapa seguido de la reduccion MIKE2 0 es un enfoque abierto para la administracion de la informacion que reconoce la necesidad de revisiones debido a las implicaciones de big data identificadas en un articulo titulado Oferta de soluciones de Big Data 38 La metodologia aborda el manejo de big data en terminos de permutaciones utiles de fuentes de datos complejidad en interrelaciones y dificultad para eliminar o modificar registros individuales 39 Los estudios de 2012 mostraron que una arquitectura de capas multiples es una opcion para abordar los problemas que presenta el big data Una arquitectura paralela distribuida distribuye datos entre multiples servidores estos entornos de ejecucion paralela pueden mejorar drasticamente las velocidades de procesamiento de datos Este tipo de arquitectura inserta datos en un DBMS paralelo que implementa el uso de los marcos MapReduce y Hadoop Este tipo de marco busca hacer que el poder de procesamiento sea transparente para el usuario final mediante el uso de un servidor de aplicaciones para el usuario 40 El analisis de big data para aplicaciones de fabricacion se comercializa como una arquitectura 5C conexion conversion cibernetica cognicion y configuracion 41 El lago de datos permite que una organizacion cambie su enfoque del control centralizado a un modelo compartido para responder a la dinamica cambiante de la administracion de la informacion Esto permite una segregacion rapida de datos en el lago de datos lo que reduce el tiempo de sobrecarga 42 43 Tecnologia EditarExisten muchisimas herramientas para el manejo de big data Algunos ejemplos incluyen Hadoop NoSQL Cassandra inteligencia empresarial aprendizaje automatico y MapReduce Estas herramientas tratan con algunos de los tres tipos de big data 44 Datos estructurados datos que tienen bien definidos su longitud y su formato como las fechas los numeros o las cadenas de caracteres Se almacenan en tablas Un ejemplo son las bases de datos relacionales y los almacenes de datos Datos no estructurados datos en el formato tal y como fueron recolectados carecen de un formato especifico No se pueden almacenar dentro de una tabla ya que no se puede desgranar su informacion a tipos basicos de datos Algunos ejemplos son los PDF documentos multimedia correos electronicos o documentos de texto Datos semiestructurados datos que no se limitan a campos determinados pero que contiene marcadores para separar los diferentes elementos Es una informacion poco regular como para ser gestionada de una forma estandar Estos datos poseen sus propios metadatos semiestructurados 45 que describen los objetos y las relaciones entre ellos y pueden acabar siendo aceptados por convencion Como ejemplos tenemos los archivos tipo hojas de calculo HTML XML o JSON Un informe de 2011 del McKinsey Global Institute caracteriza los componentes principales y el ecosistema de big data de la siguiente manera 46 Tecnicas para analizar datos como pruebas A B aprendizaje automatico y procesamiento del lenguaje natural Grandes tecnologias de datos como inteligencia de negocios computacion en la nube y bases de datos Visualizacion como tablas graficos y otras visualizaciones de los datosLos big data multidimensionales tambien se pueden representar como cubos de datos o matematicamente tensores Los sistemas de bases de datos Array se han propuesto proporcionar almacenamiento y soporte de consultas de alto nivel en este tipo de datos Las tecnologias adicionales que se aplican a big data incluyen un calculo basado en tensor eficiente 47 como el aprendizaje de subespacio multilineal 48 bases de datos de procesamiento paralelo masivo MPP aplicaciones basadas en busqueda extraccion de datos 49 sistemas de archivos distribuidos bases de datos distribuidas nube e infraestructura basada en HPC aplicaciones almacenamiento y recursos informaticos 50 e Internet A pesar de que se han desarrollado muchos enfoques y tecnologias sigue siendo dificil llevar a cabo el aprendizaje automatico con grandes datos 51 Algunas bases de datos relacionales de MPP tienen la capacidad de almacenar y administrar petabytes de datos Implicita es la capacidad de cargar supervisar realizar copias de seguridad y optimizar el uso de las tablas de datos de gran tamano en el RDBMS 52 El programa de Analisis Topologico de Datos de DARPA busca la estructura fundamental de los conjuntos de datos masivos y en 2008 la tecnologia se hizo publica con el lanzamiento de una compania llamada Ayasdi 53 Los profesionales de los procesos de analisis de big data generalmente son hostiles al almacenamiento compartido mas lento 54 prefieren el almacenamiento de conexion directa DAS en sus diversas formas desde unidad de estado solido SSD hasta disco SATA de gran capacidad enterrado dentro de nodos de procesamiento paralelo La percepcion de las arquitecturas de almacenamiento compartidas la red de area de almacenamiento SAN y el almacenamiento conectado a la red NAS es que son relativamente lentas complejas y costosas Estas cualidades no son consistentes con los sistemas de analisis de datos grandes que prosperan en el rendimiento del sistema infraestructura de productos basicos y bajo costo La entrega de informacion real o casi en tiempo real es una de las caracteristicas definitorias del analisis de big data Por lo tanto se evita la latencia siempre que sea posible Los datos en la memoria son buenos los datos en el disco giratorio en el otro extremo de una conexion FC SAN no lo son El costo de una SAN en la escala necesaria para las aplicaciones analiticas es mucho mayor que otras tecnicas de almacenamiento Hay ventajas y desventajas para el almacenamiento compartido en el analisis de big data pero los practicantes de analisis de big data a partir de 2011 no lo favorecieron Captura Editar De donde provienen todos estos datos Los fabricamos directa e indirectamente segundo tras segundo Un iPhone hoy en dia tiene mas capacidad de computo que la NASA cuando el ser humano llego a la Luna 55 por lo que la cantidad de datos generados por persona y en unidad de tiempo es muy grande Catalogamos la procedencia de los datos segun las siguientes categorias 56 Generados por las propias personas El hecho de enviar correos electronicos o mensajes por WhatsApp publicar un estado en Facebook publicar relaciones laborales en Linkedin tuitear contenidos o responder a una encuesta por la calle son cosas que hacemos a diario y que crean nuevos datos y metadatos que pueden ser analizados Se estima que cada minuto al dia se envian mas de 200 millones de correos electronicos se comparten mas de 700 000 piezas de contenido en Facebook se realizan dos millones de busquedas en Google o se editan 48 horas de video en YouTube 57 Por otro lado las trazas de utilizacion en un sistema ERP incluir registros en una base de datos o introducir informacion en una hoja de calculo son otras formas de generar estos datos Obtenidas a partir de transacciones La facturacion tarjetas de fidelizacion las llamadas telefonicas las conexiones torres de telefonia los accesos a wifis publicas el pago con tarjetas de credito o las transacciones entre cuentas bancarias generan informacion que tratada puede ser datos relevantes Por ejemplo transacciones bancarias Lo que el usuario conoce como un ingreso de X euros el sistema lo capturara como una accion llevada a cabo en una fecha y momento determinado en un lugar concreto entre unos usuarios registrados y con ciertos metadatos Mercadotecnia electronica y web Se genera una gran cantidad de datos cuando se navega por internet Con la web 2 0 se ha roto el paradigma webmaster contenido lector y los mismos usuarios se convierten en creadores de contenido gracias a su interaccion con el sitio Existen muchas herramientas de seguimiento utilizadas en su mayoria con fines de mercadotecnia y analisis de negocio Los movimientos de raton quedan grabados en mapas de calor y queda registro de cuanto pasamos en cada pagina y cuando las visitamos Obtenidos a partir de las interacciones maquina a maquina M2M Son datos obtenidos a partir de la recogida de metricas obtenidas desde dispositivos medidores sensores de temperatura de luz de altura de presion de sonido que transforman las magnitudes fisicas o quimicas y las convierten en datos Existen desde hace decadas pero la llegada de las comunicaciones inalambricas wifi Bluetooth RFID etc ha revolucionado el mundo de los sensores Algunos ejemplos son los GPS en la automocion los sensores de signos vitales muy util para seguros de vida pulseras en los festivales 58 monitorizadores del funcionamiento y conduccion de autoḿoviles se obtiene informacion muy util para las aseguradoras 59 los smartphone son sensores de localizacion Datos biometricos recolectados En general provienen de servicios de seguridad defensa y servicios de inteligencia 60 Son cantidades de datos generados por lectores biometricos como escaneres de retina escaneres de huellas digitales o lectores de cadenas de ADN El proposito de estos datos es proporcionar mecanismos de seguridad y suelen estar custodiados por los ministerios de defensa y departamentos de inteligencia Un ejemplo de aplicacion es el cruce de ADN entre una muestra de un crimen y una muestra en nuestra base de datos Transformacion Editar Una vez encontradas las fuentes de los datos necesarios muy posiblemente dispongamos de un sinfin de tablas de origen que no estaran relacionadas El siguiente objetivo es hacer que los datos se recojan en un mismo lugar y darles un formato adecuado Aqui entran en juego las plataformas extraer transformar y cargar ETL Su proposito es extraer los datos de las diferentes fuentes y sistemas para despues hacer transformaciones conversiones de datos limpieza de datos sucios cambios de formato etc y finalmente cargar los datos en la base de datos o almacen de datos especificada 61 Un ejemplo de plataforma ETL es el Pentaho Data Integration mas concretamente su aplicacion Spoon Almacenamiento NoSQL Editar El termino NoSQL se refiere a Not Only SQL no solo SQL y son sistemas de almacenamiento que no cumplen con el esquema entidad relacion 62 Proveen un sistema de almacenamiento mucho mas flexible y concurrente y permiten manipular grandes cantidades de informacion de manera mucho mas rapida que las bases de datos relacionales Distinguimos cuatro grandes grupos de bases de datos NoSQL Almacenamiento clave valor key value los datos se almacenan de forma similar a los mapas o diccionarios de datos donde se accede al dato a partir de una clave unica 63 Los valores datos son aislados e independientes entre ellos y no son interpretados por el sistema Pueden ser variables simples como enteros o caracteres u objetos Por otro lado este sistema de almacenamiento carece de una estructura de datos clara y establecida por lo que no requiere un formateo de los datos muy estricto 64 Son utiles para operaciones simples basadas en las claves Un ejemplo es el aumento de velocidad de carga de un sitio web que puede utilizar diferentes perfiles de usuario teniendo mapeados los archivos que hay que incluir segun el id de usuario y que han sido calculados con anterioridad Apache Cassandra es la tecnologia de almacenamiento clave valor mas reconocida por los usuarios 65 Almacenamiento documental las bases de datos documentales guardan un gran parecido con las bases de datos Clave Valor diferenciandose en el dato que guardan Si en el anterior no se requeria una estructura de datos concreta en este caso guardamos datos semiestructurados 65 Estos datos pasan a llamarse documentos y pueden estar formateados en XML JSON Binary JSON o el que acepte la misma base de datos Todos los documentos tienen una clave unica con la que pueden ser accedidos e identificados explicitamente Estos documentos no son opacos al sistema por lo que pueden ser interpretados y lanzar queries sobre ellos 63 Un ejemplo que aclare como se usa lo encontramos en un blog se almacena el autor la fecha el titulo el resumen y el contenido del post CouchDB o MongoDB 65 son quiza las mas conocidas Hay que hacer mencion especial a MapReduce una tecnologia de Google inicialmente disenada para su algoritmo PageRank que permite seleccionar un subconjunto de datos agruparlos o reducirlos y cargarlos en otra coleccion y a Hadoop que es una tecnologia de Apache disenada para almacenar y procesar grandes cantidades de datos Almacenamiento en grafo las bases de datos en grafo rompen con la idea de tablas y se basan en la teoria de grafos donde se establece que la informacion son los nodos y las relaciones entre la informacion son las aristas 65 algo similar al modelo relacional Su mayor uso se contempla en casos de relacionar grandes cantidades de datos que pueden ser muy variables Por ejemplo los nodos pueden contener objetos variables y atributos diferentes en unos y otros Las operaciones JOIN se sustituyen por recorridos a traves del grafo y se guarda una lista de adyacencias entre los nodos 63 Encontramos un ejemplo en las redes sociales en Facebook cada nodo se considera un usuario que puede tener aristas de amistad con otros usuarios o aristas de publicacion con nodos de contenidos Soluciones como Neo4J y GraphDB 65 son las mas conocidas dentro de las bases de datos en grafo Almacenamiento orientado a columnas por ultimo este almacenamiento es parecido al documental Su modelo de datos es definido como un mapa de datos multidimensional poco denso distribuido y persistente 63 Se orienta a almacenar datos con tendencia a escalar horizontalmente por lo que permite guardar diferentes atributos y objetos bajo una misma clave A diferencia del documental y el clave valor en este caso se pueden almacenar varios atributos y objetos pero no seran interpretables directamente por el sistema Permite agrupar columnas en familias y guardar la informacion cronologicamente mejorando el rendimiento Esta tecnologia se acostumbra a usar en casos con 100 o mas atributos por clave 65 Su precursor es BigTable de Google pero han aparecido nuevas soluciones como HBase o HyperTable Analisis de datos Editar El analisis permite mirar los datos y explicar lo que esta pasando Teniendo los datos necesarios almacenados segun diferentes tecnologias de almacenamiento nos daremos cuenta que necesitaremos diferentes tecnicas de analisis de datos como las siguientes Asociacion permite encontrar relaciones entre diferentes variables 66 Bajo la premisa de causalidad se pretende encontrar una prediccion en el comportamiento de otras variables Estas relaciones pueden ser los sistemas de ventas cruzadas en los comercios electronicos Mineria de datos data mining tiene como objetivo encontrar comportamientos predictivos Engloba el conjunto de tecnicas que combina metodos estadisticos y de aprendizaje automatico con almacenamiento en bases de datos 67 Esta estrechamente relacionada con los modelos utilizados para descubrir patrones en grandes cantidades de datos Agrupacion clustering el analisis de clusteres es un tipo de mineria de datos que divide grandes grupos de individuos en grupos mas pequenos de los cuales no conociamos su parecido antes del analisis 67 El proposito es encontrar similitudes entre estos grupos y el descubrimiento de nuevos conociendo cuales son las cualidades que lo definen Es una metodologia apropiada para encontrar relaciones entre resultados y hacer una evaluacion preliminar de la estructura de los datos analizados Existen diferentes tecnicas y algoritmos de clusterizacion 68 Analisis de texto text analytics gran parte de los datos generados por las personas son textos como correos busquedas web o contenidos Esta metodologia permite extraer informacion de estos datos y asi modelar temas y asuntos o predecir palabras 69 Visualizacion de datos Editar Esto es una infografia Tal y como el Instituto Nacional de Estadistica dice en sus tutoriales una imagen vale mas que mil palabras o que mil datos 70 La mente agradece mucho mas una presentacion bien estructurada de resultados estadisticos en graficos o mapas en vez de en tablas con numeros y conclusiones En los macrodatos se llega un paso mas alla parafraseando a Edward Tufte uno de los expertos en visualizacion de datos mas reconocidos a nivel mundial el mundo es complejo dinamico multidimensional el papel es estatico y plano Como vamos a representar la rica experiencia visual del mundo en la mera planicie Mondrian 71 es una plataforma que permite visualizar la informacion a traves de los analisis llevados a cabo sobre los datos que disponemos Con esta plataforma se intenta llegar a un publico mas concreto y una utilidad mas acotada como un cuadro de mando integral de una organizacion En los ultimos anos se han generalizado otras plataformas como Tableau Power BI y Qlik 72 Por otro lado las infografias se han vuelto un fenomeno viral donde se recogen los resultados de los diferentes analisis sobre nuestros datos y son un material atractivo entretenido y simplificado para audiencias masivas 73 Aplicaciones EditarEl uso de big data ha sido utilizado por la industria de los medios las empresas y los gobiernos para dirigirse con mayor precision a su publico y aumentar la eficiencia de sus mensajes El big data ha aumentado la demanda de especialistas en administracion de la informacion tanto que Software AG Oracle Corporation IBM Microsoft SAP EMC HP y Dell han gastado mas de 15 mil millones en firmas de software especializadas en administracion y analisis de datos En 2010 esta industria valia mas de 100 mil millones y crecia a casi un 10 por ciento anual aproximadamente el doble de rapido que el negocio del software en general 74 Las economias desarrolladas usan cada vez mas tecnologias intensivas en datos Hay 4600 millones de suscripciones de telefonos moviles en todo el mundo y entre 1000 y 2000 millones de personas que acceden a Internet Entre 1990 y 2005 mas de mil millones de personas en todo el mundo ingresaron a la clase media lo que significa que mas personas se volvieron mas alfabetizadas lo que a su vez llevo al crecimiento de la informacion La capacidad efectiva mundial para intercambiar informacion a traves de redes de telecomunicaciones era de 281 petabytes en 1986 471 petabytes en 1993 2 2 exabytes en 2000 65 exabytes en 2007 75 y las predicciones cifran el trafico de internet en 667 exabytes anualmente para 2014 Segun una estimacion un tercio de la informacion almacenada en todo el mundo esta en forma de texto alfanumerico e imagenes fijas 76 que es el formato mas util para la mayoria de las aplicaciones de big data Esto tambien muestra el potencial de los datos aun no utilizados es decir en forma de contenido de video y audio Si bien muchos proveedores ofrecen soluciones estandar para big data los expertos recomiendan el desarrollo de soluciones internas personalizadas para resolver el problema de la compania si la empresa cuenta con capacidades tecnicas suficientes 77 Gobierno Editar El uso y la adopcion de big data dentro de los procesos gubernamentales permite eficiencias en terminos de costo productividad e innovacion pero no viene sin sus defectos 78 El analisis de datos a menudo requiere que varias partes del gobierno central y local trabajen en colaboracion y creen procesos nuevos para lograr el resultado deseado Los datos masivos se usan habitualmente para influenciar el proceso democratico Los representantes del pueblo pueden ver todo lo que hacen los ciudadanos y los ciudadanos pueden dictar la vida publica de los representantes mediante tuits y otros metodos de extender ideas en la sociedad Las campanas presidenciales de Obama y Trump los usaron de manera generalizada 79 y hay expertos que advierten de que hay que reinventar la democracia representativa Si no es posible que se convierta en una dictadura de la informacion 80 El Banco Interamericano de Desarrollo BID ha desarrollado estudios en America Latina en los que presenta distintos casos del uso de Macrodatos en el diseno e implementacion de politicas publicas Destacando intervenciones en temas de movilidad urbana ciudades inteligentes y seguridad entre otras tematicas Las recomendaciones de los mismos han girado en torno a como construir instituciones publicas que logren mediante el uso de datos masivos a ser mas transparentes y ayuden a tomar mejores decisiones 81 Desarrollo internacional Editar La investigacion sobre el uso efectivo de las tecnologias de informacion y comunicacion para el desarrollo tambien conocido como ICT4D sugiere que la tecnologia de big data puede hacer contribuciones importantes pero tambien presentar desafios unicos para el desarrollo internacional 82 83 Los avances en el analisis de big data ofrecen oportunidades rentables para mejorar la toma de decisiones en areas de desarrollo criticas como la atencion medica el empleo la productividad economica la delincuencia la seguridad y el manejo de recursos y desastres naturales 84 Ademas los datos generados por el usuario ofrecen nuevas oportunidades para ofrecer una voz inaudita Sin embargo los desafios de larga data para las regiones en desarrollo como la infraestructura tecnologica inadecuada y la escasez de recursos economicos y humanos exacerban las preocupaciones existentes con los grandes datos como la privacidad la metodologia imperfecta y los problemas de interoperabilidad 84 Industria Editar El big data proporciona una infraestructura para la transparencia en la industria manufacturera que es la capacidad de desentranar incertidumbres como el rendimiento y la disponibilidad de componentes inconsistentes La fabricacion predictiva como un enfoque aplicable para el tiempo de inactividad y la transparencia cercanos a cero requiere una gran cantidad de datos y herramientas de prediccion avanzadas para un proceso sistematico de datos en informacion util 85 Un marco conceptual de fabricacion predictiva comienza con la adquisicion de datos donde se encuentran disponibles diferentes tipos de datos sensoriales tales como acustica vibracion presion corriente voltaje y datos de controlador Una gran cantidad de datos sensoriales ademas de los datos historicos construyen los grandes datos en la fabricacion Los big data generados actuan como la entrada en herramientas predictivas y estrategias preventivas como Pronosticos y Gestion de Salud PHM 86 Medios Editar Los profesionales en medios y publicidad abordan los grandes datos como muchos puntos de informacion procesables sobre millones de personas La industria parece alejarse del enfoque tradicional de utilizar entornos de medios especificos como periodicos revistas o programas de television y en su lugar aprovecha a los consumidores con tecnologias que llegan a las personas objetivo en momentos optimos en ubicaciones optimas El objetivo final es servir o transmitir un mensaje o contenido que estadisticamente hablando este en linea con la mentalidad del consumidor Por ejemplo los entornos de publicacion adaptan cada vez mas los mensajes anuncios publicitarios y el contenido articulos para atraer a los consumidores que han sido recolectados exclusivamente a traves de diversas actividades de extraccion de datos 87 Orientacion de los consumidores para publicidad de los vendedores 88 Mineria de datos Periodismo de datos los editores y los periodistas usan herramientas de Big Data para proporcionar informacion e infografias unicas e innovadoras Musica Editar El reconocimiento de emociones musicales REM Music Emotion Recognition MER es un campo de investigacion cientifica reciente y en plena evolucion A grandes rasgos se puede decir que el REM gira en torno a varias ideas respecto a la comprension psicologica de la relacion entre el afecto humano y la musica Una de las ideas centrales del REM radica en la capacidad de poder determinar mediante sistemas automaticos ingresando diversos datos senales musicales y variables parametros computacionales cuales y que tipo de emociones son percibidas desde las composiciones musicales e intentan percibir como cada una de las formas de sus rasgos estructurales pueden producir cierto tipo de reacciones caracteristicas en los oyentes 89 Seguros Editar Los proveedores de seguro medico recopilan datos sobre determinantes sociales como el consumo de alimentos y television el estado civil el tamano de la vestimenta y los habitos de compra desde los cuales hacen predicciones sobre los costos de salud para detectar problemas de salud en sus clientes Es controvertido si estas predicciones se estan utilizando actualmente para fijar precios 90 Deportes Editar En un ambito donde se mueve tanto dinero suelen utilizar las nuevas tecnologias antes que los usuarios de base Nos encontramos por ejemplo que el analisis de los partidos constituye una parte fundamental en el entrenamiento de los profesionales y la toma de decisiones de los entrenadores Amisco 91 es un sistema aplicado por equipos de algunas de las ligas mas importantes de Europa desde el 2001 Consta de 8 camaras y diversos ordenadores instalados en los estadios que registran los movimientos de los jugadores a razon de 25 registros por segundo y luego envian los datos a una central donde hacen un analisis masivo de los datos La informacion que se devuelve como resultado incluye una reproduccion del partido en dos dimensiones los datos tecnicos y estadisticas y un resumen de los datos fisicos de cada jugador permitiendo seleccionar varias dimensiones y visualizaciones diferentes de datos 91 Finanzas Editar El crecimiento de datos en el mundo financiero obliga al uso del big data para el procesamiento rapido de datos gestion de la omnicanalidad segmentacion avanzada de clientes creacion de estrategias de precios dinamicos gestion de riesgos prevencion de fraudes apoyo en la toma de decisiones detectar tendencias de consumo definir nuevas formas de hacer mejor las cosas detectar alertas y otro tipo de eventos complejos hacer un seguimiento avanzado de la competencia 92 Mercadotecnia y ventas Editar Los macrodatos cada vez se utilizan mas para segmentacion avanzada de los consumidores automatizar la personalizacion de los productos adaptar las comunicaciones al momento del ciclo de venta captar nuevas oportunidades de venta apoyo en la toma de decisiones a tiempo real gestion de crisis 93 94 Investigacion EditarLa busqueda encriptada y la formacion de cluster en big data se demostraron en marzo de 2014 en la Sociedad Estadounidense de Educacion en Ingenieria Gautam Siwach participo en abordar los desafios de Big Data por el Laboratorio de Ciencias de la Computacion e Inteligencia Artificial del MIT y Amir Esmailpour en el Grupo de Investigacion de UNH investigo las caracteristicas clave de Big Data como la formacion de clusters y sus interconexiones Se centraron en la seguridad de los macrodatos y la orientacion del termino hacia la presencia de diferentes tipos de datos en forma cifrada en la interfaz de la nube al proporcionar las definiciones sin procesar y los ejemplos de tiempo real dentro de la tecnologia Ademas propusieron un enfoque para identificar la tecnica de codificacion para avanzar hacia una busqueda acelerada sobre texto encriptado que conduzca a las mejoras de seguridad en big data 95 En marzo de 2012 la Casa Blanca anuncio una Iniciativa de Big Data nacional que consistia en seis departamentos y agencias federales comprometiendo mas de 200 millones para proyectos de investigacion de big data La iniciativa incluyo una subvencion de la National Science Foundation Expeditions in Computing de 10 millones durante 5 anos para el AMPLab 96 en la Universidad de California Berkeley 97 El AMPLab tambien recibio fondos de DARPA y mas de una docena de patrocinadores industriales y utiliza big data para atacar una amplia gama de problemas desde predecir la congestion del trafico 98 hasta combatir el cancer 99 La Iniciativa Big Data de la Casa Blanca tambien incluyo un compromiso del Departamento de Energia de proporcionar 25 millones en financiamiento durante 5 anos para establecer el Instituto de Administracion Analisis y Visualizacion de Datos Escalables SDAV 100 dirigido por Lawrence Berkeley National Laboratory del Departamento de Energia Laboratorio El Instituto SDAV tiene como objetivo reunir la experiencia de seis laboratorios nacionales y siete universidades para desarrollar nuevas herramientas que ayuden a los cientificos a gestionar y visualizar datos en las supercomputadoras del Departamento El estado de Massachusetts anuncio la Iniciativa Big Data de Massachusetts en mayo de 2012 que proporciona fondos del gobierno estatal y de empresas privadas a una variedad de instituciones de investigacion El Instituto de Tecnologia de Massachusetts alberga el Centro de Ciencia y Tecnologia de Intel para Big Data en el Laboratorio de Ciencias de la Computacion e Inteligencia Artificial del MIT que combina fondos y esfuerzos de investigacion gubernamentales corporativos e institucionales 101 La Comision Europea esta financiando el Foro publico privado de Big Data que duro dos anos a traves de su Septimo Programa de Framework para involucrar a empresas academicos y otras partes interesadas en la discusion de problemas de big data El proyecto tiene como objetivo definir una estrategia en terminos de investigacion e innovacion para guiar las acciones de apoyo de la Comision Europea en la implementacion exitosa de la economia de big data Los resultados de este proyecto se utilizaran como aportacion para Horizonte 2020 su proximo programa El gobierno britanico anuncio en marzo de 2014 la fundacion del Instituto Alan Turing que lleva el nombre del pionero de la informatica y el descifrador de codigos que se centrara en nuevas formas de recopilar y analizar grandes conjuntos de datos 102 En el Dia de la Inspiracion del Canadian Open Data Experience CODE de la Universidad de Waterloo Stratford Campus los participantes demostraron como el uso de la visualizacion de datos puede aumentar la comprension y el atractivo de los grandes conjuntos de datos y comunicar su historia al mundo 103 Para que la fabricacion sea mas competitiva en los Estados Unidos y en el mundo es necesario integrar mas ingenio e innovacion estadounidenses en la fabricacion Por lo tanto la National Science Foundation ha otorgado al centro de investigacion cooperativa Industry Industry para Intelligent Maintenance Systems IMS en la Universidad de Cincinnati para que se concentre en el desarrollo de herramientas y tecnicas predictivas avanzadas aplicables en un entorno de big data 104 En mayo de 2013 el IMS Center celebro una reunion de la junta asesora de la industria centrada en big data donde presentadores de varias companias industriales discutieron sus preocupaciones problemas y objetivos futuros en el entorno de big data Ciencias sociales computacionales cualquier persona puede usar Interfaces de programacion de aplicaciones API proporcionadas por grandes titulares de datos como Google y Twitter para realizar investigaciones en las ciencias sociales y del comportamiento 105 A menudo estas API se proporcionan de forma gratuita Tobias Preis uso los datos de Tendencias de Google para demostrar que los usuarios de Internet de paises con un producto interno bruto PIB per capita mas alto tienen mas probabilidades de buscar informacion sobre el futuro que la informacion sobre el pasado Los hallazgos sugieren que puede haber un vinculo entre el comportamiento en linea y los indicadores economicos del mundo real 106 107 108 Los autores del estudio examinaron los registros de consultas de Google realizados por la relacion del volumen de busquedas para el ano siguiente 2011 con el volumen de busquedas del ano anterior 2009 al que denominaron indice de orientacion futura 109 Compararon el indice de orientacion futura con el PIB per capita de cada pais y encontraron una fuerte tendencia en los paises donde los usuarios de Google informan mas sobre el futuro para tener un PIB mas alto Los resultados sugieren que potencialmente puede haber una relacion entre el exito economico de un pais y el comportamiento de busqueda de informacion de sus ciudadanos capturado en Big Data Tobias Preis y sus colegas Helen Susannah Moat y H Eugene Stanley introdujeron un metodo para identificar los precursores en linea de los movimientos bursatiles utilizando estrategias de negociacion basadas en los datos del volumen de busquedas provistos por Google Trends 110 Su analisis del volumen de busqueda de Google para 98 terminos de relevancia financiera variable publicado en Scientific Reports 111 sugiere que los aumentos en el volumen de busqueda para terminos de busqueda relevantes financieramente tienden a preceder grandes perdidas en los mercados financieros 112 113 114 115 116 117 Los grandes conjuntos de datos vienen con desafios algoritmicos que anteriormente no existian Por lo tanto existe una necesidad de cambiar fundamentalmente las formas de procesamiento Los talleres sobre algoritmos para conjuntos de datos masivos modernos MMDS reunen a cientificos informaticos estadisticos matematicos y profesionales del analisis de datos para analizar los desafios algoritmicos del big data 118 Muestreo de datos masivos Editar Una pregunta de investigacion importante que se puede hacer sobre los conjuntos de datos grandes es si necesita ver los datos completos para sacar ciertas conclusiones sobre las propiedades de los datos o si una muestra es lo suficientemente buena El nombre big data contiene un termino relacionado con el tamano y esta es una caracteristica importante de big data Pero el muestreo estadisticas permite la seleccion de puntos de datos correctos dentro del conjunto de datos mas grande para estimar las caracteristicas de toda la poblacion Por ejemplo hay alrededor de 600 millones de tuits producidos todos los dias Es necesario mirarlos a todos para determinar los temas que se discuten durante el dia Es necesario mirar todos los tuits para determinar el sentimiento sobre cada uno de los temas En la fabricacion de diferentes tipos de datos sensoriales como acustica vibracion presion corriente voltaje y datos del controlador estan disponibles en intervalos de tiempo cortos Para predecir el tiempo de inactividad puede que no sea necesario examinar todos los datos pero una muestra puede ser suficiente Big data se puede desglosar por varias categorias de puntos de datos como datos demograficos psicograficos de comportamiento y transaccionales Con grandes conjuntos de puntos de datos los especialistas en marketing pueden crear y utilizar segmentos de consumidores mas personalizados para una orientacion mas estrategica Se han realizado algunos trabajos en algoritmos de muestreo para big data Se ha desarrollado una formulacion teorica para el muestreo de datos de Twitter 119 Salud y medicina Editar Hacia mediados del 2009 el mundo experimento una pandemia de gripe A llamada gripe porcina o H1N1 La web Google Flu Trends 120 intento predecirla a partir de los resultados de las busquedas Google Flu Trends usaba los datos de las busquedas de los usuarios que contenian sintomas parecidos a la enfermedad de la gripe y los agrupo segun ubicacion y fecha y pretendia predecir la actividad de la gripe hasta con dos semanas de antelacion mas que los sistemas tradicionales Sin embargo en el 2013 se descubrio que predijo el doble de visitas al medico de las que hubo en realidad Sus creadores cometieron dos errores a la nueva herramienta habia generado muchisimo interes en el publico que la consultaba mas por curiosidad que por necesidad lo que genero ruido en la informacion y b los algoritmos de prediccion de los buscadores En un articulo en la revista Science en el 2014 se analizaron los errores cometidos por Google Flu Trends querer sustituir con tecnicas de datos masivos los metodos mas tradicionales y probados de recoleccion y analisis de datos en vez de solo aplicar dichas tecnicas como complemento como hizo Brittany Wenger con Cloud4cancer Google Flu Trends dejo de funcionar 121 Mas concretamente en Nueva Zelanda 122 cruzaron los datos de las tendencias de gripe de Google con datos existentes de los sistemas de salud nacionales y comprobaron que estaban alineados Los graficos mostraron una correlacion con las busquedas de sintomas relacionados con la gripe y la extension de la pandemia en el pais Los paises con sistemas de prediccion poco desarrollados pueden beneficiarse de una prediccion fiable y publica para abastecer a su poblacion de las medidas de seguridad oportunas Entre 1853 y 1854 en Londres una epidemia de colera mato a miles de personas El medico John Snow estudio los registros de defunciones y descubrio que la mayor parte de los casos se presentaron en un barrio especifico las personas habian bebido agua de un mismo pozo Cuando lo clausuraron el numero de casos comenzo a disminuir 123 En el 2012 en la Feria de Ciencias de Google Brittany Wenger estudiante de 18 anos presento el proyecto de diseno de un software para ayudar al diagnostico temprano del cancer de mama Denomino a la plataforma Cloud4cancer que utiliza una red de inteligencia artificial y las bases de datos de los hospitales para diferenciar una muestra de un tejido benigno de una de un tumor maligno El sistema inteligente disenado por Wenger distingue en segundos los dos tipo de tumores ingresando a la plataforma las caracteristicas observadas Es posible que este sistema se aplique mas adelante a otros padecimientos como la leucemia 124 Defensa y seguridad Editar Para incrementar la seguridad frente a los ataques de las propias organizaciones ya sean empresas en el entorno economico o los propios ministerios de defensa en el entorno de ciberataques se contempla la utilidad de las tecnologias de big data en escenarios como la vigilancia y seguridad de fronteras lucha contra el terrorismo y crimen organizado contra el fraude planes de seguridad ciudadana o planeamiento tactico de misiones e inteligencia militar 125 Caso especifico del proyecto Aloja Editar Una de las maquinas del Marenostrum Supercomputador del BSC El proyecto Aloja 126 ha sido iniciado por una apuesta en comun del Barcelona Supercomputing Center BSC y Microsoft Research El objetivo de este proyecto de big data quiere conseguir una optimizacion automatica en despliegues de Hadoop en diferentes infraestructuras Caso especifico de sostenibilidad Editar Conservation International es una organizacion con el proposito de concienciar a la sociedad de cuidar el entorno de una manera responsable y sostenible Con la ayuda de la plataforma Vertica Analytics de HP han situado 1000 camaras a lo largo de dieciseis bosques en cuatro continentes Estas camaras incorporan unos sensores y a modo de camara oculta graban el comportamiento de la fauna Con estas imagenes y los datos de los sensores precipitaciones temperatura humedad solar consiguen informacion sobre como el cambio climatico o el desgaste de la tierra afecta en su comportamiento y desarrollo 127 Criticas EditarLas criticas al paradigma del big data vienen en dos formas aquellas que cuestionan las implicaciones del enfoque en si mismo y las que cuestionan la forma en que se realiza actualmente 128 Un enfoque de esta critica es el campo de los estudios de datos criticos Criticas al paradigma de los grandes datos Editar Un problema crucial es que no sabemos mucho sobre los microprocesos empiricos subyacentes que conducen a la aparicion de las se caracteristicas de red tipicas de Big Data 129 En su critica Snijders Matzat y Reips senalan que a menudo se hacen suposiciones muy fuertes sobre las propiedades matematicas que pueden no reflejar en absoluto lo que realmente esta sucediendo a nivel de los microprocesos Mark Graham ha criticado ampliamente la afirmacion de Chris Anderson de que los macrodatos marcaran el final de la teoria 130 centrandose en particular en la nocion de que los macrodatos siempre deben contextualizarse en sus contextos sociales economicos y politicos 131 Incluso cuando las empresas invierten sumas de ocho y nueve cifras para obtener informacion de la transmision de informacion de proveedores y clientes menos del 40 de los empleados tienen procesos y habilidades suficientemente maduros para hacerlo Para superar este deficit de perspicacia los grandes datos sin importar cuan exhaustivos o bien analizados se complementen con un gran juicio segun un articulo de Harvard Business Review 132 En la misma linea se ha senalado que las decisiones basadas en el analisis de big data inevitablemente estan informadas por el mundo como lo fueron en el pasado o en el mejor de los casos como lo es actualmente Alimentados por una gran cantidad de datos sobre experiencias pasadas los algoritmos pueden predecir el desarrollo futuro si el futuro es similar al pasado 133 Si la dinamica de sistemas del futuro cambia si no es un proceso estacionario el pasado puede decir poco sobre el futuro Para hacer predicciones en entornos cambiantes seria necesario tener un conocimiento profundo de la dinamica de los sistemas que requiere teoria Como respuesta a esta critica Alemany Oliver y Vayre sugirieron usar el razonamiento abductivo como un primer paso en el proceso de investigacion para traer contexto a las huellas digitales de los consumidores y hacer que emerjan nuevas teorias 134 Ademas se ha sugerido combinar enfoques de big data con simulaciones por computadora tales como modelos basados en agentes y Sistemas Complejos Los modelos basados en agentes son cada vez mejores para predecir el resultado de las complejidades sociales de escenarios futuros incluso desconocidos a traves de simulaciones por computadora que se basan en una coleccion de algoritmos mutuamente interdependientes 135 136 Finalmente el uso de metodos multivariantes que exploran la estructura latente de los datos como el analisis factorial y el analisis de conglomerados han demostrado ser utiles como enfoques analiticos que van mas alla de los enfoques bi variados tablas cruzadas tipicamente empleados con conjuntos de datos mas pequenos En salud y biologia los enfoques cientificos convencionales se basan en la experimentacion Para estos enfoques el factor limitante es la informacion relevante que puede confirmar o refutar la hipotesis inicial 137 Ahora se acepta un nuevo postulado en ciencias biologicas la informacion provista por los datos en grandes volumenes omicas sin hipotesis previas es complementaria y a veces necesaria para los enfoques convencionales basados en la experimentacion 138 En los enfoques masivos la formulacion de una hipotesis relevante para explicar los datos es el factor limitante 139 La logica de busqueda se invierte y se deben considerar los limites de la induccion Gloria de la ciencia y el escandalo de la filosofia C D Broad 1926 Los defensores de la privacidad estan preocupados por la amenaza a la privacidad que representa el aumento del almacenamiento y la integracion de la informacion de identificacion personal los paneles de expertos han publicado varias recomendaciones de politicas para adaptar la practica a las expectativas de privacidad 140 141 142 El uso indebido de Big Data en varios casos por los medios las empresas e incluso el gobierno ha permitido la abolicion de la confianza en casi todas las instituciones fundamentales que sostienen a la sociedad 143 Nayef Al Rodhan sostiene que se necesitara un nuevo tipo de contrato social para proteger las libertades individuales en un contexto de Big Data y corporaciones gigantes que poseen grandes cantidades de informacion El uso de Big Data deberia supervisarse y regularse mejor a nivel nacional e internacional 144 Barocas y Nissenbaum argumentan que una forma de proteger a los usuarios individuales es informando sobre los tipos de informacion que se recopila con quien se comparte bajo que limitaciones y con que fines 145 Criticas del modelo V Editar El modelo V de Big Data es concertante ya que se centra en la escalabilidad computacional y carece de una perdida en torno a la perceptibilidad y la comprensibilidad de la informacion Esto llevo al marco de Cognitive Big Data que caracteriza la aplicacion Big Data de acuerdo con 146 Completar los datos comprension de lo no obvio de los datos Correlacion de datos causalidad y predictibilidad la causalidad como requisito no esencial para lograr la previsibilidad Explicacion e interpretacion los seres humanos desean comprender y aceptar lo que entienden donde los algoritmos no lo resuelven Nivel de toma de decisiones automatizada algoritmos que respaldan la toma de decisiones automatizada y el autoaprendizaje algoritmico Critica de la novedad Editar Grandes conjuntos de datos han sido analizados por maquinas de computacion durante mas de un siglo incluida la analitica del censo estadounidense realizada en 1890 por las maquinas de tarjetas perforadas de IBM que computaron estadisticas que incluian medias y variaciones de poblaciones en todo el continente En decadas mas recientes experimentos cientificos como el CERN han producido datos en escalas similares a los grandes datos comerciales actuales Sin embargo los experimentos cientificos han tendido a analizar sus datos utilizando clusters y grids especializados de computacion de alto rendimiento supercomputacion en lugar de nubes de computadoras basicas baratas como en la ola comercial actual lo que implica una diferencia en la cultura y la tecnologia Criticas de la ejecucion de macrodatos Editar Ulf Dietrich Reips y Uwe Matzat escribieron en 2014 que el big data se habia convertido en una moda en la investigacion cientifica La investigadora danah boyd ha expresado su preocupacion sobre el uso de big data en la ciencia descuidando principios como elegir una muestra representativa por estar demasiado preocupado por manejar grandes cantidades de datos 147 Este enfoque puede generar sesgos en los resultados de una forma u otra La integracion a traves de recursos de datos heterogeneos algunos que pueden considerarse grandes datos y otros no presenta desafios logisticos y analiticos formidables pero muchos investigadores sostienen que tales integraciones probablemente representen las nuevas fronteras mas prometedoras en la ciencia 148 En el provocativo articulo Preguntas criticas para Big Data 149 los autores titulan big data como parte de la mitologia los grandes conjuntos de datos ofrecen una forma superior de inteligencia y conocimiento con el aura de la verdad la objetividad y precision Los usuarios de big data a menudo se pierden en el gran volumen de numeros y trabajar con Big Data sigue siendo subjetivo y lo que cuantifica no necesariamente tiene un reclamo mas cercano sobre la verdad objetiva Los desarrollos recientes en el dominio de BI como los informes proactivos apuntan especialmente a mejoras en la usabilidad de big data a traves del filtrado automatizado de datos y correlaciones no utiles 150 El analisis de macrodatos suele ser poco profundo en comparacion con el analisis de conjuntos de datos mas pequenos 194 En muchos proyectos de big data no hay grandes analisis de datos pero el desafio es extraer transformar y cargar parte del preprocesamiento de datos 151 Big data es una palabra de moda y un termino vago 152 153 pero al mismo tiempo una obsesion con empresarios consultores cientificos y medios de comunicacion Las muestras de datos grandes como Google Flu Trends no generaron buenas predicciones en los ultimos anos lo que exagero los brotes de gripe en un factor de dos Del mismo modo los premios de la Academia y las predicciones electorales basadas unicamente en Twitter fueron mas a menudo fuera del objetivo Los grandes datos a menudo presentan los mismos desafios que los datos pequenos agregar mas datos no resuelve los problemas de sesgo pero puede enfatizar otros problemas En particular las fuentes de datos como Twitter no son representativas de la poblacion en general y los resultados extraidos de dichas fuentes pueden dar lugar a conclusiones erroneas Google Translate que se basa en el analisis estadistico de big data de textos hace un buen trabajo al traducir paginas web Sin embargo los resultados de dominios especializados pueden ser dramaticamente sesgados Por otro lado los macrodatos tambien pueden introducir nuevos problemas como el problema de las comparaciones multiples la prueba simultanea de un gran conjunto de hipotesis probablemente produzca muchos resultados falsos que erroneamente parecen significativos Ioannidis argumento que la mayoria de los resultados de investigacion publicados son falsos 154 debido esencialmente al mismo efecto cuando muchos equipos cientificos e investigadores realizan cada uno experimentos es decir procesan una gran cantidad de datos cientificos aunque no con big data la probabilidad de que un resultado significativo sea falso crece rapidamente incluso mas cuando se publican resultados positivos Ademas los resultados del analisis de big data son tan buenos como el modelo en el que se basan En un ejemplo Big Data participo en el intento de predecir los resultados de las elecciones presidenciales de EE UU en 2016 155 con diversos grados de exito Forbes predijo Si usted cree en el analisis de Big Data es hora de comenzar a planificar para la presidencia de Hillary Clinton y todo lo que eso implica 156 Virtualizacion de big data EditarLa virtualizacion de big data es una forma de recopilar informacion de multiples fuentes en el mismo lugar El ensamblaje es virtual a diferencia de otros metodos la mayoria de los datos permanecen en su lugar y se toman bajo demanda directamente desde el sistema de origen 157 Vease tambien EditarCiencia de datos Ciencias de la computacion Comision Federal para la Proteccion de Riesgos Sanitarios Cofepris Dataismo Epidemiologia Farmacovigilancia Hashtag Internet de las cosas Medios sociales Democracia digital Datos abiertos Digital 9Referencias Editar Macrodatos e inteligencia de datos alternativas a big data Consultado el 11 de abril de 2017 Musicco Daniela Data drive human drive el reto de la Data Comunicacion COMUNICACIoN Y HOMBRE Consultado el 12 de junio de 2020 Los datos masivos o big data son el nuevo oro eldiario es Consultado el 23 de mayo de 2017 Hernandez Garcia Claudia diciembre del 2018 www comoves unam mx Big data o como los datos masivos estan cambiando el mundo url incorrecta ayuda Como ves Ciudad de Mexico Direccion General de Divulgacion de la Ciencia UNAM 21 241 8 13 Consultado el 2 de diciembre de 2018 Kusnetzky Dan What is Big Data ZDNet http blogs zdnet com virtualization p 1708 Archivado el 21 de febrero de 2010 en Wayback Machine Vance Ashley Start Up Goes After Big Data With Hadoop Helper New York Times Blog 22 de abril de 2010 http bits blogs nytimes com 2010 04 22 start up goes after big data with hadoop helper dbk Cukier K 25 February 2010 Data data everywhere The Economist http www economist com specialreports displaystory cfm story id 15557443 Malaga Hoy El imparable crecimiento del uso del Big Data https www malagahoy es Consultado el 23 de octubre de 2018 Martin Hilbert experto en redes digitales Obama y Trump usaron el Big Data para lavar cerebros http www theclinic cl 2017 01 19 martin hilbert experto redes digitales obama trump usaron big data lavar cerebros Community cleverness required Nature 455 7209 1 2008 http www nature com nature journal v455 n7209 full 455001a html Sandia sees data management challenges spiral HPC Projects 4 August 2009 Copia archivada Archivado desde el original el 11 de mayo de 2011 Consultado el 22 de abril de 2011 Reichman O J Jones M B and Schildhauer M P 2011 Challenges and Opportunities of Open Data in Ecology Science 331 6018 703 705 DOI 10 1126 science 1197962 Hellerstein Joe Parallel Programming in the Age of Big Data Gigaom Blog 9 November 2008 http gigaom com 2008 11 09 mapreduce leads the way for parallel programming Segaran Toby and Hammerbacher Jeff Beautiful Data 1st Edition O Reilly Media Pg 257 The World s Technological Capacity to Store Communicate and Compute Information Martin Hilbert y Priscila Lopez 2011 Science 332 6025 60 65 free access to the article through here martinhilbert net WorldInfoCapacity html 1 Jacobs A 6 de julio de 2009 The Pathologies of Big Data ACMQueue Magoulas Roger Lorica Ben Febrero 2009 Introduction to Big Data Release 2 0 en ingles Sebastopol CA O Reilly Media Mashey John R 1998 Big Data and the Next Wave of InfraStress en ingles Usenix Big Data Definition Douglas Patterson 2012 Big Ethics for Big Data Douglas Laney 3D Data Management Controlling Data Volume Velocity and Variety Gartner Consultado el 6 de febrero de 2001 Beyer Mark Gartner Says Solving Big Data Challenge Involves More Than Just Managing Volumes of Data Gartner Consultado el 13 de julio de 2011 De Mauro Greco Grimaldi Andrea Marco Michele 2016 A Formal definition of Big Data based on its essential Features en ingles Emerald Group Publishing What is Big Data Villanova University InformationWeek ed Big Data Avoid Wanna V Confusion Mayer Schonberger Cukier Viktor Kenneth 2013 Houghton Mifflin Harcourt ed Big Data A Revolution that Will Transform how We Live Work and Think Fox Charles 2018 Data Science for Transport Springer International Publishing ISBN 978 3 319 72952 7 Billings Stephen A 2013 Nonlinear System Identification NARMAX Methods in the Time Frequency and Spatio Temporal Domains John Wiley amp Sons ISBN 9781118535554 Pierre Delort 3 de abril de 2013 Les Echos ed Big Data car Low Density Data La faible densite en information comme facteur discriminant en frances Big Data s Fourth V Las cinco V s del Big Data datahack especialistas en Big Data mas que una escuela y un master www datahack es Archivado desde el original el 16 de octubre de 2018 Consultado el 16 de octubre de 2018 Matthew Hicks 8 de noviembre de 2003 Survey Biggest Databases Approach 30 Terabytes O Harrow Jr Robert 15 de julio de 2004 LexisNexis To Buy Seisint For 775 Million Washington Post Nakashima O Harrow Jr Ellen Robert 22 de febrero de 2008 LexisNexis Parent Set to Buy ChoicePoint Washington Post Nicole Hemsoth Quantcast Opens Exabyte Ready File System Dean Ghemawat Jeffrey Sanjay 2004 MapReduce Simplified Data Processing on Large Clusters Search Storage Big Data Solution Offering MIKE 2 0 Big Data Definition MIKE 2 0 Boja Pocovnicu Bătăgan Catalin Adrian Lorena 2012 Distributed Parallel Architecture for Big Data Informatica Economică vol 16 no 2 5C Architecture Introduced by IMS Center for Cyber Physical Systems in Manufacturing Imscenter net Archivado desde el original el 27 de mayo de 2016 Consultado el 29 de septiembre de 2018 Wills John 2014 Solving key business challenges with a Big Data Lake HCL Marynowski Santin Pimentel Joa o Eugenio Altair Olivo Andrey Ricardo 14 de febrero de 2015 Method for Testing the Fault Tolerance of MapReduce Frameworks Computer Networks Purcell Bernice 2013 The emergence of Big Data technology and Analytics Holy Family University fechaacceso requiere url ayuda Lopez Garcia David 2012 2013 Analysis of the possibilities of use of Big Data in organizations Archivado desde el original el 1 de enero de 2015 Consultado el 18 de octubre de 2014 James Manyika Michael Chui Brad Brown Jacques Bughin Richard Dobbs Charles Roxburgh and Angela Hung Byers 2011 Big data The next frontier for innovation competition and productivity McKinsey amp Company Future Directions in Tensor Based Computation and Modeling 2009 Haiping Lu K N Plataniotis A N Venetsanopoulos 2011 A Survey of Multilinear Subspace Learning for Tensor Data Pattern Recognition Pllana Sabri Janciak Ivan Brezany Peter Wohrer Alexander 2011 A Survey of the State of the Art in Data Mining and Integration Query Languages International Conference on Network Based Information Systems NBIS 2011 Computer Society Yandong Wang Robin Goldstone Weikuan Yu Teng Wang 2014 Characterization and Optimization of Memory Resident MapReduce on HPC Systems IEEE L Heureux A Grolinger K Elyamany H F Capretz M A M 2017 Machine Learning With Big Data Challenges and Approaches IEEE Journals amp Magazine ieeexplore ieee org en ingles estadounidense Monash Curt 2009 eBay s two enormous data warehouses DBMS 2 DataBase Management System Services www dbms2 com Resources on how Topological Data Analysis is used to analyze big data Ayasdi en ingles estadounidense John Webster 1 de abril de 2011 Storage area networks need not apply CNET en ingles Paniagua Soraya Junio septiembre 2013 A world of sensors from Data to Big Data Revista Telos Conceptos basicos de Big Data TRC Informatica SL 2013 Paniagua Soraya junio septiembre 2013 A world of sensors from Data to Big Data Revista Telos Big Data en los Festivales de Musica Archivado el 17 de marzo de 2018 en Wayback Machine The Box Populi 8 de Marzo 2018 Tecnologia IoT y big data el futuro del sector asegurador 15 de febrero de 2018 Kohlwey Edmund Sussman Abel Trost Jason Maurer Amber 2011 Leveraging the Cloud for Big Data Biometrics IEEE World Congress on Services Tomsen Christian Pedersen Torben Bach 2009 pygrametl A Powerful Programming Framework for Extract Transform Load Programmers 1DB Technical Report No 25 Department of Computer Science Aalborg University Martin Adriana Chavez Susana Rodriguez Nelson R Valenzuela Adriana Murazzo Maria A 2013 Bases de datos NoSql en cloud computing WICC Consultado el 18 de octubre de 2014 a b c d Hecht Robin Jablonski Stefan 2011 NoSQL Evaluation a use case oriented survey International Conference on Cloud and Service Computing Seeger Marc 21 de septiembre de 2009 Key Value stores a practical overview Consultado el 1 de enero de 2015 a b c d e f Bianchi Widder Maria Belen septiembre de 2012 Els beneficis de l us de tecnologies NoSQL UPCommons Consultado el 1 de enero de 2015 Vila M Amparo Sanchez Daniel Escobar Luis 2004 Relaciones Causales en Reglas de Asociacion XII Congreso Espanol sobre tecnologias y logica Fuzzy a b Manyika James Chui Michael Brown Brad Bughin Jacques Dobbs Richard Roxburgh Charles Byers Angela Hung Mayo de 2011 Big data The next frontier for innovation competition and productivity McKinsey Consultado el 1 de enero de 2015 Jain A K Murty M N Flynn P J septiembre de 1999 Data Clustering A Review ACM Computing Surveys 31 3 Consultado el 1 de enero de 2015 Maltby Dylan 9 de octubre de 2011 Big Data Analytics ASIST 2011 New Orleans Archivado desde el original el 1 de enero de 2015 Consultado el 1 de enero de 2015 Primeros pasos Informacion mas atractiva Theus Martin 2003 Interactive Data Visualization using Mondrian Journal of Statistical Software Tableau vs Qlikview Tableau vs Power BI Power BI vs Qlikview 2018 SelectHub en ingles estadounidense 27 de agosto de 2018 Consultado el 16 de octubre de 2018 Albarracin Pablo 12 de agosto de 2013 Visualizacion avanzada de datos La belleza del Big Data Revista America Economia Tecno Archivado desde el original el 1 de enero de 2015 Consultado el 18 de octubre de 2014 Data data everywhere The Economist en ingles 25 de febrero de 2010 Hilbert Martin Lopez Priscila The World s Technological Capacity to Store Communicate and Compute Information MartinHilbert net en ingles estadounidense Hilbert Martin 2014 03 What Is the Content of the World s Technologically Mediated Information and Communication Capacity How Much Text Image Audio and Video The Information Society en ingles 30 2 127 143 ISSN 0197 2243 doi 10 1080 01972243 2013 873748 Rajpurohit Anmol 11 de julio de 2014 Interview Amy Gershkoff Director of Customer Analytics amp Insights eBay on How to Design Custom In House BI Tools www kdnuggets com en ingles estadounidense Davis Aaron The government and big data Use problems and potential Computerworld en ingles Consultado el 27 de agosto de 2018 Martin Hilbert experto en redes digitales Obama y Trump usaron el Big Data para lavar cerebros http www theclinic cl 2017 01 19 martin hilbert experto redes digitales obama trump usaron big data lavar cerebros Lissardy Gerardo 6 de abril de 2017 Martin Hilbert guru del Big Data La democracia no esta preparada para la era digital y esta siendo destruida BBC News Mundo en ingles britanico Consultado el 27 de agosto de 2018 Rodriguez Patricio Palomino Norma Moncada Javier Julio de 2017 El uso de datos masivos y sus tecnicas analiticas para el diseno e implementacion de politicas publicas en Latinoamerica y el Caribe 2017 BID en espanol Consultado el 29 de noviembre de 2018 White Paper Big Data for Development Opportunities amp Challenges 2012 United Nations Global Pulse www unglobalpulse org en ingles Consultado el 27 de agosto de 2018 Big Data Big Impact New Possibilities for International Development World Economic Forum Consultado el 27 de agosto de 2018 a b Hilbert Martin 2013 Big Data for Development From Information to Knowledge Societies SSRN Electronic Journal en ingles ISSN 1556 5068 doi 10 2139 ssrn 2205145 Consultado el 27 de agosto de 2018 Prognostics and health management design for rotary machinery systems Reviews methodology and applications Mechanical Systems and Signal Processing en ingles 42 1 2 314 334 1 de enero de 2014 ISSN 0888 3270 doi 10 1016 j ymssp 2013 06 004 Consultado el 27 de agosto de 2018 Prognostic and Health Management Technology for MOCVD Equipment Industrial Technology Research Institute en ingles Archivado desde el original el 27 de agosto de 2018 Consultado el 27 de agosto de 2018 Nick Couldry 2014 Advertising big data and the clearance of the public realm marketers new approaches to the content subsidy eprints lse ac uk en ingles Consultado el 27 de agosto de 2018 Why Digital Advertising Agencies Suck at Acquisition and are in Dire Need of an AI Assisted Upgrade Insincerely Yours en ingles estadounidense 15 de abril de 2018 Consultado el 27 de agosto de 2018 Lujan Villar Juan David Lujan Villar Roberto Carlos Reconocimiento de emociones musicales a traves de datos y tecnologias digitales COMUNICACIoN Y HOMBRE Consultado el 12 de junio de 2020 Allen Marshall 17 de julio de 2018 Health Insurers Are Vacuuming Up Details About You And It Could Raise Your Rates ProPublica ProPublica en ingles estadounidense Consultado el 27 de agosto de 2018 a b Reilly Thomas Korkusuz Feza 2009 Science and Football VI The proceedings of the Sixth World Congress on Science and Football p 209 ISBN 0 203 89368 9 Archivado desde el original el 1 de enero de 2015 Big Data y finanzas datahack especialistas en Big Data mas que una escuela y un master www datahack es Consultado el 16 de octubre de 2018 Por que mezclar Big Data Marketing y Ventas es una buena idea datahack especialistas en Big Data mas que una escuela y un master www datahack es Consultado el 16 de octubre de 2018 Europa Press Big Data una formacion en crecimiento Consultado el 26 de febrero de 2019 Siwach Gautam Esmailpour Amir 2014 Encrypted Search amp Cluster Formation in Big Data Department of Electrical and Computer Engineering The University of New Haven West Haven CT USA Archivado desde el original el 9 de agosto de 2014 AMPLab UC Berkeley AMPLab UC Berkeley en ingles estadounidense Consultado el 29 de septiembre de 2018 NSF Leads Federal Efforts In Big Data NSF National Science Foundation www nsf gov en ingles 2012 Timothy Hunter Teodor Moldovan Matei Zaharia Justin Ma Michael Franklin Pieter Abbeel Alexandre Bayen 2011 Scaling the Mobile Millennium System in the Cloud AMPLab UC Berkeley en ingles estadounidense David Patterson 5 de diciembre de 2011 David Patterson Enlist Computer Scientists in Cancer Fight The New York Times en ingles Secretary Chu Announces New Institute to Help Scientists Improve Massive Data Set Research on DOE Supercomputers Energy gov en ingles Welcome to Big Data at CSAIL bigdata CSAIL bigdata csail mit edu en ingles Welcome to Big Data at CSAIL bigdata CSAIL bigdata csail mit edu en ingles 19 de marzo de 2014 Inspiration day at University of Waterloo Stratford Campus BetaKit en ingles canadiense 28 de febrero de 2014 JayLee Edzel Lapira Behrad Bagheri Hung an Kao 1 de octubre de 2013 Recent advances and trends in predictive manufacturing systems in big data environment Manufacturing Letters en ingles 1 1 38 41 ISSN 2213 8463 doi 10 1016 j mfglet 2013 09 005 International Journal of Internet Science Volume 9 Issue 1 www ijis net Preis Tobias Moat Helen Susannah Stanley H Eugene Bishop Steven R 5 de abril de 2012 Quantifying the Advantage of Looking Forward Scientific Reports 2 ISSN 2045 2322 PMC 3320057 PMID 22482034 doi 10 1038 srep00350 Consultado el 29 de septiembre de 2018 Marks Paul 5 de abril de 2012 Online searches for future linked to economic success New Scientist en ingles estadounidense Consultado el 29 de septiembre de 2018 Johnston Casey 6 de abril de 2012 Google Trends reveals clues about the mentality of richer nations Ars Technica en ingles estadounidense Consultado el 29 de septiembre de 2018 Tobias Preis 24 de mayo de 2012 Supplementary Information The Future Orientation Index is available for download Ball Philip 26 de abril de 2013 Counting Google searches predicts market movements Nature en ingles ISSN 1476 4687 doi 10 1038 nature 2013 12879 Consultado el 29 de septiembre de 2018 Preis Tobias Moat Helen Susannah Stanley H Eugene 25 de abril de 2013 Quantifying Trading Behavior in Financial Markets Using Google Trends Scientific Reports 3 ISSN 2045 2322 PMC 3635219 PMID 23619126 doi 10 1038 srep01684 Consultado el 29 de septiembre de 2018 Bilton Nick Google Search Terms Can Predict Stock Market Study Finds Bits Blog en ingles Consultado el 29 de septiembre de 2018 Matthews Christopher Trouble With Your Investment Portfolio Google It Time en ingles estadounidense ISSN 0040 781X Consultado el 29 de septiembre de 2018 Ball Philip 26 de abril de 2013 Counting Google searches predicts market movements Nature en ingles ISSN 1476 4687 doi 10 1038 nature 2013 12879 Consultado el 29 de septiembre de 2018 Bernhard Warner 25 de marzo de 2013 Big Data Researchers Turn to Google to Beat the Markets www bloomberg com Consultado el 29 de septiembre de 2018 Hamish McRae Need a valuable handle on investor sentiment Google it The Independent en ingles britanico Consultado el 29 de septiembre de 2018 Richard Waters 25 de abril de 2013 Subscribe to read Financial Times en ingles britanico Consultado el 29 de septiembre de 2018 Workshop on Algorithms for Modern Massive Data Sets MMDS web stanford edu Consultado el 29 de septiembre de 2018 Deepan Palguna Vikas Joshi Venkatesan Chakaravarthy Ravi Kothari amp L V Subramaniam 2015 Analysis of Sampling Algorithms for Twitter International Joint Conference on Artificial Intelligence 2 Rodriguez Manzano Anayansi diciembre del 2018 El uso de los datos masivos para salvar vidas Como ves Ciudad de Mexico Direccion General de Divulgacion de la Ciencia UNAM 21 241 16 19 Wilson N Mason M Tobias M Peacey M Huang Q S Baker M Eurosurveillance Edition 2009 Interpreting Google Flu Trends data for pandemic H1N1 influenza The New Zealand Experience Eurosurveillance Edition 2009 14 Issue 44 4 Rodriguez Manzano Anayansi diciembre del 2018 El uso de los datos masivos para salvar vidas Como ves Ciudad de Mexico Direccion General de Divulgacion de la Ciencia UNAM 21 241 16 19 Rodriguez Manzano Anayansi diciembre del 2018 El uso de los datos masivos para salvar vidas Como ves Ciudad de Mexico Direccion General de Divulgacion de la Ciencia UNAM 21 241 16 19 Carrillo Ruiz Jose Antonio Marco de Lucas Jesus E Cases Vega Fernando Duenas Lopez Juan Carlos Cristino Fernandez Jose Gonzalez Munoz de Morales Guillermo Pereda Laredo Luis Fernando Marzo de 2013 Big Data en los entornos de Defensa y Seguridad Instituto Espanol de Estudios Estrategicos El BSC y Microsoft Research Center optimizaran Big Data con el proyecto Aloja Computing 31 de julio de 2014 Consultado el 1 de enero de 2015 How Big Data Is Helping to Save the Planet 15 de septiembre de 2014 Kimble C Milolidakis G 2015 Big Data and Business Intelligence Debunking the Myths Global Business and Organizational Excellence 35 1 23 34 arXiv 1511 03085 doi 10 1002 joe 21642 Snijders C Matzat U Reips U D 2012 Big Data Big gaps of knowledge in the field of Internet International Journal of Internet Science 7 1 5 Anderson Chris 23 de junio de 2008 The End of Theory The Data Deluge Makes the Scientific Method Obsolete WIRED en ingles estadounidense Consultado el 29 de septiembre de 2018 Graham Mark 9 de marzo de 2012 Big data and the end of theory the Guardian en ingles Consultado el 29 de septiembre de 2018 Good Data Won t Guarantee Good Decisions Harvard Business Review 1 de abril de 2012 Consultado el 29 de septiembre de 2018 TEDx Talks 13 de enero de 2015 Big data requires big visions for big change Martin Hilbert TEDxUCL consultado el 29 de septiembre de 2018 Alemany Oliver Mathieu Vayre Jean Sebastien 2015 03 Big data and the future of knowledge production in marketing research Ethics digital traces and abductive reasoning Journal of Marketing Analytics en ingles 3 1 5 13 ISSN 2050 3318 doi 10 1057 jma 2015 1 Consultado el 29 de septiembre de 2018 Rauch Jonathan 1 de abril de 2002 Seeing Around Corners The Atlantic en ingles estadounidense Consultado el 29 de septiembre de 2018 Epstein J M amp Axtell R L 1996 Growing Artificial Societies Social Science from the Bottom Up A Bradford Book Accueil Big Data Paris 2019 Big Data Paris 2019 en frances Consultado el 29 de septiembre de 2018 Tambe Sanjeev 29 de octubre de 2015 BIG DATA IN BIOSCIENCES doi 10 13140 RG 2 1 3685 0645 Consultado el 29 de septiembre de 2018 Harford Tim 28 de marzo de 2014 Big data are we making a big mistake Financial Times en ingles britanico Consultado el 29 de septiembre de 2018 Don t Build a Database of Ruin Harvard Business Review 23 de agosto de 2012 Consultado el 29 de septiembre de 2018 Bond Graham Darwin 3 de diciembre de 2013 Iron Cagebook www counterpunch org en ingles estadounidense Consultado el 29 de septiembre de 2018 Bond Graham Darwin 11 de septiembre de 2013 Inside the Tech industry s Startup Conference www counterpunch org en ingles estadounidense Consultado el 29 de septiembre de 2018 Goldring Kira Is Big Data being used for good theperspective com Consultado el 29 de septiembre de 2018 Al Rodhan Nayef 16 de septiembre de 2014 The Social Contract 2 0 Big Data and the Need to Guarantee Privacy and Civil Liberties Harvard International Review hir harvard edu en ingles estadounidense Archivado desde el original el 13 de abril de 2017 Consultado el 29 de septiembre de 2018 Barocas Solon Nissenbaum Helen Lane Julia Stodden Victoria Bender Stefan Nissenbaum Helen 2014 06 Privacy Big Data and the Public Good en ingles Cambridge University Press pp 44 75 ISBN 9781107590205 doi 10 1017 cbo9781107590205 004 Consultado el 29 de septiembre de 2018 Lugmayr Artur Stockleben Bjoern Scheib Christoph Mailaparampil Mathew Mesia Noora Ranta Hannu 1 de junio de 2016 A COMPREHENSIVE SURVEY ON BIG DATA RESEARCH AND ITS IMPLICATIONS WHAT IS REALLY NEW IN BIG DATA IT S COGNITIVE BIG DATA Consultado el 29 de septiembre de 2018 Privacy and Publicity in the Context of Big Data www danah org Consultado el 29 de septiembre de 2018 Jones MB Schildhauer MP Reichman OJ Bowers S 2006 The New Bioinformatics Integrating Ecological Data from the Gene to the Biosphere Annual Review of Ecology Evolution and Systematics 37 1 Boyd D Crawford K 2012 Critical Questions for Big Data Information Communication amp Society 15 5 662 679 Failure to Launch From Big Data to Big Decisions Archivado el 6 de diciembre de 2016 en Wayback Machine Forte Wares Interview Michael Berthold KNIME Founder on Research Creativity Big Data and Privacy Part 2 www kdnuggets com en ingles estadounidense Consultado el 29 de septiembre de 2018 Big Data is an overused buzzword and this Twitter bot proves it SiliconANGLE SiliconANGLE en ingles estadounidense 26 de octubre de 2015 Consultado el 29 de septiembre de 2018 Harford Tim 28 de marzo de 2014 Big data are we making a big mistake Financial Times en ingles britanico Consultado el 29 de septiembre de 2018 Ioannidis John P A 2005 8 Why Most Published Research Findings Are False PLoS Medicine 2 8 ISSN 1549 1277 PMC 1182327 PMID 16060722 doi 10 1371 journal pmed 0020124 Consultado el 29 de septiembre de 2018 Lohr Steve Singer Natasha 10 de noviembre de 2016 How Data Failed Us in Calling an Election en ingles Consultado el 29 de septiembre de 2018 Markman Jon Big Data And The 2016 Election Forbes en ingles Consultado el 29 de septiembre de 2018 What Is Data Virtualization www datawerks com en ingles estadounidense Archivado desde el original el 10 de abril de 2018 Consultado el 14 de mayo de 2018 Enlaces externos EditarBig Data ofrecido por las grandes empresas SAP Oracle Microsoft y otros Actualidad del Big Data Historia cronologica del Big Data Una linea del tiempo visual con los principales hitos de la historia del almacenamiento de la informacion IBM crea una universidad de Big Data para aprender gratis Real Time Data Access and Total Data Integration Lo mas buscado en Wikipedia en 2018 Cuales fueron las personalidades y los eventos mas consultados en la enciclopedia en linea Los ojos uruguayos de Wikipedia 21 de septiembre de 2012 Datos Q858810 Multimedia Big data Obtenido de https es wikipedia org w index php title Macrodatos amp oldid 141355386, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos