fbpx
Wikipedia

Ciencia de datos

La ciencia de datos es un campo interdisciplinario que involucra métodos científicos, procesos y sistemas para extraer conocimiento o un mejor entendimiento de datos en sus diferentes formas, ya sea estructurados o no estructurados,[1]​ lo cual es una continuación de algunos campos de análisis de datos como la estadística, la minería de datos, el aprendizaje automático, y la analítica predictiva.[1]

También se define La ciencia de datos como "un concepto para unificar estadísticas, análisis de datos, aprendizaje automático, y sus métodos relacionados, a efectos de comprender y analizar los fenómenos reales",[2]​ empleando técnicas y teorías extraídas de muchos campos dentro del contexto de las matemáticas, la estadística, la ciencia de la información, y la informática.

El ganador del premio Turing, Jim Gray, imaginó la ciencia de datos como un "cuarto paradigma" de la ciencia (empírico, teórico, computacional, y ahora basado en datos), y afirmó que "todo lo relacionado con la ciencia está cambiando debido al impacto de la tecnología de la información y el diluvio de datos".[3]

En este nuevo paradigma, los investigadores se apoyan de sistemas y procesos que son muy diferentes a los utilizados en el pasado, como son modelos, ecuaciones, algoritmos, así como evaluación e interpretación de resultados.[1]

Historia

En 1962, John W. Tukey precedió al término “Ciencia de Datos” en su artículo “The Future of Data Analysis” al explicar una evolución de la estadística matemática. En este, definió por primera vez el análisis de datos como: “Procedimientos para analizar datos, técnicas para interpretar los resultados de dichos procedimientos, formas de planificar la recopilación de datos para hacer su análisis más fácil, más preciso o acertado, y toda la maquinaria y los resultados de las estadísticas matemáticas que se aplican al análisis de datos.”[4]​ En 1977 publicó “Exploratory Data Analysis”, argumentando que era necesario poner más énfasis en el uso de datos para sugerir hipótesis que probar en modelos estadísticos.

La ciencia de datos ha resultado para muchos una disciplina de reciente creación, pero en la realidad este concepto lo utilizó por primera vez el científico danés Peter Naur en la década de los sesenta como sustituto de las ciencias computacionales. En 1974 publicó el libro Concise Survey of Computer Methods [5]​ donde utiliza ampliamente el concepto ciencia de datos, lo que permitió la utilización que más libre en el mundo académico.

En 1977, el International Association for Statistical Computing (IASC) es establecido como una sección del International Statistical Institute (ISI). “Es la misión de la IASC relacionar la metodología estadística tradicional, tecnología computacional moderna, y el conocimiento de expertos del tema, para convertir datos en información y conocimiento".[6]

En 1996 el término ‘Ciencia de Datos’ fue utilizado por primera vez en una conferencia llamada "Ciencia de datos, clasificación y métodos relacionados", que tuvo lugar en una reunión de miembros de la ‘International Federation of Classification Societies’ (IFCS) con sede en Kobe, Japón.[6]​ En 1997, C.F. Jeff Wu dio una charla llamada "Statistics = Data Science?", donde describió al trabajo estadístico como una trilogía conformada por recolección de datos, análisis y modelado de datos, y la toma de decisiones, haciendo la petición de que la estadística fuese renombrada como ciencia de datos, y los estadísticos como científicos de datos.[7]

En 2001, William S. Cleveland introdujo a la ciencia de datos como una disciplina independiente, extendiendo el campo de la estadística para incluir los avances en computación con datos en su artículo "Data science: an action plan for expanding the technical areas of the field of statistics". Cleveland estableció seis áreas técnicas que en su opinión conformarían al campo de la ciencia de datos: investigaciones multidisciplinarias, modelos y métodos para datos, computación con datos, pedagogía, evaluación de herramientas, y teoría.[8]

En abril del 2002, el ‘International Council for Science: Committee on Data for Science and Technology’ (CODATA) empezó la publicación del Data Science Journal,[9]​ enfocada en problemas como la descripción de sistemas de datos, su publicación en Internet, sus aplicaciones, y sus problemas legales. Poco después, en enero del 2003, la Universidad de Columbia empezó a publicar The Journal of Data Science,[10]​ la cual ofreció una plataforma para que todos los profesionales de datos presentaran sus perspectivas e intercambiaran ideas.

En 2005, The National Science Board publicó "Long-Lived Digital Data Collections Enabling Research and Education in the 21st Century", definiendo a los científicos de datos como "científicos de computación e información, programadores de bases de datos y software, y expertos disciplinarios, [...] que son cruciales para la gestión exitosa de una colección digital de datos, cuya actividad primaria es realizar investigación creativa y análisis".[11]

Fue en el 2008 que Jeff Hammerbacher y DJ Patil lo reutilizaron para definir sus propios trabajos realizados en Facebook y LinkedIn, respectivamente,[12]

En 2009, los investigadores Yangyong Zhu y Yun Xiong del ‘Research Center for Dataology and Data Science’, publicaron “Introduction to Dataology and Data Science”, en donde manifiestan que “a diferencia de las ciencias naturales y las ciencias sociales, Datología y Ciencia de Datos toman datos en la red y su objeto de estudio”.[6]

En 2013 fue lanzado el ‘IEEE Task Force on Data Science and Advanced Analytics’,[13]​ mientras que la primera conferencia internacional de ‘IEEE International Conference on Data Science and Advanced Analytics’ fue lanzada en el 2014.[14]​ En 2015, el International Journal on Data Science and Analytics fue lanzado por Springer para publicar trabajos originales en ciencia de datos y analítica de big data.[15]

Aplicaciones

Marketing

En septiembre de 1994, BusinessWeek publicó el artículo “Marketing de base de datos”, manifestando que las empresas recopilan una gran cantidad de información sobre los clientes, la cual es analizada para predecir la probabilidad de que compre un producto. Afirman que se utiliza ese conocimiento para elaborar un mensaje de marketing calibrado con precisión para que el individuo busque conseguirlo. Asimismo, explican que, en los ochenta, un entusiasmo provocado por la propagación de los lectores de códigos de barras terminó en una decepción generalizada pues muchas empresas fueron abrumadas por la gran cantidad de datos para lograr hacer algo útil con la información de sus clientes. Sin embargo, muchas empresas creen que no hay más remedio que desafiar la frontera marketing y bases de datos para desarrollar más las tecnologías necesarias.[16]

En 2014 empresa sueca de música en streaming Spotify compra The Echo Nest, una compañía especializada en ciencia de datos musicales. Esta ahora es la encargada de almacenar y analizar la información de sus 170 millones de usuarios.[17]​ Con ayuda de dicha empresa, en 2015 Spotify lanzó un servicio de música personalizada llamado Discover Weekly que semanalmente recomienda a sus usuarios una selección de canciones que podría interesarles por medio de algoritmos y análisis de los datos de la música escuchada y el historial de búsqueda de la semana pasada. El servicio recibió una buena recepción generalizada[18]​ y actualmente figura un fuerte punto de venta ante la competencia de la empresa.[19]

Netflix, la empresa norteamericana de contenido multimedia en streaming ofrece a sus más de 120 millones de usuarios una plataforma capaz de analizar, mediante algoritmos, las costumbres de consumo de los usuarios para diferenciar los contenidos que estos buscan y lograr determinar qué nuevos contenidos les pueden interesar. Todd Yellin, vicepresidente de producto en Netflix, explicó que algunos de los datos almacenados pueden extenderse desde la hora del día se conectan sus usuarios, cuánto tiempo pasan dentro de la plataforma, su lista de contenidos recientemente vistos (para analizar incluso el orden específico de estos). Toda la información que se almacena es utilizada específicamente para ser analizada, aprender del usuario y poder darle recomendaciones acertadas.[20]

Gobernanza

En América Latina el Banco Interamericano de Desarrollo (BID) ha desarrollado estudios exploratorios en los que se analiza la ciencia de datos en la implementación y diseño de políticas públicas en la región, tomando casos en países como Argentina y Brasil, presentando recomendaciones para su implementación y mantenimiento.

Estas van desde temas como movilidad urbana sostenible, ciudades inteligentes, seguridad, propiedad de datos y privacidad. Entre las sugerencias presentadas en las investigaciones está la de lograr una “inteligencia del valor público, la cual “tiene la potencialidad de ser un componente estratégico para la toma de decisiones y el diseño, implementación y evaluación de políticas públicas”. Otra de ellas es la capacidad para lograr desde este campo una mejora de rendición de cuentas de los gobiernos ante la ciudadanía y promover un avance en cuanto a la curaduría de datos en las instituciones públicas.[21]

Ciencia de datos y Big data

Textualmente, Big Data (o macrodatos) se refiere a enormes volúmenes de datos que no pueden procesarse de manera efectiva con las aplicaciones tradicionales que actualmente se aplican.[22]​ De acuerdo con la guía de Amazon Web Service, se considera al Big Data como una colección considerable de datos con dificultades para almacenarse en bases de datos tradicionales, y también para procesarse en servidores estándar y para analizarse con aplicaciones habituales.

El término se suele relacionar con ciencia de datos, pues esa suele ser su fuente de información para análisis; La ciencia de datos logra analizar los grandes conjuntos de datos desordenados e incompletos, para llegar a hallazgos que impulsan decisiones sobre operaciones y productos.

Científico de datos

Las personas que se dedican a la ciencia de datos se les conoce como científico de datos, de acuerdo con el proyecto Master in Data Science define al científico de datos como una mezcla de estadísticos, computólogos y pensadores creativos, con las siguientes habilidades:

  • Recopilar, procesar y extraer valor de las diversas y extensas bases de datos.
  • Imaginación para comprender, visualizar y comunicar sus conclusiones a los no científicos de datos.
  • Capacidad para crear soluciones basadas en datos que aumentan los beneficios, reducen los costos.
  • Los científicos de datos trabajan en todas las industrias y hacen frente a los grandes proyectos de datos en todos los niveles.

El proceso que sigue un científico de datos para responder cuestiones que se le plantean se puede resumir en estos pasos:

  1. Extraer datos, independientemente de la fuente y de su volumen.
  2. Limpiar los datos, para eliminar lo que pueda sesgar los resultados.
  3. Procesar los datos usando métodos estadísticos como inferencia estadística, modelos de regresión, pruebas de hipótesis, etc.
  4. Diseñar experimentos adicionales en caso de ser necesario.
  5. Crear visualizaciones gráficas de los datos relevantes de la investigación.[23]

El doctor en estadística Nathan Yau, precisó lo siguiente: el científico de datos es un estadístico que debería aprender interfaces de programación de aplicaciones (API), bases de datos y extracción de datos; es un diseñador que deberá aprender a programar; y es un computólogo que deberá saber analizar y encontrar datos con significado.[24]

En la tesis doctoral de Benjamin Fry explicó que el proceso para comprender mejor a los datos comenzaba con una serie de números y el objetivo de responder preguntas sobre los datos, en cada fase del proceso que él propone (adquirir, analizar, filtrar, extraer, representar, refinar e interactuar), se requiere de diferentes enfoques especializados que aporten a una mejor comprensión de los datos. Entre los enfoques que menciona Fry están: ingenieros en sistemas, matemáticos, estadísticos, diseñadores gráficos, especialistas en visualización de la información y especialistas en interacciones hombre-máquina, mejor conocidos por sus siglas en inglés “HCI” (Human-Computer Interaction). Además, Fry afirmó que contar con diferentes enfoques especializados lejos de resolver el problema de entendimiento de datos, se convierte en parte del problema, ya que cada especialización conduce de manera aislada el problema y el camino hacia la solución se puede perder algo en cada transición del proceso.[25]

en:Drew Conway en su página web explica con la ayuda de un diagrama de Venn, las principales habilidades que le dan vida y forma a la ciencia de datos, así como sus relaciones de conjuntos.

La importancia de un científico de datos

La ciencia de datos ha cobrado recientemente mucha importancia en nuestro acontecer como disciplina o profesión emergente (científico de datos), y se ha vuelto en foco de atención de cada vez más organizaciones a nivel mundial, tal como lo señaló el economista en jefe de Google Hal Varian, “El trabajo más sexy en los próximos 10 años será ser estadístico”, palabras sobre las que reflexionó Thomas H. Davenport para publicar en el 2012 su artículo: Data Scientist: The Sexiest Job of the 21st Century [26]​ donde describe el perfil que debe tener el científico de datos como el híbrido de un hacker de datos, un analista, un comunicador, y un consejero confiable, combinación extremadamente poderosa y poco común. Davenport, también señala que el científico de datos no se siente cómodo como se dice coloquialmente “con la correa corta”, es decir, debe tener la libertad de experimentar y explorar posibilidades. Además, Davenport en el mismo artículo presenta un decálogo de cómo encontrar el científico de datos que la organización necesita (ver página 74 del artículo).

El informe que publicó “McKinsey”[27]​ en el 2011, estimó que para el mundo de grandes datos en el que vivimos, espera que la demanda por talento experto en análisis de datos podría alcanzar de los 440 000 a 490 000 puestos de trabajo para el 2018.[cita requerida]

Entre los retos tecnológicos a los que nos enfrentamos destacamos:

  • El volumen de datos: la genómica, la monitorización (UCI, dispositivos móviles), la ubicuidad, datos sociales. Se requerirán, por una parte, nuevos métodos para el almacenamiento de datos; por otra parte, estos datos requieren nuevas aplicaciones para su integración, consulta y análisis.
  • Almacenamiento físico de los datos: los datos requieren de nuevos medios y arquitecturas para su almacenamiento y tratamiento de forma eficiente.
  • Problemas de interoperabilidad: diversos hospitales tienen diferentes sistemas de almacenamiento. Tiene que haber una capa de interoperabilidad para construir sobre las soluciones de tecnologías de la información.
  • Limpieza de datos, integración, análisis, herramientas: cuando se tenga acceso a información de todo tipo: los registros de salud, información de contexto, la genómica, y el resto de datos, serán necesarias nuevas herramientas y servicios para diferenciar el ruido de los datos valiosos.
  • Interpretabilidad de los modelos obtenidos con técnicas de inteligencia artificial. Impacto de los cambios en los protocolos de registro de datos y en la normativa sobre los datos registrados.[28]

Referencias

  1. Liu, Alex (17 de septiembre de 2015). «Data Science and Data Scientist» (en inglés). Consultado el 24 de septiembre de 2015. 
  2. Hayashi, Chikio (1998). Studies in Classification, Data Analysis, and Knowledge Organization (en inglés). Springer Japan. pp. 40-51. ISBN 9784431702085. doi:10.1007/978-4-431-65950-1_3. Consultado el 14 de septiembre de 2018. 
  3. Tansley, Stewart; Tolle, Kristin Michele (1 de enero de 2009). The Fourth Paradigm: Data-intensive Scientific Discovery (en inglés). Microsoft Research. ISBN 9780982544204. Consultado el 3 de febrero de 2017. 
  4. Tukey, John W. (1962-03). «The Future of Data Analysis». The Annals of Mathematical Statistics (en inglés) 33 (1): 1-67. ISSN 0003-4851. doi:10.1214/aoms/1177704711. Consultado el 1 de octubre de 2018. 
  5. Peter Naur (1974). Encyclopedia of Computer Science. Petrocelli Books. 91-44-07881-1. 
  6. Press, Gil. «A Very Short History Of Data Science». Forbes. Consultado el 3 de febrero de 2017. 
  7. Wu, C.F. Jeff (1997). "Statistics = Data Science?". Consultado el 3 de febrero de 2017. 
  8. Cleveland, W. S. (2001). Data science: an action plan for expanding the technical areas of the field of statistics. (en inglés). International Statistical Review / Revue Internationale de Statistique. p. 21–26. 
  9. «Data Science Journal». Available Volumes. Retrieved from Japan Science and Technology Information Aggregator, Electronic: http://www.jstage.jst.go.jp/browse/dsj/_vols. abril de 2012. 
  10. «The Journal of Data Science». Contents of Volume 1, Issue 1. enero de 2003. 
  11. National Science Board (2005). «US NSF - NSB-05-40, Long-Lived Digital Data Collections Enabling Research and Education in the 21st Century». www.nsf.gov (en inglés). National Science Foundation. Consultado el 3 de febrero de 2017. 
  12. Perlroth, Nicole (2 de noviembre de 2011). «The World´s 7 Most Powerful Data Scientists» (en inglés). Consultado el 24 de septiembre de 2015. 
  13. «"IEEE Task Force on Data Science and Advanced Analytics"». Consultado el 3 de febrero de 2017. 
  14. . Archivado desde el original el 29 de marzo de 2017. Consultado el 3 de febrero de 2017. 
  15. «"Journal on Data Science and Analytics"». Consultado el 3 de febrero de 2017. 
  16. «Bloomberg - Database Marketing». www.bloomberg.com. Consultado el 3 de octubre de 2018. 
  17. «Spotify hits 75 million paid subscribers as it releases first earnings». The Verge. Consultado el 3 de octubre de 2018. 
  18. Heath, Alex (6 de septiembre de 2015). «How Spotify's Discover Weekly playlist knows exactly what you want to hear». Business Insider Australia (en inglés). Consultado el 3 de octubre de 2018. 
  19. «Spotify vs. Apple Music: The best music streaming service is...». CNET (en inglés). 3 de octubre de 2018. Consultado el 3 de octubre de 2018. 
  20. «¿Cómo funciona el algoritmo de Netflix?». abc. Consultado el 8 de octubre de 2018. 
  21. «El uso de datos masivos y sus técnicas analíticas para el diseño e implementación de políticas públicas en Latinoamérica y el Caribe (2017)». Banco Interamericano de Desarrollo. Consultado el 29 de noviembre de 2018. 
  22. «Data Science vs. Big Data vs. Data Analytics». Simplilearn.com (en inglés estadounidense). 5 de abril de 2016. Consultado el 10 de octubre de 2018. 
  23. «¿Qué es un Data Scientist?». inLab FIB. 20 de mayo de 2015. Consultado el 8 de octubre de 2018. 
  24. Harris, Harlan (septiembre de 2011). (en inglés). Archivado desde el original el 25 de septiembre de 2015. Consultado el 24 de septiembre de 2015. 
  25. Fry, Benjamin (abril de 2014). «Thesis proposal: Computational Information Design» (en inglés). Consultado el 24 de septiembre de 2015. 
  26. Peter Drucker (2012). Data Scientist: The Sexiest Job of the 21st Century. Harvard Business Review. 
  27. Manyika, James; Michael Chui, Brad Brown, Jacques Bughin, Richard Dobbs, Charles Roxburgh, Angela Hung Byers (mayo de 2011). «Big data: The next frontier for innovation, competition, and productivity» (en inglés). Consultado el 24 de septiembre de 2015. 
  28. «¿Puede data science ayudarnos a mejorar el pronóstico y tratamiento del paciente oncológico?». Comunicación y Hombre. Consultado el 1 de diciembre de 2020. 

Enlaces externos

  • Programa de becas [1].
  • Comunidad de científicos de datos [2].
  • Comunidad de científicos de datos [3].
  •   Datos: Q2374463
  •   Multimedia: Data science

ciencia, datos, ciencia, datos, campo, interdisciplinario, involucra, métodos, científicos, procesos, sistemas, para, extraer, conocimiento, mejor, entendimiento, datos, diferentes, formas, estructurados, estructurados, cual, continuación, algunos, campos, aná. La ciencia de datos es un campo interdisciplinario que involucra metodos cientificos procesos y sistemas para extraer conocimiento o un mejor entendimiento de datos en sus diferentes formas ya sea estructurados o no estructurados 1 lo cual es una continuacion de algunos campos de analisis de datos como la estadistica la mineria de datos el aprendizaje automatico y la analitica predictiva 1 Tambien se define La ciencia de datos como un concepto para unificar estadisticas analisis de datos aprendizaje automatico y sus metodos relacionados a efectos de comprender y analizar los fenomenos reales 2 empleando tecnicas y teorias extraidas de muchos campos dentro del contexto de las matematicas la estadistica la ciencia de la informacion y la informatica El ganador del premio Turing Jim Gray imagino la ciencia de datos como un cuarto paradigma de la ciencia empirico teorico computacional y ahora basado en datos y afirmo que todo lo relacionado con la ciencia esta cambiando debido al impacto de la tecnologia de la informacion y el diluvio de datos 3 En este nuevo paradigma los investigadores se apoyan de sistemas y procesos que son muy diferentes a los utilizados en el pasado como son modelos ecuaciones algoritmos asi como evaluacion e interpretacion de resultados 1 Indice 1 Historia 2 Aplicaciones 2 1 Marketing 2 2 Gobernanza 3 Ciencia de datos y Big data 4 Cientifico de datos 4 1 La importancia de un cientifico de datos 5 Referencias 6 Enlaces externosHistoria EditarEn 1962 John W Tukey precedio al termino Ciencia de Datos en su articulo The Future of Data Analysis al explicar una evolucion de la estadistica matematica En este definio por primera vez el analisis de datos como Procedimientos para analizar datos tecnicas para interpretar los resultados de dichos procedimientos formas de planificar la recopilacion de datos para hacer su analisis mas facil mas preciso o acertado y toda la maquinaria y los resultados de las estadisticas matematicas que se aplican al analisis de datos 4 En 1977 publico Exploratory Data Analysis argumentando que era necesario poner mas enfasis en el uso de datos para sugerir hipotesis que probar en modelos estadisticos La ciencia de datos ha resultado para muchos una disciplina de reciente creacion pero en la realidad este concepto lo utilizo por primera vez el cientifico danes Peter Naur en la decada de los sesenta como sustituto de las ciencias computacionales En 1974 publico el libro Concise Survey of Computer Methods 5 donde utiliza ampliamente el concepto ciencia de datos lo que permitio la utilizacion que mas libre en el mundo academico En 1977 el International Association for Statistical Computing IASC es establecido como una seccion del International Statistical Institute ISI Es la mision de la IASC relacionar la metodologia estadistica tradicional tecnologia computacional moderna y el conocimiento de expertos del tema para convertir datos en informacion y conocimiento 6 En 1996 el termino Ciencia de Datos fue utilizado por primera vez en una conferencia llamada Ciencia de datos clasificacion y metodos relacionados que tuvo lugar en una reunion de miembros de la International Federation of Classification Societies IFCS con sede en Kobe Japon 6 En 1997 C F Jeff Wu dio una charla llamada Statistics Data Science donde describio al trabajo estadistico como una trilogia conformada por recoleccion de datos analisis y modelado de datos y la toma de decisiones haciendo la peticion de que la estadistica fuese renombrada como ciencia de datos y los estadisticos como cientificos de datos 7 En 2001 William S Cleveland introdujo a la ciencia de datos como una disciplina independiente extendiendo el campo de la estadistica para incluir los avances en computacion con datos en su articulo Data science an action plan for expanding the technical areas of the field of statistics Cleveland establecio seis areas tecnicas que en su opinion conformarian al campo de la ciencia de datos investigaciones multidisciplinarias modelos y metodos para datos computacion con datos pedagogia evaluacion de herramientas y teoria 8 En abril del 2002 el International Council for Science Committee on Data for Science and Technology CODATA empezo la publicacion del Data Science Journal 9 enfocada en problemas como la descripcion de sistemas de datos su publicacion en Internet sus aplicaciones y sus problemas legales Poco despues en enero del 2003 la Universidad de Columbia empezo a publicar The Journal of Data Science 10 la cual ofrecio una plataforma para que todos los profesionales de datos presentaran sus perspectivas e intercambiaran ideas En 2005 The National Science Board publico Long Lived Digital Data Collections Enabling Research and Education in the 21st Century definiendo a los cientificos de datos como cientificos de computacion e informacion programadores de bases de datos y software y expertos disciplinarios que son cruciales para la gestion exitosa de una coleccion digital de datos cuya actividad primaria es realizar investigacion creativa y analisis 11 Fue en el 2008 que Jeff Hammerbacher y DJ Patil lo reutilizaron para definir sus propios trabajos realizados en Facebook y LinkedIn respectivamente 12 En 2009 los investigadores Yangyong Zhu y Yun Xiong del Research Center for Dataology and Data Science publicaron Introduction to Dataology and Data Science en donde manifiestan que a diferencia de las ciencias naturales y las ciencias sociales Datologia y Ciencia de Datos toman datos en la red y su objeto de estudio 6 En 2013 fue lanzado el IEEE Task Force on Data Science and Advanced Analytics 13 mientras que la primera conferencia internacional de IEEE International Conference on Data Science and Advanced Analytics fue lanzada en el 2014 14 En 2015 el International Journal on Data Science and Analytics fue lanzado por Springer para publicar trabajos originales en ciencia de datos y analitica de big data 15 Aplicaciones EditarMarketing Editar En septiembre de 1994 BusinessWeek publico el articulo Marketing de base de datos manifestando que las empresas recopilan una gran cantidad de informacion sobre los clientes la cual es analizada para predecir la probabilidad de que compre un producto Afirman que se utiliza ese conocimiento para elaborar un mensaje de marketing calibrado con precision para que el individuo busque conseguirlo Asimismo explican que en los ochenta un entusiasmo provocado por la propagacion de los lectores de codigos de barras termino en una decepcion generalizada pues muchas empresas fueron abrumadas por la gran cantidad de datos para lograr hacer algo util con la informacion de sus clientes Sin embargo muchas empresas creen que no hay mas remedio que desafiar la frontera marketing y bases de datos para desarrollar mas las tecnologias necesarias 16 En 2014 empresa sueca de musica en streaming Spotify compra The Echo Nest una compania especializada en ciencia de datos musicales Esta ahora es la encargada de almacenar y analizar la informacion de sus 170 millones de usuarios 17 Con ayuda de dicha empresa en 2015 Spotify lanzo un servicio de musica personalizada llamado Discover Weekly que semanalmente recomienda a sus usuarios una seleccion de canciones que podria interesarles por medio de algoritmos y analisis de los datos de la musica escuchada y el historial de busqueda de la semana pasada El servicio recibio una buena recepcion generalizada 18 y actualmente figura un fuerte punto de venta ante la competencia de la empresa 19 Netflix la empresa norteamericana de contenido multimedia en streaming ofrece a sus mas de 120 millones de usuarios una plataforma capaz de analizar mediante algoritmos las costumbres de consumo de los usuarios para diferenciar los contenidos que estos buscan y lograr determinar que nuevos contenidos les pueden interesar Todd Yellin vicepresidente de producto en Netflix explico que algunos de los datos almacenados pueden extenderse desde la hora del dia se conectan sus usuarios cuanto tiempo pasan dentro de la plataforma su lista de contenidos recientemente vistos para analizar incluso el orden especifico de estos Toda la informacion que se almacena es utilizada especificamente para ser analizada aprender del usuario y poder darle recomendaciones acertadas 20 Gobernanza Editar En America Latina el Banco Interamericano de Desarrollo BID ha desarrollado estudios exploratorios en los que se analiza la ciencia de datos en la implementacion y diseno de politicas publicas en la region tomando casos en paises como Argentina y Brasil presentando recomendaciones para su implementacion y mantenimiento Estas van desde temas como movilidad urbana sostenible ciudades inteligentes seguridad propiedad de datos y privacidad Entre las sugerencias presentadas en las investigaciones esta la de lograr una inteligencia del valor publico la cual tiene la potencialidad de ser un componente estrategico para la toma de decisiones y el diseno implementacion y evaluacion de politicas publicas Otra de ellas es la capacidad para lograr desde este campo una mejora de rendicion de cuentas de los gobiernos ante la ciudadania y promover un avance en cuanto a la curaduria de datos en las instituciones publicas 21 Ciencia de datos y Big data EditarTextualmente Big Data o macrodatos se refiere a enormes volumenes de datos que no pueden procesarse de manera efectiva con las aplicaciones tradicionales que actualmente se aplican 22 De acuerdo con la guia de Amazon Web Service se considera al Big Data como una coleccion considerable de datos con dificultades para almacenarse en bases de datos tradicionales y tambien para procesarse en servidores estandar y para analizarse con aplicaciones habituales El termino se suele relacionar con ciencia de datos pues esa suele ser su fuente de informacion para analisis La ciencia de datos logra analizar los grandes conjuntos de datos desordenados e incompletos para llegar a hallazgos que impulsan decisiones sobre operaciones y productos Cientifico de datos EditarLas personas que se dedican a la ciencia de datos se les conoce como cientifico de datos de acuerdo con el proyecto Master in Data Science define al cientifico de datos como una mezcla de estadisticos computologos y pensadores creativos con las siguientes habilidades Recopilar procesar y extraer valor de las diversas y extensas bases de datos Imaginacion para comprender visualizar y comunicar sus conclusiones a los no cientificos de datos Capacidad para crear soluciones basadas en datos que aumentan los beneficios reducen los costos Los cientificos de datos trabajan en todas las industrias y hacen frente a los grandes proyectos de datos en todos los niveles El proceso que sigue un cientifico de datos para responder cuestiones que se le plantean se puede resumir en estos pasos Extraer datos independientemente de la fuente y de su volumen Limpiar los datos para eliminar lo que pueda sesgar los resultados Procesar los datos usando metodos estadisticos como inferencia estadistica modelos de regresion pruebas de hipotesis etc Disenar experimentos adicionales en caso de ser necesario Crear visualizaciones graficas de los datos relevantes de la investigacion 23 El doctor en estadistica Nathan Yau preciso lo siguiente el cientifico de datos es un estadistico que deberia aprender interfaces de programacion de aplicaciones API bases de datos y extraccion de datos es un disenador que debera aprender a programar y es un computologo que debera saber analizar y encontrar datos con significado 24 En la tesis doctoral de Benjamin Fry explico que el proceso para comprender mejor a los datos comenzaba con una serie de numeros y el objetivo de responder preguntas sobre los datos en cada fase del proceso que el propone adquirir analizar filtrar extraer representar refinar e interactuar se requiere de diferentes enfoques especializados que aporten a una mejor comprension de los datos Entre los enfoques que menciona Fry estan ingenieros en sistemas matematicos estadisticos disenadores graficos especialistas en visualizacion de la informacion y especialistas en interacciones hombre maquina mejor conocidos por sus siglas en ingles HCI Human Computer Interaction Ademas Fry afirmo que contar con diferentes enfoques especializados lejos de resolver el problema de entendimiento de datos se convierte en parte del problema ya que cada especializacion conduce de manera aislada el problema y el camino hacia la solucion se puede perder algo en cada transicion del proceso 25 en Drew Conway en su pagina web explica con la ayuda de un diagrama de Venn las principales habilidades que le dan vida y forma a la ciencia de datos asi como sus relaciones de conjuntos La importancia de un cientifico de datos Editar La ciencia de datos ha cobrado recientemente mucha importancia en nuestro acontecer como disciplina o profesion emergente cientifico de datos y se ha vuelto en foco de atencion de cada vez mas organizaciones a nivel mundial tal como lo senalo el economista en jefe de Google Hal Varian El trabajo mas sexy en los proximos 10 anos sera ser estadistico palabras sobre las que reflexiono Thomas H Davenport para publicar en el 2012 su articulo Data Scientist The Sexiest Job of the 21st Century 26 donde describe el perfil que debe tener el cientifico de datos como el hibrido de un hacker de datos un analista un comunicador y un consejero confiable combinacion extremadamente poderosa y poco comun Davenport tambien senala que el cientifico de datos no se siente comodo como se dice coloquialmente con la correa corta es decir debe tener la libertad de experimentar y explorar posibilidades Ademas Davenport en el mismo articulo presenta un decalogo de como encontrar el cientifico de datos que la organizacion necesita ver pagina 74 del articulo El informe que publico McKinsey 27 en el 2011 estimo que para el mundo de grandes datos en el que vivimos espera que la demanda por talento experto en analisis de datos podria alcanzar de los 440 000 a 490 000 puestos de trabajo para el 2018 cita requerida Entre los retos tecnologicos a los que nos enfrentamos destacamos El volumen de datos la genomica la monitorizacion UCI dispositivos moviles la ubicuidad datos sociales Se requeriran por una parte nuevos metodos para el almacenamiento de datos por otra parte estos datos requieren nuevas aplicaciones para su integracion consulta y analisis Almacenamiento fisico de los datos los datos requieren de nuevos medios y arquitecturas para su almacenamiento y tratamiento de forma eficiente Problemas de interoperabilidad diversos hospitales tienen diferentes sistemas de almacenamiento Tiene que haber una capa de interoperabilidad para construir sobre las soluciones de tecnologias de la informacion Limpieza de datos integracion analisis herramientas cuando se tenga acceso a informacion de todo tipo los registros de salud informacion de contexto la genomica y el resto de datos seran necesarias nuevas herramientas y servicios para diferenciar el ruido de los datos valiosos Interpretabilidad de los modelos obtenidos con tecnicas de inteligencia artificial Impacto de los cambios en los protocolos de registro de datos y en la normativa sobre los datos registrados 28 Referencias Editar a b c Liu Alex 17 de septiembre de 2015 Data Science and Data Scientist en ingles Consultado el 24 de septiembre de 2015 Hayashi Chikio 1998 Studies in Classification Data Analysis and Knowledge Organization en ingles Springer Japan pp 40 51 ISBN 9784431702085 doi 10 1007 978 4 431 65950 1 3 Consultado el 14 de septiembre de 2018 Tansley Stewart Tolle Kristin Michele 1 de enero de 2009 The Fourth Paradigm Data intensive Scientific Discovery en ingles Microsoft Research ISBN 9780982544204 Consultado el 3 de febrero de 2017 Tukey John W 1962 03 The Future of Data Analysis The Annals of Mathematical Statistics en ingles 33 1 1 67 ISSN 0003 4851 doi 10 1214 aoms 1177704711 Consultado el 1 de octubre de 2018 Peter Naur 1974 Encyclopedia of Computer Science Petrocelli Books 91 44 07881 1 a b c Press Gil A Very Short History Of Data Science Forbes Consultado el 3 de febrero de 2017 Wu C F Jeff 1997 Statistics Data Science Consultado el 3 de febrero de 2017 Cleveland W S 2001 Data science an action plan for expanding the technical areas of the field of statistics en ingles International Statistical Review Revue Internationale de Statistique p 21 26 Data Science Journal Available Volumes Retrieved from Japan Science and Technology Information Aggregator Electronic http www jstage jst go jp browse dsj vols abril de 2012 The Journal of Data Science Contents of Volume 1 Issue 1 enero de 2003 National Science Board 2005 US NSF NSB 05 40 Long Lived Digital Data Collections Enabling Research and Education in the 21st Century www nsf gov en ingles National Science Foundation Consultado el 3 de febrero de 2017 Perlroth Nicole 2 de noviembre de 2011 The World s 7 Most Powerful Data Scientists en ingles Consultado el 24 de septiembre de 2015 IEEE Task Force on Data Science and Advanced Analytics Consultado el 3 de febrero de 2017 2014 IEEE International Conference on Data Science and Advanced Analytics Archivado desde el original el 29 de marzo de 2017 Consultado el 3 de febrero de 2017 Journal on Data Science and Analytics Consultado el 3 de febrero de 2017 Bloomberg Database Marketing www bloomberg com Consultado el 3 de octubre de 2018 Spotify hits 75 million paid subscribers as it releases first earnings The Verge Consultado el 3 de octubre de 2018 Heath Alex 6 de septiembre de 2015 How Spotify s Discover Weekly playlist knows exactly what you want to hear Business Insider Australia en ingles Consultado el 3 de octubre de 2018 Spotify vs Apple Music The best music streaming service is CNET en ingles 3 de octubre de 2018 Consultado el 3 de octubre de 2018 Como funciona el algoritmo de Netflix abc Consultado el 8 de octubre de 2018 El uso de datos masivos y sus tecnicas analiticas para el diseno e implementacion de politicas publicas en Latinoamerica y el Caribe 2017 Banco Interamericano de Desarrollo Consultado el 29 de noviembre de 2018 Data Science vs Big Data vs Data Analytics Simplilearn com en ingles estadounidense 5 de abril de 2016 Consultado el 10 de octubre de 2018 Que es un Data Scientist inLab FIB 20 de mayo de 2015 Consultado el 8 de octubre de 2018 Harris Harlan septiembre de 2011 What is Data Science Anyway En Revolution Analytics en ingles Archivado desde el original el 25 de septiembre de 2015 Consultado el 24 de septiembre de 2015 Fry Benjamin abril de 2014 Thesis proposal Computational Information Design en ingles Consultado el 24 de septiembre de 2015 Peter Drucker 2012 Data Scientist The Sexiest Job of the 21st Century Harvard Business Review Manyika James Michael Chui Brad Brown Jacques Bughin Richard Dobbs Charles Roxburgh Angela Hung Byers mayo de 2011 Big data The next frontier for innovation competition and productivity en ingles Consultado el 24 de septiembre de 2015 La referencia utiliza el parametro obsoleto coautores ayuda Puede data science ayudarnos a mejorar el pronostico y tratamiento del paciente oncologico Comunicacion y Hombre Consultado el 1 de diciembre de 2020 Enlaces externos EditarPrograma de becas 1 Comunidad de cientificos de datos 2 Comunidad de cientificos de datos 3 Datos Q2374463 Multimedia Data scienceObtenido de https es wikipedia org w index php title Ciencia de datos amp oldid 133435462, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos