fbpx
Wikipedia

Conjunto de datos

Un conjunto de datos (conocido también por el anglicismo dataset, comúnmente utilizado en algunos países hispanohablantes) es una colección de datos habitualmente tabulada.

En el caso de datos tabulados, un conjunto de datos contiene los valores para cada una de las variables organizadas como columnas, como por ejemplo la altura y el peso de un objeto, que corresponden a cada miembro del conjunto de datos, que están organizados en filas. Cada uno de estos valores se conoce con el nombre de dato. El conjunto de datos también puede consistir en una colección de documentos o de archivos.

Conjuntos de datos tan grandes que aplicaciones tradicionales de procesamiento de datos no los pueden tratar se llaman big data.[1]

Método científico

La publicación de los conjuntos de datos usados en un experimento son clave para su reproducibilidad, y cada vez son más las leyes públicas y normas de revistas científicas que obligan a hacerlos públicos, para evitar sesgos.

Propiedades

Según el estudio, es un factor clave de las propiedades del conjunto: dispersión, curtosis, etc.[2]​ Los valores pueden ser números, como números reales o enteros, por ejemplo, que representan la altura de una persona en centímetros, pero también pueden ser datos nominales (es decir, que no consisten en valores numéricos), por ejemplo, que representan la etnia de una persona. De manera más general, los valores pueden ser de cualquiera de los tipos descritos como nivel de medición.[3]

Para cada variable, los valores son normalmente todos del mismo tipo. Sin embargo, también pueden faltar valores, que deben indicarse de alguna manera.

En estadística, los conjuntos de datos generalmente provienen de observaciones reales obtenidas al muestrear una población estadística, y cada fila corresponde a las observaciones de un elemento de esa población. Además, se pueden generar conjuntos de datos mediante algoritmos con el fin de probar ciertos tipos de software. Algunos software de análisis estadístico moderno, como SPSS, todavía presentan sus datos en la forma clásica de conjuntos de datos. Si faltan datos o son sospechosos, se puede utilizar un método de imputación para completar un conjunto de datos.

Véase también

Referencias

  1. Snijders, C.; Matzat, U.; Reips, U.-D. (2012). «'Big Data': Big gaps of knowledge in the field of Internet». International Journal of Internet Science 7: 1-5. 
  2. Jan M. Żytkow, Jan Rauch (1999). Principles of data mining and knowledge discovery. ISBN 978-3-540-66490-1. 
  3. Frank Kane (2017). Taming Big Data with Apache Spark and Python. Packt. ISBN 978-1787287945. 

Enlaces externos

  • Research Pipeline Wikipedia que enlaza conjuntos de datos de diversos temas.
  • GCMD el 8 de mayo de 2014 en Wayback Machine. Web del Global Change Master Directory. Contiene más de 20.000 conjuntos de datos sobre la Tierra.
  •   Datos: Q1172284

conjunto, datos, conjunto, datos, conocido, también, anglicismo, dataset, comúnmente, utilizado, algunos, países, hispanohablantes, colección, datos, habitualmente, tabulada, caso, datos, tabulados, conjunto, datos, contiene, valores, para, cada, variables, or. Un conjunto de datos conocido tambien por el anglicismo dataset comunmente utilizado en algunos paises hispanohablantes es una coleccion de datos habitualmente tabulada En el caso de datos tabulados un conjunto de datos contiene los valores para cada una de las variables organizadas como columnas como por ejemplo la altura y el peso de un objeto que corresponden a cada miembro del conjunto de datos que estan organizados en filas Cada uno de estos valores se conoce con el nombre de dato El conjunto de datos tambien puede consistir en una coleccion de documentos o de archivos Conjuntos de datos tan grandes que aplicaciones tradicionales de procesamiento de datos no los pueden tratar se llaman big data 1 Indice 1 Metodo cientifico 2 Propiedades 3 Vease tambien 4 Referencias 5 Enlaces externosMetodo cientifico EditarVeanse tambien Tamano de la muestray Desviacion estandar La publicacion de los conjuntos de datos usados en un experimento son clave para su reproducibilidad y cada vez son mas las leyes publicas y normas de revistas cientificas que obligan a hacerlos publicos para evitar sesgos Propiedades EditarSegun el estudio es un factor clave de las propiedades del conjunto dispersion curtosis etc 2 Los valores pueden ser numeros como numeros reales o enteros por ejemplo que representan la altura de una persona en centimetros pero tambien pueden ser datos nominales es decir que no consisten en valores numericos por ejemplo que representan la etnia de una persona De manera mas general los valores pueden ser de cualquiera de los tipos descritos como nivel de medicion 3 Para cada variable los valores son normalmente todos del mismo tipo Sin embargo tambien pueden faltar valores que deben indicarse de alguna manera En estadistica los conjuntos de datos generalmente provienen de observaciones reales obtenidas al muestrear una poblacion estadistica y cada fila corresponde a las observaciones de un elemento de esa poblacion Ademas se pueden generar conjuntos de datos mediante algoritmos con el fin de probar ciertos tipos de software Algunos software de analisis estadistico moderno como SPSS todavia presentan sus datos en la forma clasica de conjuntos de datos Si faltan datos o son sospechosos se puede utilizar un metodo de imputacion para completar un conjunto de datos Vease tambien EditarAcceso abierto Acceso libre Datos abiertos ADO NETReferencias Editar Snijders C Matzat U Reips U D 2012 Big Data Big gaps of knowledge in the field of Internet International Journal of Internet Science 7 1 5 Jan M Zytkow Jan Rauch 1999 Principles of data mining and knowledge discovery ISBN 978 3 540 66490 1 Frank Kane 2017 Taming Big Data with Apache Spark and Python Packt ISBN 978 1787287945 Enlaces externos EditarResearch Pipeline Wikipedia que enlaza conjuntos de datos de diversos temas GCMD Archivado el 8 de mayo de 2014 en Wayback Machine Web del Global Change Master Directory Contiene mas de 20 000 conjuntos de datos sobre la Tierra Datos Q1172284 Obtenido de https es wikipedia org w index php title Conjunto de datos amp oldid 147285529, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos