fbpx
Wikipedia

Análisis de contenido en línea

El análisis de contenido en línea o análisis textual en línea se refiere a una colección de técnicas de investigación utilizadas para describir y hacer inferencias sobre el material en línea a través de la codificación e interpretación sistemáticas. El análisis de contenido en línea es una forma de análisis de contenido para la comunicación basada en Internet.

Historia y definición

El análisis de contenido como un examen e interpretación sistemáticos de la comunicación se remonta al menos al siglo XVII. Sin embargo, no fue hasta el surgimiento del periódico a principios del siglo XX que la producción en masa de material impreso creó una demanda de análisis cuantitativo de palabras impresas.[1]

La definición de Berelson (1952) proporciona una base subyacente para el análisis textual como una "técnica de investigación para la descripción objetiva, sistemática y cuantitativa del contenido manifiesto de la comunicación".[2]​ El análisis de contenido consiste en categorizar unidades de textos (es decir, oraciones, cuasi-oraciones, párrafos, documentos, páginas web, etc.) de acuerdo con sus características sustantivas para construir un conjunto de datos que permita al analista interpretar textos y hacer inferencias. Si bien el análisis de contenido es a menudo cuantitativo, los investigadores conceptualizan la técnica como métodos inherentemente mixtos porque la codificación textual requiere un alto grado de interpretación cualitativa.[3]​ Los científicos sociales han utilizado esta técnica para investigar preguntas de investigación sobre los medios de comunicación[1]​, los efectos de los medios[4]​ y la configuración de la agenda.[5]

Con el auge de la comunicación en línea, las técnicas de análisis de contenido se han adaptado y aplicado a la investigación en Internet . Al igual que con el auge de los periódicos, la proliferación de contenido en línea ofrece una oportunidad más amplia para los investigadores interesados en el análisis de contenido. Si bien el uso de fuentes en línea presenta nuevos problemas y oportunidades de investigación, el procedimiento de investigación básica del análisis de contenido en línea descrito por McMillan (2000) es prácticamente indistinguible del análisis de contenido que utiliza fuentes fuera de línea:

  1. Formule una pregunta de investigación con un enfoque en la identificación de hipótesis comprobables que puedan conducir a avances teóricos.
  2. Defina un marco de muestreo del que se extraerá una muestra y construya una muestra (a menudo llamado corpus) de contenido para analizar.
  3. Desarrolle e implemente un esquema de codificación que pueda usarse para clasificar el contenido con el fin de responder la pregunta identificada en el paso 1. Esto requiere especificar un período de tiempo, una unidad de contexto en la que se incrusta el contenido y una unidad de codificación que clasifica el contenido.
  4. Capacite a los codificadores para implementar consistentemente el esquema de codificación y verificar la confiabilidad entre los codificadores. Este es un paso clave para garantizar la replicabilidad del análisis.
  5. Analizar e interpretar los datos. Pruebe las hipótesis avanzadas en el paso 1 y saque conclusiones sobre el contenido representado en el conjunto de datos.[2]

En investigación en Internet

Desde el surgimiento de la comunicación en línea, los académicos han discutido cómo adaptar las técnicas de análisis textual para estudiar contenido basado en la web. La naturaleza de las fuentes en línea requiere un cuidado particular en muchos de los pasos de un análisis de contenido en comparación con las fuentes fuera de línea.

Mientras que el contenido fuera de línea, como el texto impreso, permanece estático una vez producido, el contenido en línea puede cambiar con frecuencia. La naturaleza dinámica del material en línea combinada con el gran y creciente volumen de contenido en línea puede dificultar la construcción de un marco de muestreo a partir del cual extraer una muestra aleatoria. El contenido de un sitio también puede diferir entre los usuarios, lo que requiere una especificación cuidadosa del marco de muestreo. Algunos investigadores han usado motores de búsqueda para construir marcos de muestreo. Esta técnica tiene desventajas porque los resultados de los motores de búsqueda son poco sistemáticos y no aleatorios, lo que los hace poco confiables para obtener una muestra imparcial. El problema del marco de muestreo se puede eludir mediante el uso de toda una población de interés, como los tweets de usuarios particulares de Twitter[6]​ o el contenido archivado en línea de ciertos periódicos como marco de muestreo.[7]​ Los cambios en el material en línea pueden hacer que clasificar el contenido (paso 3) sea más desafiante. Debido a que el contenido en línea puede cambiar con frecuencia, es particularmente importante tener en cuenta el período de tiempo durante el cual se recoge la muestra. Un paso útil es archivar el contenido de muestra para evitar que se realicen cambios.

El contenido en línea también es no lineal. El texto impreso tiene límites claramente delineados que se pueden usar para identificar unidades de contexto (por ejemplo, un artículo de periódico). Los límites del contenido en línea que se utilizará en una muestra se definen con menos facilidad. Los primeros analistas de contenido en línea a menudo especificaban un sitio web como una unidad de contexto, sin una definición clara de lo que querían decir. [2]​ Los investigadores recomiendan definir clara y sistemáticamente en qué consiste una página web, o reducir el tamaño de la unidad de contexto a una característica en un sitio web.[3]​ Los investigadores también han utilizado unidades de comunicación en línea más discretas, como comentarios en la web [8]​ o tweets.[6]

Análisis de contenido automático

El aumento del contenido en línea ha aumentado dramáticamente la cantidad de texto digital que se puede utilizar en la investigación. La cantidad de texto disponible ha motivado las innovaciones metodológicas con el fin de dar sentido a los conjuntos de datos textuales que son demasiado grandes para ser prácticamente codificados a mano, como había sido la práctica metodológica convencional.[3][7]​ Los avances en la metodología junto con el aumento de la capacidad y la disminución de los gastos de computación han permitido a los investigadores utilizar técnicas que antes no estaban disponibles para analizar grandes conjuntos de contenido textual.

El análisis de contenido automático representa una ligera desviación del procedimiento de análisis de contenido en línea de McMillan en que los codificadores humanos se complementan con un método computacional, y algunos de estos métodos no requieren que las categorías se definan de forma avanzada. Los modelos de análisis textual cuantitativo a menudo emplean métodos de 'bolsa de palabras' que eliminan el orden de las palabras, eliminan palabras que son muy comunes y muy poco comunes, y simplifican las palabras mediante lematización o stemming, reduciendo las palabras complejas a su palabra raíz.[9]​ Si bien estos métodos son fundamentalmente reduccionistas en la forma en que interpretan el texto, pueden ser muy útiles si se aplican y validan correctamente.

Grimmer y Stewart (2013) identifican dos categorías principales de análisis textual automático: métodos supervisados y no supervisados. Los métodos supervisados implican crear un esquema de codificación y codificar manualmente una submuestra de los documentos que el investigador quiere analizar. Idealmente, la submuestra, llamada 'conjunto de entrenamiento', es representativa de la muestra como un todo. El conjunto de entrenamiento codificado se usa para "enseñar" a un algoritmo cómo las palabras en los documentos corresponden a cada categoría de codificación. El algoritmo se puede aplicar para analizar automáticamente el resto de los documentos en el corpus.[9]

  • Métodos de diccionario: el investigador preselecciona un conjunto de palabras clave (n-grama) para cada categoría. La máquina luego usa estas palabras clave para clasificar cada unidad de texto en una categoría.
  • Métodos individuales: el investigador etiqueta previamente una muestra de textos y entrena un algoritmo de aprendizaje automático (es decir Algoritmo SVM) usando esas etiquetas. La máquina etiqueta el resto de las observaciones extrapolando información del conjunto de entrenamiento.
  • Métodos de conjunto: en lugar de usar un solo algoritmo de aprendizaje automático, el investigador entrena un conjunto de ellos y usa las múltiples etiquetas resultantes para etiquetar el resto de las observaciones (ver Collingwood y Wiklerson 2011 para más detalles).[10]
  • La escala ideológica supervisada (es decir, las puntuaciones de palabras) se utiliza para colocar diferentes unidades de texto a lo largo de un continuo ideológico. El investigador selecciona dos conjuntos de textos que representan cada extremo ideológico, que el algoritmo puede usar para identificar palabras que pertenecen a cada punto extremo. El resto de los textos en el corpus se escalan dependiendo de cuántas palabras de cada referencia extrema contengan.[11]

Se pueden usar métodos no supervisados cuando un conjunto de categorías para la codificación no se puede definir bien antes del análisis. A diferencia de los métodos supervisados, los codificadores humanos no están obligados a entrenar el algoritmo. Una opción clave para los investigadores al aplicar métodos no supervisados es seleccionar el número de categorías para clasificar los documentos en lugar de definir cuáles son las categorías de antemano.

  • Modelos de membresía única: estos modelos agrupan automáticamente los textos en diferentes categorías que son mutuamente excluyentes, y los documentos se codifican en una sola categoría. Como señalaron Grimmer y Stewart, "cada algoritmo tiene tres componentes: (1) una definición de similitud o distancia del documento; (2) una función objetivo que operacionaliza y agrupamiento ideal; y (3) un algoritmo de optimización". [9]
  • Modelos de membresía mixta: según Grimmer y Stewart, los modelos de membresía mixta "mejoran la producción de los modelos de membresía única al incluir una estructura adicional y específica del problema"[9]​. Los modelos FAC de membresía mixta clasifican las palabras individuales dentro de cada documento en categorías, lo que permite que el documento como un todo sea parte de varias categorías simultáneamente. Los modelos de temas representan un ejemplo de FAC de membresía mixta que se puede utilizar para analizar cambios en el enfoque de actores políticos [6]​ o artículos periodísticos. [7]​ Una de las técnicas de modelado de temas más utilizadas es LDA .
  • Escalado ideológico no supervisado: algoritmos que asignan unidades de texto en un continuo ideológico dependiendo del contenido gramatical compartido. Contrariamente a los métodos de escalado supervisados, como las puntuaciones de palabras, los métodos como wordfish [12]​ no requieren que el investigador proporcione muestras de textos ideológicos extremos.

Validación

Los resultados de los métodos supervisados se pueden validar dibujando una submuestra distinta del corpus, llamada 'conjunto de validación'. Los documentos en el conjunto de validación pueden codificarse manualmente y compararse con la salida de codificación automática para evaluar qué tan bien el algoritmo replica la codificación humana. Esta comparación puede tomar la forma de puntajes de confiabilidad entre codificadores como los utilizados para validar la consistencia de los codificadores humanos en el análisis textual tradicional.

La validación de métodos no supervisados se puede llevar a cabo de varias maneras.

  • La validez semántica (o interna) representa qué tan bien los documentos en cada grupo identificado representan una unidad categórica distinta. En un modelo de tema, este sería el grado en que los documentos en cada grupo representan el mismo tema. Esto se puede probar creando un conjunto de validación que los codificadores humanos usan para validar manualmente la elección del tema o la relación de los documentos dentro del clúster en comparación con los documentos de diferentes clústeres.
  • La validez predictiva (o externa) es la medida en que los cambios en la frecuencia de cada grupo pueden explicarse por eventos externos. Si los grupos de temas son válidos, los temas más destacados deberían responder a través del tiempo de manera predecible como resultado de eventos externos que ocurran.[cita requerida]

Desafíos en el análisis textual en línea

A pesar de la continua evolución del análisis de texto en las ciencias sociales, todavía hay algunas preocupaciones metodológicas sin resolver. Esta es una lista (no exclusiva) con algunas de estas preocupaciones:

  • ¿Cuándo deberían los investigadores definir sus categorías? ¿Ex ante, de ida y vuelta o ad-hoc ? Algunos científicos sociales sostienen que los investigadores deberían construir su teoría, expectativas y métodos (en este caso, categorías específicas que usarán para clasificar diferentes unidades de texto) antes de comenzar a recopilar y estudiar los datos [13]​ mientras que otros apoyan la definición de un conjunto de categorías es un proceso de ida y vuelta.[14][15]
  • Validación. Aunque la mayoría de los investigadores informan mediciones de validación para sus métodos (es decir, confiabilidad entre codificadores, estimaciones de precisión y recuperación, matrices de confusión, etc.), algunos otros no lo hacen. En particular, a un gran número de académicos les preocupa cómo algunas técnicas de modelado de temas difícilmente pueden validarse.[16]
  • Muestras aleatorias. Por un lado, es extremadamente difícil saber cuántas unidades de un tipo de textos (por ejemplo, publicaciones de blog) hay en un momento determinado en Internet. Por lo tanto, dado que la mayoría de las veces el universo es desconocido, ¿cómo puede el investigador seleccionar una muestra aleatoria? Si en algunos casos es casi imposible obtener una muestra aleatoria, ¿deberían los investigadores trabajar con muestras o deberían tratar de recolectar todas las unidades de texto que observan? Y por otro lado, a veces los investigadores tienen que trabajar con muestras que les dan algunos motores de búsqueda (es decir, Google) y empresas en línea (es decir, Twitter), pero la investigación no tiene acceso a cómo se han generado estas muestras y si son aleatorias o no. ¿Deberían las investigaciones usar tales muestras?

Ver también

Referencias

  1. Krippendorff, Klaus (2012). Content Analysis: An introduction to its methodology. Thousand Oaks, CA: Sage. 
  2. McMillan, Sally J. (March 2000). «The Microscope and the Moving Target: The Challenge of Applying Content Analysis to the World Wide Web». Journalism and Mass Communication Quarterly 77 (1): 80-98. doi:10.1177/107769900007700107. 
  3. van Selm, Martine; Jankowski, Nick (2005). Content Analysis of Internet-Based Documents. Unpublished Manuscript. 
  4. Riffe, Daniel; Lacy, Stephen; Fico, Frederick (1998). Analyzing Media Messages: Using Quantitative Content Analysis in Research. Mahwah, New Jersey, London: Lawrence Erlbaum. 
  5. Baumgartner, Frank; Jones, Bryan (1993). Agendas and Instability in American Politics. Chicago. University of Chicao Press. ISBN 9780226039534. 
  6. Barberá, Pablo; Bonneau, Richard; Egan, Patrick; Jost, John; Nagler, Jonathan; Tucker, Joshua (2014). «Leaders or Followers? Measuring Political Responsiveness in the U.S. Congress Using Social Media Data.». Prepared for Delivery at the Annual Meeting of the American Political Science Association. 
  7. DiMaggio, Paul; Nag, Manish; Blei, David (December 2013). «Exploiting affinities between topic modeling and the sociological perspective on culture: Application to newspaper coverage of U.S. government arts funding». Poetics 41 (6): 570-606. doi:10.1016/j.poetic.2013.08.004. 
  8. Mishne, Gilad; Glance, Natalie (2006). «Leave a reply: An analysis of weblog comments». Third Annual Conference on the Weblogging Ecosystem. 
  9. Grimmer, Justin; Stewart, Brandon (2013). «Text as Data: The Promise and Pitfalls of Automatic Content Analysis Methods for Political Texts». Political Analysis 21 (3): 1-31. 
  10. Collingwood, Loren and John Wilkerson. (2011). Tradeoffs in Accuracy and Efficiency in supervised Learning Methods, in The Journal of Information Technology and Politics, Paper 4.
  11. Gerber, Elisabeth; Lewis, Jeff (2004). «Beyond the median: Voter preferences, district heterogeneity, and political representation». Journal of Political Economy 112 (6): 1364-83. doi:10.1086/424737. 
  12. Slapin, Jonathan, and Sven-Oliver Proksch. 2008. A scaling model for estimating time-series party positions from texts. American Journal of Political Science 52(3):705–22.
  13. King, Gary, Robert O. Keohane, & Sidney Verba. (1994). Designing Social Inquiry: Scientific Inference in Qualitative Research. Princeton: Prince University Press.
  14. Herring, Susan C. (2009). «Web Content Analysis: Expanding the Paradigm». En Hunsinger, Jeremy, ed. International Handbook of Internet Research (en inglés). Springer Netherlands. pp. 233–249. ISBN 978-1-4020-9788-1. doi:10.1007/978-1-4020-9789-8_14. 
  15. Saldana Johnny. (2009). The Coding Manual for Qualitative Research. London: SAGE Publication Ltd.
  16. Chuang, Jason, John D. Wilkerson, Rebecca Weiss, Dustin Tingley, Brandon M. Stewart, Margaret E. Roberts, Forough Poursabzi-Sangdeh, Justin Grimmer, Leah Findlater, Jordan Boyd-Graber, and Jeffrey Heer. (2014). Computer-Assisted Content Analysis: Topic Models for Exploring Multiple Subjective Interpretations. Paper presented at the Conference on Neural Information Processing Systems (NIPS). Workshop on HumanPropelled Machine Learning. Montreal, Canada.
  •   Datos: Q25312833

análisis, contenido, línea, análisis, contenido, línea, análisis, textual, línea, refiere, colección, técnicas, investigación, utilizadas, para, describir, hacer, inferencias, sobre, material, línea, través, codificación, interpretación, sistemáticas, análisis. El analisis de contenido en linea o analisis textual en linea se refiere a una coleccion de tecnicas de investigacion utilizadas para describir y hacer inferencias sobre el material en linea a traves de la codificacion e interpretacion sistematicas El analisis de contenido en linea es una forma de analisis de contenido para la comunicacion basada en Internet Indice 1 Historia y definicion 2 En investigacion en Internet 3 Analisis de contenido automatico 3 1 Validacion 4 Desafios en el analisis textual en linea 5 Ver tambien 6 ReferenciasHistoria y definicion EditarEl analisis de contenido como un examen e interpretacion sistematicos de la comunicacion se remonta al menos al siglo XVII Sin embargo no fue hasta el surgimiento del periodico a principios del siglo XX que la produccion en masa de material impreso creo una demanda de analisis cuantitativo de palabras impresas 1 La definicion de Berelson 1952 proporciona una base subyacente para el analisis textual como una tecnica de investigacion para la descripcion objetiva sistematica y cuantitativa del contenido manifiesto de la comunicacion 2 El analisis de contenido consiste en categorizar unidades de textos es decir oraciones cuasi oraciones parrafos documentos paginas web etc de acuerdo con sus caracteristicas sustantivas para construir un conjunto de datos que permita al analista interpretar textos y hacer inferencias Si bien el analisis de contenido es a menudo cuantitativo los investigadores conceptualizan la tecnica como metodos inherentemente mixtos porque la codificacion textual requiere un alto grado de interpretacion cualitativa 3 Los cientificos sociales han utilizado esta tecnica para investigar preguntas de investigacion sobre los medios de comunicacion 1 los efectos de los medios 4 y la configuracion de la agenda 5 Con el auge de la comunicacion en linea las tecnicas de analisis de contenido se han adaptado y aplicado a la investigacion en Internet Al igual que con el auge de los periodicos la proliferacion de contenido en linea ofrece una oportunidad mas amplia para los investigadores interesados en el analisis de contenido Si bien el uso de fuentes en linea presenta nuevos problemas y oportunidades de investigacion el procedimiento de investigacion basica del analisis de contenido en linea descrito por McMillan 2000 es practicamente indistinguible del analisis de contenido que utiliza fuentes fuera de linea Formule una pregunta de investigacion con un enfoque en la identificacion de hipotesis comprobables que puedan conducir a avances teoricos Defina un marco de muestreo del que se extraera una muestra y construya una muestra a menudo llamado corpus de contenido para analizar Desarrolle e implemente un esquema de codificacion que pueda usarse para clasificar el contenido con el fin de responder la pregunta identificada en el paso 1 Esto requiere especificar un periodo de tiempo una unidad de contexto en la que se incrusta el contenido y una unidad de codificacion que clasifica el contenido Capacite a los codificadores para implementar consistentemente el esquema de codificacion y verificar la confiabilidad entre los codificadores Este es un paso clave para garantizar la replicabilidad del analisis Analizar e interpretar los datos Pruebe las hipotesis avanzadas en el paso 1 y saque conclusiones sobre el contenido representado en el conjunto de datos 2 En investigacion en Internet EditarDesde el surgimiento de la comunicacion en linea los academicos han discutido como adaptar las tecnicas de analisis textual para estudiar contenido basado en la web La naturaleza de las fuentes en linea requiere un cuidado particular en muchos de los pasos de un analisis de contenido en comparacion con las fuentes fuera de linea Mientras que el contenido fuera de linea como el texto impreso permanece estatico una vez producido el contenido en linea puede cambiar con frecuencia La naturaleza dinamica del material en linea combinada con el gran y creciente volumen de contenido en linea puede dificultar la construccion de un marco de muestreo a partir del cual extraer una muestra aleatoria El contenido de un sitio tambien puede diferir entre los usuarios lo que requiere una especificacion cuidadosa del marco de muestreo Algunos investigadores han usado motores de busqueda para construir marcos de muestreo Esta tecnica tiene desventajas porque los resultados de los motores de busqueda son poco sistematicos y no aleatorios lo que los hace poco confiables para obtener una muestra imparcial El problema del marco de muestreo se puede eludir mediante el uso de toda una poblacion de interes como los tweets de usuarios particulares de Twitter 6 o el contenido archivado en linea de ciertos periodicos como marco de muestreo 7 Los cambios en el material en linea pueden hacer que clasificar el contenido paso 3 sea mas desafiante Debido a que el contenido en linea puede cambiar con frecuencia es particularmente importante tener en cuenta el periodo de tiempo durante el cual se recoge la muestra Un paso util es archivar el contenido de muestra para evitar que se realicen cambios El contenido en linea tambien es no lineal El texto impreso tiene limites claramente delineados que se pueden usar para identificar unidades de contexto por ejemplo un articulo de periodico Los limites del contenido en linea que se utilizara en una muestra se definen con menos facilidad Los primeros analistas de contenido en linea a menudo especificaban un sitio web como una unidad de contexto sin una definicion clara de lo que querian decir 2 Los investigadores recomiendan definir clara y sistematicamente en que consiste una pagina web o reducir el tamano de la unidad de contexto a una caracteristica en un sitio web 3 Los investigadores tambien han utilizado unidades de comunicacion en linea mas discretas como comentarios en la web 8 o tweets 6 Analisis de contenido automatico EditarEl aumento del contenido en linea ha aumentado dramaticamente la cantidad de texto digital que se puede utilizar en la investigacion La cantidad de texto disponible ha motivado las innovaciones metodologicas con el fin de dar sentido a los conjuntos de datos textuales que son demasiado grandes para ser practicamente codificados a mano como habia sido la practica metodologica convencional 3 7 Los avances en la metodologia junto con el aumento de la capacidad y la disminucion de los gastos de computacion han permitido a los investigadores utilizar tecnicas que antes no estaban disponibles para analizar grandes conjuntos de contenido textual El analisis de contenido automatico representa una ligera desviacion del procedimiento de analisis de contenido en linea de McMillan en que los codificadores humanos se complementan con un metodo computacional y algunos de estos metodos no requieren que las categorias se definan de forma avanzada Los modelos de analisis textual cuantitativo a menudo emplean metodos de bolsa de palabras que eliminan el orden de las palabras eliminan palabras que son muy comunes y muy poco comunes y simplifican las palabras mediante lematizacion o stemming reduciendo las palabras complejas a su palabra raiz 9 Si bien estos metodos son fundamentalmente reduccionistas en la forma en que interpretan el texto pueden ser muy utiles si se aplican y validan correctamente Grimmer y Stewart 2013 identifican dos categorias principales de analisis textual automatico metodos supervisados y no supervisados Los metodos supervisados implican crear un esquema de codificacion y codificar manualmente una submuestra de los documentos que el investigador quiere analizar Idealmente la submuestra llamada conjunto de entrenamiento es representativa de la muestra como un todo El conjunto de entrenamiento codificado se usa para ensenar a un algoritmo como las palabras en los documentos corresponden a cada categoria de codificacion El algoritmo se puede aplicar para analizar automaticamente el resto de los documentos en el corpus 9 Metodos de diccionario el investigador preselecciona un conjunto de palabras clave n grama para cada categoria La maquina luego usa estas palabras clave para clasificar cada unidad de texto en una categoria Metodos individuales el investigador etiqueta previamente una muestra de textos y entrena un algoritmo de aprendizaje automatico es decir Algoritmo SVM usando esas etiquetas La maquina etiqueta el resto de las observaciones extrapolando informacion del conjunto de entrenamiento Metodos de conjunto en lugar de usar un solo algoritmo de aprendizaje automatico el investigador entrena un conjunto de ellos y usa las multiples etiquetas resultantes para etiquetar el resto de las observaciones ver Collingwood y Wiklerson 2011 para mas detalles 10 La escala ideologica supervisada es decir las puntuaciones de palabras se utiliza para colocar diferentes unidades de texto a lo largo de un continuo ideologico El investigador selecciona dos conjuntos de textos que representan cada extremo ideologico que el algoritmo puede usar para identificar palabras que pertenecen a cada punto extremo El resto de los textos en el corpus se escalan dependiendo de cuantas palabras de cada referencia extrema contengan 11 Se pueden usar metodos no supervisados cuando un conjunto de categorias para la codificacion no se puede definir bien antes del analisis A diferencia de los metodos supervisados los codificadores humanos no estan obligados a entrenar el algoritmo Una opcion clave para los investigadores al aplicar metodos no supervisados es seleccionar el numero de categorias para clasificar los documentos en lugar de definir cuales son las categorias de antemano Modelos de membresia unica estos modelos agrupan automaticamente los textos en diferentes categorias que son mutuamente excluyentes y los documentos se codifican en una sola categoria Como senalaron Grimmer y Stewart cada algoritmo tiene tres componentes 1 una definicion de similitud o distancia del documento 2 una funcion objetivo que operacionaliza y agrupamiento ideal y 3 un algoritmo de optimizacion 9 Modelos de membresia mixta segun Grimmer y Stewart los modelos de membresia mixta mejoran la produccion de los modelos de membresia unica al incluir una estructura adicional y especifica del problema 9 Los modelos FAC de membresia mixta clasifican las palabras individuales dentro de cada documento en categorias lo que permite que el documento como un todo sea parte de varias categorias simultaneamente Los modelos de temas representan un ejemplo de FAC de membresia mixta que se puede utilizar para analizar cambios en el enfoque de actores politicos 6 o articulos periodisticos 7 Una de las tecnicas de modelado de temas mas utilizadas es LDA Escalado ideologico no supervisado algoritmos que asignan unidades de texto en un continuo ideologico dependiendo del contenido gramatical compartido Contrariamente a los metodos de escalado supervisados como las puntuaciones de palabras los metodos como wordfish 12 no requieren que el investigador proporcione muestras de textos ideologicos extremos Validacion Editar Los resultados de los metodos supervisados se pueden validar dibujando una submuestra distinta del corpus llamada conjunto de validacion Los documentos en el conjunto de validacion pueden codificarse manualmente y compararse con la salida de codificacion automatica para evaluar que tan bien el algoritmo replica la codificacion humana Esta comparacion puede tomar la forma de puntajes de confiabilidad entre codificadores como los utilizados para validar la consistencia de los codificadores humanos en el analisis textual tradicional La validacion de metodos no supervisados se puede llevar a cabo de varias maneras La validez semantica o interna representa que tan bien los documentos en cada grupo identificado representan una unidad categorica distinta En un modelo de tema este seria el grado en que los documentos en cada grupo representan el mismo tema Esto se puede probar creando un conjunto de validacion que los codificadores humanos usan para validar manualmente la eleccion del tema o la relacion de los documentos dentro del cluster en comparacion con los documentos de diferentes clusteres La validez predictiva o externa es la medida en que los cambios en la frecuencia de cada grupo pueden explicarse por eventos externos Si los grupos de temas son validos los temas mas destacados deberian responder a traves del tiempo de manera predecible como resultado de eventos externos que ocurran cita requerida Desafios en el analisis textual en linea EditarA pesar de la continua evolucion del analisis de texto en las ciencias sociales todavia hay algunas preocupaciones metodologicas sin resolver Esta es una lista no exclusiva con algunas de estas preocupaciones Cuando deberian los investigadores definir sus categorias Ex ante de ida y vuelta o ad hoc Algunos cientificos sociales sostienen que los investigadores deberian construir su teoria expectativas y metodos en este caso categorias especificas que usaran para clasificar diferentes unidades de texto antes de comenzar a recopilar y estudiar los datos 13 mientras que otros apoyan la definicion de un conjunto de categorias es un proceso de ida y vuelta 14 15 Validacion Aunque la mayoria de los investigadores informan mediciones de validacion para sus metodos es decir confiabilidad entre codificadores estimaciones de precision y recuperacion matrices de confusion etc algunos otros no lo hacen En particular a un gran numero de academicos les preocupa como algunas tecnicas de modelado de temas dificilmente pueden validarse 16 Muestras aleatorias Por un lado es extremadamente dificil saber cuantas unidades de un tipo de textos por ejemplo publicaciones de blog hay en un momento determinado en Internet Por lo tanto dado que la mayoria de las veces el universo es desconocido como puede el investigador seleccionar una muestra aleatoria Si en algunos casos es casi imposible obtener una muestra aleatoria deberian los investigadores trabajar con muestras o deberian tratar de recolectar todas las unidades de texto que observan Y por otro lado a veces los investigadores tienen que trabajar con muestras que les dan algunos motores de busqueda es decir Google y empresas en linea es decir Twitter pero la investigacion no tiene acceso a como se han generado estas muestras y si son aleatorias o no Deberian las investigaciones usar tales muestras Ver tambien EditarAnalisis de contenido Mineria de textosReferencias Editar a b Krippendorff Klaus 2012 Content Analysis An introduction to its methodology Thousand Oaks CA Sage a b c McMillan Sally J March 2000 The Microscope and the Moving Target The Challenge of Applying Content Analysis to the World Wide Web Journalism and Mass Communication Quarterly 77 1 80 98 doi 10 1177 107769900007700107 a b c van Selm Martine Jankowski Nick 2005 Content Analysis of Internet Based Documents Unpublished Manuscript Riffe Daniel Lacy Stephen Fico Frederick 1998 Analyzing Media Messages Using Quantitative Content Analysis in Research Mahwah New Jersey London Lawrence Erlbaum Baumgartner Frank Jones Bryan 1993 Agendas and Instability in American Politics Chicago University of Chicao Press ISBN 9780226039534 a b c Barbera Pablo Bonneau Richard Egan Patrick Jost John Nagler Jonathan Tucker Joshua 2014 Leaders or Followers Measuring Political Responsiveness in the U S Congress Using Social Media Data Prepared for Delivery at the Annual Meeting of the American Political Science Association a b c DiMaggio Paul Nag Manish Blei David December 2013 Exploiting affinities between topic modeling and the sociological perspective on culture Application to newspaper coverage of U S government arts funding Poetics 41 6 570 606 doi 10 1016 j poetic 2013 08 004 Mishne Gilad Glance Natalie 2006 Leave a reply An analysis of weblog comments Third Annual Conference on the Weblogging Ecosystem a b c d Grimmer Justin Stewart Brandon 2013 Text as Data The Promise and Pitfalls of Automatic Content Analysis Methods for Political Texts Political Analysis 21 3 1 31 Collingwood Loren and John Wilkerson 2011 Tradeoffs in Accuracy and Efficiency in supervised Learning Methods in The Journal of Information Technology and Politics Paper 4 Gerber Elisabeth Lewis Jeff 2004 Beyond the median Voter preferences district heterogeneity and political representation Journal of Political Economy 112 6 1364 83 doi 10 1086 424737 Slapin Jonathan and Sven Oliver Proksch 2008 A scaling model for estimating time series party positions from texts American Journal of Political Science 52 3 705 22 King Gary Robert O Keohane amp Sidney Verba 1994 Designing Social Inquiry Scientific Inference in Qualitative Research Princeton Prince University Press Herring Susan C 2009 Web Content Analysis Expanding the Paradigm En Hunsinger Jeremy ed International Handbook of Internet Research en ingles Springer Netherlands pp 233 249 ISBN 978 1 4020 9788 1 doi 10 1007 978 1 4020 9789 8 14 Saldana Johnny 2009 The Coding Manual for Qualitative Research London SAGE Publication Ltd Chuang Jason John D Wilkerson Rebecca Weiss Dustin Tingley Brandon M Stewart Margaret E Roberts Forough Poursabzi Sangdeh Justin Grimmer Leah Findlater Jordan Boyd Graber and Jeffrey Heer 2014 Computer Assisted Content Analysis Topic Models for Exploring Multiple Subjective Interpretations Paper presented at the Conference on Neural Information Processing Systems NIPS Workshop on HumanPropelled Machine Learning Montreal Canada Datos Q25312833Obtenido de https es wikipedia org w index php title Analisis de contenido en linea amp oldid 129992786, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos