fbpx
Wikipedia

Pareamiento por puntaje de propensión

En el análisis estadístico de los estudios observacionales, el pareamiento por puntaje de propensión o Propensity score matching (PSM) en inglés, es una técnica estadística de coincidencia que intenta estimar el efecto de un tratamiento,[1]​ una política,[2]​ u otra intervención por cuenta de las covariables que predicen que recibe el tratamiento. PSM intenta reducir el sesgo debido a la confusión de las variables que se pueden encontrar en una estimación del efecto del tratamiento obtenido de la simple comparación de los resultados entre unidades que recibieron el tratamiento frente a los que no lo hicieron. La técnica fue publicada por primera vez por Paul Rosenbaum y Donald Rubin en 1983,[3]​ y aplica el modelo causal de Rubin para los estudios observacionales.

La posibilidad de sesgo surge porque la aparente diferencia en los resultados de estos dos grupos de unidades puede depender de las características que afectaron en la decisión de administrar un cierto tratamiento a una unidad en lugar de por el efecto del tratamiento en sí. En experimentos aleatorios, la aleatorización permite la estimación objetiva de los efectos del tratamiento, para cada covariable aleatorización implica que los grupos de tratamiento se equilibrarán en promedio, por la ley de los grandes números. Desafortunadamente, para los estudios de observación, la asignación de tratamientos a los sujetos de investigación es, por definición, no aleatorio. Este método trata de imitar al azar mediante la creación de una muestra de unidades que recibió el tratamiento que sea comparable en todas las covariables observadas a una muestra de unidades que no recibieron el tratamiento.

Por ejemplo, uno puede estar interesado en saber las consecuencias de fumar o las consecuencias de ir a la universidad. El conjunto 'tratado' son simplemente aquellos- los fumadores, o graduados de la universidad- que se someten en el curso de la vida diaria a aquello que está siendo estudiado por el investigador. En ambos casos no es factible (y quizás poco ético) asignar al azar a las personas a fumar o a la educación universitaria. El efecto estimado del tratamiento mediante la simple comparación de un resultado, por ejemplo la tasa de cáncer o los ingresos a lo largo de la vida, entre los que fumaban y no fumaban o entre los que asistieron o no asistieron a la universidad estaría sesgado por factores que predicen el tabaquismo o la asistencia a la universidad, respectivamente. PSM intenta controlar estas diferencias para que los grupos que recibieron tratamiento y no tratamiento se aproximen a una investigación aleatoria y ver que estos sean más comparables.

Descripción

El PSM se usa para casos de inferencia causal y sesgo simple de selección en los métodos no experimentales en los que sucede lo siguiente: (i) pocas unidades en el grupo de comparación no experimental son comparables a las unidades de tratamiento, y (ii) la selección de un subconjunto de unidades de comparación similares a la unidad de tratamiento es difícil porque las unidades deben ser comparadas a través de un conjunto de alta dimensión de las características previas al tratamiento.

En Matching normal hacemos coincidir las características únicas que distinguen a los grupos de control (para tratar de hacerlos más parecidos) y tratamiento. Pero si los dos grupos no tienen una superposición sustancial, entonces un error sustancial puede ser introducido: Por ejemplo, si sólo los peores casos del grupo de "comparación" no tratados se comparan con sólo los mejores casos del grupo de tratamiento, el resultado puede ser la regresión hacia la media que puede hacer que el grupo de comparación se vea mejor o peor que la realidad.

PSM cuenta con una probabilidad predicha de pertenencia a un grupo, por ejemplo, el tratamiento frente al control de grupo basado en predictores observados, normalmente obtenidos de la regresión logística para crear un grupo contrafactual. También puntuaciones de propensión se pueden utilizar para hacer coincidir o como covariables independiente o con otras variables coincidentes o covariables.

Procedimiento general

1.Realizar una regresión logística:

  • Variable dependiente: Y = 1, si participar; Y = 0, de lo contrario.
  • Elegir las variables de confusión adecuadas (variables hipotéticamente asociadas con el tratamiento y el resultado).
  • Obtener la puntuación de propensión: probabilidad predicha (p) o log [p / (1 - p)].

2.Emparejar cada participante a uno o más de los no participantes según el puntaje de propensión:

  • Vecino más cercano similar
  • Emparejamiento por calibre (caliper)
  • Emparejamiento según el valor Mahalanobis junto con PSM
  • Emparejamiento por estratificación
  • Emparejamiento por diferencias en diferencias (kernel y los pesos lineales locales)

3.Verificar que las covariables está equilibradas entre el grupo de tratamiento y el de comparación de la nueva muestra emparejada o ponderada

4.Realizar un análisis multivariado sobre la base de la nueva muestra

  • Utilizar los análisis apropiados para diferentes muestras no independientes

Definición formal

Un puntaje de propensión es la probabilidad de una unidad (por ejemplo, la persona, el aula, la escuela) que se le asigne a un tratamiento particular dado un conjunto de covariables observadas. Las puntuaciones de propensión se utilizan para reducir el sesgo de selección , al equiparar los grupos basados en estas covariables.

Supongamos que tenemos un tratamiento binario T, Y un resultado y las variables de fondo X. La puntuación de propensión se define como la probabilidad condicional de tratamiento dadas las variables del entorno:

 

Sea Y (0) y Y (1) los resultados potenciales bajo control y tratamiento, respectivamente. La asignación del tratamiento no estará condicionalmente confundida si los resultados potenciales son independientes del tratamiento condicionado por las variables previas (X). Esto se puede escribir de forma compacta como

 

donde   denota independencia estadística.

Si unconfoundedness mantiene, entonces

 

Pearl (2000) ha demostrado que un criterio gráfico simple llamada puerta trasera proporciona una definición equivalente de unconfoundedness.[4]

Ventajas y desventajas

Al igual que otros procedimientos el PSM estima el efecto promedio del tratamiento en los datos observados. Las ventajas clave del PSM eran, en el momento de su introducción, que mediante el uso de una combinación lineal de las covariables para una única puntuación, que equilibra los grupos de tratamiento y control en un gran número de covariables sin perder un gran número de observaciones. Si las unidades en el tratamiento y control se equilibraron en un gran número de covariables uno a la vez, serían necesarios un gran número de observaciones para superar el "problema de dimensionalidad" por lo que la introducción de una nueva covariable de equilibrio aumenta el número mínimo necesario de observaciones en la muestra geométricamente.

Una desventaja de los PSM es que sólo representa covariables observadas (y observables). Factores que afectan a la asignación al tratamiento, pero que no pueden ser observados no pueden ser contabilizados en el procedimiento correspondiente. Otra cuestión es que el PSM requiere grandes muestras, con superposición sustancial entre los grupos de tratamiento y control. Cualquier sesgo oculto debido a variables latentes puede permanecer después de contrastar ya que el procedimiento sólo se controla por las variables observadas.[5]

Preocupaciones generales con juego también han sido planteadas por Judea Pearl, quien ha argumentado que el sesgo oculto puede en realidad aumentar porque igualan variables observadas puede desatar el sesgo debido a factores de confusión no observados latentes. Del mismo modo, Pearl ha argumentado que la reducción del sesgo sólo se puede garantizar (asintótica) modelando las relaciones de causalidad entre el tratamiento cualitativo, los resultados, observados y no observados covariables.[6]​ La confusión se produce cuando los controles experimentales no permiten al experimentador para eliminar razonablemente alternativa plausible explicaciones de la relación observada entre las variables independientes y dependientes. La confusión se produce cuando el experimentador no es capaz de controlar a soluciones alternativas explicaciones no causales para una relación observada entre las variables independientes y dependientes. Este control deberá satisfacer el " criterio de puerta trasera " de Pearl.[6]

Referencias

  1. Austin, P. C. (2008). A critical appraisal of propensity‐score matching in the medical literature between 1996 and 2003. Statistics in medicine, 27(12), 2037-2049.
  2. Lechner, M. (2002). Program heterogeneity and propensity score matching: An application to the evaluation of active labor market policies. Review of Economics and Statistics, 84(2), 205-220.
  3. Rosenbaum, Paul R.; Rubin, Donald B. (1983). «The central role of the propensity score in observational studies for causal effects». Biometrika 70 (1): 41-55. doi:10.1093/biomet/70.1.41. 
  4. Pearl, J. (2000). Causality: Models, Reasoning, and Inference, Cambridge University Press.
  5. Shadish, W. R.; Cook, T. D.; Campbell, D. T. (2002). Experimental and Quasi-experimental Designs for Generalized Causal Inference. Boston: Houghton Mifflin. ISBN 0-395-61556-9. 
  6. Pearl, J. (2009). «Understanding propensity scores». Causality: Models, Reasoning, and Inference (Second edición). Nueva York: Cambridge University Press. ISBN 978-0-521-89560-6. 
  •   Datos: Q7250160

pareamiento, puntaje, propensión, análisis, estadístico, estudios, observacionales, pareamiento, puntaje, propensión, propensity, score, matching, inglés, técnica, estadística, coincidencia, intenta, estimar, efecto, tratamiento, política, otra, intervención, . En el analisis estadistico de los estudios observacionales el pareamiento por puntaje de propension o Propensity score matching PSM en ingles es una tecnica estadistica de coincidencia que intenta estimar el efecto de un tratamiento 1 una politica 2 u otra intervencion por cuenta de las covariables que predicen que recibe el tratamiento PSM intenta reducir el sesgo debido a la confusion de las variables que se pueden encontrar en una estimacion del efecto del tratamiento obtenido de la simple comparacion de los resultados entre unidades que recibieron el tratamiento frente a los que no lo hicieron La tecnica fue publicada por primera vez por Paul Rosenbaum y Donald Rubin en 1983 3 y aplica el modelo causal de Rubin para los estudios observacionales La posibilidad de sesgo surge porque la aparente diferencia en los resultados de estos dos grupos de unidades puede depender de las caracteristicas que afectaron en la decision de administrar un cierto tratamiento a una unidad en lugar de por el efecto del tratamiento en si En experimentos aleatorios la aleatorizacion permite la estimacion objetiva de los efectos del tratamiento para cada covariable aleatorizacion implica que los grupos de tratamiento se equilibraran en promedio por la ley de los grandes numeros Desafortunadamente para los estudios de observacion la asignacion de tratamientos a los sujetos de investigacion es por definicion no aleatorio Este metodo trata de imitar al azar mediante la creacion de una muestra de unidades que recibio el tratamiento que sea comparable en todas las covariables observadas a una muestra de unidades que no recibieron el tratamiento Por ejemplo uno puede estar interesado en saber las consecuencias de fumar o las consecuencias de ir a la universidad El conjunto tratado son simplemente aquellos los fumadores o graduados de la universidad que se someten en el curso de la vida diaria a aquello que esta siendo estudiado por el investigador En ambos casos no es factible y quizas poco etico asignar al azar a las personas a fumar o a la educacion universitaria El efecto estimado del tratamiento mediante la simple comparacion de un resultado por ejemplo la tasa de cancer o los ingresos a lo largo de la vida entre los que fumaban y no fumaban o entre los que asistieron o no asistieron a la universidad estaria sesgado por factores que predicen el tabaquismo o la asistencia a la universidad respectivamente PSM intenta controlar estas diferencias para que los grupos que recibieron tratamiento y no tratamiento se aproximen a una investigacion aleatoria y ver que estos sean mas comparables Indice 1 Descripcion 2 Procedimiento general 3 Definicion formal 4 Ventajas y desventajas 5 ReferenciasDescripcion EditarEl PSM se usa para casos de inferencia causal y sesgo simple de seleccion en los metodos no experimentales en los que sucede lo siguiente i pocas unidades en el grupo de comparacion no experimental son comparables a las unidades de tratamiento y ii la seleccion de un subconjunto de unidades de comparacion similares a la unidad de tratamiento es dificil porque las unidades deben ser comparadas a traves de un conjunto de alta dimension de las caracteristicas previas al tratamiento En Matching normal hacemos coincidir las caracteristicas unicas que distinguen a los grupos de control para tratar de hacerlos mas parecidos y tratamiento Pero si los dos grupos no tienen una superposicion sustancial entonces un error sustancial puede ser introducido Por ejemplo si solo los peores casos del grupo de comparacion no tratados se comparan con solo los mejores casos del grupo de tratamiento el resultado puede ser la regresion hacia la media que puede hacer que el grupo de comparacion se vea mejor o peor que la realidad PSM cuenta con una probabilidad predicha de pertenencia a un grupo por ejemplo el tratamiento frente al control de grupo basado en predictores observados normalmente obtenidos de la regresion logistica para crear un grupo contrafactual Tambien puntuaciones de propension se pueden utilizar para hacer coincidir o como covariables independiente o con otras variables coincidentes o covariables Procedimiento general Editar1 Realizar una regresion logistica Variable dependiente Y 1 si participar Y 0 de lo contrario Elegir las variables de confusion adecuadas variables hipoteticamente asociadas con el tratamiento y el resultado Obtener la puntuacion de propension probabilidad predicha p o log p 1 p 2 Emparejar cada participante a uno o mas de los no participantes segun el puntaje de propension Vecino mas cercano similar Emparejamiento por calibre caliper Emparejamiento segun el valor Mahalanobis junto con PSM Emparejamiento por estratificacion Emparejamiento por diferencias en diferencias kernel y los pesos lineales locales 3 Verificar que las covariables esta equilibradas entre el grupo de tratamiento y el de comparacion de la nueva muestra emparejada o ponderada4 Realizar un analisis multivariado sobre la base de la nueva muestra Utilizar los analisis apropiados para diferentes muestras no independientesDefinicion formal EditarUn puntaje de propension es la probabilidad de una unidad por ejemplo la persona el aula la escuela que se le asigne a un tratamiento particular dado un conjunto de covariables observadas Las puntuaciones de propension se utilizan para reducir el sesgo de seleccion al equiparar los grupos basados en estas covariables Supongamos que tenemos un tratamiento binario T Y un resultado y las variables de fondo X La puntuacion de propension se define como la probabilidad condicional de tratamiento dadas las variables del entorno p x d e f Pr T 1 X x displaystyle p x stackrel mathrm def Pr T 1 X x Sea Y 0 y Y 1 los resultados potenciales bajo control y tratamiento respectivamente La asignacion del tratamiento no estara condicionalmente confundida si los resultados potenciales son independientes del tratamiento condicionado por las variables previas X Esto se puede escribir de forma compacta como T Y 0 Y 1 X displaystyle T perp Y 0 Y 1 X donde displaystyle perp denota independencia estadistica Si unconfoundedness mantiene entonces T Y 0 Y 1 p X displaystyle T perp Y 0 Y 1 p X Pearl 2000 ha demostrado que un criterio grafico simple llamada puerta trasera proporciona una definicion equivalente de unconfoundedness 4 Ventajas y desventajas EditarAl igual que otros procedimientos el PSM estima el efecto promedio del tratamiento en los datos observados Las ventajas clave del PSM eran en el momento de su introduccion que mediante el uso de una combinacion lineal de las covariables para una unica puntuacion que equilibra los grupos de tratamiento y control en un gran numero de covariables sin perder un gran numero de observaciones Si las unidades en el tratamiento y control se equilibraron en un gran numero de covariables uno a la vez serian necesarios un gran numero de observaciones para superar el problema de dimensionalidad por lo que la introduccion de una nueva covariable de equilibrio aumenta el numero minimo necesario de observaciones en la muestra geometricamente Una desventaja de los PSM es que solo representa covariables observadas y observables Factores que afectan a la asignacion al tratamiento pero que no pueden ser observados no pueden ser contabilizados en el procedimiento correspondiente Otra cuestion es que el PSM requiere grandes muestras con superposicion sustancial entre los grupos de tratamiento y control Cualquier sesgo oculto debido a variables latentes puede permanecer despues de contrastar ya que el procedimiento solo se controla por las variables observadas 5 Preocupaciones generales con juego tambien han sido planteadas por Judea Pearl quien ha argumentado que el sesgo oculto puede en realidad aumentar porque igualan variables observadas puede desatar el sesgo debido a factores de confusion no observados latentes Del mismo modo Pearl ha argumentado que la reduccion del sesgo solo se puede garantizar asintotica modelando las relaciones de causalidad entre el tratamiento cualitativo los resultados observados y no observados covariables 6 La confusion se produce cuando los controles experimentales no permiten al experimentador para eliminar razonablemente alternativa plausible explicaciones de la relacion observada entre las variables independientes y dependientes La confusion se produce cuando el experimentador no es capaz de controlar a soluciones alternativas explicaciones no causales para una relacion observada entre las variables independientes y dependientes Este control debera satisfacer el criterio de puerta trasera de Pearl 6 Referencias Editar Austin P C 2008 A critical appraisal of propensity score matching in the medical literature between 1996 and 2003 Statistics in medicine 27 12 2037 2049 Lechner M 2002 Program heterogeneity and propensity score matching An application to the evaluation of active labor market policies Review of Economics and Statistics 84 2 205 220 Rosenbaum Paul R Rubin Donald B 1983 The central role of the propensity score in observational studies for causal effects Biometrika 70 1 41 55 doi 10 1093 biomet 70 1 41 Pearl J 2000 Causality Models Reasoning and Inference Cambridge University Press Shadish W R Cook T D Campbell D T 2002 Experimental and Quasi experimental Designs for Generalized Causal Inference Boston Houghton Mifflin ISBN 0 395 61556 9 a b Pearl J 2009 Understanding propensity scores Causality Models Reasoning and Inference Second edicion Nueva York Cambridge University Press ISBN 978 0 521 89560 6 Datos Q7250160Obtenido de https es wikipedia org w index php title Pareamiento por puntaje de propension amp oldid 117736476, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos