3. Obtener datos simulados a partir de observaciones reales ✓
La simulacion da ejemplos, pero no es la solución como tal. En base de esos ejemplo puede tomar decisiones.
Suponer que toda la poblacion es tal cual lo que tengo en mi muestra es una afirmacion muy arriesgada pero es lo único que conozco.
Sea (y1,…,yn) una muestra de resultados de la aplicación de un tratamiento a n sujetos. Los datos muestrales son uno de los posibles resultados de n v.a.i.i.d. (Y1, …, Yn) con distribución \(F(x)\) o \(f(X)\).
La variable objetivo tiene un comportamiento que voy a querer explicar a través de unas covariables.
La muestra de resultados permite hacer inferencias sobre la característica \(\theta\) de los resultados del tratamiento aplicado a un sujeto cualquiera.
De la variable objetivo quiero investigar una carcterística concreta, como la desconozco lo llamo parámetro.
Validez de la estimación:
Buscamos la representatibilidad, la precisión de un estimador para el parámetro que queremos estimar.
La estimación por intervalos es la que me permite validar los resultados a través de la distribución del estadístico.
La inferencia se basa en el estadístico T y su calidad viene determinada por las propiedades de T (respecto a la característica de interés.)
Amplitud del intervalo.
Precisión (cuánto amplío respecto de la media) en distribuciones simétricas es \(\frac{amplitud}{2}\).
Las propiedades teóricas de T a veces son difíciles de determinar. La simulación puede ayudar a evaluar la precisión de T como aproximación de la característica \(\theta\).
Tipos de simulacion dependiendo de nuestro modelo teorico.
La simulación de resultados a partir de la muestra puede ser de tipo:
• Paramétrico. (Modelo teórico paramétrico para la distribución F)
• No paramétrico. (Modelo teórico sin hipótesis para la distribución F)
Simulación paramétrica
El peor de mis problemas es tener poca muestra ya que me complica cómo validar mis estimaciones.
A partir de los datos observados (\(y_1, …, y_n\)) calculamos el valor del estimador del parámetro del modelo paramétrico, \(\hat{\theta}\).
\(\theta\) es el verdadero valor del parámetro poblacional.
\(\hat{\theta}\) es el estimador que se calcula a partir de los datos muestrales.
\(\hat{\theta*}\) es una estimación del mismo parámetro obtenida mediante una técnica de remuestreo, usada para analizar la variabilidad del estimador \(\hat{\theta}\)
Se generan nuevas muestras (\(y*_1, …, y*_n\)) a partir de la distribución \(F(\hat{\theta})\).
Objetivo de la simulación.
Conseguir información sobre la distribución del estimador T de interés.
Si existen resultados teóricos para la distribución de T o la relación entre el estimador y su parámetro es preferible utilizarlos a depender del resultado de la simulación.
¿Cómo procedemos si tenemos problemas?.
Posibles problemas:
Las propiedades teóricas de T son complicadas.
No hay resultados asintóticos.
La muestra observada es pequeña.
Técnicas Bootstrap [Man] (remuestreo con reemplazamiento)
Técnica Bootstrap
Cuando no tenemos información de la población, la distribución empírica de una muestra aleatoria es la mejor representación de la distribución de la población ==> La muestra observada se toma como modelo de la distribución desconocida.
Si hay un resultado teorico, al teorico. Si hay una aproximación, a la apriximación. Si no hay información suficientepara tirar por lo asintótico (asintótico AKA apoximación) y tengo poca muestra: Bootstrap.
Para mejorar el conocimiento de la distribución real la técnica bootstrap realiza muestreos con reemplazamiento teniendo en cuenta la distribución empírica.
Si las características del estimador no son conocidas o son muy complejas o tengo muestra muy pequeña, uso Bootstrap. Bootstrap no crea ni destruye nada.
Remuestreo. Saco muestras del mismo tamaño que la inicia. “Mi muestra era esta, pero si tomara nuevas muestras del mismo tamaño mi población sería esta”.
Finalidad.
- Validar, mediante intervalos de confianza, la estimación del parámetro que se consigue a partir de la muestra observada.
- Realizar contrastes de hipótesis.
Procedimiento.
Sean \((y_1, …, y_n)\) los resultados de una medida X en n sujetos independientes.
Sea \(\theta\) una cantidad referida a X (valor medio, mediana, desviación…).
Con los resultados observados podemos calcular el valor estimación de \(\theta\): \(\hat{\theta}\)
Validación de la estimación por IC.
Simulamos una nueva muestra (\(y*_1, …, y*_n\)) remuestreando con repetición en los resultados iniciales y calculamos el valor de \(\hat{\theta*}\).
Repetimos el proceso r-veces obteniendo r estimaciones bootstrap: \(\hat{\theta_i*}\), i=1,2,…r.
¿Cuántas muestras? Eso es el capítulo final del tema.
Calculamos las diferencias entre las estimaciones bootstrap y la estimación conseguida con la muestra inicial: \(d_i = \hat{\theta_i*} - \hat{\theta}\).
Obtenemos los cuantiles asociados \(\alpha/2\) y \(1-\alpha/2\): \(d_b\), \(d_u\).
El intervalo de confianza bootstrap \(1-\alpha\) es: \([\hat{\theta} + d_b, \hat{\theta} + d_u]\)
La muestra original la guardo y la dejo apartada y trabajo con las muestras de Bootstrap (bueno esto volver a preguntárselo de cara a algún ejercicio pq tampoco creo si me ha contestado lo mismo dos veces seguidas). Trabajamos solo con las r estimaciones Bootstrap.
Simulación no paramétrica
No se asume una distribución teórica, se remuestrea los datos originales para simular nuevas muestras.
diapo43 es la distribución del estadístico
pero no es la distribucion de p, sino del estadñistico
con la simulacion ya no tengo estimaciones, tengo estimaciones de la probabilidades
las muestras no tienen probabilidad, pq las muestras están fijas. tienen frecuencias, no dudo. en el modelo teórico tengo algo genérico, ahí sí hablo de probabilidades
Ejemplo: Validar índice Kappa
Supongamos que se examinan 20 radiografías de la columna con el fin de detectar daños en la misma. Un par de radiólogos examinan las placas y emiten su diagnóstico: N = sin daño, I = daño incipiente, S = daño severo.
\(\hat\kappa_0\): estimacion con la muestra inicial
n=20 \(\Rightarrow\) Validacion con la metodlogía bootstrap. - Remuestreo entre las 20 diapos, cada diapo tiene 2 clasificaciones - Para cada muestra tengo una estimación de \(\hat\kappa_{b_{1}}\). - Haste tener \(\hat\kappa_{b_{1000}}\), tendré mil valores de mis estimaciones
#Remuestreo en las placas de radiografíasset.seed(108)tmp1<-sample(1:nn, nn*N_boot, replace=TRUE)
# Asignamos a cada valor tmp1 la opinion de los radiologos# B1 para el radiólogo 1 y B2 para el radiólogo 2# Calculamos kappa en cada muestra bootstrapfor(jin1:N_boot){jj<-j-1for(iin1:nn){B1[i]<-rad1[tmp1[nn*jj+i]]B2[i]<-rad2[tmp1[nn*jj+i]]}y<-cbind(B1,B2)ckb<-cohen.kappa(y)k_boo[j]<-ckb$kappa}diff<-k_boo-cokapp$kappacuantiles<-quantile(diff, c(.05, .95))(IC_kappa<-cokapp$kappa+c(cuantiles[1], cuantiles[2]))
5% 95%
0.1821561 0.7014925
Vamos a analizar las diferencias entre la estimacion de la muestra inicial m0 contra cada una de estas estimaciones:
Concordancia desde insignificante hasta sustancial.
Muy muy muy válida la estimación no es.
No es porque la hayamos hecho mal, sino porque no podemos defender a muerte nuesta estimacion puntual.
Lo que sí podemos decir es que algún criterio común tienen.