3. Obtener datos simulados a partir de observaciones reales

La simulacion da ejemplos, pero no es la solución como tal. En base de esos ejemplo puede tomar decisiones.

Suponer que toda la poblacion es tal cual lo que tengo en mi muestra es una afirmacion muy arriesgada pero es lo único que conozco.

Sea (y1,…,yn) una muestra de resultados de la aplicación de un tratamiento a n sujetos. Los datos muestrales son uno de los posibles resultados de n v.a.i.i.d. (Y1, …, Yn) con distribución \(F(x)\) o \(f(X)\).

La variable objetivo tiene un comportamiento que voy a querer explicar a través de unas covariables.

La muestra de resultados permite hacer inferencias sobre la característica \(\theta\) de los resultados del tratamiento aplicado a un sujeto cualquiera.

De la variable objetivo quiero investigar una carcterística concreta, como la desconozco lo llamo parámetro.

Validez de la estimación:

Buscamos la representatibilidad, la precisión de un estimador para el parámetro que queremos estimar.

La estimación por intervalos es la que me permite validar los resultados a través de la distribución del estadístico.

La inferencia se basa en el estadístico T y su calidad viene determinada por las propiedades de T (respecto a la característica de interés.)

Las propiedades teóricas de T a veces son difíciles de determinar. La simulación puede ayudar a evaluar la precisión de T como aproximación de la característica \(\theta\).

Tipos de simulacion dependiendo de nuestro modelo teorico.

La simulación de resultados a partir de la muestra puede ser de tipo:
• Paramétrico. (Modelo teórico paramétrico para la distribución F)
• No paramétrico. (Modelo teórico sin hipótesis para la distribución F)

Simulación paramétrica

El peor de mis problemas es tener poca muestra ya que me complica cómo validar mis estimaciones.

A partir de los datos observados (\(y_1, …, y_n\)) calculamos el valor del estimador del parámetro del modelo paramétrico, \(\hat{\theta}\).

\(\theta\) es el verdadero valor del parámetro poblacional.

\(\hat{\theta}\) es el estimador que se calcula a partir de los datos muestrales.

\(\hat{\theta*}\) es una estimación del mismo parámetro obtenida mediante una técnica de remuestreo, usada para analizar la variabilidad del estimador \(\hat{\theta}\)

Ejemplo

\[ \theta = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} |z_1 + z_2| e^{-\frac{z_1^2 + z_2^2}{2}} \, dz_1 dz_2 \]

\[ \theta = E \left[ 2\pi |Z_1 + Z_2| \right], \text{ siendo } Z_1 \text{ y } Z_2 \text{ v.a. } N(0,1) \text{ independientes} \]

Nsim=10000
set.seed(5597)

Z1 <- rnorm(Nsim)
Z2 <- rnorm(Nsim)
X <- 2*pi*abs(Z1+Z2)

esperanza_X <- mean(X)
sd_X <- sd(X)

alpha <- 0.05
z_a2 <- qnorm(1-(alpha/2))

Lower <- esperanza_X - (z_a2*sd_X/sqrt(Nsim))
Upper <- esperanza_X + (z_a2*sd_X/sqrt(Nsim))
c(Lower, esperanza_X, Upper)
[1] 7.024079 7.129826 7.235572

Validez de la estimación

Se generan nuevas muestras (\(y*_1, …, y*_n\)) a partir de la distribución \(F(\hat{\theta})\).

Objetivo de la simulación.

Conseguir información sobre la distribución del estimador T de interés.

Si existen resultados teóricos para la distribución de T o la relación entre el estimador y su parámetro es preferible utilizarlos a depender del resultado de la simulación.

¿Cómo procedemos si tenemos problemas?.

Posibles problemas:

  • Las propiedades teóricas de T son complicadas.
  • No hay resultados asintóticos.
  • La muestra observada es pequeña.

Técnicas Bootstrap [Man] (remuestreo con reemplazamiento)

Técnica Bootstrap

Cuando no tenemos información de la población, la distribución empírica de una muestra aleatoria es la mejor representación de la distribución de la población ==> La muestra observada se toma como modelo de la distribución desconocida.

Si hay un resultado teorico, al teorico. Si hay una aproximación, a la apriximación. Si no hay información suficientepara tirar por lo asintótico (asintótico AKA apoximación) y tengo poca muestra: Bootstrap.

Para mejorar el conocimiento de la distribución real la técnica bootstrap realiza muestreos con reemplazamiento teniendo en cuenta la distribución empírica.

Si las características del estimador no son conocidas o son muy complejas o tengo muestra muy pequeña, uso Bootstrap. Bootstrap no crea ni destruye nada.

Remuestreo. Saco muestras del mismo tamaño que la inicia. “Mi muestra era esta, pero si tomara nuevas muestras del mismo tamaño mi población sería esta”.

Finalidad.
- Validar, mediante intervalos de confianza, la estimación del parámetro que se consigue a partir de la muestra observada.
- Realizar contrastes de hipótesis.

Procedimiento.

  • Sean \((y_1, …, y_n)\) los resultados de una medida X en n sujetos independientes.
  • Sea \(\theta\) una cantidad referida a X (valor medio, mediana, desviación…).
  • Con los resultados observados podemos calcular el valor estimación de \(\theta\): \(\hat{\theta}\)

Validación de la estimación por IC.

  • Simulamos una nueva muestra (\(y*_1, …, y*_n\)) remuestreando con repetición en los resultados iniciales y calculamos el valor de \(\hat{\theta*}\).
  • Repetimos el proceso r-veces obteniendo r estimaciones bootstrap: \(\hat{\theta_i*}\), i=1,2,…r.
    • ¿Cuántas muestras? Eso es el capítulo final del tema.
  • Calculamos las diferencias entre las estimaciones bootstrap y la estimación conseguida con la muestra inicial: \(d_i = \hat{\theta_i*} - \hat{\theta}\).
  • Obtenemos los cuantiles asociados \(\alpha/2\) y \(1-\alpha/2\): \(d_b\), \(d_u\).
  • El intervalo de confianza bootstrap \(1-\alpha\) es: \([\hat{\theta} + d_b, \hat{\theta} + d_u]\)

La muestra original la guardo y la dejo apartada y trabajo con las muestras de Bootstrap (bueno esto volver a preguntárselo de cara a algún ejercicio pq tampoco creo si me ha contestado lo mismo dos veces seguidas). Trabajamos solo con las r estimaciones Bootstrap.

Simulación no paramétrica

No se asume una distribución teórica, se remuestrea los datos originales para simular nuevas muestras.

diapo43 es la distribución del estadístico

pero no es la distribucion de p, sino del estadñistico

con la simulacion ya no tengo estimaciones, tengo estimaciones de la probabilidades

las muestras no tienen probabilidad, pq las muestras están fijas. tienen frecuencias, no dudo. en el modelo teórico tengo algo genérico, ahí sí hablo de probabilidades

Ejemplo: Validar índice Kappa

Supongamos que se examinan 20 radiografías de la columna con el fin de detectar daños en la misma. Un par de radiólogos examinan las placas y emiten su diagnóstico: N = sin daño, I = daño incipiente, S = daño severo.

\[ \begin{array}{cc|ccc} & & \textbf{Radiólogo A} \\ & & \textbf{N} & \textbf{I} & \textbf{S} \\ \hline \textbf{Radiólogo B} & \textbf{N} & 6 & 1 & 0 \\ & \textbf{I} & 1 & 3 & 2 \\ & \textbf{S} & 0 & 3 & 4 \\ \hline & & & & & 20 \\ \end{array} \]

\(\hat\kappa_0\): estimacion con la muestra inicial

n=20 \(\Rightarrow\) Validacion con la metodlogía bootstrap. - Remuestreo entre las 20 diapos, cada diapo tiene 2 clasificaciones - Para cada muestra tengo una estimación de \(\hat\kappa_{b_{1}}\). - Haste tener \(\hat\kappa_{b_{1000}}\), tendré mil valores de mis estimaciones

# 0 = sin lesion, 1 = daño leve, 2 = daño severo
library(psych)
rad1 <- c(2,1,0,0,2,0,0,0,2,2,1,1,2,0,1,1,2,2,1,0)
rad2 <- c(1,1,0,0,2,0,0,0,2,2,1,2,1,1,1,0,2,1,2,0)
cokapp <- cohen.kappa(x<-cbind(rad1,rad2))
#str(cokapp)
cokapp$kappa
[1] 0.4756554
Coefi <- cokapp$kappa

Bootstrap para Kappa

#estructura bootstrap
N_boot <- 2000
nn <- length(rad1)
B1 <- numeric(nn)
B2 <- numeric(nn)
k_boo <- N_boot
#Remuestreo en las placas de radiografías
set.seed(108)
tmp1 <- sample(1:nn, nn*N_boot, replace=TRUE)
# Asignamos a cada valor tmp1 la opinion de los radiologos
# B1 para el radiólogo 1 y B2 para el radiólogo 2
# Calculamos kappa en cada muestra bootstrap

for(j in 1:N_boot){
  jj <- j-1
  for( i in 1:nn){
    B1[i] <- rad1[tmp1[nn*jj+i]]
    B2[i] <- rad2[tmp1[nn*jj+i]] }
  y <- cbind(B1,B2)
  ckb <- cohen.kappa(y)
  k_boo[j] <- ckb$kappa
}

diff <- k_boo - cokapp$kappa
cuantiles <- quantile(diff, c(.05, .95))
(IC_kappa <- cokapp$kappa + c(cuantiles[1], cuantiles[2]))
       5%       95% 
0.1821561 0.7014925 

Vamos a analizar las diferencias entre la estimacion de la muestra inicial m0 contra cada una de estas estimaciones:

  • Concordancia desde insignificante hasta sustancial.
  • Muy muy muy válida la estimación no es.
  • No es porque la hayamos hecho mal, sino porque no podemos defender a muerte nuesta estimacion puntual.
  • Lo que sí podemos decir es que algún criterio común tienen.