4. Técnicas de remuestreo aplicadas a la inferencia de curvas ROC ✗
Técnicas de remuestreo para hacer inferencia sobre la metodologia ROC cuando en casos en los que estamos trabajando con muestras pequeñas. (una alternativa a la asintótica)
Con la metodologia de remuestreo obtenemos resultados que permiten determinar para una banda de confianza para la curva ROC cuando la muestra es pequeña \(\rightarrow\) Una estimacion para el AUC por intervalor cuando la muestra es pequeña.
Conceptualmente nos estalla la cabeza. Aplicamos la curva ROC en pruebas diagnósticas donde la vairbale respuesta o el biomarcador es una variable continua y es muy poco probable encontrar dos individuos con dos resultados iguales. Trabajando con remuestreo vamos a tener muestras donde haya valores repetidos.
\[ \begin{array} \hline \textbf{ROC} \\ \hline \hline \text{Sea } \mathcal{D}_n = \{(Y_i, D_i)\}_{i=1, \dots, n} \\ \hline Y_i: \text{valores del biomarcador en el individuo } i \text{ tal que } Y_i \in (A, B)\\ \hline D_i\text{: situación real del individuo } i \text{ tal que } D_i \in \text{(0, 1)}\\ \hline p(Y_i | D=0) \le p(Y_i | D=1) \end{array} \]
\[ \begin{array}{|c|c|} \hline \textbf{Y} & \textbf{D} \\ \hline \hline Y_1 & D_1 \\ \hline Y_2 & D_2 \\ \hline \vdots & \vdots \\ \hline Y_n & D_n \\ \hline \end{array} \]
Nos valemos de las funciones empíricas de distribución en el grupo con la característica y en el grupo sin la carecterísticas. Remuestreamos en base a esas densidades.
Recordamos que la curva ROC se construye estableciendo una comparación entre las proporciones de verdaderos y falsos positivos según los valores del marcador de la prueba diagnóstica. Es decir, suponiendo que el marcador da resultados más altos en los pacientes enfermos, la curva ROC estimada a partir de las observaciones es :
\[ROC(t) = 1 - F_D \left( F_D^{-1}(1 - t) \right), \quad t \in (0, 1).\]
Sean las funciones empíricas de distribución de enfermos y sanos:
\[F_D(y) = \frac{1}{n_D} \sum_{i=1}^{n_D} I(Y_{D_i} \leq y)\] \[F_{\bar{D}}(y) = \frac{1}{n_{\bar{D}}} \sum_{i=1}^{n_{\bar{D}}} I(Y_{\bar{D}_i} \leq y)\]
Procedimientos que podemos aplicar a la hora de hacer inferencia sobre la curva roc:
- Bootstrap
- Bootstrap Naïf
- Bootstrap con aproximación de Monte-Carlo
- Bootstrap suavizado con núcleo K
- Permutaciones aleatorias (no aplicable en todos los contextos debido a sus características)
Remuestreo bootstrap
Remuestreo bootstrap Naïf
Genera una muestra con reemplazamiento de \(n\) individuos con información \((Y_i, D_i)\) de mi muestra.
Por lo general conduce a malas aproximaciones de los cuantiles de la distribución empírica.
Al elegir aleatoriamente con reemplazamiento pierdo la proporción de enfermos y sanos.
Para generar la curva ROC y demás estimaciones perdemos la characteristic intrínseca del biomarcador de que no haya valores repetidos.
Remuestreo bootstrap con aproximación de Monte-Carlo
Tras obtener un remuestreo naïf se altera el resultado de la prueba. Se perturba a través de la simulación de un valor aditivo \(a\) con distribucion \(N(0, \frac{1}{\sqrt[5]{n}})\)
Conseguimos alterar levemente los resultados del remuestreo naïf para romper esos “empates”.
Reproduce las ventajas teóricas del procedimiento suavizado con núcleo Gaussiano.
\[ \begin{array}{|c|c|} \hline \textbf{Y} & \textbf{D} \\ \hline \hline Y_1 + a_1 & D_1 \\ \hline Y_2 + a_2 & D_2 \\ \hline \vdots & \vdots \\ \hline Y_n + a_n & D_n \\ \hline \end{array} \]
Bootstrap suavizado con núcleo K
La idea es realizar un remuestreo D*n en una función suavizada de la distribución empírica y no sobre la misma distribución empírica.
trabajar priemero con las funciones de distribucion empricas y simular con ellas
- tener muestra inicial
1.1. aplicarmétodos asintóticos y pensar que es caca
- estimar curva roc y AUC
2.1 esos valoers originales serán ROC_0 y AUC_0
- remuestreo a partir de la muestra inicial con la pertubación añadida del mismo tamaño muestral
- saco la curva ROC y AUC
- Repito el punto 3 y 4.
B muestras
Validación de la estimación de AUC
si el “Calculamos di= AUC*i – AUC^, i=1,…,B” lo hiciéramos sin hacer la resta, es decir, apartar solo los extremos de las muestras en vez de los extremos de las diferencias, podría pasar que mi estimacion inicial no estuviera en el intervalo.
el hacer la resta y tal se hace para asegurar que mi estimacion está contenida en el intervalo. busco la estimacion del AUC de las muestas bootstrap
NOTA: en la diapo51 los \(\hat{F}_D^*\) y \(\hat{F}_{\over{D}}^*\) son estimados.
Ejemplo.
los pacientes sin anemia tiene unos contenidos de hierro bajo inferiores (relacion inversa a la que estamos acostumrbados): tengo que identificar los ceros y los unos al revés.
seleccionamos remuestreos, alterarlo con la dist normal, calcular diferencias, etc.
es es curva roc con muestra inicial. 0.70 puede ser una prueba admisible si tuvieramos un IC que dice que no estamos con algo muy disparatado.
calculamos el IC. para una muestr que no era muy grande y aplicamos boots pq no etabamos seguros que nos diera buenos resultados aplicando los metodos asintoticos nos un IC estrechito. buscamos punto de corte con el metodo habitial.
¿el índice yeuden (pregunto yo) es sobre la muestra original o sobre las muestas simuladas?
youden lo haces sobre tu original, la simu bootrap lo utilizas para IC para tu curva roc.
bandas para la roc
diapo55 compara las curvas bootstrap de las muestras simuladas y la original. busca la máxima distancia entre las curvas simuladas y la original.
tomar una dist mayor entre las muestra roc original y las roc simualadas por boostap