Introducción
Asignatura relacionada con el análisis las pruebas diagnósticas.
- Tema 1: Estudio de la concordancia
- Tema 2: Validación
Conceptos:
- Observaciones muestrales.
- Número de observaciones que se van a utilizar.
- Información / variables.
- Fiabilidad de las observaciones.
- Fiabilidad de los resultados
Propósito
Clasificación de un individuo dentro de un grupo de categorías.
Prueba diagnóstica: cualquier prueba que me hacen. Una prueba diagnostica también puede ser un examen, ya que evaluo un conocimiento y creo una clasificacion.
Ver la concordancia entre varias pruebas o metodologías.
Un examen, independientemente de qué profesor lo corrija, debería tener práctiamente la misma nota.
Todo contraste estadístico podemos usarlos para varias acciones. “Un test puede ser usado para medir algo y también todo lo opuesto”.
Concordancia = acuerdo.
No concordancia = actuar de manera idependiente = independientes.
Si tengo varias metodologías para un mismo propósito (ej: enseñar a bebés a nadar) tengo que ver qué metodología funciona mejor.
Si para una prueba tengo dos procedimientos y concuerdan entre ellos, puedo usar uno o otro. Si no hay concordancia mezclar los procedimientos me lleva a error.
Muestra hetérea sin depender de datos muestrales.
Un modelo que yo le dé cualquier muestra o información, y no un modelo que sirva solo para lo que he observado.
Los registros simulados tiene que tener las mismas características que los datos muestrales.
Cómo consigo datos muestrales:
- Datos poblacionales.
- Simulacion, datos de individuos ficticios.
Problema: datos faltantes de una de las variables de la muestra. Vamos a hablar más de los problemas que vamos a encontrar que cómo solucionarlos.
Debemos ser conscientes de que la muestra actual es poco válida para experimentos futuros. Y posiblemente sea necesario ajustes del modelo en el futuro. \(\Rightarrow\) Al igual que calibramos modelos, calibramos la muestra simulada y el modelo teórico.
En la vida real es al revés. Te dan unos datos y tienes que crear un modelo, es decir, crear algo que los represente.
Planteamiento ‘estadístico’
- Un modelo teórico que podamos aplicar a cualquier conjunto de datos.
- X es una variable aleatoria y es la base del modelo teórico
- La idea es estudiar X, conocer su comportamiento, tomar decisiones sobre X y aplicarlas sobre datos reales.
- ¿La variable X ha sido estudiada antes?
– Sí. Puedo utilizar esos resultados y aplicarlos a mi problema.
– No. Debo crear el modelo y estudiarlo teóricamente.
Modelo teórico
Representación matemática abstracta que describe el comportamiento de un fenómeno o conjunto de datos. Permite realizar inferencias, predicciones y análisis de fenómenos aleatorios o deterministas, y se basan en suposiciones sobre la estructura y distribución subyacente de los datos.
Componentes
Variables (características)
Parámetros. Valores desconocidos que determinan la forma de la distribución de datos.
Distribución de probabilidad.
Suposiciones sobre el comportamiento de los datos. Por ejemplo, en un modelo de regresión lineal simple se asume que la relación entre las variables es lineal, que los errores tienen una distribución normal con media cero y varianza constante y que son independientes entre sí.
Uso
Entender la estructura subyacente de los datos, hacer predicciones sobre nuevas observaciones y probar hipótesis.
El modelo teórico tiene su propia unidad de medida: la probabilidad.
It’s not the same probabilidades que porcentajes, es impreciso. Si p(“enfermo”) = 0.10 no podemos decir que el 10 % de la pobaclión esté enferma, aunque usemos ese lenguaje. Lo correcto es decir que la probabilidad de que una persona de la población esté enferma es 10 %.
El IC no es para el parámetro. El IC es para el estimador del parámetro. El IC contiene el % de las muestras del resto del mundo.
Debemos interpretar las estimaciones puntuales y la distribución acumulada FDA/CFD.
Iteraciones de todo problema estadístico
Cuestiones asociadas:
- ¿A qué alumnos? A todos los alumnos.
- Tengo una oferta si hago un pedido grande.
- ¿El modelo es único? No, hay tres tallas: P, M y G.
- Necesito: Medir la circunferencia del dedo de los alumnos. ¿A todos? ¿qué dedo?
- ¿Quién aporta la información de 4? Los alumnos del curso actual. ¿Cómo se realiza la medida?
- Hay varios procedimientos ¿Por ejemplo?
- Hay varios procedimientos ¿Por ejemplo?
- Los resultados de cada procedimiento
- Los resultados de cada procedimiento
- Concuerdan (puedo utilizar cualquiera o mezclarlos) (*1)
- Hay alguno “mejor” (*2)
- Con (todas/parte de) las medidas de los alumnos establecemos las tallas P, M y G
- Decisión sobre la cantidad a pedir, en total y de cada talla
- Poner en práctica → REVISAR: Si hay errores volver a 4
Ejemplo
El modelo teórico asociado a este tipo de epidemias indica que:
– La probabilidad de que en una familia la madre tenga gripe es 0.1
– En el 12% de las familias el padre tiene gripe
– Ambos progenitores tienen gripe en el 2% de las familias (= con probabilidad 0.02)
Para simular una familia simularía pares de datos (padres). Es decir, ´trabajamos con la distribución conjunta. Simularía el 00, el 01, el 10 y el 11. Esto nos permite usar un único número aleatorio por familia, ya que con una única simulación puedo asignar el estado del par de datos (no necesito simular la madre y luego el padre).
Fijo el estado más probables para todas las familias y si sale la condición de los menos frecuentes, lo cambio.
0.0 - 0.2 pongo 11 0.2 - 0.3 pongo 10 0.3 - 0.5 pongo 01 0.5 - 1.0 pongo 00
Si quiero algo MÁS ROBUSTO necesito más muestra.