4. Cálculo del tamaño muestral

En ensayos clínicos e investigacion se suele empezar por un piloto. Con los resultados podemos ver cuánto tendría que aumentar la población para garantizar la validez de las estimaciones.

Determinación del tamaño muestral para el coeficiente kappa

\[ \displaylines{ \text{Quiero una precisión más pequeña.} \\ {\Downarrow} \\ \text{La precisión depende de la varianza.} \\ {\Downarrow} \\ \text{La varianza depende del tamaño muestral.} } \]

Supongo que n muestral es grande. ¿Puedo suponerlo? Pos claro amego, n es lo que estoy buscando calcular así que puedo desear que n sea grande.

Para buscar esta nueva n pongo una condición: que el valor máximo de la varianza sea menor a un valor dado. La varianza con el nuevo tamaño \(n\) debe ser menor a la varianza con el tamaño de la muestra \(n_{0}\).

Ejemplo.

Supongamos tengo n=20. Calculo el IC y tengo la amplitud del intervalo. Voy a querer un IC tal que la amplitud sea menor a cierto valor \(k\) (puedo tener la suerte de que con mi estudio piloto ya cumpla esa condición). Por lo que quiero un n condicioando a un valor máximo de la varianza (que depende de n).

Fijando el valor máximo de la varianza puedo despejar el valor de n.

Caso dicotómico: dos observadores y dos categorías

Definicion de la varianza en el modelo teórico.

\[ {\bf V(k) = \frac{A+B+C}{n(1-\Pi_c)^4} } \]

tal que

\[ \displaylines{ A = \pi_{11}[1- \pi_c - (\pi_{1·}+\pi_{·1})(1-\pi_0)]^2 + \pi_{22}[1- \pi_c - (\pi_{2·}+\pi_{·2})(1-\pi_0)]^2 \\ B = (1-\pi_0)^2[\pi_{12}(\pi_{·1}+\pi_{2·})^2 + \pi_{21}(\pi_{·2}+\pi_{1·})^2] \\ C = (\pi_0 - 2\pi_c+\pi_0\pi_c)^2 } \]

Todos los valores quedan determinados a partir de \(\pi_{1·}\), \(\pi_{·1}\) y \(k\).

\[ \displaylines{ \pi_{2·} = 1 - \pi_{1·} \\ \pi_{·2} = 1 - \pi_{·1} \\ \pi_{c} = \pi_{1·}\pi_{·1} + (1 - \pi_{1·})(1 - \pi_{·1}) \\ \pi_{0} = k(1-\pi_{c}) + \pi_{c} \\ \pi_{22} = (\pi_{0} - \pi_{1·} + \pi_{2·}) / 2 = (\pi_{0} + 1) / 2 \\ \pi_{11} = 1 - \pi_{22} = 1 - (\pi_{0} + 1) / 2 \\ \pi_{12} = \pi_{1·} - \pi_{11} \\ \pi_{21} = \pi_{·1} - \pi_{11} } \]

Caso dicotómico: dos observadores y t categorías (kappa sin ponderar)

\[ {\bf V(k) = \frac{A+B+C}{n(1-\Pi_c)^4} } \]

tal que

\[ \displaylines{ \bf{A = \sum_{i=1}^{t} \pi{ii}[1-\pi_c-(\pi_{i·}+\pi_{·i})(1-\pi_0)^2]} \\ \bf{B = (1-\pi_0)^2 \sum_{i=1}^{t} \sum_{\substack{i=1 \\ i \neq j}}^{t} \pi_{ij}(\pi_{·i}+\pi_{j·})^2} \\ \bf{C = (\pi_0 - 2\pi_c+\pi_0\pi_c)^2} } \]

n óptimo

¿Cuál sería el n óptimo partiendo de una muestra incial y un IC incial para conseguir reducir la amplitud del intervalo?

Tengo un n que me da la posibilidad de estimar un n neuvo dada una condición.

Fijando la longitud del intervalo

  • Supongamos que tenemos información de una muestra de tamaño \(n_0\) para la cual se tiene que \[IC_{\hat{k}}^{1-\alpha} \hspace{1em} = \hspace{1em} (\hat{k_0} - z_{\frac{\alpha}{2}} * \sqrt{Var(k)}, \hspace{1em} \hspace{1em} \hat{k_0} + z_{\frac{\alpha}{2}} * \sqrt{Var(k)}\]

  • Llamamos \[l_{0} \hspace{1em} = \hspace{1em} \text{longitud del intervalo} = 2*z_{\frac{\alpha}{2}} * \sqrt{Var(k)}\]

  • Busco un tamaño muestral \(n\) tal que el IC para \(\hat{k}\) con la muestra de tamaño n tenga una longitud \(w\). \[w = \text{longitud del intervalo de la muestra de tamaño n} = 2*z_{\frac{\alpha}{2}} * \sqrt{Var(k)} = 2*z_{\frac{\alpha}{2}} * \sqrt{\frac{A+B-C}{n_0(1-\Pi_{c})^4}}\]

  • A la estimacion de \(n\) le asignamos el mismo error que tendría con una muestra más pequeña (la peor de las situaciones que podríamos tener). \[w = 2*z_{\frac{\alpha}{2}} * \sqrt{\frac{A+B-C}{n_0(1-\Pi_{c})^4}} = 2*z_{\frac{\alpha}{2}} * \sqrt{\frac{A+B-C}{n(1-\Pi_{c})^4}}\]

  • Busco un \(n\) tal que su longitud sea menor igual a \(w\).

\[ \begin{cases} l_{0} = 2*z_{\frac{\alpha}{2}} * \sqrt{\frac{1}{n_0}} * \sqrt{\frac{A+B-C}{(1-\Pi_{c})^4}} \\ w = 2*z_{\frac{\alpha}{2}} * \sqrt{\frac{1}{n}} * \sqrt{\frac{A+B-C}{(1-\Pi_{c})^4}} \end{cases} \]

  • Despejando en \(l_{0}\).

\[\frac{l_{0} * \sqrt{n_0}}{2*z_{\frac{\alpha}{2}}} = \sqrt{\frac{A+B-C}{(1-\Pi_{c})^4}}\]

  • Sustituyo en \(w\).

\[w = 2*z_{\frac{\alpha}{2}} * \sqrt{\frac{1}{n}} * \sqrt{\frac{A+B-C}{(1-\Pi_{c})^4}} = \frac{2*z_{\frac{\alpha}{2}}}{\sqrt{n}} * \frac{l_{0} * \sqrt{n_0}}{2*z_{\frac{\alpha}{2}}} = \frac{l_{0} * \sqrt{n_0}}{\sqrt{n}}\]

  • Despejando en \(w\).

\[w = \frac{l_{0} * \sqrt{n_0}}{\sqrt{n}} \Longleftrightarrow w^2 = \frac{l_{0}^2 * n_0}{n}\]

\[n = (\frac{l_{0}}{w})^2*n_0\]

Resolver el contraste de hipótesis sobre \(k\)

la condicion que hemos puesto para fijar n es que la longitud del intervalo la fijamos

tambien pueddo fijar una hipótesis de un crontraste de hipótesis, pe, diapo52, una hipótesis sobre el índico k_0.