Ir al contenido principal

Elección de la prueba de significación estadística


El objetivo de la 8ª unidad del Curso Básico de Metodología de Investigación con SPSS y EPIDAT es aprender a seleccionar las prueba mas adecuada de significación estadística para realizar el contraste de hipótesis. 

Comentarios

  1. D. Ricardo, sobre la significación estadística tengo una duda relacionada con una reciente publicación de Rothwell et al.:
    http://www.thelancet.com/journals/lancet/article/PIIS0140-6736%2811%2961720-0/fulltext
    En ella se dice que: "In six trials of daily low-dose aspirin in primary prevention (35 535 participants), aspirin reduced cancer incidence from 3 years onwards (324 vs 421 cases; OR 0·76, 95% CI 0·66—0·88, p=0·0003)".
    Esto ha llevado a una investigadora/divulgadora a decir en:
    http://e-ciencia.com/blog/noticias/%C2%BFla-aspirina-reduce-el-riesgo-de-cancer/
    "que en general la aspirina (tomada diariamente) reduce la aparición de cáncer en un [24%] pero sólo después de 3 años de empezar el tratamiento, ...". Yo me he opuesto a esa conclusión y la hemos debatido en aquel blog.
    En mi opinión, la conclusión: tanto de la investigadora, como del autor del artículo (ese 24% = 1-0.76, con el OR = 0.76) no es correcta, al interpretar una diferencia relativa de riesgo como diferencia absoluta de riesgo. Según mi aclaración estadística: en efecto, (421-324)/421 = 23.04% (casi ese 24%). PERO, suponiendo que los 35535 participantes hayan sido separados en dos grupos de 17767 participantes aproximadamente, entonces 324/17767 = 1.823 % y 421/17767 = 2.369 %, por lo que, respecto a la POBLACIÓN TOTAL, la diferencia del tratamiento de la aspirina diaria frente a su no suministro implica, según este único estudio a 3 años, que la reducción del riesgo de aparición de cualquier tipo de cáncer es del 2.369 - 1.823 = 0.546 %.
    Tal vez todo el mundo médico esté acostubrado a abusar del lenguaje y suela hablar de que un tratamiento reduce el riesgo de aparición de una enfermedad en un X por cien, al referirse a la variable DRR (aunque ésta se defina claramente como diferencia RELATIVA de riesgo).

    Excepto esos 35535 participantes de donde yo tomé aquel n=17767, ... los datos que nos ofrece este artículo: esa OR que parece ser 1-(421-324)/421; ese 95% del intervalo de confianza que al estar entre 0.66 y 0.88, (no incluye el 1), implicaría que el estudio posee significación estadística; junto con esa p = 0.0003 (que no sé de dónde sale); ¿son correctos?.
    Según mis cálculos,
    P(324/17767) = 0.01823 +- 0.001967
    y P(421/17767) = 0.02369 +- 0.002236
    donde los errores los he calculado con la fórmula del error estándard de porcentaje, multiplicada por ese factor 1.96 para darnos el 95% de intervalo de confianza.
    Por lo que la diferencia de porcentajes poblacionales da: P(421/17767) - P(324/17767) = 0.00546 +- 0.004203
    Según lo que yo sé, esa diferencia de porcentajes (con ese enorme error) nunca puede calificarse como estadísticamente significativa, y sin embargo, Rothwell et al., con ese intervalo 0.66 a 0.88 sí que parecen decirnos que su estudio es estadísticemente significativo.

    D. Ricardo, ¿podría aclararme si, en este caso concreto, existe significación estadística?. Y, en general, la duda consiste en: ¿existe un criterio para establecer una combinación de variables (nº participantes, OR, 95% CI y p) que demuestre la efectividad de un medicamento (una concluyente significación estadística)?.
    Saludos,
    Antonio.

    ResponderEliminar
  2. En mi opinión, utilizando exclusivamente los datos del resumen, el estudio de Peter Rothwell M realiza un análisis estadístico correcto. Tratare de responderle de forma breve a las distintas cuestiones que plantea:

    1ª Pregunta: ¿Existe diferencias estadísticamente significativas en la incidencia de cáncer, la mortalidad y la muerte no vascular entre las personas que toman y no toman aspirina y cuál es su significado?
    En las muestras estudiadas se encuentran diferencias tanto en la incidencia de cáncer, la mortalidad y la muerte no vascular. Centrándonos en la incidencia de cáncer (el razonamiento seria el mismo para los otros dos casos) en los pacientes en tratamiento con aspirina se presentaron a los 3 años 324 canceres frente a 421 casos de cáncer que se presentaron en los no tratados con aspirina. (En el resumen no nos indican del total de los 35.535 participantes en el estudio cuantos pacientes recibieron tratamiento con aspirina y cuantos fueron seguidos sin tratamiento con aspirina, y ambos grupos no tienen porque ser iguales, de 17.767 participantes como usted supone para calcular la diferencia de porcentajes). Lo que los autores calculan es una medida de asociación, la OR, que en este caso nos indica cuantas veces es menor la odds de exposición a la aspirina en los casos (tumores) que en los controles (no tumores), o de una forma aproximada cuantas veces es menor el riesgo de cáncer entre los expuestos a tratamiento con aspirina que en los no expuestos, que en la muestra estudiada es de 0,76.
    Los autores nos calculan ademas el intervalo de confianza con un nivel de seguridad del 95%, que nos informa que, en la población de la cual procede la muestra el OR se encuentra entre 0,66 y 0,88 con una probabilidad de equivocarnos del 5%. Efectivamente, si miedo a equivocarnos podemos decir que esos resultados van a ser estadísticamente significativos al no incluir el intervalo de confianza el valor 1, como nos confirman los autores indicándonos la “p” obtenida con la prueba de contraste de hipótesis p=0,0003, para lo que muy probablemente han elegido la Chi cuadrado como prueba de contraste de hipótesis.
    Además de ser estadísticamente significativa, la diferencia encontrada es clínica y epidemiológicamente relevante. Un OR de 0,76, significa de manera aproximada en términos de % DE EXCESO DE RIESGO que los pacientes en tratamiento con aspirina durante 3 años tienen un 24% menos de incidencia de cáncer que los no tratados: (OR-1) x 100 en este caso (0,76-1)*100= 24%
    La relevancia clínica hay que interpretarla en función del fenómeno encontrado una diferencia del 24% puede no ser relevante si lo que estudiamos es una fenómeno banal, por ejemplo alivio de un síntoma menor, pero es muy importante si lo que estudiamos es un fenómeno importante, como mortalidad, aparición de cáncer, etc.

    ResponderEliminar
  3. 2ª pregunta: ¿Existe un criterio para establecer una combinación de variables (nº participantes, OR, 95% CI y p) que demuestre la efectividad de un medicamento (una concluyente significación estadística)?.
    En cuanto a si existe un criterio para establecer nº participantes, OR, 95% CI y p para realizar un estudio, se debe predeterminar un tamaño muestral previo a realizar el estudio, estableciendo a priori:
    Diferencia que pretendemos probar, en términos de OR, RR, Diferencia de medias, proporciones, etc,
    Valor de p, o lo que es lo mismo, error de tipo I que estamos dispuestos a aceptar. Su valor más habitual es alfa= 0.05. Significa que estamos dispuestos a aceptar una probabilidad de hasta el 5% de que las diferencias encontradas en el estudio sean debidas al azar en el muestreo.
    Error de tipo II, que estamos dispuestos a aceptar. Beta es la probabilidad de que sea cierta la hipótesis alternativa cuando no somos capaces de rechazar la hipótesis nula y también debe ser especificado antes de comenzar el estudio. 1- beta es lo que se conoce como potencia de un estudio. Aunque no existe un consenso tan amplio como para el valor de alfa, se tiende aceptar que sea menor del 0,20. Ejemplo: Si β =0.10, la potencia de contraste es 0.90 (1-0.10) y significa que existe una probabilidad del 90% de encontrar un diferencia estadísticamente significativa en la muestra cuando existe en la población.
    Los errores α y β están muy relacionados. Aumenta uno cuando el otro disminuye. Si somos muy estrictos en las condiciones que pedimos para rechazar la hipótesis nula, α muy pequeño, tendremos más posibilidad de no rechazar la hipótesis nula cuando es falsa, y cometer un error β. Con tamaños muestrales pequeños, es muy difícil rechazar la hipótesis nulas. Los intervalos de confianza se hacen muy grandes y es fácil que engloben el valor 1. Con tamaños de muestra grandes es más fácil rechazarla, los intervalos de confianza se hacen más pequeños y no engloban el 1.
    No entro a analizar los posibles sesgos y limitaciones que pueda tener el estudio, en relación con el tipo de diseño.
    Atentamente

    ResponderEliminar
  4. D. Ricardo, muchísimas gracias por su rápida contestación.
    En efecto, seguramente Rothwell calcula la chi^2 según la tabla 3x3 (toman aspirina / no la toman / total) vs. (padecen cáncer / no lo padecen / total) y obtiene la p = 0.0003 interpolando en las tabulaciones de la chi^2. Seguramente, pues, la 'p' esté bien calculada, pero, ¿y esos intervalos de confianza 0.66-0.88?. (ver el ejemplo de abajo).
    D. Ricardo, su segunda respuesta parece acertada: esos errores alfa y beta, son los que deben determinar el diseño del ensayo clínico. Y, a partir de esos errores, se pueden fijar apropiadamente las variables OR, p, nº participantes, nº casos e intervalos de confianza, que servirán para demostrar la efectividad de un medicamento.

    Pero ahora permítame abusar de su amabilidad. Le pido que siga estas matemáticas para entender la duda fundamental que tengo respecto al estudio de Rothwell y, en general, respecto a la estadística inferencial. Analicemos este ejemplo:

    CASO A1. Sea una población de 1000 participantes, a los que se les somete a una dosis diaria de aspirina durante 3 años. Al cabo de ese tiempo se detecta algún tipo de cáncer en 9 casos.
    CASO B1. Sea una población de 1000 participantes, a los que NO se les somete a una dosis diaria de aspirina durante 3 años. Al cabo de ese tiempo se detecta algún tipo de cáncer en 12 casos.
    CASO A2. Sea una población de 35535 participantes, a los que se les somete a una dosis diaria de aspirina durante 3 años. Al cabo de ese tiempo se detecta algún tipo de cáncer en 324 casos.
    CASO B2. Sea una población de 35535 participantes, a los que NO se les somete a una dosis diaria de aspirina durante 3 años. Al cabo de ese tiempo se detecta algún tipo de cáncer en 421 casos.
    CASO A3. Sea una población de 1000000 participantes, a los que se les somete a una dosis diaria de aspirina durante 3 años. Al cabo de ese tiempo se detecta algún tipo de cáncer en 9000 casos.
    CASO B3. Sea una población de 1000000 participantes, a los que NO se les somete a una dosis diaria de aspirina durante 3 años. Al cabo de ese tiempo se detecta algún tipo de cáncer en 12000 casos.

    En los casos A1, A2 y A3 [ó B1, B2 y B3], la probabilidad de aparición del cáncer es de p_Ai = 0.9% [ó p_Bi = 1.2%]. Comparando los casos Bi con los Ai [(p_Bi-p_Ai)/p_Bi = 25%] podemos afirmar que "el tratamiento con aspirina diaria durante 3 años [caso A] reduce en un 25% el riesgo de aparición de cáncer respecto al no tratamiento diario con aspirina [caso B]". Obviamente, los casos '1' con n_1 = 1000 participantes, no son lo mismo que los casos '2' y '3' con muchos más participantes (n_2 = 35535 y n_3 = 1000000), pero, ¿cuánto nos equivocamos al efectuar dicha afirmación para los casos '1', '2' y '3'?.
    (sigue)

    ResponderEliminar
  5. (continúa)
    RESPUESTA 1. Calculando el chi cuadrado (chi^2 ó X²) según la tabla 3x3 descrita anteriormente:
    X²_1 = 0.43311
    X²_2 = 12.75
    X²_3 = 433.11
    y, como: para un único grado de libertad y para una probabilidad P < 0.05, la X² ha se ser, según lo tabulado, mayor que: X² > 3.84; entonces concluimos que X²_2 y X²_3 (casos 2 y 3) sí que sirven para establecer dicha afirmación, mientras que X²_1 (el caso 1) no sirve.
    RESPUESTA 2. Aplico la fórmula del porcentaje poblacional P, en función del porcentaje muestral p (fórmula tomada de su: Unidad 5, slide 20): P pertenece al intervalo p +- 1.96 * sqrt(p*(1-p)/n) con un 95% de confianza. Así:
    P_A1 pertenece a p_A1 +- 1.96*sqrt(p_A1*(1-p_A1)/n_1) = 0.009 +- 0.005853
    P_A2 pertenece a p_A2 +- 1.96*sqrt(p_A2*(1-p_A2)/n_2) = 0.009 +- 0.000982
    P_A3 pertenece a p_A3 +- 1.96*sqrt(p_A3*(1-p_A3)/n_3) = 0.009 +- 0.000185
    P_B1 pertenece a p_B1 +- 1.96*sqrt(p_B1*(1-p_B1)/n_1) = 0.012 +- 0.006748
    P_B2 pertenece a p_B2 +- 1.96*sqrt(p_B2*(1-p_B2)/n_2) = 0.012 +- 0.001132
    P_B3 pertenece a p_B3 +- 1.96*sqrt(p_B3*(1-p_B3)/n_3) = 0.012 +- 0.000213
    Y luego aplicando aquella fórmula para obtener el 25%: (p_Bi-p_Ai)/p_Bi, pero no a los "p_" si no a los "P_", es decir, a los porcentajes poblacionales con los errores correspondientes. Puedo definir P_i = (P_Bi - P_Ai)/P_Bi, con lo que:
    P_1 pertenece a un intervalo disparatado un porcentaje negativo de -0.8 +- 1
    P_2 pertenece a 0.235 +- 0.154 con un 95% de confianza
    P_3 pertenece a 0.249 +- 0.028 con un 95% de confianza
    Es obvio, que el caso 1 es un disparate, por lo que no sirve. Pero con este otro método, vemos que el caso 3 es mucho mejor que el caso 2. De hecho el caso 2: 0.235 +- 0.154, podría llegar a ser un 0.081, ó un 0.389, y ambos distan mucho de aquél 25% que nosotros afirmábamos (nos habríamos desviado por mucho de la verdad).
    D. Ricardo, ojalá me haya seguido hasta aquí, ¿sabe si puedo haberme equivocado en algo?.

    Y una última cuestión. Tengo intención de avisar a Marisa (la divulgadora/investigadora) a que lea estas entradas. Usted, D. Ricardo, ¿cómo aconsejaría divulgar estos datos estadísticos de estudios sobre ensayos clínicos?.

    Saludos,
    Antonio.

    ResponderEliminar
  6. Estimado Antonio
    Para facilitar los cálculos le recomiendo que se descargue el programa EPIDAT de distribución libre, lo que le evitara cometer un gran número de errores. En los siguientes ejemplos los cálculos de los intervalos de confianza son aproximados ya que para proporciones próximas a 0 o a 100 no es aconsejable utilizar las aproximaciones a la normal y es preferible utilizar el método exacto, pero que evito por razones de brevedad.
    En el ejemplo 1 la proporción de cánceres en la muestra tratada con aspirina es del 0,9% y en la muestra no tratada 1,2%. Y aplicando los principios de la inferencia estadística, podríamos decir que en la población de la cual procede la muestra el IC 95% de la diferencia de proporciones está entre -1,3% ÷ 0,7%. p = 0,66 NS
    En el ejemplo 2 la proporción de canceres en la muestra tratada con aspirina es del 0,91% y en la muestra no tratada 1,18%. Y aplicando los principios de la inferencia estadística, podríamos decir que en la población de la cual procede la muestra el IC 95% de la diferencia de proporciones está entre -0,4% ÷ -0,1%. p = 0,0004
    En el ejemplo 2 la proporción de canceres en la muestra tratada con aspirina es del 0,9% y en la muestra no tratada 1,2%. Y aplicando los principios de la inferencia estadística, podríamos decir que en la población de la cual procede la muestra el IC 95% de la diferencia de proporciones está entre -0,03% ÷ -0,03%. p = 0,0000
    Las diferencias nos salen negativas, (no es un disparate como dice) porque en los grupos tratados con aspirina la proporción es menor que en los grupos no tratados y la diferencia es negativa a favor de esta) indicando el efecto protector de la aspirina. En el ejemplo 1 el intervalo de confianza engloba el 0 (no el 1 como seria en el caso de que estuviéramos calculando intervalos de confianza de RR u OR) y en consecuencia podemos esperar que el valor de la p sea mayor de 0,05. En el caso del ejemplo 1 concluiríamos que no podemos rechazar la hipotesis nula y que en la población de la que proceden las muestras la aspirina puede ser desde un factor protector a un factor de riesgo de cáncer.
    Los ejemplos que nos propone nos permiten evidenciar algo conocido, al aumentar el tamaño muestral (manteniéndose la proporción) el intervalo de confianza se va estrechando, hasta el extremo de que si estudiamos a toda la población no tendremos un intervalo de confianza, sino el parámetro poblacional. Esto es la base del concepto de error aleatorio, error imputable a trabajar con muestras y que desparece al estudiar a toda la población. Se mide a través del valor del intervalo de confianza y el nivel de seguridad con la que se da ese intervalo de confianza y será mas pequeño (intervalo de confianza mas estrecho) cuanto mayor sea el tamaño de la muestra.
    La conclusión que podríamos obtener es que si yo realizo el experimento 1, diseñado con poca potencia (muestra pequeña ) y encuentro resultados relevantes (la relevancia no depende exclusivamente del valor absoluto de la diferencia de proporciones, RR, OR, sino de la importancia clínica o epidemiologia del efecto: por ejemplo una reducción de un 1% de mortalidad es muy relevante ) aunque no sea estadísticamente significativos debería publicar mis resultados para que otro investigador realice el estudio con mas potencia.
    En cualquier caso, lamentándolo mucho, por disponibilidades de tiempo, le comunico que es la última respuesta que le realizo sobre esta cuestión. Le recomiendo el libro de Rafael Alvarez Caceres, Estadística aplicada a las ciencias de la salud. Editorial Diaz de Santos
    Un saludo

    ResponderEliminar

Publicar un comentario

Este es un blog dirigido a profesionales sanitarios. Los comentarios están sujetos a moderación por el autor antes de su publicación, no admitiéndose publicidad, comentarios no profesionales, no fundamentados científicamente, ni aquellos que resulte inapropiados u ofensivos, etc. Tampoco, en ningún caso a través del blog o correo electrónico, se atenderán casos clínicos particulares ni se dará información personalizada. Si algún paciente desea ser atendido en consulta puede solicitar cita en el teléfono indicado para tal fin.

Post más populares

Eczema dishidrótico e hiperhidrosis

RESUMEN El eczema dishidrótico es una dermatitis crónica, relativamente frecuente que afecta a las manos y a los pies. Se caracteriza por la aparición de vesículas de 1 a 2 mm, recurrentes y crónicas, en palmas, plantas, y caras laterales de los dedos, acompañadas o incluso precedidas de prurito.  Su etiología es desconocida, sospechándose que interviene la propia sudoración sobre un fondo atópico. También se la denomina dermatitis eczematosa dishidrótica, eczema paráptico o pómpholix, soliendose reservar el términos pómpholix para el subgrupo de pacientes que presentan erupciones agudas de grandes bullas en manos y pies. La historia clínica y la exploración física suelen ser suficiente para establecer el diagnostico, caracterizándose por presentar las lesiones descritas y seguir un curso cíclico, alternando recurrencias con remisiones, que a menudo se resuelve sin tratamiento. Algunos pacientes deberán ser tratados para disminuir la duración de las lesiones y prevenir las

Pitiriasis Rosada de Gibert

La pitiriasis rosada de Gibert (PR) es una enfermedad inflamatoria de la piel de etiología desconocida, aunque se sospecha que pueda ser de etiología infecciosa, más frecuente en mujeres y que se presenta como una enfermedad aguda, autolimitada, caracterizada por la aparición de una erupción inflamatoria, inicialmente una sola lesión más grande, la placa heráldica, seguida por pequeñas lesiones ovales papuloescamosas. Epidemiologia Se estima que la incidencia de la pitiriasis rosada es de alrededor de 170 por 100.000, con una prevalencia del 0,6% en personas de 10 a 29 años.  Aunque se ha descritos en todas las edades, desde niños hasta ancianos, el 75% de los casos se presentan en pacientes de 10 a 35 años. Es un 50% más común en las mujeres que en los hombres. Las recurrencias son poco frecuentes, aproximadamente en el 2,8% de los casos, la mayoría de los casos pacientes inmunodeprimidos.  Se han descrito casos coincidentes en el mismo domicilio. Etiología La causa

Úlceras de la boca

RESUMEN Las úlceras de la cavidad oral son trastornos frecuentes producidos por una pérdida de solución de continuidad del epitelio de la mucosa oral, acompañado de una pérdida variable del tejido conectivo subyacente, que puede acompañarse de  edema y / o la proliferación de los tejidos circundantes lo que puede conferir a la úlcera un aspecto crateriforme. En la mayoría de los casos las úlceras orales son transitorias y se resuelven espontáneamente.  Sin embargo, algunas son motivo de consulta médica.  Su diagnóstico, en la mayoría de los casos, se basa en una correcta historia clínica y en el examen físico. Sin embargo, ante la sospecha de neoplasia,  pacientes inmunodeprimidos, (por ejemplo, infección por el VIH, pacientes en tratamiento con quimioterapia, malnutridos, etc.) y ante úlceras crónicas será  necesario realizar una evaluación más amplia. CLASIFICACIÓN En función de su duración, las úlceras se clasifican en agudas, se resuelven en menos de 2 semanas

Dermatitis seborreica

La dermatitis seborreica es una enfermedad inflamatoria frecuente de la piel, que causa eritema, escamas, costras y caspa, afectando al cuero cabelludo, pliegues nasolabiales y retroauriculares, entrecejo y  región interescapular y  preesternal del torax.  EPIDEMIOLOGÍA La dermatitis seborreica es un trastorno común, con una prevalencia de aproximadamente 1-2% en la población general, ligeramente más frecuente en hombres que en mujeres y mas frecuente en la raza negra. Existen tres picos de mayor prevalencia: en la infancia (los primeros tres meses de vida, siendo la manifestación mas frecuente la costra láctea) y en la edad adulta, tras la pubertad, y desde la cuarta a séptima década de la vida. ETIOLOGÍA La etiología de la dermatitis seborreica es desconocida. Vario factores se involucran en su etiología: factores genéticos, emocionales, atópicos, neurológicos, bacterianos, hormonales, alimentarios, medicamentosos, estrés y alcoholismo. Los cambios hormona

Poliglobulias: Aspectos prácticos para el médico de familia

INTRODUCCIÓN La policitemia o poliglobulia se define como un aumento en la masa eritrocitaria. Se caracteriza  por un incremento del número de hematíes y/o de la cantidad de hemoglobina por unidad de volumen de sangre. El parámetro hematológico mas apropiado para su valoración es el hematocrito, debiéndose sospechar poliglobulia cuando este se sitúa de forma mantenida dos desviaciones estándar por encima de la media normal: 52% en varones y al 48% en mujeres. En caso de utilizarse la hemoglobina se debe sospechar poliglobulia cuando la hemoglobina es mayor de 18,5 g/dl en varones y de 16,5 g/dl en mujeres.   CLASIFICACIÓN Y ETIOLOGÍA Es importante diferenciar si la poliglobulia es absoluta, con un aumento real de la masa eritrocitaria, o relativa, en la que hay un incremento de la concentración de hematíes por una pérdida del volumen plasmático, pero la masa eritrocitaria es normal. Poliglobulia relativa o ficticia  Es la poliglobulia que se produce por disminuc