Ir al contenido principal

Estadística descriptiva


La estadística es el conjunto de métodos que nos permite clasificar, representar, resumir, analizar e inferir datos.

ESTADÍSTICA DESCRIPTIVA

Su objetivo es representar y resumir los resultados. Nos ayuda a describir un conjunto de datos.

ESTADÍSTICA INFERENCIAL

Su objetivo es proyectar los resultados recogidos en muestras hacia las poblaciones de las que proceden sus datos  así como contrastar hipótesis.
 
GLOSARIO DE TÉRMINOS
  • Variables: Características que queremos medir de un población.
  • Datos: Valores de las variables que medimos.
  • Población: Conjunto de individuos u objetos sobre los cuales se desea conocer el comportamiento de las características de interés.
  • Muestra: Subconjunto o parte de la población sobre los que realizamos realmente las mediciones con la idea de obtener conclusiones que se generalizan a la población.
  • Muestreo: Técnica estadística que proporciona una muestra representativa de la población.
  • Parámetro : Medida de interés calculada sobre la población a estudio. 
  • Estadístico: Medida calculada sobre los datos de una muestra.
  • Estimador: Cuando un estadístico se utiliza para aproximarnos al valor de un parámetro, se le llama estimador.
TIPO DE VARIABLES

Variables Cualitativas: miden una “cualidad” que no se pueden representar numéricamente. (sexo, estado civil, profesión, nivel de estudios). Si solo tiene dos posibles valores se denominan dicotómicas (siguen la distribución binomial)
         
Para medir estas variables, se pueden utilizar las escalas:
  • Nominal: Los datos se ajustan a categorías que no tienen relación de orden entre sí (el sexo, la profesión el estado civil, presencia o no de una patología).
  • Ordinal: Existe una jerarquía, una relación de orden  entre las categorías (nivel de estudios, grado de satisfacción: mucho, normal, poco).
Variables Cuantitativas: son aquellas cuyos valores pueden ser expresados numéricamente y esta numeración no es una simple codificación, sino que existe una correspondencia entre el valor de la variable y la representación numérica de la misma.
  • Discretas: entre dos valores consecutivos no podemos encontrar ningún otro valor (nº finito de valores: números naturales/enteros). Ej.: numero de hijos.
  • Continuas: entre dos valores consecutivos hay un número infinito de valores (números reales). Ej.: peso, talla.
MEDIDAS DESCRIPTIVAS DE VARIABLES CUALITATIVAS
 
Frecuencia absoluta (fa):  número de veces que se ha observado el valor de una variable.

Frecuencia relativa (fr):  es la frecuencia absoluta dividida por el número de casos estudiados (n).  Es sinónimo de probabilidad, proporción (x 100) o tanto por uno.


fr =  fa / n                      Porcentaje = fr x 100

MEDIDAS DESCRIPTIVAS DE VARIABLES CUANTITATIVAS

Un forma de sintetizar la información que nos proporcionan los datos son las  medidas descriptivas.

Se dividen en:

TENDENCIA CENTRAL

-MEDIA
-MEDIANA
-MODA


DISPERSIÓN

-RANGO O AMPLITUD
-VARIANZA
-DESVIACIÓN ESTÁNDAR
-COEFICIENTE DE VARIACIÓN
-PERCENTILES



FORMA

-COEFICIENTE DE ASIMETRÍA
-COEFICIENTE DE KURTOSIS






Media

La media aritmética de los datos es la suma de los valores de una variable  dividido por el número total de datos. X=Σxi/n             

Es la medida de tendencia central más informativa, ya que tiene en cuenta el valor de todas las observaciones. Es la de más fácil tratamiento estadístico. Es una buena medida de tendencia central porque fluctúa menos entre varias muestras de la misma población que la mediana o la moda.

Debe distinguirse entre la media obtenida en una muestra (X) o (M)  y la autentica media poblacional (μ).

Inconvenientes de la media:

Resulta poco representativa cuando existen valores extremos. En estos casos se recomienda usar la MEDIANA que da mejor información
No se debería utilizar en variables cualitativas nominales ni ordinales.

Mediana

Es el valor que divide en dos partes iguales el número de observaciones (n). Para calcular una mediana se ordenan las observaciones de menor a mayor:

Si n es impar, la mediana es la observación situada en el orden (n+1)/2, es decir, el dato central.
Si n es par, la mediana es la media entre las observaciones situadas en el orden n/2 y (n/2)+1.

La mediana es más representativa que la media en distribuciones con valores extremos, siendo en estas situaciones la medida de centralización que se debe utilizar.

Moda

Es aquel valor de la variable que mas frecuentemente se repite en la serie estadística. Según la moda, las distribuciones de las variables se pueden clasificar en unimodales y multimodales (bimodales, trimodales, etc).

En el caso particular de las variables continuas se habla de intervalo modal.

Rango o amplitud o recorrido

Es la diferencia entre el máximo y mínimo de los valores observados

Desviación media

Es la media aritmética de los valores absolutos de las diferencias de todos los datos respecto a la media aritmética
DM=Σ(xi-X)/n

Se utilizan valores absolutos, ya que si no fuera así, las diferencias se contrarrestarían y seria cero

Varianza y desviación típica o estándar

Otra manera de eliminar la anulación del resultado en la expresión Σ(xi-X)/n es elevando (xi-X) al cuadrado. Σ(xi-X)2/n.

La varianza es la media de los cuadrados de las diferencias entre cada valor de la variable y la media aritmética de la distribución.

En caso de que nos refiramos a la varianza poblacional la representaremos por:
σ2= Σ(xi- μ)2/N      

La varianza muestral la representaremos por: S2=  Σ(xi-X)2/n-1     

Cuando la varianza se calcula en una muestra, el cálculo tiene por denominador n-1, El haber cambiado el denominador de n por n-1 está en relación al hecho de que esta segunda expresión es una estimación más precisa de la desviación estándar verdadera de la población y posee las propiedades que necesitamos para realizar inferencias a la población.

La varianza representa unidades cuadráticas, por tanto NO es adecuada cuando se quiere expresar la dispersión en unidades originales. 

La desviación típica o estándar es la raíz cuadrada de la varianza. El objetivo de la desviación estándar es volver a unidades originales. Es la medida de dispersión más informativa, pues se basa en todas las  observaciones, teniendo en cuenta el valor de cada una.

Se utilizan ampliamente a causa de las propiedades de la curva normal teórica, y por la importancia de la varianza en la estadística inductiva (inferencia)

Es conveniente recordar que una variable con distribución normal:
  • σ± 1  incluye el 68% de las observaciones.
  • σ± 2  incluye el 95 % de los datos (exactamente es 1,96 en vez de 2, como se verá en temas posteriores).
  • σ± 3  incluye prácticamente el 100%.
Su resultado se afecta por valores extremos. En estos casos, aportan mejor información los percentiles.
Los valores muy alejados de la media, "extraños" se les suele llamar "Outliers", y una de las formas que hay para definir cuando un valor es un outlier, es considerarlo cuando está alejado más de 3 DE de la media, es decir, por fuera del intervalo ± 3

Percentiles

El percentil es una medida de posición. Es el valor que deja por debajo de sí un determinado porcentaje de las observaciones, estando estas ordenadas de menor a mayor, es decir, el percentil 20 corresponde al valor que deja por debajo al 20% de los datos.
  • A los percentiles 10, 20, 30, 40, 50, 60, 70, 80, 90 se les llama DECILES.
  • A los percentiles 25, 50, 75 se les llama CUARTILES.
  • A los percentiles 20, 40, 60, 80 se les llama QUINTILES.
  • La mediana es el percentil 50
A la distancia entre los cuartiles 25 y 75 se le llama INTERVALO INTERQUARTÍLICO.

Cuando la distribución contiene valores extremos se recomienda utilizar, para resumir los datos de la misma, la mediana y el intervalo interquartílico.

REPRESENTACIONES GRÁFICAS

Diagrama de barras

En el eje de las x se colocan los valores de las variables en el de las y las frecuencias absolutas o relativas. Adecuado para variables cualitativas

Histograma

Es un diagrama de barras en el que las barras están unidas. Es la representación gráfica más utilizada. Es el más adecuado para variables cuantitativas y cualitativas ordinales.
En el eje de las x se colocan los valores de las variables en el de las y las frecuencias absolutas o relativas. El área de cada barra corresponde a la frecuencia de los valores presentes en el eje de las x.

Sectores circulares (tarta)

Se trata de un círculo en el que a cada clase o valor de x se le asigna un sector proporcional a su frecuencia absoluta o relativa.
No resulta adecuada cuando las variables tiene muchos valores ( Ideal para 3 – 5 valores)

Polígono de frecuencias

Se realiza a partir del histograma, buscando el punto medio (marca de clase) de la parte superior de los intervalos de clase. Es especialmente útil para conocer la evolución de las frecuencias al aumentar los valores de las x.

Diagrama de dispersión

Nos permite comprobar gráficamente si existe correlación entre dos variables cuantitativas. Se confrontan en el eje horizontal una variable (x) y en el vertical la otra (y).












































Comentarios

  1. Lo felicito doctor por su dedicacion, servicio y claridad.
    Siga adelante por favor por el bien de toda la comunidad.
    Dr. Alejandro Cabrera

    ResponderEliminar

Publicar un comentario

Este es un blog dirigido a profesionales sanitarios. Los comentarios están sujetos a moderación por el autor antes de su publicación, no admitiéndose publicidad, comentarios no profesionales, no fundamentados científicamente, ni aquellos que resulte inapropiados u ofensivos, etc. Tampoco, en ningún caso a través del blog o correo electrónico, se atenderán casos clínicos particulares ni se dará información personalizada. Si algún paciente desea ser atendido en consulta puede solicitar cita en el teléfono indicado para tal fin.

Post más populares

Eczema dishidrótico e hiperhidrosis

RESUMEN El eczema dishidrótico es una dermatitis crónica, relativamente frecuente que afecta a las manos y a los pies. Se caracteriza por la aparición de vesículas de 1 a 2 mm, recurrentes y crónicas, en palmas, plantas, y caras laterales de los dedos, acompañadas o incluso precedidas de prurito.  Su etiología es desconocida, sospechándose que interviene la propia sudoración sobre un fondo atópico. También se la denomina dermatitis eczematosa dishidrótica, eczema paráptico o pómpholix, soliendose reservar el términos pómpholix para el subgrupo de pacientes que presentan erupciones agudas de grandes bullas en manos y pies. La historia clínica y la exploración física suelen ser suficiente para establecer el diagnostico, caracterizándose por presentar las lesiones descritas y seguir un curso cíclico, alternando recurrencias con remisiones, que a menudo se resuelve sin tratamiento. Algunos pacientes deberán ser tratados para disminuir la duración de las lesiones y prevenir las

Pitiriasis Rosada de Gibert

La pitiriasis rosada de Gibert (PR) es una enfermedad inflamatoria de la piel de etiología desconocida, aunque se sospecha que pueda ser de etiología infecciosa, más frecuente en mujeres y que se presenta como una enfermedad aguda, autolimitada, caracterizada por la aparición de una erupción inflamatoria, inicialmente una sola lesión más grande, la placa heráldica, seguida por pequeñas lesiones ovales papuloescamosas. Epidemiologia Se estima que la incidencia de la pitiriasis rosada es de alrededor de 170 por 100.000, con una prevalencia del 0,6% en personas de 10 a 29 años.  Aunque se ha descritos en todas las edades, desde niños hasta ancianos, el 75% de los casos se presentan en pacientes de 10 a 35 años. Es un 50% más común en las mujeres que en los hombres. Las recurrencias son poco frecuentes, aproximadamente en el 2,8% de los casos, la mayoría de los casos pacientes inmunodeprimidos.  Se han descrito casos coincidentes en el mismo domicilio. Etiología La causa

Úlceras de la boca

RESUMEN Las úlceras de la cavidad oral son trastornos frecuentes producidos por una pérdida de solución de continuidad del epitelio de la mucosa oral, acompañado de una pérdida variable del tejido conectivo subyacente, que puede acompañarse de  edema y / o la proliferación de los tejidos circundantes lo que puede conferir a la úlcera un aspecto crateriforme. En la mayoría de los casos las úlceras orales son transitorias y se resuelven espontáneamente.  Sin embargo, algunas son motivo de consulta médica.  Su diagnóstico, en la mayoría de los casos, se basa en una correcta historia clínica y en el examen físico. Sin embargo, ante la sospecha de neoplasia,  pacientes inmunodeprimidos, (por ejemplo, infección por el VIH, pacientes en tratamiento con quimioterapia, malnutridos, etc.) y ante úlceras crónicas será  necesario realizar una evaluación más amplia. CLASIFICACIÓN En función de su duración, las úlceras se clasifican en agudas, se resuelven en menos de 2 semanas

Dermatitis seborreica

La dermatitis seborreica es una enfermedad inflamatoria frecuente de la piel, que causa eritema, escamas, costras y caspa, afectando al cuero cabelludo, pliegues nasolabiales y retroauriculares, entrecejo y  región interescapular y  preesternal del torax.  EPIDEMIOLOGÍA La dermatitis seborreica es un trastorno común, con una prevalencia de aproximadamente 1-2% en la población general, ligeramente más frecuente en hombres que en mujeres y mas frecuente en la raza negra. Existen tres picos de mayor prevalencia: en la infancia (los primeros tres meses de vida, siendo la manifestación mas frecuente la costra láctea) y en la edad adulta, tras la pubertad, y desde la cuarta a séptima década de la vida. ETIOLOGÍA La etiología de la dermatitis seborreica es desconocida. Vario factores se involucran en su etiología: factores genéticos, emocionales, atópicos, neurológicos, bacterianos, hormonales, alimentarios, medicamentosos, estrés y alcoholismo. Los cambios hormona

Poliglobulias: Aspectos prácticos para el médico de familia

INTRODUCCIÓN La policitemia o poliglobulia se define como un aumento en la masa eritrocitaria. Se caracteriza  por un incremento del número de hematíes y/o de la cantidad de hemoglobina por unidad de volumen de sangre. El parámetro hematológico mas apropiado para su valoración es el hematocrito, debiéndose sospechar poliglobulia cuando este se sitúa de forma mantenida dos desviaciones estándar por encima de la media normal: 52% en varones y al 48% en mujeres. En caso de utilizarse la hemoglobina se debe sospechar poliglobulia cuando la hemoglobina es mayor de 18,5 g/dl en varones y de 16,5 g/dl en mujeres.   CLASIFICACIÓN Y ETIOLOGÍA Es importante diferenciar si la poliglobulia es absoluta, con un aumento real de la masa eritrocitaria, o relativa, en la que hay un incremento de la concentración de hematíes por una pérdida del volumen plasmático, pero la masa eritrocitaria es normal. Poliglobulia relativa o ficticia  Es la poliglobulia que se produce por disminuc