Estadística descriptiva


La estadística es el conjunto de métodos que nos permite clasificar, representar, resumir, analizar e inferir datos.

ESTADÍSTICA DESCRIPTIVA

Su objetivo es representar y resumir los resultados. Nos ayuda a describir un conjunto de datos.

ESTADÍSTICA INFERENCIAL

Su objetivo es proyectar los resultados recogidos en muestras hacia las poblaciones de las que proceden sus datos  así como contrastar hipótesis.
 
GLOSARIO DE TÉRMINOS
  • Variables: Características que queremos medir de un población.
  • Datos: Valores de las variables que medimos.
  • Población: Conjunto de individuos u objetos sobre los cuales se desea conocer el comportamiento de las características de interés.
  • Muestra: Subconjunto o parte de la población sobre los que realizamos realmente las mediciones con la idea de obtener conclusiones que se generalizan a la población.
  • Muestreo: Técnica estadística que proporciona una muestra representativa de la población.
  • Parámetro : Medida de interés calculada sobre la población a estudio. 
  • Estadístico: Medida calculada sobre los datos de una muestra.
  • Estimador: Cuando un estadístico se utiliza para aproximarnos al valor de un parámetro, se le llama estimador.
TIPO DE VARIABLES

Variables Cualitativas: miden una “cualidad” que no se pueden representar numéricamente. (sexo, estado civil, profesión, nivel de estudios). Si solo tiene dos posibles valores se denominan dicotómicas (siguen la distribución binomial)
         
Para medir estas variables, se pueden utilizar las escalas:
  • Nominal: Los datos se ajustan a categorías que no tienen relación de orden entre sí (el sexo, la profesión el estado civil, presencia o no de una patología).
  • Ordinal: Existe una jerarquía, una relación de orden  entre las categorías (nivel de estudios, grado de satisfacción: mucho, normal, poco).
Variables Cuantitativas: son aquellas cuyos valores pueden ser expresados numéricamente y esta numeración no es una simple codificación, sino que existe una correspondencia entre el valor de la variable y la representación numérica de la misma.
  • Discretas: entre dos valores consecutivos no podemos encontrar ningún otro valor (nº finito de valores: números naturales/enteros). Ej.: numero de hijos.
  • Continuas: entre dos valores consecutivos hay un número infinito de valores (números reales). Ej.: peso, talla.
MEDIDAS DESCRIPTIVAS DE VARIABLES CUALITATIVAS
 
Frecuencia absoluta (fa):  número de veces que se ha observado el valor de una variable.

Frecuencia relativa (fr):  es la frecuencia absoluta dividida por el número de casos estudiados (n).  Es sinónimo de probabilidad, proporción (x 100) o tanto por uno.


fr =  fa / n                      Porcentaje = fr x 100

MEDIDAS DESCRIPTIVAS DE VARIABLES CUANTITATIVAS

Un forma de sintetizar la información que nos proporcionan los datos son las  medidas descriptivas.

Se dividen en:

TENDENCIA CENTRAL

-MEDIA
-MEDIANA
-MODA


DISPERSIÓN

-RANGO O AMPLITUD
-VARIANZA
-DESVIACIÓN ESTÁNDAR
-COEFICIENTE DE VARIACIÓN
-PERCENTILES



FORMA

-COEFICIENTE DE ASIMETRÍA
-COEFICIENTE DE KURTOSIS






Media

La media aritmética de los datos es la suma de los valores de una variable  dividido por el número total de datos. X=Σxi/n             

Es la medida de tendencia central más informativa, ya que tiene en cuenta el valor de todas las observaciones. Es la de más fácil tratamiento estadístico. Es una buena medida de tendencia central porque fluctúa menos entre varias muestras de la misma población que la mediana o la moda.

Debe distinguirse entre la media obtenida en una muestra (X) o (M)  y la autentica media poblacional (μ).

Inconvenientes de la media:

Resulta poco representativa cuando existen valores extremos. En estos casos se recomienda usar la MEDIANA que da mejor información
No se debería utilizar en variables cualitativas nominales ni ordinales.

Mediana

Es el valor que divide en dos partes iguales el número de observaciones (n). Para calcular una mediana se ordenan las observaciones de menor a mayor:

Si n es impar, la mediana es la observación situada en el orden (n+1)/2, es decir, el dato central.
Si n es par, la mediana es la media entre las observaciones situadas en el orden n/2 y (n/2)+1.

La mediana es más representativa que la media en distribuciones con valores extremos, siendo en estas situaciones la medida de centralización que se debe utilizar.

Moda

Es aquel valor de la variable que mas frecuentemente se repite en la serie estadística. Según la moda, las distribuciones de las variables se pueden clasificar en unimodales y multimodales (bimodales, trimodales, etc).

En el caso particular de las variables continuas se habla de intervalo modal.

Rango o amplitud o recorrido

Es la diferencia entre el máximo y mínimo de los valores observados

Desviación media

Es la media aritmética de los valores absolutos de las diferencias de todos los datos respecto a la media aritmética
DM=Σ(xi-X)/n

Se utilizan valores absolutos, ya que si no fuera así, las diferencias se contrarrestarían y seria cero

Varianza y desviación típica o estándar

Otra manera de eliminar la anulación del resultado en la expresión Σ(xi-X)/n es elevando (xi-X) al cuadrado. Σ(xi-X)2/n.

La varianza es la media de los cuadrados de las diferencias entre cada valor de la variable y la media aritmética de la distribución.

En caso de que nos refiramos a la varianza poblacional la representaremos por:
σ2= Σ(xi- μ)2/N      

La varianza muestral la representaremos por: S2=  Σ(xi-X)2/n-1     

Cuando la varianza se calcula en una muestra, el cálculo tiene por denominador n-1, El haber cambiado el denominador de n por n-1 está en relación al hecho de que esta segunda expresión es una estimación más precisa de la desviación estándar verdadera de la población y posee las propiedades que necesitamos para realizar inferencias a la población.

La varianza representa unidades cuadráticas, por tanto NO es adecuada cuando se quiere expresar la dispersión en unidades originales. 

La desviación típica o estándar es la raíz cuadrada de la varianza. El objetivo de la desviación estándar es volver a unidades originales. Es la medida de dispersión más informativa, pues se basa en todas las  observaciones, teniendo en cuenta el valor de cada una.

Se utilizan ampliamente a causa de las propiedades de la curva normal teórica, y por la importancia de la varianza en la estadística inductiva (inferencia)

Es conveniente recordar que una variable con distribución normal:
  • σ± 1  incluye el 68% de las observaciones.
  • σ± 2  incluye el 95 % de los datos (exactamente es 1,96 en vez de 2, como se verá en temas posteriores).
  • σ± 3  incluye prácticamente el 100%.
Su resultado se afecta por valores extremos. En estos casos, aportan mejor información los percentiles.
Los valores muy alejados de la media, "extraños" se les suele llamar "Outliers", y una de las formas que hay para definir cuando un valor es un outlier, es considerarlo cuando está alejado más de 3 DE de la media, es decir, por fuera del intervalo ± 3

Percentiles

El percentil es una medida de posición. Es el valor que deja por debajo de sí un determinado porcentaje de las observaciones, estando estas ordenadas de menor a mayor, es decir, el percentil 20 corresponde al valor que deja por debajo al 20% de los datos.
  • A los percentiles 10, 20, 30, 40, 50, 60, 70, 80, 90 se les llama DECILES.
  • A los percentiles 25, 50, 75 se les llama CUARTILES.
  • A los percentiles 20, 40, 60, 80 se les llama QUINTILES.
  • La mediana es el percentil 50
A la distancia entre los cuartiles 25 y 75 se le llama INTERVALO INTERQUARTÍLICO.

Cuando la distribución contiene valores extremos se recomienda utilizar, para resumir los datos de la misma, la mediana y el intervalo interquartílico.

REPRESENTACIONES GRÁFICAS

Diagrama de barras

En el eje de las x se colocan los valores de las variables en el de las y las frecuencias absolutas o relativas. Adecuado para variables cualitativas

Histograma

Es un diagrama de barras en el que las barras están unidas. Es la representación gráfica más utilizada. Es el más adecuado para variables cuantitativas y cualitativas ordinales.
En el eje de las x se colocan los valores de las variables en el de las y las frecuencias absolutas o relativas. El área de cada barra corresponde a la frecuencia de los valores presentes en el eje de las x.

Sectores circulares (tarta)

Se trata de un círculo en el que a cada clase o valor de x se le asigna un sector proporcional a su frecuencia absoluta o relativa.
No resulta adecuada cuando las variables tiene muchos valores ( Ideal para 3 – 5 valores)

Polígono de frecuencias

Se realiza a partir del histograma, buscando el punto medio (marca de clase) de la parte superior de los intervalos de clase. Es especialmente útil para conocer la evolución de las frecuencias al aumentar los valores de las x.

Diagrama de dispersión

Nos permite comprobar gráficamente si existe correlación entre dos variables cuantitativas. Se confrontan en el eje horizontal una variable (x) y en el vertical la otra (y).












































Comentarios

  1. Lo felicito doctor por su dedicacion, servicio y claridad.
    Siga adelante por favor por el bien de toda la comunidad.
    Dr. Alejandro Cabrera

    ResponderEliminar

Publicar un comentario

Este es un blog dirigido a profesionales sanitarios. Los comentarios están sujetos a moderación por el autor antes de su publicación, no admitiéndose publicidad, comentarios no profesionales, no fundamentados científicamente, ni aquellos que resulte inapropiados u ofensivos, etc. Tampoco, en ningún caso a través del blog o correo electrónico, se atenderán casos clínicos particulares ni se dará información personalizada. Si algún paciente desea ser atendido en consulta puede solicitar cita en el teléfono indicado para tal fin.