La estadística es el conjunto de métodos que nos permite clasificar, representar, resumir, analizar e inferir datos.
ESTADÍSTICA DESCRIPTIVA
Su objetivo es representar y resumir los resultados. Nos ayuda a describir un conjunto de datos.
ESTADÍSTICA INFERENCIAL
Su objetivo es proyectar los resultados recogidos en muestras hacia las poblaciones de las que proceden sus datos así como contrastar hipótesis.
GLOSARIO DE TÉRMINOS
- Variables: Características que queremos medir de un población.
- Datos: Valores de las variables que medimos.
- Población: Conjunto de individuos u objetos sobre los cuales se desea conocer el comportamiento de las características de interés.
- Muestra: Subconjunto o parte de la población sobre los que realizamos realmente las mediciones con la idea de obtener conclusiones que se generalizan a la población.
- Muestreo: Técnica estadística que proporciona una muestra representativa de la población.
- Parámetro : Medida de interés calculada sobre la población a estudio.
- Estadístico: Medida calculada sobre los datos de una muestra.
- Estimador: Cuando un estadístico se utiliza para aproximarnos al valor de un parámetro, se le llama estimador.
TIPO DE VARIABLES
Variables Cualitativas: miden una “cualidad” que no se pueden representar numéricamente. (sexo, estado civil, profesión, nivel de estudios). Si solo tiene dos posibles valores se denominan dicotómicas (siguen la distribución binomial)
Para medir estas variables, se pueden utilizar las escalas:
- Nominal: Los datos se ajustan a categorías que no tienen relación de orden entre sí (el sexo, la profesión el estado civil, presencia o no de una patología).
- Ordinal: Existe una jerarquía, una relación de orden entre las categorías (nivel de estudios, grado de satisfacción: mucho, normal, poco).
Variables Cuantitativas: son aquellas cuyos valores pueden ser expresados numéricamente y esta numeración no es una simple codificación, sino que existe una correspondencia entre el valor de la variable y la representación numérica de la misma.
- Discretas: entre dos valores consecutivos no podemos encontrar ningún otro valor (nº finito de valores: números naturales/enteros). Ej.: numero de hijos.
- Continuas: entre dos valores consecutivos hay un número infinito de valores (números reales). Ej.: peso, talla.
MEDIDAS DESCRIPTIVAS DE VARIABLES CUALITATIVAS
Frecuencia absoluta (fa): número de veces que se ha observado el valor de una variable.
Frecuencia relativa (fr): es la frecuencia absoluta dividida por el número de casos estudiados (n). Es sinónimo de probabilidad, proporción (x 100) o tanto por uno.
fr = fa / n Porcentaje = fr x 100
|
MEDIDAS DESCRIPTIVAS DE VARIABLES CUANTITATIVAS
Un forma de sintetizar la información que nos proporcionan los datos son las medidas descriptivas.
Se dividen en:
TENDENCIA CENTRAL
|
-MEDIA
-MEDIANA -MODA | |||
DISPERSIÓN
|
-RANGO O AMPLITUD
-VARIANZA
-DESVIACIÓN ESTÁNDAR
-COEFICIENTE DE VARIACIÓN
-PERCENTILES
| |||
FORMA
|
-COEFICIENTE DE ASIMETRÍA
-COEFICIENTE DE KURTOSIS | |||
Media
La media aritmética de los datos es la suma de los valores de una variable dividido por el número total de datos. X=Σxi/n
Es la medida de tendencia central más informativa, ya que tiene en cuenta el valor de todas las observaciones. Es la de más fácil tratamiento estadístico. Es una buena medida de tendencia central porque fluctúa menos entre varias muestras de la misma población que la mediana o la moda.
Debe distinguirse entre la media obtenida en una muestra (X) o (M) y la autentica media poblacional (μ).
Inconvenientes de la media:
Resulta poco representativa cuando existen valores extremos. En estos casos se recomienda usar la MEDIANA que da mejor información
No se debería utilizar en variables cualitativas nominales ni ordinales.
Mediana
Es el valor que divide en dos partes iguales el número de observaciones (n). Para calcular una mediana se ordenan las observaciones de menor a mayor:
Si n es impar, la mediana es la observación situada en el orden (n+1)/2, es decir, el dato central.
Si n es par, la mediana es la media entre las observaciones situadas en el orden n/2 y (n/2)+1.
La mediana es más representativa que la media en distribuciones con valores extremos, siendo en estas situaciones la medida de centralización que se debe utilizar.
Moda
Es aquel valor de la variable que mas frecuentemente se repite en la serie estadística. Según la moda, las distribuciones de las variables se pueden clasificar en unimodales y multimodales (bimodales, trimodales, etc).
En el caso particular de las variables continuas se habla de intervalo modal.
Rango o amplitud o recorrido
Es la diferencia entre el máximo y mínimo de los valores observados
Desviación media
Es la media aritmética de los valores absolutos de las diferencias de todos los datos respecto a la media aritmética
DM=Σ(xi-X)/n
Se utilizan valores absolutos, ya que si no fuera así, las diferencias se contrarrestarían y seria cero
Varianza y desviación típica o estándar
Otra manera de eliminar la anulación del resultado en la expresión Σ(xi-X)/n es elevando (xi-X) al cuadrado. Σ(xi-X)2/n.
La varianza es la media de los cuadrados de las diferencias entre cada valor de la variable y la media aritmética de la distribución.
En caso de que nos refiramos a la varianza poblacional la representaremos por:
σ2= Σ(xi- μ)2/N
σ2= Σ(xi- μ)2/N
La varianza muestral la representaremos por: S2= Σ(xi-X)2/n-1
Cuando la varianza se calcula en una muestra, el cálculo tiene por denominador n-1, El haber cambiado el denominador de n por n-1 está en relación al hecho de que esta segunda expresión es una estimación más precisa de la desviación estándar verdadera de la población y posee las propiedades que necesitamos para realizar inferencias a la población.
La varianza representa unidades cuadráticas, por tanto NO es adecuada cuando se quiere expresar la dispersión en unidades originales.
La desviación típica o estándar es la raíz cuadrada de la varianza. El objetivo de la desviación estándar es volver a unidades originales. Es la medida de dispersión más informativa, pues se basa en todas las observaciones, teniendo en cuenta el valor de cada una.
Se utilizan ampliamente a causa de las propiedades de la curva normal teórica, y por la importancia de la varianza en la estadística inductiva (inferencia)
Es conveniente recordar que una variable con distribución normal:
- σ± 1 incluye el 68% de las observaciones.
- σ± 2 incluye el 95 % de los datos (exactamente es 1,96 en vez de 2, como se verá en temas posteriores).
- σ± 3 incluye prácticamente el 100%.
Su resultado se afecta por valores extremos. En estos casos, aportan mejor información los percentiles.
Los valores muy alejados de la media, "extraños" se les suele llamar "Outliers", y una de las formas que hay para definir cuando un valor es un outlier, es considerarlo cuando está alejado más de 3 DE de la media, es decir, por fuera del intervalo ± 3
Percentiles
El percentil es una medida de posición. Es el valor que deja por debajo de sí un determinado porcentaje de las observaciones, estando estas ordenadas de menor a mayor, es decir, el percentil 20 corresponde al valor que deja por debajo al 20% de los datos.
- A los percentiles 10, 20, 30, 40, 50, 60, 70, 80, 90 se les llama DECILES.
- A los percentiles 25, 50, 75 se les llama CUARTILES.
- A los percentiles 20, 40, 60, 80 se les llama QUINTILES.
- La mediana es el percentil 50
A la distancia entre los cuartiles 25 y 75 se le llama INTERVALO INTERQUARTÍLICO.
Cuando la distribución contiene valores extremos se recomienda utilizar, para resumir los datos de la misma, la mediana y el intervalo interquartílico.
REPRESENTACIONES GRÁFICAS
Diagrama de barras
En el eje de las x se colocan los valores de las variables en el de las y las frecuencias absolutas o relativas. Adecuado para variables cualitativas
Histograma
Es un diagrama de barras en el que las barras están unidas. Es la representación gráfica más utilizada. Es el más adecuado para variables cuantitativas y cualitativas ordinales.
En el eje de las x se colocan los valores de las variables en el de las y las frecuencias absolutas o relativas. El área de cada barra corresponde a la frecuencia de los valores presentes en el eje de las x.
Sectores circulares (tarta)
Se trata de un círculo en el que a cada clase o valor de x se le asigna un sector proporcional a su frecuencia absoluta o relativa.
No resulta adecuada cuando las variables tiene muchos valores ( Ideal para 3 – 5 valores)
Polígono de frecuencias
Se realiza a partir del histograma, buscando el punto medio (marca de clase) de la parte superior de los intervalos de clase. Es especialmente útil para conocer la evolución de las frecuencias al aumentar los valores de las x.
Lo felicito doctor por su dedicacion, servicio y claridad.
ResponderEliminarSiga adelante por favor por el bien de toda la comunidad.
Dr. Alejandro Cabrera