Correlación de datos
Quizás te has hecho preguntas como ¿si es posible que una persona que coma sano viva más años?, ¿si existe alguna relación entre la cantidad de harinas consumidas en un día y el nivel de azúcar en la sangre? o ¿si obtener buenas calificaciones se relaciona con mayor tiempo de estudio?, y al mismo tiempo te cuestionas, ¿cómo puedes responder a estas preguntas?, la solución es con la correlación estadística, pues como ves todas éstas preguntas relacionan dos variables numéricas.
Por ende, para encontrar respuestas deberás usar una medida de relación lineal, bien sea el coeficiente de correlación o la correlación de Pearson, éstos análisis de correlación son el primer paso para poder construir modelos explicativos y predictivos más complejos, contestar preguntas y mejorar la toma de decisiones, por ello en el artículo te hablaremos acerca de que es la correlación estadística, como interpretarla, como medirla e incluso te daremos ejemplos para que entiendas como usarla.
Es un tipo de asociación entre dos variables numéricas, que evalúa la tendencia, creciente o decreciente, en los datos. Se dice que dos variables están asociadas cuando una nos da información sobre la otra, caso contrario ocurre cuando no hay asociación, entonces el aumento o disminución de una variable asociada a otra, nos dará información sobre cómo será el comportamiento de la otra variable.
Si se observa una tendencia creciente o decreciente entonces se puede afirmar que las dos variables se correlacionan, para poder dar inicio al análisis de una correlación lo mejor es comenzar haciendo un diagrama de dispersión entre las variables que quieres analizar.
Gracias a la correlación que brinda piezas vitales de información, podrás medir el signo y magnitud de la tendencia existente entre dos variables, pero para poder llegar a esas interpretaciones debes saber:
- El signo indica la dirección de la relación: un valor positivo es señal de una relación directa o positiva, si es negativo entonces la relación es indirecta, inversa o negativa, por su parte, un valor nulo significa que no hay una tendencia existente entre las variables, podría ser porque no hay una relación existente, o que la relación sea más compleja que una tendencia tal como una en forma de U.
- La magnitud indica la fuerza de la relación: también llamado coeficiente de correlación (r), puede tomar valores entre -1 a 1, mientras más cercano se encuentre el valor a los extremos de dicho intervalo más fuerte será la tendencia de las variables o menor será la dispersión existente en los puntos que rodean dicha tendencia. Por el contrario, si el coeficiente de correlación se acerca al cero, más débil será la tendencia y, por ende, habrá mayor dispersión en la nube de puntos.
Puede pasar que la correlación tenga un valor de -1 o 1, en cuyo caso se dirá que es perfecta, y si tiene un valor de 0, entonces las variables no tienen correlación.
- r> 0 es una relación positiva.
- r<0 es una relación negativa.
Éste parámetro solo es apropiado para examinar la relación entre datos cuantificables significativos, no para datos categóricos.
- Tamaño del efecto: en estadística esto hace referencia a una medida de la fuerza o magnitud de un fenómeno, en el caso del coeficiente de correlación, este es una medida del tamaño del efecto para la relación lineal existente entre dos variables numéricas, es un dato esencial para la interpretación de resultados en un estudio, su ausencia es un fallo bastante común en los artículos científicos.
Para poder analizar qué tan fuerte es la correlación se puede usar el criterio de Cohen (1988), que estipula que, para valores absolutos, se indica que valores entre:
- 0,1- 0,3 representan un efecto pequeño.
- 0,3- 0,5 un efecto medio.
- ≥ 0,5 un efecto grande.
Estos son valores arbitrarios, pero lo más recomendable es que interpretes la fuerza o tamaño de la correlación de acuerdo al contexto de tu investigación.
Para medir la correlación se usan coeficientes, entre los más usados se encuentra el de Pearson, que permite cuantificar tendencias lineales entre dos variables numéricas, y por su parte el de Spearman, que funciona para tendencias de aumento o disminución entre dos variables, no tienen que ser lineales, pero sí monótonas, lo que significa que las variables tienen a moverse en la misma dirección relativa, más no a un ritmo constante.
Sin embargo, a pesar de que el más usado es el coeficiente de correlación lineal de Pearson, éste método asume que la tendencia debe ser de tipo lineal, la inexistencia de valores atípicos u outliers, que las variables deben ser numé y en caso de que las variables sean de tipo ordinal no será aplicable la correlación de Pearson y asi mismo, asume que se cuenta con suficientes datos.
En base a lo antes mencionado, se debe tener claro que los dos primeros supuestos se pueden evaluar haciendo uso de un diagrama de dispersión, mientras que, en el caso de los últimos dos supuestos, bastara con observar los datos y evaluar que diseño se tiene.
Por ello cuando no se cumplan los requisitos del coeficiente de correlación lineal de Pearson, conviene usar el de Spearman, que se basa en los rangos de los valores, es una prueba no paramétrica, no asume una distribución previa de los datos y es más robusta en presencia de valores atípicos.
Para que visualices mejor todo lo que te hemos presentado hasta ahora, te daremos algunos ejemplos prácticos de cómo se usa la correlación estadística:
- Ejemplo práctico 1: cálculo del coeficiente de correlación lineal de Pearson con la función cor() instalada por defecto en los paquetes básicos de R. El ingreso de las variables puede hacerse como vectores con cor(x,y), sin importar cuál es “x” y cual es “y”, pues la relación es simétrica.
Se usarán el conjunto de datos Stackloss del paquete Mass (Brownlee, 1965), los cuales provienen de datos de una fábrica de oxidación de amonio (NH3) a ácido nítrico (HNO3). Se cuenta con 21 observaciones de 4 variables:
- Flujo de aire (representa la tasa de operación en la fábrica; Air.Flow).
- Temperatura del agua (Water.Temp).
- Concentración de ácido (un valor de 89 corresponde a 58,9%; Acid.Conc).
- Pérdida de ácido a través de la pila (medida de la ineficiencia de la planta; Stack.Loss).
En éste caso se evaluará la relación de la producción de la fábrica con su eficiencia (Stack.Loss y Air.Flow), ambas son variables numéricas, lo que permite que se estudie su asociación usando el coeficiente de correlación. Para empezar se debe activar el paquete que contiene los datos con la función library(), luego se observa el encabezado, compuesto por las primeras 6 líneas del conjunto de datos.
Posteriormente se pueden activar las variables usando la función attach() para que sea sencillo trabajar con ellas. Una vez hecho esto, se ve que la correlación entre ellas es lineal, positiva y fuerte con un r= 0,92, lo que significa que al incrementar la producción de la fábrica (Air.Flow) incrementa la ineficiencia del proceso (Stack.Loss), esto se traduce en que cuando la fábrica opera a bajas cantidades, la ineficiencia del proceso de oxidación también es baja.
Es importante que sepas que, en R, si se tienen más de dos variables en una matriz o data frame (cada columna representa una variable distinta), entonces se usa cor(x), pues “x” es una matriz o data frame, pudiendo calcular en un paso todas las correlaciones existentes entre las variables del conjunto de datos Stackloss.
Debes tener especial atención cuando tengas algún valor ausente o perdido, pues el software lo identifica como NA (Not Available), y entonces la función cor() devuelve otro NA, lo cual produce errores en el análisis, para evitarlo debes especificar como quieres que sean tratados los valores ausentes en la función media del argumento mediante el use = ”pairwise.complete.obs”; el cual calcula el coeficiente de correlación para todas las observaciones donde no falta ningún valor de x ni y, garantizando el cálculo de correlación para cada par de variables sin que se pierda información por los valores NA de otras variables.
- Ejemplo práctico 2: con el mismo ejemplo 1, de observar la relación entre Air.Flow y Stack.Loss, pero calculando la correlación de Spearman en R, y asumiendo que la tendencia no fuera lineal monótona, para ello puedes usar las funciones que se mencionaron previamente, cor(), pero deberás indicar “Spearman” en el argumento method, en el cual sale por defecto “Pearson”, entonces hecho esto, entonces obtenemos un valor de correlación positivo, alto, que no es muy distinto del anterior, r= 92, y esto es debido a que se cumplen las condiciones de la correlación de Pearson.
- Ejemplo práctico 3: usaremos la media de relación lineal del coeficiente de Pearson para trabajar con datos de la clasificación de la liga española de futbol del 2016, para responder a la pregunta: ¿qué es más importante en un partido de fútbol, marcar goles o que no te marquen?, seleccionando tres variables; partidos ganados, goles en contra y goles a favor.
Relacionaremos dos variables inicialmente, los goles a favor y los partidos ganados, entonces para comenzar diseña un scatter plot 2D o diagrama de dispersión, para observar cómo crece o decrece una variable con respecto a la otra, teniendo en mente que el signo de la covarianza te indica el sentido de la relación.
Entonces el resultado presenta una recta positiva, cuya relación es creciente, con pendiente positiva y, por ende, la covarianza es positiva también, entonces, puedes ver como con el scatter plo 2D fácilmente pudiste relacionar las dos variables de forma muy visual.
Puedes hacer lo mismo con la otra variable, goles en contra vs partidos ganados, y encontraras una relación decreciente, con una covarianza negativa al igual que el signo de la correlación
- Ejemplo práctico 4: la correlación te permitirá estudiar la relación existente entre el ingreso familiar y el gasto familiar, observando que ambos suben o bajan juntos en la misma dirección, por ende, tienen una correlación Caso opuesto ocurre con el precio y la demanda, los cuales llevan direcciones opuestas, lo que significa que si uno aumenta el otro decrece, siendo esto una correlación negativa.
Ahora bien, esperamos que con toda esta información y los ejemplos prácticos que te dejamos descritos, puedas entender bien el uso de la correlación estadística, para que puedas contar con otra herramienta que permita comparar variables numéricas y así cuantificar la relación entre dos variables, de forma que contestes a preguntas similares a las que mostramos al principio del artículo.