Correlación de datos

Quizás te has hecho preguntas como ¿si es posible que una persona que coma sano viva más años?, ¿si existe alguna relación entre la cantidad de harinas consumidas en un día y el nivel de azúcar en la sangre? o ¿si obtener buenas calificaciones se relaciona con mayor tiempo de estudio?, y al mismo tiempo te cuestionas, ¿cómo puedes responder a estas preguntas?, la solución es con la correlación estadística, pues como ves todas éstas preguntas relacionan dos variables numéricas.

Por ende, para encontrar respuestas deberás usar una medida de relación lineal, bien sea el coeficiente de correlación o la correlación de Pearson, éstos análisis de correlación son el primer paso para poder construir modelos explicativos y predictivos más complejos, contestar preguntas y mejorar la toma de decisiones, por ello en el artículo te hablaremos acerca de que es la correlación estadística, como interpretarla, como medirla e incluso te daremos ejemplos para que entiendas como usarla.

Procesos de correlación de datos
Departamento de Big Data
¿Qué es la correlación estadística?

Es un tipo de asociación entre dos variables numéricas, que evalúa la tendencia, creciente o decreciente, en los datos. Se dice que dos variables están asociadas cuando una nos da información sobre la otra, caso contrario ocurre cuando no hay asociación, entonces el aumento o disminución de una variable asociada a otra, nos dará información sobre cómo será el comportamiento de la otra variable.

Si se observa una tendencia creciente o decreciente entonces se puede afirmar que las dos variables se correlacionan, para poder dar inicio al análisis de una correlación lo mejor es comenzar haciendo un diagrama de dispersión entre las variables que quieres analizar.

¿Cómo se interpreta la correlación?

Gracias a la correlación que brinda piezas vitales de información, podrás medir el signo y magnitud de la tendencia existente entre dos variables, pero para poder llegar a esas interpretaciones debes saber:

  1. El signo indica la dirección de la relación: un valor positivo es señal de una relación directa o positiva, si es negativo entonces la relación es indirecta, inversa o negativa, por su parte, un valor nulo significa que no hay una tendencia existente entre las variables, podría ser porque no hay una relación existente, o que la relación sea más compleja que una tendencia tal como una en forma de U.
  2. La magnitud indica la fuerza de la relación: también llamado coeficiente de correlación (r), puede tomar valores entre -1 a 1, mientras más cercano se encuentre el valor a los extremos de dicho intervalo más fuerte será la tendencia de las variables o menor será la dispersión existente en los puntos que rodean dicha tendencia. Por el contrario, si el coeficiente de correlación se acerca al cero, más débil será la tendencia y, por ende, habrá mayor dispersión en la nube de puntos.

Puede pasar que la correlación tenga un valor de -1 o 1, en cuyo caso se dirá que es perfecta, y si tiene un valor de 0, entonces las variables no tienen correlación.

  • r> 0 es una relación positiva.
  • r<0 es una relación negativa.

Éste parámetro solo es apropiado para examinar la relación entre datos cuantificables significativos, no para datos categóricos.

  1. Tamaño del efecto: en estadística esto hace referencia a una medida de la fuerza o magnitud de un fenómeno, en el caso del coeficiente de correlación, este es una medida del tamaño del efecto para la relación lineal existente entre dos variables numéricas, es un dato esencial para la interpretación de resultados en un estudio, su ausencia es un fallo bastante común en los artículos científicos.

Para poder analizar qué tan fuerte es la correlación se puede usar el criterio de Cohen (1988), que estipula que, para valores absolutos, se indica que valores entre:

  • 0,1- 0,3 representan un efecto pequeño.
  • 0,3- 0,5 un efecto medio.
  • ≥ 0,5 un efecto grande.

Estos son valores arbitrarios, pero lo más recomendable es que interpretes la fuerza o tamaño de la correlación de acuerdo al contexto de tu investigación.

Coeficiente de correlación ¿cómo medirlo?

Para medir la correlación se usan coeficientes, entre los más usados se encuentra el de Pearson, que permite cuantificar tendencias lineales entre dos variables numéricas, y por su parte el de Spearman, que funciona para tendencias de aumento o disminución entre dos variables, no tienen que ser lineales, pero sí monótonas, lo que significa que las variables tienen a moverse en la misma dirección relativa, más no a un ritmo constante.

Sin embargo, a pesar de que el más usado es el coeficiente de correlación lineal de Pearson, éste método asume que la tendencia debe ser de tipo lineal, la inexistencia de valores atípicos u outliers, que las variables deben ser numé y en caso de que las variables sean de tipo ordinal no será aplicable la correlación de Pearson y asi mismo, asume que se cuenta con suficientes datos.

En base a lo antes mencionado, se debe tener claro que los dos primeros supuestos se pueden evaluar haciendo uso de un diagrama de dispersión, mientras que, en el caso de los últimos dos supuestos, bastara con observar los datos y evaluar que diseño se tiene.

Por ello cuando no se cumplan los requisitos del coeficiente de correlación lineal de Pearson, conviene usar el de Spearman, que se basa en los rangos de los valores, es una prueba no paramétrica, no asume una distribución previa de los datos y es más robusta en presencia de valores atípicos.

Ejemplos para entender la correlación estadística

Para que visualices mejor todo lo que te hemos presentado hasta ahora, te daremos algunos ejemplos prácticos de cómo se usa la correlación estadística:

  1. Ejemplo práctico 1: cálculo del coeficiente de correlación lineal de Pearson con la función cor() instalada por defecto en los paquetes básicos de R. El ingreso de las variables puede hacerse como vectores con cor(x,y), sin importar cuál es “x” y cual es “y”, pues la relación es simétrica.

Se usarán el conjunto de datos Stackloss del paquete Mass (Brownlee, 1965), los cuales provienen de datos de una fábrica de oxidación de amonio (NH3) a ácido nítrico (HNO3). Se cuenta con 21 observaciones de 4 variables:

  • Flujo de aire (representa la tasa de operación en la fábrica; Air.Flow).
  • Temperatura del agua (Water.Temp).
  • Concentración de ácido (un valor de 89 corresponde a 58,9%; Acid.Conc).
  • Pérdida de ácido a través de la pila (medida de la ineficiencia de la planta; Stack.Loss).

En éste caso se evaluará la relación de la producción de la fábrica con su eficiencia (Stack.Loss y Air.Flow), ambas son variables numéricas, lo que permite que se estudie su asociación usando el coeficiente de correlación. Para empezar se debe activar el paquete que contiene los datos con la función library(), luego se observa el encabezado, compuesto por las primeras 6 líneas del conjunto de datos.

Posteriormente se pueden activar las variables usando la función attach() para que sea sencillo trabajar con ellas. Una vez hecho esto, se ve que la correlación entre ellas es lineal, positiva y fuerte con un r= 0,92, lo que significa que al incrementar la producción de la fábrica (Air.Flow) incrementa la ineficiencia del proceso (Stack.Loss), esto se traduce en que cuando la fábrica opera a bajas cantidades, la ineficiencia del proceso de oxidación también es baja.

Es importante que sepas que, en R, si se tienen más de dos variables en una matriz o data frame (cada columna representa una variable distinta), entonces se usa cor(x), pues “x” es una matriz o data frame, pudiendo calcular en un paso todas las correlaciones existentes entre las variables del conjunto de datos Stackloss.

Debes tener especial atención cuando tengas algún valor ausente o perdido, pues el software lo identifica como NA (Not Available), y entonces la función cor() devuelve otro NA, lo cual produce errores en el análisis, para evitarlo debes especificar como quieres que sean tratados los valores ausentes en la función media del argumento mediante el use = ”pairwise.complete.obs”; el cual calcula el coeficiente de correlación para todas las observaciones donde no falta ningún valor de x ni y, garantizando el cálculo de correlación para cada par de variables sin que se pierda información por los valores NA de otras variables.

  1. Ejemplo práctico 2: con el mismo ejemplo 1, de observar la relación entre Air.Flow y Stack.Loss, pero calculando la correlación de Spearman en R, y asumiendo que la tendencia no fuera lineal monótona, para ello puedes usar las funciones que se mencionaron previamente, cor(), pero deberás indicar “Spearman” en el argumento method, en el cual sale por defecto “Pearson”, entonces hecho esto, entonces obtenemos un valor de correlación positivo, alto, que no es muy distinto del anterior, r= 92, y esto es debido a que se cumplen las condiciones de la correlación de Pearson.
  2. Ejemplo práctico 3: usaremos la media de relación lineal del coeficiente de Pearson para trabajar con datos de la clasificación de la liga española de futbol del 2016, para responder a la pregunta: ¿qué es más importante en un partido de fútbol, marcar goles o que no te marquen?, seleccionando tres variables; partidos ganados, goles en contra y goles a favor.

Relacionaremos dos variables inicialmente, los goles a favor y los partidos ganados, entonces para comenzar diseña un scatter plot 2D o diagrama de dispersión, para observar cómo crece o decrece una variable con respecto a la otra, teniendo en mente que el signo de la covarianza te indica el sentido de la relación.

Entonces el resultado presenta una recta positiva, cuya relación es creciente, con pendiente positiva y, por ende, la covarianza es positiva también, entonces, puedes ver como con el scatter plo 2D fácilmente pudiste relacionar las dos variables de forma muy visual.

Puedes hacer lo mismo con la otra variable, goles en contra vs partidos ganados, y encontraras una relación decreciente, con una covarianza negativa al igual que el signo de la correlación

  1. Ejemplo práctico 4: la correlación te permitirá estudiar la relación existente entre el ingreso familiar y el gasto familiar, observando que ambos suben o bajan juntos en la misma dirección, por ende, tienen una correlación Caso opuesto ocurre con el precio y la demanda, los cuales llevan direcciones opuestas, lo que significa que si uno aumenta el otro decrece, siendo esto una correlación negativa.

Ahora bien, esperamos que con toda esta información y los ejemplos prácticos que te dejamos descritos, puedas entender bien el uso de la correlación estadística, para que puedas contar con otra herramienta que permita comparar variables numéricas y así cuantificar la relación entre dos variables, de forma que contestes a preguntas similares a las que mostramos al principio del artículo.

Nuestro blog

Artículos de interés sobre la actualidad de la transformación digital.

Estos son los tipos de cifrado para proteger tus datos
| Ginzo Technologies |
tipos de cifrado de datos
Cualquier plataforma digital que desee tener éxito conoce la relevancia de invertir tiempo y dinero en temas como la seguridad, ya que muchos usuarios depositan información personal confiando en que la misma se mantendrá a salvo, siendo la privacidad un bien invaluable para cualquier empresa, sobre todo en esta épo...
¿Qué es la inyección SQL y cómo prevenirla?
| Ginzo Technologies |
sql injection que es
Para saber qué es SQL injection primero debemos conocer la definición de las siglas SQL, en inglés sería Structured Query Language y en su traducción al español significa Lenguaje de Consulta Estructurada, que se define como el lenguaje estándar usado por los programadores con la finalidad de administrar y gestiona...
Virus Troyano: qué es y tipos
| Ginzo Technologies |
troyano informático que es
En su significado histórico, el Caballo de Troya fue un artefacto realizado en madera, con la figura de un caballo enorme, que se usó como una estrategia para poder entrar de forma oculta algunos guerreros a la ciudad y gracias a ello se obtuvo la victoria en la guerra de Troya. Por eso, cada vez que alguien quiere...

Descubre nuestras áreas de desempeño

Durante estos últimos ocho años, hemos conseguido consolidar un equipo de profesionales multidisciplinar que avala con su formación, experiencia y dedicación cada una de las áreas de negocio.

BIG DATA
Estudios avanzados sobre tu operatica y dato.

  • Análisis de datos.
  • Modelado de datos.
  • Correlación estadística.
  • Business Intelligence.
  • Perfilado de cliente.
  • Machine Learning.
ÁREA DE MATEMÁTICA APLICADA
Ciencia en tu empresa, servitización de tu ciclo empresarial.

  • Investigación y Desarrollo.
  • Problemas complejos.
  • Optimización de procesos.
DESARROLLO DE SOFTWARE
Ciencia en tu empresa, servitización de tu ciclo empresarial.

  • Desarrollo Backend.
  • Desarrollo Frontend.
  • Desarrollo Apps Mobile.
  • Agile.
  • Scrum.
BLOCKCHAIN
Especializados en Tokenización y Certificación de procesos

  • Proyectos en Blockchain de trazabilidad.
  • Proyectos en Blockchain de seguridad y tokenizacion.
  • Proyectos de diseño de ICO para empresas.
SISTEMAS E INFRAESTRUCTURAS IT
Auditoría, estudio y mejora, de sistemas e infraestructuras de la información.

  • Proyectos DevOps.
  • Kubernetes as a service - KaaS.
  • Gemelos digitales.
  • Diseño Cloud.
  • Diseño de directorio activo y sistema LDAP.
  • Soluciones de correo electrónico avanzadas.
CIBERSEGURIDAD
Equipo especializado en monitorización, análisis y actuación ante ataques de serguridad.

  • Pentesting.
  • Seguridad de redes IT.
  • Seguridad de redes OT.
  • Honeypots en IoT.
  • Seguridad gestionada.

Oficinas Centrales
Francisco de Quevedo Nº18, 1B y 1C
Logroño · La Rioja

Sede Bilbao
Done Bikendi 7, 1A
Bilbo · Bizkaia

info[@]ginzo.tech · +34 941 57 57 57

Contacta con nosotros a través de nuestro formulario de contacto. Te rogamos revises nuestra politica de privacidad. No enviamos spam,  simplemente responderemos a tu solicitud de la manera más ágil posible.

¿Preparado para empezar?

Puedes revisar nuestra política de privacidad haciendo clic aquí