Correlación de datos

Quizás te has hecho preguntas como ¿si es posible que una persona que coma sano viva más años?, ¿si existe alguna relación entre la cantidad de harinas consumidas en un día y el nivel de azúcar en la sangre? o ¿si obtener buenas calificaciones se relaciona con mayor tiempo de estudio?, y al mismo tiempo te cuestionas, ¿cómo puedes responder a estas preguntas?, la solución es con la correlación estadística, pues como ves todas éstas preguntas relacionan dos variables numéricas.

Por ende, para encontrar respuestas deberás usar una medida de relación lineal, bien sea el coeficiente de correlación o la correlación de Pearson, éstos análisis de correlación son el primer paso para poder construir modelos explicativos y predictivos más complejos, contestar preguntas y mejorar la toma de decisiones, por ello en el artículo te hablaremos acerca de que es la correlación estadística, como interpretarla, como medirla e incluso te daremos ejemplos para que entiendas como usarla.

Procesos de correlación de datos
Departamento de Big Data
¿Qué es la correlación estadística?

Es un tipo de asociación entre dos variables numéricas, que evalúa la tendencia, creciente o decreciente, en los datos. Se dice que dos variables están asociadas cuando una nos da información sobre la otra, caso contrario ocurre cuando no hay asociación, entonces el aumento o disminución de una variable asociada a otra, nos dará información sobre cómo será el comportamiento de la otra variable.

Si se observa una tendencia creciente o decreciente entonces se puede afirmar que las dos variables se correlacionan, para poder dar inicio al análisis de una correlación lo mejor es comenzar haciendo un diagrama de dispersión entre las variables que quieres analizar.

¿Cómo se interpreta la correlación?

Gracias a la correlación que brinda piezas vitales de información, podrás medir el signo y magnitud de la tendencia existente entre dos variables, pero para poder llegar a esas interpretaciones debes saber:

  1. El signo indica la dirección de la relación: un valor positivo es señal de una relación directa o positiva, si es negativo entonces la relación es indirecta, inversa o negativa, por su parte, un valor nulo significa que no hay una tendencia existente entre las variables, podría ser porque no hay una relación existente, o que la relación sea más compleja que una tendencia tal como una en forma de U.
  2. La magnitud indica la fuerza de la relación: también llamado coeficiente de correlación (r), puede tomar valores entre -1 a 1, mientras más cercano se encuentre el valor a los extremos de dicho intervalo más fuerte será la tendencia de las variables o menor será la dispersión existente en los puntos que rodean dicha tendencia. Por el contrario, si el coeficiente de correlación se acerca al cero, más débil será la tendencia y, por ende, habrá mayor dispersión en la nube de puntos.

Puede pasar que la correlación tenga un valor de -1 o 1, en cuyo caso se dirá que es perfecta, y si tiene un valor de 0, entonces las variables no tienen correlación.

  • r> 0 es una relación positiva.
  • r<0 es una relación negativa.

Éste parámetro solo es apropiado para examinar la relación entre datos cuantificables significativos, no para datos categóricos.

  1. Tamaño del efecto: en estadística esto hace referencia a una medida de la fuerza o magnitud de un fenómeno, en el caso del coeficiente de correlación, este es una medida del tamaño del efecto para la relación lineal existente entre dos variables numéricas, es un dato esencial para la interpretación de resultados en un estudio, su ausencia es un fallo bastante común en los artículos científicos.

Para poder analizar qué tan fuerte es la correlación se puede usar el criterio de Cohen (1988), que estipula que, para valores absolutos, se indica que valores entre:

  • 0,1- 0,3 representan un efecto pequeño.
  • 0,3- 0,5 un efecto medio.
  • ≥ 0,5 un efecto grande.

Estos son valores arbitrarios, pero lo más recomendable es que interpretes la fuerza o tamaño de la correlación de acuerdo al contexto de tu investigación.

Coeficiente de correlación ¿cómo medirlo?

Para medir la correlación se usan coeficientes, entre los más usados se encuentra el de Pearson, que permite cuantificar tendencias lineales entre dos variables numéricas, y por su parte el de Spearman, que funciona para tendencias de aumento o disminución entre dos variables, no tienen que ser lineales, pero sí monótonas, lo que significa que las variables tienen a moverse en la misma dirección relativa, más no a un ritmo constante.

Sin embargo, a pesar de que el más usado es el coeficiente de correlación lineal de Pearson, éste método asume que la tendencia debe ser de tipo lineal, la inexistencia de valores atípicos u outliers, que las variables deben ser numé y en caso de que las variables sean de tipo ordinal no será aplicable la correlación de Pearson y asi mismo, asume que se cuenta con suficientes datos.

En base a lo antes mencionado, se debe tener claro que los dos primeros supuestos se pueden evaluar haciendo uso de un diagrama de dispersión, mientras que, en el caso de los últimos dos supuestos, bastara con observar los datos y evaluar que diseño se tiene.

Por ello cuando no se cumplan los requisitos del coeficiente de correlación lineal de Pearson, conviene usar el de Spearman, que se basa en los rangos de los valores, es una prueba no paramétrica, no asume una distribución previa de los datos y es más robusta en presencia de valores atípicos.

Ejemplos para entender la correlación estadística

Para que visualices mejor todo lo que te hemos presentado hasta ahora, te daremos algunos ejemplos prácticos de cómo se usa la correlación estadística:

  1. Ejemplo práctico 1: cálculo del coeficiente de correlación lineal de Pearson con la función cor() instalada por defecto en los paquetes básicos de R. El ingreso de las variables puede hacerse como vectores con cor(x,y), sin importar cuál es “x” y cual es “y”, pues la relación es simétrica.

Se usarán el conjunto de datos Stackloss del paquete Mass (Brownlee, 1965), los cuales provienen de datos de una fábrica de oxidación de amonio (NH3) a ácido nítrico (HNO3). Se cuenta con 21 observaciones de 4 variables:

  • Flujo de aire (representa la tasa de operación en la fábrica; Air.Flow).
  • Temperatura del agua (Water.Temp).
  • Concentración de ácido (un valor de 89 corresponde a 58,9%; Acid.Conc).
  • Pérdida de ácido a través de la pila (medida de la ineficiencia de la planta; Stack.Loss).

En éste caso se evaluará la relación de la producción de la fábrica con su eficiencia (Stack.Loss y Air.Flow), ambas son variables numéricas, lo que permite que se estudie su asociación usando el coeficiente de correlación. Para empezar se debe activar el paquete que contiene los datos con la función library(), luego se observa el encabezado, compuesto por las primeras 6 líneas del conjunto de datos.

Posteriormente se pueden activar las variables usando la función attach() para que sea sencillo trabajar con ellas. Una vez hecho esto, se ve que la correlación entre ellas es lineal, positiva y fuerte con un r= 0,92, lo que significa que al incrementar la producción de la fábrica (Air.Flow) incrementa la ineficiencia del proceso (Stack.Loss), esto se traduce en que cuando la fábrica opera a bajas cantidades, la ineficiencia del proceso de oxidación también es baja.

Es importante que sepas que, en R, si se tienen más de dos variables en una matriz o data frame (cada columna representa una variable distinta), entonces se usa cor(x), pues “x” es una matriz o data frame, pudiendo calcular en un paso todas las correlaciones existentes entre las variables del conjunto de datos Stackloss.

Debes tener especial atención cuando tengas algún valor ausente o perdido, pues el software lo identifica como NA (Not Available), y entonces la función cor() devuelve otro NA, lo cual produce errores en el análisis, para evitarlo debes especificar como quieres que sean tratados los valores ausentes en la función media del argumento mediante el use = ”pairwise.complete.obs”; el cual calcula el coeficiente de correlación para todas las observaciones donde no falta ningún valor de x ni y, garantizando el cálculo de correlación para cada par de variables sin que se pierda información por los valores NA de otras variables.

  1. Ejemplo práctico 2: con el mismo ejemplo 1, de observar la relación entre Air.Flow y Stack.Loss, pero calculando la correlación de Spearman en R, y asumiendo que la tendencia no fuera lineal monótona, para ello puedes usar las funciones que se mencionaron previamente, cor(), pero deberás indicar “Spearman” en el argumento method, en el cual sale por defecto “Pearson”, entonces hecho esto, entonces obtenemos un valor de correlación positivo, alto, que no es muy distinto del anterior, r= 92, y esto es debido a que se cumplen las condiciones de la correlación de Pearson.
  2. Ejemplo práctico 3: usaremos la media de relación lineal del coeficiente de Pearson para trabajar con datos de la clasificación de la liga española de futbol del 2016, para responder a la pregunta: ¿qué es más importante en un partido de fútbol, marcar goles o que no te marquen?, seleccionando tres variables; partidos ganados, goles en contra y goles a favor.

Relacionaremos dos variables inicialmente, los goles a favor y los partidos ganados, entonces para comenzar diseña un scatter plot 2D o diagrama de dispersión, para observar cómo crece o decrece una variable con respecto a la otra, teniendo en mente que el signo de la covarianza te indica el sentido de la relación.

Entonces el resultado presenta una recta positiva, cuya relación es creciente, con pendiente positiva y, por ende, la covarianza es positiva también, entonces, puedes ver como con el scatter plo 2D fácilmente pudiste relacionar las dos variables de forma muy visual.

Puedes hacer lo mismo con la otra variable, goles en contra vs partidos ganados, y encontraras una relación decreciente, con una covarianza negativa al igual que el signo de la correlación

  1. Ejemplo práctico 4: la correlación te permitirá estudiar la relación existente entre el ingreso familiar y el gasto familiar, observando que ambos suben o bajan juntos en la misma dirección, por ende, tienen una correlación Caso opuesto ocurre con el precio y la demanda, los cuales llevan direcciones opuestas, lo que significa que si uno aumenta el otro decrece, siendo esto una correlación negativa.

Ahora bien, esperamos que con toda esta información y los ejemplos prácticos que te dejamos descritos, puedas entender bien el uso de la correlación estadística, para que puedas contar con otra herramienta que permita comparar variables numéricas y así cuantificar la relación entre dos variables, de forma que contestes a preguntas similares a las que mostramos al principio del artículo.

Nuestro blog

Artículos de interés sobre la actualidad de la transformación digital.

Beneficios de la inteligencia artificial para negocios
inteligencia artificial
Durante los últimos años, una de las tecnologías que más ha impactado a los negocios, es la Inteligencia Artificial (IA). De acuerdo con la consultora Gartner, desde el 2015 al 2019, el número de las empresas que adoptaron por la Inteligencia Artificial creció un 270% y se considera que seguirá creciendo en los ...
Tubacex consigue el mayor contrato en Abu Dabi de su historia en plena rebaja del Iva de la luz en España
tubacex contrato abu dabi
Tubacex ha firmado en Abu Dabi, en los Emiratos Árabes Unidos el contrato más grande de la historia de la empresa y que dotará de más de 30.000 toneladas de tubo y roscado. Para ello Tubacex se compromete a la construcción de una nueva fábrica en Abu Dabi que comenzará la producción a finales del 2024 y dará empleo...
Cómo la digitalización beneficia al sector bancario
Digitalización sector bancario
La digitalización llegó para quedarse y aquellos sectores que no le reciban pueden verse sumamente afectados. La digitalización del sector bancario es una prioridad que los bancos de cada nación deben tomarse en serio, esto se debe a que los clientes y los propios bancos saldrán muy beneficiados. Explicamos con muc...
Cómo está cambiando la realidad virtual nuestra forma de trabajar
La realidad virtual y el cambio
La realidad virtual es una tecnología que ya está tomando espacios en nuestras vidas, aunque parezca cosa de años, posiblemente en poco tiempo sea parte de nuestro día a día. No sólo para el trabajo, la realidad virtual también llegará a otros aspectos de nuestra vida, tal es el caso de entretenimiento o para otras...
¿Cómo se clasifican los datos de la filosofía Big Data?
Datos Big Data
La Big Data es una colección muy grande de datos de todo tipo, la misma siempre está en constante crecimiento. Puede ser tanto de datos no estructurados, estructurados e incluso también de datos híbridos que son analizados y procesados todos los días. La clave de esta cantidad de datos no es lo que son, sino lo ...
¿Qué ha aportado el Big Data al Business Intelligence tradicional?
Big Data y Business Intelligence
Digitalmente está dándose una gran transformación digital que está afectando a empresas y emprendedores. Por ende, los dueños de negocios están buscando la manera de aprovechar sus mejores oportunidades; allí entra en escena qué ha aportado el Big Data al Business Intelligence tradicional. Es importante destacar qu...
¿Qué es Business Intelligence?
Business Intelligence
Se trata de un conjunto estrategias o herramientas en las que la información es utilizada para mejorar los procesos de la toma de decisiones, principalmente es utilizado por empresas. De esta forma logran alcanzar muchos de sus objetivos dando los pasos de una forma más planificada y con menos intuición. Básicament...
Infraestructura tecnológica y servicios informáticos
Infraestructura tecnológica y servicios informáticos
La infraestructura tecnológica y servicios informáticos es una unión de elementos que involucra equipos de informática, de electrónica, redes, sistemas, entre otros. Estos elementos son gestionados por varios procesos de seguridad, eficiencia o prevención. Importancia de la IT Las empresas pueden verse sumame...
Cómo programar inteligencia artificial en C
Inteligencia artificial
Durante años nos hemos acostumbrados a calificar a los ordenadores o móviles como inteligentes, la verdad es otra. En realidad, no son inteligentes, pero tienen la capacidad de resolver problemas más rápidos que nosotros, como, por ejemplo, una simple suma; esto es debido a su código de programación y sus component...
Cómo mejorar el tiempo de carga de mi web
Tiempo carga web
El tiempo de carga de una web es fundamental para obtener mejores posiciones en los buscadores. Es decir, es clave para el SEO, esto se debe a que no genera visitas “flash”, que son visitas en las que el usuario al ver qué la página no carga rápido, se va; para Google esto es un indicio de que no es el tipo de web ...

Descubre nuestras áreas de desempeño

Durante estos últimos ocho años, hemos conseguido consolidar un equipo de profesionales multidisciplinar que avala con su formación, experiencia y dedicación cada una de las áreas de negocio.

DATA SCIENCE
Estudios avanzados sobre tu operatica y dato.

  • Análisis de datos.
  • Modelado de datos.
  • Correlación estadística.
  • Business Intelligence.
  • Perfilado de cliente.
  • Machine Learning.
ÁREA DE MATEMÁTICA APLICADA
Ciencia en tu empresa, servitización de tu ciclo empresarial.

  • Investigación y Desarrollo.
  • Problemas complejos.
  • Optimización de procesos.
DESARROLLO DE SOFTWARE
Ciencia en tu empresa, servitización de tu ciclo empresarial.

  • Desarrollo Backend.
  • Desarrollo Frontend.
  • Desarrollo Apps Mobile.
  • Agile.
  • Scrum.
BLOCKCHAIN
Especializados en Tokenización y Certificación de procesos

  • Proyectos en Blockchain de trazabilidad.
  • Proyectos en Blockchain de seguridad y tokenizacion.
  • Proyectos de diseño de ICO para empresas.
SISTEMAS E INFRAESTRUCTURAS IT
Auditoría, estudio y mejora, de sistemas e infraestructuras de la información.

  • Proyectos DevOps.
  • Kubernetes as a service - KaaS.
  • Gemelos digitales.
  • Diseño Cloud.
  • Diseño de directorio activo y sistema LDAP.
  • Soluciones de correo electrónico avanzadas.
CIBERSEGURIDAD
Equipo especializado en monitorización, análisis y actuación ante ataques de serguridad.

  • Pentesting.
  • Seguridad de redes IT.
  • Seguridad de redes OT.
  • Honeypots en IoT.
  • Seguridad gestionada.

Oficinas Centrales
Francisco de Quevedo Nº18, 1B y 1C
Logroño · La Rioja

Sede Bilbao
Done Bikendi 7, 1A
Bilbo · Bizkaia

info[@]ginzo.tech · +34 941 57 57 57

Contacta con nosotros a través de nuestro formulario de contacto. Te rogamos revises nuestra politica de privacidad. No enviamos spam,  simplemente responderemos a tu solicitud de la manera más ágil posible.

¿Preparado para empezar?

Puedes revisar nuestra política de privacidad haciendo clic aquí