Correlación de datos

Quizás te has hecho preguntas como ¿si es posible que una persona que coma sano viva más años?, ¿si existe alguna relación entre la cantidad de harinas consumidas en un día y el nivel de azúcar en la sangre? o ¿si obtener buenas calificaciones se relaciona con mayor tiempo de estudio?, y al mismo tiempo te cuestionas, ¿cómo puedes responder a estas preguntas?, la solución es con la correlación estadística, pues como ves todas éstas preguntas relacionan dos variables numéricas.

Por ende, para encontrar respuestas deberás usar una medida de relación lineal, bien sea el coeficiente de correlación o la correlación de Pearson, éstos análisis de correlación son el primer paso para poder construir modelos explicativos y predictivos más complejos, contestar preguntas y mejorar la toma de decisiones, por ello en el artículo te hablaremos acerca de que es la correlación estadística, como interpretarla, como medirla e incluso te daremos ejemplos para que entiendas como usarla.

Procesos de correlación de datos
Departamento de Big Data
¿Qué es la correlación estadística?

Es un tipo de asociación entre dos variables numéricas, que evalúa la tendencia, creciente o decreciente, en los datos. Se dice que dos variables están asociadas cuando una nos da información sobre la otra, caso contrario ocurre cuando no hay asociación, entonces el aumento o disminución de una variable asociada a otra, nos dará información sobre cómo será el comportamiento de la otra variable.

Si se observa una tendencia creciente o decreciente entonces se puede afirmar que las dos variables se correlacionan, para poder dar inicio al análisis de una correlación lo mejor es comenzar haciendo un diagrama de dispersión entre las variables que quieres analizar.

¿Cómo se interpreta la correlación?

Gracias a la correlación que brinda piezas vitales de información, podrás medir el signo y magnitud de la tendencia existente entre dos variables, pero para poder llegar a esas interpretaciones debes saber:

  1. El signo indica la dirección de la relación: un valor positivo es señal de una relación directa o positiva, si es negativo entonces la relación es indirecta, inversa o negativa, por su parte, un valor nulo significa que no hay una tendencia existente entre las variables, podría ser porque no hay una relación existente, o que la relación sea más compleja que una tendencia tal como una en forma de U.
  2. La magnitud indica la fuerza de la relación: también llamado coeficiente de correlación (r), puede tomar valores entre -1 a 1, mientras más cercano se encuentre el valor a los extremos de dicho intervalo más fuerte será la tendencia de las variables o menor será la dispersión existente en los puntos que rodean dicha tendencia. Por el contrario, si el coeficiente de correlación se acerca al cero, más débil será la tendencia y, por ende, habrá mayor dispersión en la nube de puntos.

Puede pasar que la correlación tenga un valor de -1 o 1, en cuyo caso se dirá que es perfecta, y si tiene un valor de 0, entonces las variables no tienen correlación.

  • r> 0 es una relación positiva.
  • r<0 es una relación negativa.

Éste parámetro solo es apropiado para examinar la relación entre datos cuantificables significativos, no para datos categóricos.

  1. Tamaño del efecto: en estadística esto hace referencia a una medida de la fuerza o magnitud de un fenómeno, en el caso del coeficiente de correlación, este es una medida del tamaño del efecto para la relación lineal existente entre dos variables numéricas, es un dato esencial para la interpretación de resultados en un estudio, su ausencia es un fallo bastante común en los artículos científicos.

Para poder analizar qué tan fuerte es la correlación se puede usar el criterio de Cohen (1988), que estipula que, para valores absolutos, se indica que valores entre:

  • 0,1- 0,3 representan un efecto pequeño.
  • 0,3- 0,5 un efecto medio.
  • ≥ 0,5 un efecto grande.

Estos son valores arbitrarios, pero lo más recomendable es que interpretes la fuerza o tamaño de la correlación de acuerdo al contexto de tu investigación.

Coeficiente de correlación ¿cómo medirlo?

Para medir la correlación se usan coeficientes, entre los más usados se encuentra el de Pearson, que permite cuantificar tendencias lineales entre dos variables numéricas, y por su parte el de Spearman, que funciona para tendencias de aumento o disminución entre dos variables, no tienen que ser lineales, pero sí monótonas, lo que significa que las variables tienen a moverse en la misma dirección relativa, más no a un ritmo constante.

Sin embargo, a pesar de que el más usado es el coeficiente de correlación lineal de Pearson, éste método asume que la tendencia debe ser de tipo lineal, la inexistencia de valores atípicos u outliers, que las variables deben ser numé y en caso de que las variables sean de tipo ordinal no será aplicable la correlación de Pearson y asi mismo, asume que se cuenta con suficientes datos.

En base a lo antes mencionado, se debe tener claro que los dos primeros supuestos se pueden evaluar haciendo uso de un diagrama de dispersión, mientras que, en el caso de los últimos dos supuestos, bastara con observar los datos y evaluar que diseño se tiene.

Por ello cuando no se cumplan los requisitos del coeficiente de correlación lineal de Pearson, conviene usar el de Spearman, que se basa en los rangos de los valores, es una prueba no paramétrica, no asume una distribución previa de los datos y es más robusta en presencia de valores atípicos.

Ejemplos para entender la correlación estadística

Para que visualices mejor todo lo que te hemos presentado hasta ahora, te daremos algunos ejemplos prácticos de cómo se usa la correlación estadística:

  1. Ejemplo práctico 1: cálculo del coeficiente de correlación lineal de Pearson con la función cor() instalada por defecto en los paquetes básicos de R. El ingreso de las variables puede hacerse como vectores con cor(x,y), sin importar cuál es “x” y cual es “y”, pues la relación es simétrica.

Se usarán el conjunto de datos Stackloss del paquete Mass (Brownlee, 1965), los cuales provienen de datos de una fábrica de oxidación de amonio (NH3) a ácido nítrico (HNO3). Se cuenta con 21 observaciones de 4 variables:

  • Flujo de aire (representa la tasa de operación en la fábrica; Air.Flow).
  • Temperatura del agua (Water.Temp).
  • Concentración de ácido (un valor de 89 corresponde a 58,9%; Acid.Conc).
  • Pérdida de ácido a través de la pila (medida de la ineficiencia de la planta; Stack.Loss).

En éste caso se evaluará la relación de la producción de la fábrica con su eficiencia (Stack.Loss y Air.Flow), ambas son variables numéricas, lo que permite que se estudie su asociación usando el coeficiente de correlación. Para empezar se debe activar el paquete que contiene los datos con la función library(), luego se observa el encabezado, compuesto por las primeras 6 líneas del conjunto de datos.

Posteriormente se pueden activar las variables usando la función attach() para que sea sencillo trabajar con ellas. Una vez hecho esto, se ve que la correlación entre ellas es lineal, positiva y fuerte con un r= 0,92, lo que significa que al incrementar la producción de la fábrica (Air.Flow) incrementa la ineficiencia del proceso (Stack.Loss), esto se traduce en que cuando la fábrica opera a bajas cantidades, la ineficiencia del proceso de oxidación también es baja.

Es importante que sepas que, en R, si se tienen más de dos variables en una matriz o data frame (cada columna representa una variable distinta), entonces se usa cor(x), pues “x” es una matriz o data frame, pudiendo calcular en un paso todas las correlaciones existentes entre las variables del conjunto de datos Stackloss.

Debes tener especial atención cuando tengas algún valor ausente o perdido, pues el software lo identifica como NA (Not Available), y entonces la función cor() devuelve otro NA, lo cual produce errores en el análisis, para evitarlo debes especificar como quieres que sean tratados los valores ausentes en la función media del argumento mediante el use = ”pairwise.complete.obs”; el cual calcula el coeficiente de correlación para todas las observaciones donde no falta ningún valor de x ni y, garantizando el cálculo de correlación para cada par de variables sin que se pierda información por los valores NA de otras variables.

  1. Ejemplo práctico 2: con el mismo ejemplo 1, de observar la relación entre Air.Flow y Stack.Loss, pero calculando la correlación de Spearman en R, y asumiendo que la tendencia no fuera lineal monótona, para ello puedes usar las funciones que se mencionaron previamente, cor(), pero deberás indicar “Spearman” en el argumento method, en el cual sale por defecto “Pearson”, entonces hecho esto, entonces obtenemos un valor de correlación positivo, alto, que no es muy distinto del anterior, r= 92, y esto es debido a que se cumplen las condiciones de la correlación de Pearson.
  2. Ejemplo práctico 3: usaremos la media de relación lineal del coeficiente de Pearson para trabajar con datos de la clasificación de la liga española de futbol del 2016, para responder a la pregunta: ¿qué es más importante en un partido de fútbol, marcar goles o que no te marquen?, seleccionando tres variables; partidos ganados, goles en contra y goles a favor.

Relacionaremos dos variables inicialmente, los goles a favor y los partidos ganados, entonces para comenzar diseña un scatter plot 2D o diagrama de dispersión, para observar cómo crece o decrece una variable con respecto a la otra, teniendo en mente que el signo de la covarianza te indica el sentido de la relación.

Entonces el resultado presenta una recta positiva, cuya relación es creciente, con pendiente positiva y, por ende, la covarianza es positiva también, entonces, puedes ver como con el scatter plo 2D fácilmente pudiste relacionar las dos variables de forma muy visual.

Puedes hacer lo mismo con la otra variable, goles en contra vs partidos ganados, y encontraras una relación decreciente, con una covarianza negativa al igual que el signo de la correlación

  1. Ejemplo práctico 4: la correlación te permitirá estudiar la relación existente entre el ingreso familiar y el gasto familiar, observando que ambos suben o bajan juntos en la misma dirección, por ende, tienen una correlación Caso opuesto ocurre con el precio y la demanda, los cuales llevan direcciones opuestas, lo que significa que si uno aumenta el otro decrece, siendo esto una correlación negativa.

Ahora bien, esperamos que con toda esta información y los ejemplos prácticos que te dejamos descritos, puedas entender bien el uso de la correlación estadística, para que puedas contar con otra herramienta que permita comparar variables numéricas y así cuantificar la relación entre dos variables, de forma que contestes a preguntas similares a las que mostramos al principio del artículo.

Nuestro blog

Artículos de interés sobre la actualidad de la transformación digital.

¿Qué son los estudios de Matemática Aplicada?
Estudio de las matemáticas aplicadas
Hacer referencia a las matemáticas es sin lugar a dudas, provoca diferentes reacciones en las personas, ya que unos la ven como un método de solución a problemas y otros sencillamente la ven como un estilo de vida, donde las acciones a las diferentes problemáticas que se presentan son puntuales, concretas y que sig...
Tendencias de desarrollo de aplicaciones
tendencias
En los últimos años hemos visto el desarrollo de diferentes aplicaciones y su grado de éxito elevado después de haber lanzado una nueva app. Las tendencias de desarrollo de aplicaciones parecen seguir creciendo debido a las necesidades del mundo actual, que están cambiando cada día. Incorporar la tecnología 5G ...
¿Qué es la ciberseguridad gestionada?
| Ginzo Technologies |
Ciberseguridad
Cuando se trata de la ciberseguridad, la mayoría de las empresas o instituciones simplemente hacen análisis de sus redes y sitios web para comenzar a protegerlas. Pero hay otras partes más vulnerables de las redes que no son tan fáciles de controlar. Para implementar una estrategia eficaz e integrada, se necesita e...
¿Qué es el desarrollo de aplicaciones móviles hibridas?
| Ginzo Technologies |
Desarrollo app mobile
El desarrollo de aplicaciones móviles consiste en crear una combinación entre el desarrollo de las típicas aplicaciones móviles con las principales características de la programación nativa. Para entenderlo mejor, el desarrollo de aplicaciones móviles hibridas muy importante y está tomando mucha popularidad en la a...
Tendencias de desarrollo web
tendencias
Las tendencias de desarrollo web para 2022 se han vuelto más prevalentes en el mundo de la tecnología. La web es un elemento clave dentro de la actualidad y va a seguir ofreciendo una solución ágil y estable, además de una solución creativa para las necesidades puntuales durante el desarrollo. Esto se debe a las co...
¿Qué es la arquitectura de aplicaciones web?
| Ginzo Technologies |
arquitectura de una web
¿Qué es la arquitectura de aplicaciones web? una arquitectura de aplicaciones web es un marco desde el que puede diseñar, construir y mantener aplicaciones en la forma más eficaz posible. La arquitectura de aplicaciones web le permite al personal técnico planificar el desarrollo de software orientado a objetos (SOO...
¿Qué es una Startup?
| Ginzo Technologies |
Las mejores ideas
Una startup es una pequeña compañía que intenta desarrollar productos y/o servicios a través de la innovación, con el fin de crear valor económico. El modelo de negocio de una startup suele ser escalable y sostenido en el tiempo, por lo cual le permite desarrollar rápida y sostenidamente sus ventas y/o ganancias. T...
Herramientas de desarrollo de software 2022
| Ginzo Technologies |
Los mejores softwares
Las herramientas perspicaces para la construcción, diseño y funcionalidad de las páginas web se benefician tanto para los desarrolladores de sitios web como para los usuarios que visitan dichos sitios. Las herramientas son necesarias, ya que ayudan a incrementar el número de visitantes, así como a promoverse en los...
¿Qué es Python?
Diferencias java y Python
Python vs Java - ¿Cuáles son sus diferencias?: Python es un lenguaje de programación que se centra en la legibilidad del código y que se orienta en objetivos específicos. El propósito de este lenguaje es el de mantener una distribución limpia y modular, para así facilitar la adición/eliminación de funcionalidades o...
¿Qué es el Blockchain?
Blockchain
La Blockchain es un libro de contabilidad digital entre varias partes sobre una red distribuida cuyas transacciones son audibles para todas las partes involucradas. Es una tecnología con muchos beneficios, te explicamos particularmente cómo va a beneficiar la tecnología Blockchain en la sanidad. ¿Cómo la tecnolo...
¿Qué es el desarrollo de aplicaciones móviles hibridas?
El desarrollo de aplicaciones móviles consiste en crear una combinación entre el desarrollo de las típicas aplicaciones móvile...
Tendencias de desarrollo web
Las tendencias de desarrollo web para 2022 se han vuelto más prevalentes en el mundo de la tecnología. La web es un elemento c...
¿Qué es la arquitectura de aplicaciones web?
¿Qué es la arquitectura de aplicaciones web? una arquitectura de aplicaciones web es un marco desde el que puede diseñar, cons...
¿Qué es una Startup?
Una startup es una pequeña compañía que intenta desarrollar productos y/o servicios a través de la innovación, con el fin de c...
Herramientas de desarrollo de software 2022
Las herramientas perspicaces para la construcción, diseño y funcionalidad de las páginas web se benefician tanto para los desa...
¿Qué es Python?
Python vs Java - ¿Cuáles son sus diferencias?: Python es un lenguaje de programación que se centra en la legibilidad del códig...

Descubre nuestras áreas de desempeño

Durante estos últimos ocho años, hemos conseguido consolidar un equipo de profesionales multidisciplinar que avala con su formación, experiencia y dedicación cada una de las áreas de negocio.

DATA SCIENCE
Estudios avanzados sobre tu operatica y dato.

  • Análisis de datos.
  • Modelado de datos.
  • Correlación estadística.
  • Business Intelligence.
  • Perfilado de cliente.
  • Machine Learning.
ÁREA DE MATEMÁTICA APLICADA
Ciencia en tu empresa, servitización de tu ciclo empresarial.

  • Investigación y Desarrollo.
  • Problemas complejos.
  • Optimización de procesos.
DESARROLLO DE SOFTWARE
Ciencia en tu empresa, servitización de tu ciclo empresarial.

  • Desarrollo Backend.
  • Desarrollo Frontend.
  • Desarrollo Apps Mobile.
  • Agile.
  • Scrum.
BLOCKCHAIN
Especializados en Tokenización y Certificación de procesos

  • Proyectos en Blockchain de trazabilidad.
  • Proyectos en Blockchain de seguridad y tokenizacion.
  • Proyectos de diseño de ICO para empresas.
SISTEMAS E INFRAESTRUCTURAS IT
Auditoría, estudio y mejora, de sistemas e infraestructuras de la información.

  • Proyectos DevOps.
  • Kubernetes as a service - KaaS.
  • Gemelos digitales.
  • Diseño Cloud.
  • Diseño de directorio activo y sistema LDAP.
  • Soluciones de correo electrónico avanzadas.
CIBERSEGURIDAD
Equipo especializado en monitorización, análisis y actuación ante ataques de serguridad.

  • Pentesting.
  • Seguridad de redes IT.
  • Seguridad de redes OT.
  • Honeypots en IoT.
  • Seguridad gestionada.

Oficinas Centrales
Francisco de Quevedo Nº18, 1B y 1C
Logroño · La Rioja

Sede Bilbao
Done Bikendi 7, 1A
Bilbo · Bizkaia

Sede Colombia
Calle 145#17 54 ap 301
Bogotá · Colombia

@.info[@]ginzo.tech
Tf.+34 941 57 57 57 (Teléfono España)
Tf.+57 601 580 0291 (Teléfono Colombia)

Contacta con nosotros a través de nuestro formulario de contacto. Te rogamos revises nuestra politica de privacidad. No enviamos spam,  simplemente responderemos a tu solicitud de la manera más ágil posible.

¿Preparado para empezar?