Correlación de datos

Quizás te has hecho preguntas como ¿si es posible que una persona que coma sano viva más años?, ¿si existe alguna relación entre la cantidad de harinas consumidas en un día y el nivel de azúcar en la sangre? o ¿si obtener buenas calificaciones se relaciona con mayor tiempo de estudio?, y al mismo tiempo te cuestionas, ¿cómo puedes responder a estas preguntas?, la solución es con la correlación estadística, pues como ves todas éstas preguntas relacionan dos variables numéricas.

Por ende, para encontrar respuestas deberás usar una medida de relación lineal, bien sea el coeficiente de correlación o la correlación de Pearson, éstos análisis de correlación son el primer paso para poder construir modelos explicativos y predictivos más complejos, contestar preguntas y mejorar la toma de decisiones, por ello en el artículo te hablaremos acerca de que es la correlación estadística, como interpretarla, como medirla e incluso te daremos ejemplos para que entiendas como usarla.

Procesos de correlación de datos
Departamento de Big Data
¿Qué es la correlación estadística?

Es un tipo de asociación entre dos variables numéricas, que evalúa la tendencia, creciente o decreciente, en los datos. Se dice que dos variables están asociadas cuando una nos da información sobre la otra, caso contrario ocurre cuando no hay asociación, entonces el aumento o disminución de una variable asociada a otra, nos dará información sobre cómo será el comportamiento de la otra variable.

Si se observa una tendencia creciente o decreciente entonces se puede afirmar que las dos variables se correlacionan, para poder dar inicio al análisis de una correlación lo mejor es comenzar haciendo un diagrama de dispersión entre las variables que quieres analizar.

¿Cómo se interpreta la correlación?

Gracias a la correlación que brinda piezas vitales de información, podrás medir el signo y magnitud de la tendencia existente entre dos variables, pero para poder llegar a esas interpretaciones debes saber:

  1. El signo indica la dirección de la relación: un valor positivo es señal de una relación directa o positiva, si es negativo entonces la relación es indirecta, inversa o negativa, por su parte, un valor nulo significa que no hay una tendencia existente entre las variables, podría ser porque no hay una relación existente, o que la relación sea más compleja que una tendencia tal como una en forma de U.
  2. La magnitud indica la fuerza de la relación: también llamado coeficiente de correlación (r), puede tomar valores entre -1 a 1, mientras más cercano se encuentre el valor a los extremos de dicho intervalo más fuerte será la tendencia de las variables o menor será la dispersión existente en los puntos que rodean dicha tendencia. Por el contrario, si el coeficiente de correlación se acerca al cero, más débil será la tendencia y, por ende, habrá mayor dispersión en la nube de puntos.

Puede pasar que la correlación tenga un valor de -1 o 1, en cuyo caso se dirá que es perfecta, y si tiene un valor de 0, entonces las variables no tienen correlación.

  • r> 0 es una relación positiva.
  • r<0 es una relación negativa.

Éste parámetro solo es apropiado para examinar la relación entre datos cuantificables significativos, no para datos categóricos.

  1. Tamaño del efecto: en estadística esto hace referencia a una medida de la fuerza o magnitud de un fenómeno, en el caso del coeficiente de correlación, este es una medida del tamaño del efecto para la relación lineal existente entre dos variables numéricas, es un dato esencial para la interpretación de resultados en un estudio, su ausencia es un fallo bastante común en los artículos científicos.

Para poder analizar qué tan fuerte es la correlación se puede usar el criterio de Cohen (1988), que estipula que, para valores absolutos, se indica que valores entre:

  • 0,1- 0,3 representan un efecto pequeño.
  • 0,3- 0,5 un efecto medio.
  • ≥ 0,5 un efecto grande.

Estos son valores arbitrarios, pero lo más recomendable es que interpretes la fuerza o tamaño de la correlación de acuerdo al contexto de tu investigación.

Coeficiente de correlación ¿cómo medirlo?

Para medir la correlación se usan coeficientes, entre los más usados se encuentra el de Pearson, que permite cuantificar tendencias lineales entre dos variables numéricas, y por su parte el de Spearman, que funciona para tendencias de aumento o disminución entre dos variables, no tienen que ser lineales, pero sí monótonas, lo que significa que las variables tienen a moverse en la misma dirección relativa, más no a un ritmo constante.

Sin embargo, a pesar de que el más usado es el coeficiente de correlación lineal de Pearson, éste método asume que la tendencia debe ser de tipo lineal, la inexistencia de valores atípicos u outliers, que las variables deben ser numé y en caso de que las variables sean de tipo ordinal no será aplicable la correlación de Pearson y asi mismo, asume que se cuenta con suficientes datos.

En base a lo antes mencionado, se debe tener claro que los dos primeros supuestos se pueden evaluar haciendo uso de un diagrama de dispersión, mientras que, en el caso de los últimos dos supuestos, bastara con observar los datos y evaluar que diseño se tiene.

Por ello cuando no se cumplan los requisitos del coeficiente de correlación lineal de Pearson, conviene usar el de Spearman, que se basa en los rangos de los valores, es una prueba no paramétrica, no asume una distribución previa de los datos y es más robusta en presencia de valores atípicos.

Ejemplos para entender la correlación estadística

Para que visualices mejor todo lo que te hemos presentado hasta ahora, te daremos algunos ejemplos prácticos de cómo se usa la correlación estadística:

  1. Ejemplo práctico 1: cálculo del coeficiente de correlación lineal de Pearson con la función cor() instalada por defecto en los paquetes básicos de R. El ingreso de las variables puede hacerse como vectores con cor(x,y), sin importar cuál es “x” y cual es “y”, pues la relación es simétrica.

Se usarán el conjunto de datos Stackloss del paquete Mass (Brownlee, 1965), los cuales provienen de datos de una fábrica de oxidación de amonio (NH3) a ácido nítrico (HNO3). Se cuenta con 21 observaciones de 4 variables:

  • Flujo de aire (representa la tasa de operación en la fábrica; Air.Flow).
  • Temperatura del agua (Water.Temp).
  • Concentración de ácido (un valor de 89 corresponde a 58,9%; Acid.Conc).
  • Pérdida de ácido a través de la pila (medida de la ineficiencia de la planta; Stack.Loss).

En éste caso se evaluará la relación de la producción de la fábrica con su eficiencia (Stack.Loss y Air.Flow), ambas son variables numéricas, lo que permite que se estudie su asociación usando el coeficiente de correlación. Para empezar se debe activar el paquete que contiene los datos con la función library(), luego se observa el encabezado, compuesto por las primeras 6 líneas del conjunto de datos.

Posteriormente se pueden activar las variables usando la función attach() para que sea sencillo trabajar con ellas. Una vez hecho esto, se ve que la correlación entre ellas es lineal, positiva y fuerte con un r= 0,92, lo que significa que al incrementar la producción de la fábrica (Air.Flow) incrementa la ineficiencia del proceso (Stack.Loss), esto se traduce en que cuando la fábrica opera a bajas cantidades, la ineficiencia del proceso de oxidación también es baja.

Es importante que sepas que, en R, si se tienen más de dos variables en una matriz o data frame (cada columna representa una variable distinta), entonces se usa cor(x), pues “x” es una matriz o data frame, pudiendo calcular en un paso todas las correlaciones existentes entre las variables del conjunto de datos Stackloss.

Debes tener especial atención cuando tengas algún valor ausente o perdido, pues el software lo identifica como NA (Not Available), y entonces la función cor() devuelve otro NA, lo cual produce errores en el análisis, para evitarlo debes especificar como quieres que sean tratados los valores ausentes en la función media del argumento mediante el use = ”pairwise.complete.obs”; el cual calcula el coeficiente de correlación para todas las observaciones donde no falta ningún valor de x ni y, garantizando el cálculo de correlación para cada par de variables sin que se pierda información por los valores NA de otras variables.

  1. Ejemplo práctico 2: con el mismo ejemplo 1, de observar la relación entre Air.Flow y Stack.Loss, pero calculando la correlación de Spearman en R, y asumiendo que la tendencia no fuera lineal monótona, para ello puedes usar las funciones que se mencionaron previamente, cor(), pero deberás indicar “Spearman” en el argumento method, en el cual sale por defecto “Pearson”, entonces hecho esto, entonces obtenemos un valor de correlación positivo, alto, que no es muy distinto del anterior, r= 92, y esto es debido a que se cumplen las condiciones de la correlación de Pearson.
  2. Ejemplo práctico 3: usaremos la media de relación lineal del coeficiente de Pearson para trabajar con datos de la clasificación de la liga española de futbol del 2016, para responder a la pregunta: ¿qué es más importante en un partido de fútbol, marcar goles o que no te marquen?, seleccionando tres variables; partidos ganados, goles en contra y goles a favor.

Relacionaremos dos variables inicialmente, los goles a favor y los partidos ganados, entonces para comenzar diseña un scatter plot 2D o diagrama de dispersión, para observar cómo crece o decrece una variable con respecto a la otra, teniendo en mente que el signo de la covarianza te indica el sentido de la relación.

Entonces el resultado presenta una recta positiva, cuya relación es creciente, con pendiente positiva y, por ende, la covarianza es positiva también, entonces, puedes ver como con el scatter plo 2D fácilmente pudiste relacionar las dos variables de forma muy visual.

Puedes hacer lo mismo con la otra variable, goles en contra vs partidos ganados, y encontraras una relación decreciente, con una covarianza negativa al igual que el signo de la correlación

  1. Ejemplo práctico 4: la correlación te permitirá estudiar la relación existente entre el ingreso familiar y el gasto familiar, observando que ambos suben o bajan juntos en la misma dirección, por ende, tienen una correlación Caso opuesto ocurre con el precio y la demanda, los cuales llevan direcciones opuestas, lo que significa que si uno aumenta el otro decrece, siendo esto una correlación negativa.

Ahora bien, esperamos que con toda esta información y los ejemplos prácticos que te dejamos descritos, puedas entender bien el uso de la correlación estadística, para que puedas contar con otra herramienta que permita comparar variables numéricas y así cuantificar la relación entre dos variables, de forma que contestes a preguntas similares a las que mostramos al principio del artículo.

Nuestro blog

Artículos de interés sobre la actualidad de la transformación digital.

¿Cómo crear una Antena de Wifi Casera?
| Ginzo Technologies |
En la actualidad, el mundo necesita tener más comunicación, y esto es posible mediante la señal de internet. Cada día se hace más necesario contar con dicha conexión para poder realizar cientos de gestiones, trabajo, comunicarnos con familiares y amigos, o sencillamente entretenernos con la película que está de mod...
¿Por qué tu Tienda Minorista necesita una Aplicación Móvil?
| Ginzo Technologies |
aplicaciones para el comercio minorista
En la actualidad muchos factores han influido para que los negocios crezcan no sólo con tiendas físicas o mediante páginas web, sino utilizando las aplicaciones móviles. Estas han causado un gran impacto debido a la facilidad de poder mirar en tu teléfono en el momento que quieras el contenido que deseas, y lo mejo...
¿Cómo desarrollar un Producto Mínimo Viable basado en el IoT?
| Ginzo Technologies |
tecnología
Lanzar un producto al mercado implica una ardua tarea, en la que pueda definirse si es exitoso o por el contrario será un fracaso su permanencia en ese mundo. Por este motivo, se hace necesario aplicar la metodología fundamentada en el producto mínimo viable, el cual permitirá probar la funcionalidad y recepción...
LABORAL KUTXA BENEFICIO 65 MILLONES
| Ginzo Technologies |
¡Felicitamos a Laboral Kutxa por sus 65 millones de beneficios! En GINZO TECH tenemos muchas ganas de hablarte sobre este tema. Esta vez le haremos frente a la información relacionada con los beneficios que ha recibido esta entidad financiera y también le dará otra información sobre el asunto. Laboral Kutxa es...
Cambios en el desarrollo de aplicaciones móviles
| Ginzo Technologies |
Desarrollo aplicaciones móviles
El desarrollo de aplicaciones móviles se ha convertido en una industria próspera en la última década. Con el auge de los smartphones y tablets, cada vez más personas usan aplicaciones móviles para realizar sus actividades diarias. Desde compras en línea hasta comunicarse con amigos y familiares, las aplicaciones mó...
Aproveche la IA para Aumentar la Eficiencia de su Negocio
| Ginzo Technologies |
Inteligencia Artificial
En estos tiempos actuales en que todo tipo de actividad que se realice está íntimamente ligado con la tecnología, la inteligencia artificial (IA) cada día va cobrando más fuerza, y es que esta ha llegado para hacer más fácil del trabajo de cualquier persona que lo amerite. En este sentido, la inteligencia artifi...
¿Qué es un NFT?
| Ginzo Technologies |
NFT
En la era digital, la tecnología blockchain ha revolucionado la forma en que se maneja la información y se realizan transacciones en línea. Una de las innovaciones más recientes que ha surgido gracias a la blockchain son los NFTs o Tokens No Fungibles. Un NFT es un token digital que utiliza la tecnología blockch...
Beneficios de las Aplicaciones Móviles en Pequeñas Empresas
| Ginzo Technologies |
empresas pequeñas con apps móviles
Ciertamente el uso de las aplicaciones móviles permite obtener un grado de interacción importante con los usuarios de la red. Sin embargo, se ha visto como éstas han permitido el crecimiento vertiginoso de las empresas que optan por manejar las apps. Ahora bien, en torno a esto se genera la interrogante ¿Cuál es...
¿Cuáles son los mejores Marcos de desarrollo de Android para crear Apps móviles?
| Ginzo Technologies |
marco de desarrollo de apps
Es cierto que la industria web ha ido en aumento, y más aún en esta era de la industria de aplicaciones móviles que crece cada día. Este incremento tan vertiginoso se debe a la capacidad que tienen estos sitios de atraer clientes y mantenerlos satisfechos. En este sentido, el éxito del sitio web dependerá de la est...
Inteligencia Artificial y Machine Learning en el sector Bancario y Financiero
| Ginzo Technologies |
Inteligencia artificial
El internet cada día se ha vuelto una herramienta muy importante en todas las gestiones que se precisan desarrollar, y actualmente la inteligencia artificial va cobrando más espacios, ya que muchas tecnologías la aplican para la ejecución de acciones y resolución de problemas. El sector bancario y financiero, se...
LABORAL KUTXA BENEFICIO 65 MILLONES
¡Felicitamos a Laboral Kutxa por sus 65 millones de beneficios! En GINZO TECH tenemos muchas ganas de hablarte sobre este ...
Cambios en el desarrollo de aplicaciones móviles
El desarrollo de aplicaciones móviles se ha convertido en una industria próspera en la última década. Con el auge de los smart...
Aproveche la IA para Aumentar la Eficiencia de su Negocio
En estos tiempos actuales en que todo tipo de actividad que se realice está íntimamente ligado con la tecnología, la inteligen...
¿Qué es un NFT?
En la era digital, la tecnología blockchain ha revolucionado la forma en que se maneja la información y se realizan transaccio...
Beneficios de las Aplicaciones Móviles en Pequeñas Empresas
Ciertamente el uso de las aplicaciones móviles permite obtener un grado de interacción importante con los usuarios de la red. ...
¿Cuáles son los mejores Marcos de desarrollo de Android para crear Apps móviles?
Es cierto que la industria web ha ido en aumento, y más aún en esta era de la industria de aplicaciones móviles que crece cada...

Descubre nuestras áreas de desempeño

Durante estos últimos ocho años, hemos conseguido consolidar un equipo de profesionales multidisciplinar que avala con su formación, experiencia y dedicación cada una de las áreas de negocio.

DATA SCIENCE
Estudios avanzados sobre tu operatica y dato.

  • Análisis de datos.
  • Modelado de datos.
  • Correlación estadística.
  • Business Intelligence.
  • Perfilado de cliente.
  • Machine Learning.
ÁREA DE MATEMÁTICA APLICADA
Ciencia en tu empresa, servitización de tu ciclo empresarial.

  • Investigación y Desarrollo.
  • Problemas complejos.
  • Optimización de procesos.
DESARROLLO DE SOFTWARE
Ciencia en tu empresa, servitización de tu ciclo empresarial.

  • Desarrollo Backend.
  • Desarrollo Frontend.
  • Desarrollo Apps Mobile.
  • Agile.
  • Scrum.
BLOCKCHAIN
Especializados en Tokenización y Certificación de procesos

  • Proyectos en Blockchain de trazabilidad.
  • Proyectos en Blockchain de seguridad y tokenizacion.
  • Proyectos de diseño de ICO para empresas.
SISTEMAS E INFRAESTRUCTURAS IT
Auditoría, estudio y mejora, de sistemas e infraestructuras de la información.

  • Proyectos DevOps.
  • Kubernetes as a service - KaaS.
  • Gemelos digitales.
  • Diseño Cloud.
  • Diseño de directorio activo y sistema LDAP.
  • Soluciones de correo electrónico avanzadas.
CIBERSEGURIDAD
Equipo especializado en monitorización, análisis y actuación ante ataques de serguridad.

  • Pentesting.
  • Seguridad de redes IT.
  • Seguridad de redes OT.
  • Honeypots en IoT.
  • Seguridad gestionada.

Oficinas Centrales
Francisco de Quevedo Nº18, 1B y 1C
Logroño · La Rioja

Sede Bilbao
Done Bikendi 7, 1A
Bilbo · Bizkaia

Sede Colombia
Calle 145#17 54 ap 301
Bogotá · Colombia

@.info[@]ginzo.tech
Tf.+34 941 57 57 57 (Teléfono España)
Tf.+57 601 580 0291 (Teléfono Colombia)

Contacta con nosotros a través de nuestro formulario de contacto. Te rogamos revises nuestra politica de privacidad. No enviamos spam,  simplemente responderemos a tu solicitud de la manera más ágil posible.

¿Preparado para empezar?