Análisis de datos
En esta época donde reina la informática, la cantidad de datos que se generan a diario son exorbitantes.
No obstante, para que estos no abrumen a las empresas, la clave está en analizar ese gran volumen de datos de manera que puedan interpretar sus implicaciones correctamente.
Para ello se hace necesario contar con herramientas que permitan usar técnicas adecuadas de análisis de datos sin dejar fuera la calidad de la información.
La principal herramienta para el análisis de datos es la estadística aplicada, que requiere práctica y enfoque, pero que ayuda a analizar los datos de los proyectos de forma eficaz, para que así se puedan limpiar los datos y transformarlos en información de valor para la empresa, y así se pueda llegar a conclusiones y decisiones correctas.
El análisis de datos hace referencia a la ciencia que establece procesos para examinar, limpiar y transformar conjuntos de datos, que permitan luego poder sacar conclusiones acerca de la información, y tomar decisiones con un grado de confianza determinado o incrementar los conocimientos en diferentes temas. Por eso, en la actualidad se utiliza por muchas industrias e incluso en la ciencia, para poder comprobar o descartar teorías o modelos existentes.
Consiste en realizar operaciones con los datos para obtener con precisión las conclusiones que se buscan para poder alcanzar los objetivos. Estas operaciones no pueden definirse de forma previa porque durante la recolección de los datos pueden presentarse ciertas dificultades.
De acuerdo con el asesor de negocios y orador de temas empresariales y de innovación, Daniel Burrus, el análisis de datos contribuye a que los humanos trabajen más, pero de forma rápida e inteligente, pues tienen datos sobre todo lo que ocurre en tiempo real.
Las variables corresponden a las características que se van a medir. Éstas pueden dividirse en dos grandes tipos, las cualitativas y las cuantitativas:
Variables cualitativas
Se refieren a etiquetas o nombres de cosas, que pueden ser ordinales o nominales, como por ejemplo el país de procedencia, estado civil o género.
Se presentan de forma verbal y en algunos casos gráficamente, están basadas en la interpretación. Estos datos se obtienen a través de entrevistas abiertas, grupos de debate y observación, donde los investigadores analizan patrones a lo largo de toda la fase de recolección de datos.
Variables cuantitativas
Son los números, aquellas características que tienen unidades, un sentido de escala, que pueden ser discretas (sin decimales), y continuas (con decimales) basadas en resultados tangibles, por ejemplo, el peso en Kg.
El Big Data permite realizar análisis del comportamiento del usuario mediante la extracción de información de valor de los datos almacenados para formular predicciones a través de la observación de patrones.
De acuerdo con la mayoría de los analistas y profesionales del área, para que un conjunto de datos sea considerado Big Data, debe contar con un tamaño que va desde los 30 a 50 Terabytes a varios Petabytes, generalmente, pues realmente esto no está firmemente definido aún.
Su origen está en la naturaleza no estructurada y compleja de gran parte de los datos que generan las tecnologías modernas, como por ejemplo la identificación por radiofrecuencia (RFID), las búsquedas en internet, las redes sociales, los teléfonos inteligentes, registros de centros de llamada, etc. Nace para dar solución tecnológica a los aspectos asociados con el gran volumen de datos, como almacenarlos, analizarlos, procesarlos y la generación de conocimientos de valor.
En muchos casos, para que el uso del Big Data sea más eficaz, la combinan con datos estructurados, normalmente provenientes de una base de datos relacional de una aplicación comercial convencional como un ERP (Enterprise Resource Planning) o un CRM (Customer Relationship Management), pues al final, lo que realmente resulta valioso del Big Data es cómo manejan la información para lograr tomar mejores decisiones que conduzcan a acciones estratégicas de negocio.
Se pueden encontrar varios enfoques para aplicarse, como métodos de análisis de datos, sin que signifique que sean una metodología estricta. Cada método o técnica va destinado a utilizarse en problemas distintos:
- Media aritmética: se busca sumar una lista de datos numéricos para que el resultado se divida por el número de elementos que compone dicha lista. Suele usarse para determinar la tendencia general de un conjunto de datos. Además, encontrar el promedio también sirve para obtener una instantánea rápida de toda la información.
Este método debe usarse con cautela porque, si se tienen muestras con un alto número de valores atípicos o una distribución sesgada, esta técnica no nos proporcionará la precisión que necesitamos para la toma de decisiones.
- Comparación de medias: ya explicamos qué es el método de la media, pero ahora, teniendo el valor de esta, puedes distinguir si un grupo es diferente a otro, relacionando variables cuantitativas con cualitativas.
- Desviación estándar: permite determinar de forma rápida la dispersión de puntos de datos. Si el valor es alto, significa que los datos están más ampliamente distribuidos desde la media; por el contrario, si el valor es bajo, entonces hay mayor cantidad de datos que se alinean con la media. No obstante, al igual que la media, esta técnica también puede introducir errores.
- Determinación del tamaño real de la muestra: en algunos casos, cuando se mide un gran conjunto de datos, no se necesita recolectar información de cada miembro de la población, basta con determinar el tamaño correcto del conjunto para que así la muestra que se tome sea precisa. Para ello, se usan métodos de proporción y desviación estándar, obteniendo así una recopilación de datos estadísticamente significativa.
Como desventaja, esta técnica puede complicarse cuando se debe estudiar una variable nueva, ya que las ecuaciones de proporción podrían basarse en suposiciones que a su vez pueden ser inexactas, transfiriendo el error a la determinación del tamaño de la muestra y afectando el resultado final del análisis.
- Regresión: facilita la determinación de tendencias en el tiempo, gracias a que modela las relaciones entre variables dependientes y explicativas, las cuales se grafican en un diagrama de dispersión donde se muestra si los vínculos existentes son fuertes o débiles. Sin embargo, esta técnica no está exenta de riesgos, ya que tiende a ignorar los valores atípicos, que en algunos casos son importantes dentro un diagrama de dispersión. Por tanto, nunca podrán ser descubiertos por el analista.
- Prueba de hipótesis: ayuda a evaluar si una premisa es realmente cierta para un conjunto de dato o población, eliminando las posibilidades de que algo sea casual. Hay que tener cuidado con los errores comunes, como el efecto Hawthorne y el placebo.
- Comparación de proporciones: este método te permite diferenciar si las proporciones son diferentes de un grupo al otro. Por ejemplo, si la proporción de accidentes en motos es distinta dependiendo de los rangos de edades, se compararán 4 proporciones 15-20, 20-25, 25-30 y 30-35.
- Correlación: permite analizar si hay relación entre variables numéricas, asociación entre variables cuantitativas.
A pesar de que existen todos estos métodos de análisis de datos que son tradicionales y precisos, la tecnología ha permitido que se apliquen soluciones avanzadas que no solo automatizan los análisis, sino que también dejan a un lado el cálculo manual y reduce la intervención humana, minimizando los riesgos de errores. Algunas de esas técnicas sofisticadas son:
- Aprendizaje automático: corresponde a una subespecialidad de la informática asociada al campo de la inteligencia artificial y se conoce también como machine learning. Se basa en el diseño y desarrollo de algoritmos que permiten a los ordenadores aprender a reconocer de forma automática patrones complejos para que puedan actuar en base a datos empíricos y tomen decisiones inteligentes fundamentadas en datos. Un ejemplo es el procesamiento del lenguaje natural.
- Redes neuronales: se basa en modelos computacionales que se inspiran en la estructura y funcionamiento de redes neuronales biológicas, para así encontrar patrones en los datos. Se especializa en patrones no lineales y se recomienda su uso en aplicaciones asociadas con aprendizaje supervisado y no supervisado, como la identificación de clientes en riesgo de abandono.
- Aprendizaje de reglas de asociación: son un conjunto de técnicas de análisis de datos que se emplean para descubrir relaciones de interés entre variables en grandes bases de datos. Surgen a partir de la aplicación de algoritmos que conllevan a la generación y prueba de posibles reglas.
Un ejemplo de su uso es en el análisis de la cesta de la compra que realizan los minoristas para optimizar su planificación y decisiones de abastecimiento, en base a la determinación de qué productos compran con mayor o menor frecuencia los consumidores.
- Algoritmos genéticos: se inspira en la naturaleza, con vertiente Darwiniana, basándose en la evolución natural y la supervivencia del más fuerte. Su aplicación permite codificar las soluciones potenciales para que puedan combinarse entre sí e incluso ser sometidas a mutaciones. Suelen usarse para optimizar el rendimiento de una cartera de inversiones o para mejorar la programación de trabajos en los procesos de fabricación.
- Análisis de series temporales: con esta técnica se analizan secuencias de puntos de datos representativos de valores en tiempos sucesivos, para entonces extraer las características más significativas de la información, lo que podría interpretarse como usar un modelo que prediga valores futuros de una serie temporal basándose en valores pasados conocidos de la misma u otra serie. Una de sus aplicaciones es en el pronóstico de cifras de ventas de una empresa.
Ahora bien, ya conociendo toda la parte teórica es momento de que sepas cuáles son los 6 pasos necesarios para poder hacer un análisis de datos efectivo que contribuya para tener una toma de decisiones adecuada:
- Definir bien el problema: lo primero y más importante para recibir los resultados esperados y encontrar soluciones basadas en tus datos es que definas el problema clara y concretamente, para que así los ordenadores puedan entender las instrucciones que se les dan y arrojen resultados satisfactorios.
Lo importante es que seas capaz de definir el problema y plantear un solo objetivo. Para ello ayúdate respondiendo a las preguntas:
- ¿Qué problema quieres resolver con esos datos?
- ¿Qué significan las variables?
- ¿Qué tipo de variables tienes?
- Define el objetivo que ayudara a solventar el problema que planteaste previamente.
- Conocer los datos: identificar cuál es el conjunto de datos que tienes, su origen y disponibilidad, y que incluya los metadatos en el estudio, como tamaño, naturaleza de las variables, alcance, fortalezas y debilidades… De esta forma podrás saber cuál es el rango de soluciones que cada grupo de datos puede ofrecer.
Además, para que el resto de las personas involucradas pueda acceder a la información de los datos disponibles se recomiendan las referencias como diccionarios de datos.
Lo mejor para conocer los datos es crear gráficos, interpretarlos y así encontrar los primeros indicios que te lleven a unas conclusiones preliminares, ordenándolas según su importancia.
- Identifica el conjunto de datos ideal: si conoces el problema que quieres solventar, también debes conocer qué quieres obtener para solucionarlo. Conociendo el entorno de datos podrás identificar los datos que necesitas y una estrategia que te ayude a encontrarlos y consumirlos. Hazte todas las preguntas necesarias para poder encontrar los datos que necesitas.
Además, después de recopilar los datos de forma honesta y exacta, procesarlos u organizarlos, debes limpiar las variables para no crear confusiones, evitando tener datos incompletos, duplicados o con errores.
Una buena recomendación es hacer análisis exploratorios con datos simulados que justifiquen la adquisición de datos faltantes.
- Haz un análisis reproducible: indiferentemente de la técnica o método de análisis usado, es importante que expliques cuál fue la estrategia para lograr tus resultados para que así tu análisis comunique una evidencia a través de los datos y que las personas involucradas estén informadas. Lo mejor es que hagas manuales de usuario y guías en el caso de análisis que se deben repetir periódicamente.
En el caso de que cuentes con las capacidades necesarias, entonces podrías generar un script o código con la solución encontrada, para que asegures que con los mismos datos siempre llegarán a los mismos resultados, eliminando errores y confusiones en la interpretación.
Ejemplos de esto son Microsoft Excel que tiene su propio lenguaje de programación (VBA) que le permite recrear todas las funcionalidades usada. Por su parte, existen otros lenguajes de programación especializados, como por ejemplo R o Python, usados en computación estadística.
- Reta tu análisis: cuando cuentes con resultados preliminares, lo mejor es que los sometas a pruebas. Para hacerlo tienes dos opciones, la primera que personas no involucradas en el proceso hagan revisiones o que se realicen pruebas manuales de formato o de cálculo que puedan identificar problemas, y a su vez tenga la posibilidad de ser modificables y mejorables sin necesidad de cambiar la perspectiva del problema, evitando un análisis erróneo.
- Presenta tu análisis en formatos multiplataforma: así tus clientes podrán usarlos independientemente de los entornos que tengan sus ordenadores o el dispositivo que usen para visualizarlos. Se recomiendan formatos como CSV, .txt, PDF o HTML, que podrán visualizarse fácilmente independientemente de dónde se abran los documentos.
Además, el mensaje debe transmitirse de forma clara y eficiente. Para ello se pueden apoyar en técnicas de visualización de datos, sean gráficas o tablas. Ambas facilitan la presentación de la información permitiendo resaltar la información importante.
Contando con estos 6 pasos en tu proceso de análisis, podrás tomar mejores decisiones para tu negocio, respaldando tus elecciones por datos que han sido robustamente recolectados y analizados. Además, cuentas con toda la información teórica proporcionada en el artículo, necesaria para realizar el análisis de datos de forma adecuada con conocimientos firmes en el área.