Skip to main content

Data Science

Así como ha ocurrido con diversos inventos humanos en el ámbito cultural y científico, que han llegado para quedarse, el Big Data se asume que tendrá un efecto igual de permanente en la sociedad.

Favorece la producción, incrementándola y facilitando el análisis computacional de grandes volúmenes de datos, las actividades se han ido transformando para mejor, aplicando Data Science, también conocida como ciencia del dato de forma novedosa en distintos ámbitos, como la estadística, la minería de datos, el aprendizaje automático y la analítica predictiva.

Desde nuestras oficinas en España (Logroño y Bilbao) y Colombia (Bogotá) aplicamos Data Science a nuestros clientes mejorando de esta forma su productividad

Dpto. de Bigdata
Estudios operativos
Data Science ¿Qué es y qué es lo que estudia?

Gracias a la implementación de esta innovadora forma de tratamiento de la información, algunas profesiones se encuentran en crisis mientras otras se ven beneficiadas y al mismo tiempo se crean otras nuevas.

Por ello es importante que conozcas conceptos asociados con ésta área y, para ayudarte, trataremos en el artículo el significado de data science o ciencia del dato, cuáles son los conocimientos esenciales para los científicos del dato, la historia de la ciencia de los datos y su aplicación.

¿Qué es Data Science?

Al ser una ciencia innovadora, no tiene un concepto bien definido, sin embargo, después de una revisión de los conceptos que se encuentran en la web, logramos llegar a una definición que los engloba prácticamente a todos.

El Data Science es una disciplina que se dedica al estudio y organización de los datos digitales, de forma que éstos sean útiles para su análisis, interpretación y extracción de información precisa. Esta se aplica a cualquier cosa que se pueda transformar en números y procesarse de forma digital gracias a las técnicas de programación.

Conocimientos esenciales para los científicos de datos

Los cimientos de la ciencia de datos los conforman tres conocimientos fundamentales: programación, estadísticos y/o matemáticos y los especializados. Son esenciales para poder llevar a cabo dicha labor y, para que comprendas cómo se enlazan entre ellos para poder generar resultados útiles para los científicos de datos, te los describimos a continuación.

Conocimientos de programación

Al manejarse grandes cantidades de datos, es necesario tener todas las capacidades para poder procesarlos, como un ordenador lo suficientemente potente. A su vez, se necesita manejar el lenguaje comunicativo entre el ser humano y los datos masivos, que corresponde al lenguaje de programación informática, para que así el científico de datos pueda explicarles a los ordenadores qué es lo que necesita de ellas.

Contar con este conocimiento implica que el científico de datos tiene la capacidad de simplificar una tarea compleja en una serie de pasos que un ordenador puede resolver, de forma que deberá aplicar un conjunto de técnicas de programación para dar solución a un problema que si se aborda por otro medio sería poco práctico.

Conocimientos estadísticos/matemáticos

Estos van a proporcionar una serie de aproximaciones matemáticas y estadísticas que reducen la complejidad de los datos sin necesidad de perder información, y permiten ordenar, procesar y analizar las capas superpuestas de información, aplicando fórmulas y algoritmos a dichos datos, para retirar toda la información innecesaria, y obtener patrones y respuestas que concluyan en un mismo punto.

Conocimientos especializados

Este es el más fundamental, pues es indispensable la experiencia acumulada del científico de datos, que cuente con un amplio conocimiento del campo de estudio para poder llegar a conclusiones correctas sobre los datos que se manejan, que tenga ojo crítico para analizarlos, y entender la respuesta que arrojan frente a nuestra pregunta.

De nada sirve que la programación y la matemática o estadística hayan sido impecables si no contamos con los conocimientos especializados necesarios para la correcta interpretación de los resultados. Por ello este es el conocimiento más importante al momento de obtener las conclusiones de todos los datos.

En resumidas cuentas, el conocimiento especializado complementa la programación y la matemática/estadística, facilita el discernir si las respuestas que arroja un análisis estadístico sofisticado tienen sentido y cuáles son las preguntas que se deberían realizar.

¿Cuál es la historia del Data Science?

Esta disciplina tiene su origen alrededor de 1962, cuando John W Tukey planteaba en su artículo The Future of Data Analysis, el futuro de la estadística matemática como ciencia empírica, y definió por primera vez el análisis de los datos. A su vez, también tiene raíces en 1974, pues fue cuando Peter Naur en su libro Concise Survey of Computer Methods, enfatizo en los datos y señalo el término de “Data Science”.

Posteriormente en 1977 John W Tukey, argumentó en Exploratory Data Analysis, que se debía hacer más hincapié en el uso de datos para plantear hipótesis para ser probadas en modelos estadísticos, y a su vez el término se integró en varias asociaciones y conferencias relacionadas con estadística y computación, tal como ocurre ese año que se establece como una sección del International Statistical Institute (ISI), nombrada como el International Association for Statistical Computing (IASC).

Al IASC le asignaron la misión de relacionar la metodología estadística tradicional con la tecnología computacional moderna y el conocimiento de los expertos en la materia para poder convertir datos en información y conocimiento.

Al llegar a 1996 se usa por primera vez el término Data ScienceCiencia de Datos en una conferencia llamada “Ciencia de datos, clasificación y métodos relacionados”, la cual se llevó a cabo en una reunión de miembros de la “International Federation of Classification Societies” ubicada en Kobe, Japón.

Consecuentemente, en 1997, C.F. Jeff Wu da una charla de nombre “Statistics= Data Science?”, y en ella hace la petición de que la estadística fuese renombrada como Ciencia de Datos y a los estadísticos se les nombrara Científicos de Datos.

Se piensa que la primera vez que la Ciencia de Datos fue tratada como disciplina independiente fue en el 2001 por William S. Cleveland, gracias a que extendió el campo de la estadística para así poder incluir los avances de la computación en artículos como “Data science: an action plan for expanding the technical areas of the field of statistics”.

Más reciente el ganador del premio Turing, Jim Gray señalo que la Ciencia de Datos es el cuarto paradigma de la ciencia y que gracias al impacto que ha tenido la tecnología de la información y la gran cantidad de datos disponibles, todo lo relacionado con la ciencia está cambiando.

Y es así, pues en el 2002 el International Council for Science: Committee on Data for Science and Technology (CODATA) inició la publicación de Data Science Journal que se enfoca en publicar problemas asociados con la descripción de sistemas de datos, su publicación en internet, aplicaciones y problemas legales, después en 2003 la Universidad de Columbia empezó la publicación de The Journal of Data Science, que permite a todos los profesionales de la ciencia de datos presentar sus perspectivas e intercambiar ideas.

En 2005 definen a los científicos de datos como científicos de computación e información, programadores de bases de datos y software, expertos disciplinarios, que son cruciales para la recolección digital de datos, y tienen como actividad la investigación creativa y análisis, de acuerdo con The National Science Board.

Más tarde en 2009, se publica “Introduction to Dataology and Data Science” gracias a los investigadores Yangyoung Zhu y Yun Xiong del Research Center for Dataology and Data Science, donde indican que la Datología y Ciencia de Datos toman datos en la red y su objeto de estudio.

Luego en 2013 se lanza el IEEE Task Force on Data Science and Advanced Analytics, en 2014 se lanza la primera conferencia de éstos, y es en 2015 cuando Springer lanza el International Journal on Data Science and Analytics, que va destinado a publicar trabajos originales que traten acerca de ciencia de datos y analítica de Big Data.

Aplicación de la ciencia de los datos

Marketing

En 1994 se publicó el artículo “Marketing de base de datos” en el BusinessWeek, donde se mencionaba que las empresas recopilan mucha información sobre sus usuarios, y ésta es analizada para poder hacer predicciones respecto a la probabilidad de compra de un producto y poder diseñar un mensaje de marketing que acierte para atraer clientes.

En los 80’s con el boom de los lectores de códigos de barra, muchas empresas se vieron consternadas por la gran cantidad de datos que requerían para poder hacer algo útil con la información de sus consumidores, no obstante, algunas corporaciones piensan que deben desafiar la frontera del marketing y las bases de datos para desarrollar aún más las tecnologías necesarias.

Gracias al uso de algoritmos y el análisis de datos con respecto a las elecciones que realizan los usuarios en las diversas plataformas, las compañías, empresas o pequeños negocios pueden conocer las preferencias de sus clientes y así promocionar los artículos que cumplen con sus expectativas, o hacerle sugerencias en base a sus gustos, sacando máximo provecho a sus campañas de marketing.

Entonces como puedes ver, en ésta área usan la ciencia de datos para poder obtener información de las personas, sea de sus propias plataformas, de los buscadores o de las redes sociales, que les permita establecer un modelo automático de aprendizaje para que realice recomendaciones más precisas que se fundamenten en el perfil de cada usuario.

Un ejemplo es Spotify que se especializa en la ciencia de datos musicales, almacenando información sobre cuál es la música que escuchan más sus usuarios y su historial de búsqueda de la semana anterior. Otro ejemplo aún más reconocido es Netflix, que se especializa en conocer las costumbres de consumo de contenido de sus usuarios y todo gracias al almacenamiento y manejo de datos como la hora del día a la que se conectan, cuanto tiempo pasan en la plataforma y su lista de contenidos recientemente vistos.

Políticas públicas y de gobierno

Entre los temas que requieren de datos en ésta área se encuentran la movilidad urbana sostenible, ciudades inteligentes, seguridad, propiedad de datos y privacidad. Todas las antes mencionadas requieren de estudios de datos para la toma de decisiones adecuadas, y que se puedan hacer sugerencias que permitan lograr inteligencia de valor público con potencial de ser un componente estratégico en la toma de decisiones, diseño, implementación y evaluación de políticas públicas.

Además, el involucrar la ciencia del dato en ésta área mejora la rendición de cuentas de los gobiernos frente a la ciudadanía y promueve el avance en la curaduría de datos de las instituciones públicas.

Un ejemplo es como en América Latina el Banco Interamericano de Desarrollo (BID) ha realizado estudios exploratorios donde analiza la ciencia de datos dentro de la implementación y diseño de políticas públicas en la región, teniendo casos de países como Argentina y Brasil, en cuyo informen presentan recomendaciones para su correcta implementación y mantenimiento en el tiempo.

Mundo científico

Dentro de la ciencia se aplica a todas sus disciplinas, recolectando información de todos los tipos posibles, y provenientes de distintos orígenes como satélites, radares, barcos, aviones, toda la que puedan recopilar para establecer modelos completos, que permitan predecir o pronosticar cualquier suceso de origen natural con gran precisión, y de ésta forma tomar las medidas adecuadas para evitar daños o corregir cualquier complicación.

Como ejemplo podemos señalar la previsión meteorológica, que recopilan información de los satélites, para establecer un modelo climático que permita pronosticar el tiempo y predecir calamidades naturales con precisión para que las autoridades pertinentes lleven a cabo cualquier acción preventiva.

Como ves la ciencia del dato se encuentra en todos lados y es sumamente necesaria en la actualidad para poder llevar muchas de las áreas que generan y recopilan información, la clave está en tener la capacidad de saber sacarle el provecho máximo para poder obtener todas las respuestas necesarias que te permitan entender que está sucediendo, el por qué ocurre, que pasará a futuro y de qué manera puede ser reproducible un resultado en particular en una próxima oportunidad.