Big Data

Qué es la ciencia de datos

El volumen total de los datos se duplica cada 18 meses. Para extraer información de valor, necesitamos herramientas y profesionales específicos. Te hablamos del data science y los data scientist.

Por Redacción España, el 10/09/2019

auto ¿Te ha gustado nuestro artículo? ¡Vota!

En los tiempos que corren, la información es uno de los intangibles más preciados. Saber controlarla es la mejor forma de estar a la cabeza de la vanguardia. Con ella, las organizaciones pueden estructurar su modus operandi y reducir los riesgos. No obstante, hay que saber extraer el valor de los datos y para hacerlo adecuadamente existe el data science y los data scientist. Te explicamos en qué consisten.


Data Science, un término más que amplio

Antes de entrar en materia, tenemos que ofrecer una definición de lo que es la ciencia de datos o data science. Se trata de un conjunto de herramientas que utiliza métodos, procesos, algoritmos y sistemas científicos para extraer información valiosa de los datos en bruto. 

Por su parte, la ciencia de datos es un campo que se sirve de las matemáticas, estadísticas y disciplinas informáticas para desarrollar sus procesos y además, incorpora novedosas técnicas como el aprendizaje automático, el análisis masivo y la extracción de datos.


¿Qué conocimientos tiene un científico de datos?

La analítica de datos se aplica a las empresas desde hace mucho tiempo, nos permitimos citar a W. E. Demming que decía que sin datos no eres más que una persona con una opinión. La digitalización de la economía, el auge de los sistemas de aprendizaje automático así como la necesidad de tener una experiencia de usuario superlativa,  ha hecho crecer la figura del científico de datos, especializados en recolectar, manipular y dar sentido a ese volumen de información proveniente de múltiples fuentes . 

Adentrarse en el mundo del Big Data no es tan sencillo como parece. Estos perfiles profesionales deben tener un profundo conocimiento en diversas áreas. Por un lado, aquellas que engloban una serie de habilidades técnicas o conocimientos específicos (Hard Skills) entre los que destacan fuertes conocimientos de matemáticas y estadísticas; amplios conocimientos de informática tanto de programación como de aprendizaje automático y conocimiento del negocio, debemos de hacer una análisis y desarrollar sistemas capaces de ayudar al negocio, la analítica de datos sin conocimientos del negocio es un área excepcionalmente peligrosa. Adicionalemente es importante tener habilidades relacionadas con la inteligencia emocional, la capacidad de comunicación o la facilidad de adaptarse a los cambios (Soft Skills).


Hard Skills

  • Amplios conocimientos matemáticos, análisis estadístico y conmutabilidad.

  • Control de bases de datos (Hive, Impla, SparlSQL, SQL, NoSQl o PL/SQL). 

  • Habilidades en diferentes lenguajes de programación. 

  • Gestión avanzada en programas informáticos como por ejemplo, Hadoop. 

  • Control de sistemas de almacenamiento distribuido. 


Soft Skills

  • Interpretación de estadísticas y parámetros de mercado. 

  • Capacidades sólidas de escuchar, hablar en público y habilidad para desarrollar presentaciones visuales. 

  • Capacidad de adquirir, mostrar y traducir información a la empresa.


Historia de la ciencia de datos

El nacimiento de la ciencia de datos como disciplina es relativamente reciente y surgió ante la necesidad de crear nuevas profesiones que den sentido al volumen masivo de datos que estaba surgiendo. Este eje cronológico con los hechos más reseñables te ayudará a entender mejor el concepto:


Los inicios…

Comenzamos en la década de los sesenta del siglo pasado, concretamente en el año 1962. El primer nombre que habría que destacar en toda esta historia es el de John W. Tukey, considerado el precursor del término “Ciencia de Datos” el cuál definió en su artículo “El Futuro sobre el Análisis de Datos.”

En este manifiesto definía el análisis de datos como “aquellos procedimientos para analizar datos, técnicas para interpretar resultados, formas de planificar la recopilación de datos para hacer más sencillo el proceso y, toda la maquinaria y los resultados de las estadísticas matemáticas que se aplican al análisis de datos.”

En 1974 el científico danés, Peter Naur, utilizó el término como sustituto de las ciencias computacionales en su libro “Concise Survey of Computer Methods”. A partir de su publicación, el concepto comenzó a estudiarse y utilizarse más abiertamente en el entorno académico. 

La Asociación Internacional de Computación Estadística en 1977 (IASC) jugó un papel fundamental en el establecimiento de la ciencia de datos. “La misión de este organismo es vincular la metodología estadística tradicional, la tecnología informática moderna y el conocimiento de expertos en el dominio para convertir los datos en información y conocimiento.”

Pero no es hasta 1996 cuando “Ciencia de Datos” se incluye por primera vez como título en una conferencia (“Ciencia de Datos, clasificación y métodos relacionados”). Este hecho se produjo en Japón, cuando los miembros de la Federación Internacional de Sociedades de Clasificación (IFCS). 

En 1997 el científico C.F. Jeff Wu en una conferencia inaugural para la Cátedra de Estadística HC Carver en la Universidad de Michigan pide abiertamente que las estadísticas pasen a denominarse ciencia de datos y a los profesionales dedicados a esta área, científicos de datos.


Del 2000 en adelante

La década de los 2000 supuso una auténtica revolución para la ciencia de datos. En 2001, William S. Cleveland publica “Ciencia de Datos: un plan de acción para expandir las áreas técnicas del campo de la estadística”. Se trata de un escrito destinado a ampliar las áreas principales de trabajo del campo de las estadísticas. 

En su artículo pretendía introducir la ciencia de datos como una disciplina independiente, extendiendo el campo de la estadística para incluir los avances en computación. Estableció seis áreas que conformarían el campo: investigaciones multidisciplinarias, modelos y métodos para datos, computación de datos, pedagogía, evaluación de herramientas y teoría. 

En abril de 2002 el International Council for Science: Committee on Data for Science and Technology (CODATA) lanza el Data Science Journal, la publicación de una serie de artículos sobre “gestión de datos y bases de datos en Ciencia y Tecnología”. 

Un año más tarde (2003), la Universidad de Columbia aprovechando el Data Science Journal, ofreció una plataforma para que todos aquellos profesionales del sector pudieran presentar sus perspectivas e intercambiar ideas. 

2005, The National Science Board publicó el informe "Long-Lived Digital Data Collections Enabling Research and Education in the 21st Century" donde una de las recomendaciones afirmaba: “La NFS debe actuar para desarrollar y madurar la trayectoria profesional de los científicos de datos y para garantizar que la empresa de investigación incluya un número suficiente de científicos de datos de alta calidad.”

2009, los investigadores Yangyong Zhu y Yun Xiong del Research Center for Datology and Data Science publican “Introducción a la Datología y Ciencia de Datos” donde comentaban que diferencias entre las ciencias naturales y las ciencias sociales, la Datología y la ciencia de datos tomaban los datos de la red.

Ese mismo año, un grupo de astrofísicos envían a Astro2010 Decadal Survey un documento titulado “La Revolución en la Educación en Astronomía: la Ciencia de Datos para las Masas” que en esencia manifestaba que para que una empresa tenga éxito era necesario capacitar a la próxima generación de profesionales en la comprensión inteligente de los datos

En 2010 Kenneth Cukier escribe “Data, Data Everywhere” donde expresa su opinión acerca de ese nuevo tipo de profesional, el científico de datos. Una figura que debe combinar las habilidades de programador de software y estadístico, capaz de analizar y encontrar datos interesantes en bases de datos extensas. 

2015, Springer (Science+Business Media), una editorial especializada en la publicación de libros y artículos relacionados con ciencia, tecnología y medicina lanza “International Journal on Data Science and Analytics” en la que  se incluyen trabajos interesantes sobre ciencia de datos y analítica de Big Data. 

A partir de entonces, Big Data, Data Science e Inteligencia Artificial han sido considerados como una inversión a considerar. De hecho, se estima que las empresas que no implementen este tipo de innovaciones en sus procesos, probablemente desaparezcan en los próximos años.


Beneficios de la ciencia de datos para la empresa

A pesar del surgimiento de nuevas técnicas de análisis de datos, el objetivo de las empresas no ha cambiado ni un ápice. Para que el sistema funcione toda organización busca vender sus productos o servicios a un usuario. No obstante, si se sabe aprovechar, Data Science, Big Data e Inteligencia Artificial atraen múltiples beneficios a la compañía. Algunos de ellos:

  • Sirve como un sistema de predicción del comportamiento de los usuarios. De esta forma la empresa puede orientar sus operaciones en base a datos más concretos que perfilen el rango de acierto y reduzcan el riesgo empresarial. 

  • Evitar pérdidas económicas. La ciencia de datos también puede ayudar a detectar ciberataques o posibles fraudes que pueden envolver a la empresa.

  • Desde el punto de vista del marketing, el data science permite a la empresa anticiparse a las necesidades del usuario. De esta forma, pueden hacerle llegar contenidos acordes a su personalidad, gustos e intereses. Un claro ejemplo es Netflix, que en base a las series o películas que vea el usuario, propone recomendaciones similares que podrían entrar en su lista de favoritos.
TAGS:
Imagen del autor Redacción España

Equipo de redacción de B12 España: Marketing, Big Data, Inteligencia Artificial y Ventas.

Ponte en contacto con nosotros:

+52 (55) 6842 3026

mexico@agenciab12.com

Ejército Nacional #1112, Int. 804, CP 11550 – CDMX