Big Data

Qué es dirty data y por qué es importante el data cleaning

Síguenos en:

En el proceso de recopilación de datos englobado en el Big Data se pueden colar datos erróneos, duplicados o inexactos. Eso es dirty data. Ahondamos en ello y en cómo solucionarlo con data cleaning.

Por Redacción España, el 31/07/2020

¿Te ha gustado nuestro artículo? ¡Vota!

Dirty data, traducido al castellano como datos sucios, es un conjunto de datos erróneos que forman parte del Big Data. Se cuelan durante el proceso de recopilación de datos y dificultan la tarea de procesamiento. Para que las conclusiones extraídas sean veraces, es importante que se lleva a cabo un exhaustivo proceso de data cleaning o limpieza de datos, en el que se descarta toda aquella información que no es fiable. Te explicamos más sobre qué es dirty data y cómo combatirlo con data cleaning.

Explicación de dirty data

Como te explicábamos en este artículo sobre Big Data, esta tecnología consiste en la recopilación, el análisis y el procesamiento de una cantidad masiva de datos estructurados, semiestructurados y no estructurados. La idea principal: convertir toda esa data en información de calidad que sirva de apoyo en la toma de decisiones de una empresa.

Para garantizar la calidad de esa información es necesario que el análisis y el procesamiento sean correctos, pero, como en todo, la materia prima tiene que ser también de calidad. En este caso, la materia prima son los datos, que han de ser veraces, correctos y fiables.

Por eso, después de la recopilación, es fundamental eliminar la morralla, los datos que no son reales, las mentiras, las duplicidades, las desactualizaciones, las erratas, las inexactitudes o imprecisiones, hacer una limpieza para garantizar que se trabaja con materia prima de calidad. Todo eso que hay que suprimir es dirty data.

Cómo surgen los datos sucios

Los datos sucios pueden ser el resultado de una falsificación intencionada, pero también de un descuido o una mentira del usuario. Imagina que tienes una landing page como parte de una campaña digital de una empresa y que esta incluye un formulario de contacto con datos básicos, por ejemplo, nombre, edad, e-mail y número de teléfono.

Solamente con esos tres campos pueden surgir múltiples problemas, por ejemplo:

Una errata al escribir el número de teléfono.
Un e-mail falso, a propósito, como una manera que tiene el usuario de evitar la información comercial que pueda mandarle la empresa después.
Un formulario que, por despiste de una persona, se rellena dos veces con la misma información.
Una mentira al decir la edad.

De hecho, los estudios apuntan a que el 8% de los usuarios a la hora de rellenar un formulario por internet, como afirma este artículo de IpMark. Esto tiene una incidencia en todas las estrategias de la compañía. Si la limpieza del dirty data no es correcta, las decisiones se tomarán en torno a una información que no es real, ergo, serán equivocadas y, básicamente, nada de esto tendrá ningún sentido.

Ejemplos de malas estrategias basadas en dirty data

Como explicábamos antes, el uso fundamental del Big Data es mejorar la toma de decisiones de una compañía. Sin embargo, si los datos son falsos o erróneos, la información derivada de su procesamiento también lo será. La inversión en infraestructuras y tecnología no servirá de nada.

Por ejemplo, una empresa puede utilizar su información para mejorar sus campañas de marketing. Si la definición de ese público se basa en datos de personas que han mentido sobre su edad, ni los canales, ni los mensajes de la estrategia de marketing serán adecuados.

Esto afecta no solo a la manera de impactar a ese público. También al conocimiento sobre cuáles son sus necesidades específicas. Por ejemplo, si una compañía quiere adaptar mejor sus productos o servicios a su público objetivo, una de las claves es que conozca a qué segmento de edad pertenece. Si esa información es errónea, los esfuerzos que se realicen serán en balde o no se explotará el potencial de resultados.

Dirty data y data cleaning

Teniendo en cuenta todo esto, la concienciación empresarial sobre la importancia de mantener unas bases de datos veraces y actualizadas es cada vez mayor. En este contexto, surge el data cleaning, un conjunto de herramientas y soluciones que permiten hacer una limpieza de los datos sucios de manera automatizada.

El proceso consiste en la verificación de una cantidad masiva de datos. Se trata de hacer una analítica que permita buscar duplicados, erratas, errores, etcétera que se puedan corregir de manera automática. En este proceso entran tecnologías englobadas dentro de la Inteligencia Artificial, entre ellas, el Machine Learning.

Además, existen maneras de reducir las probabilidades de recabar datos erróneos, desde las más básicas, como simplificar los formularios, hasta recurrir a preguntas de prueba, sistemas de verificación de identidad y otros desarrollos que ralentizan un poco la extracción de data pero que, al mismo tiempo, incrementan su fiabilidad.

Beneficios del data cleaning

La limpieza del dirty data a través del data cleaning conlleva beneficios tanto para las empresas que actualizan sus bases como para los clientes potenciales de esas empresas. De este modo, las ventajas principales son:

Desde el punto de vista de la empresa: un mayor conocimiento del mercado y de los públicos objetivos permite desarrollar estrategias de venta más acertadas, con productos, servicios, mensajes y canales que lleguen mejor al target y que, por tanto, tengan más probabilidades de conversión.
Desde el punto de vista del usuario: si la empresa centra sus campañas, productos y servicios en el cliente, satisfará mejor sus necesidades, dará mejor respuesta a sus problemas y la atención y experiencia de usuario será mucho más satisfactoria para él.

TAGS:

Redacción España

Equipo de redacción de B12 España: Marketing, Big Data, Inteligencia Artificial y Ventas.