Text Mining: qué es y cuál es su relación con el Data Mining
El uso de técnicas de text mining ayuda a las grandes corporaciones a comprender sus datos y, sobre todo, a aprovechar la información. Te contamos más sobre este método.

Según Statista, la página web de estadística de referencia mundial, se prevé que en 2023 se enviarán más de 346 mil millones de correos electrónicos diarios, una cifra que pone de manifiesto la gran cantidad de información que se mueve en la red diariamente.
Si a esto se le suman otras fuentes de información, como diarios digitales o redes sociales, el conjunto de datos se vuelve difícil de dimensionar. Por ello, se han desarrollado herramientas y técnicas que ayudan a determinar y analizar la información. Es el caso del text mining.
¿Qué es text mining?
El text mining es una disciplina que toma su origen en los años 80, a raíz del gran volumen de información que comenzaban a incluir los textos y con un objetivo claro: mitigar el esfuerzo humano en el procesamiento de los datos.
Pero, ¿qué es realmente la minería de textos? Se trata de un proceso de análisis de documentos textuales heterogéneos que pretende encontrar conceptos/temas clave y descubrir tendencias.
Esto se hace mediante la identificación de patrones y correlaciones dentro de los propios textos, tales como la frecuencia de uso de una determinada palabra o la estructura sintáctica.
El text mining forma parte del data science y, a través de técnicas y tecnologías punteras, ayuda a comprender el contenido de un conjunto de textos a través de estadísticas y algoritmos de búsqueda.
El text mining toma como referencia gran cantidad de documentos, no solo los archivos de Word. Se pueden destacar los siguientes:
- Correos electrónicos.
- Comentarios en RRSS.
- Comentarios en blogs/foros.
- Encuestas.
- Investigaciones.
- Reseñas de usuarios (por ejemplo Google My Business).
¿Cuál es la relación entre text mining y data mining?
La minería de datos o data mining consiste en la extracción de información relevante de una gran muestra de datos para transformarla en una estructura comprensible. ¿Cómo lo consigue? Con la fusión de técnicas de Inteligencia Artificial, aprendizaje automático, estadística y sistemas de bases de datos.
Entonces, ¿data mining y text mining son sinónimos? Realmente no. Son conceptos que trabajan a la par pero con una diferencia notable: la minería de datos se aplica a grandes bases de datos, normalmente con información estructurada, y el text mining, a los documentos y textos de las organizaciones en los que los datos son desestructurados.
Digamos que el data mining es la fuente de alimentación del text mining, es decir, nos encontramos ante una tecnología adosada a la minería de datos cuyo objetivo es la búsqueda de conocimiento en grandes colecciones de documentos.
Fases del text mining
- Recolección. Se refiere a la fase de recopilación de datos de diferentes fuentes, por ejemplo, blogs, correos electrónicos, reseñas de clientes o archivos documentales. En función del uso que se le vaya a dar a los datos, este proceso puede llevarse a cabo de forma automatizada, aunque siempre conviene tener un profesional encargado de supervisar (data scientist).
- Preprocesamiento. Se identifica el contenido y se extraen las características más representativas del texto o textos en cuestión.
- Limpieza. Se elimina la información innecesaria, duplicado o no deseada.
- Tokenización. El funcionamiento de los ordenadores se basa en caracteres de números y letras que, a priori, para un ser humano no tienen sentido. Por eso, un texto para un ordenador únicamente es una secuencia de letras que la máquina no alcanza a comprender. Por eso se utiliza la tokenización: dividir el texto en entidades con sentido (palabras, frases u oraciones) para que la propia máquina las reconozca.
- Descubrimiento. Tecnología basada en data science, analiza las representaciones internas con el objetivo de descubrir en ellas algunos patrones interesantes o nueva información.
- Visualización. La muestra de datos está lista para poder trabajar con ella.
Aplicaciones text mining
Técnicamente, el text mining puede aplicarse a un gran número de sectores en los que las colecciones documentales adquieran un volumen considerable. Es aplicable a aquellas ramas donde:
- Haya extracción de información.
- Se pueda efectuar análisis de sentimientos o minería de opiniones.
- Se precisa clasificación documental.
- Se necesita la elaboración de resúmenes.
Con el tiempo, la minería de textos se ha coronado como una de las técnicas de mayor uso por las organizaciones, dadas sus características, funcionamiento y composición, ya que se utiliza, entre otros muchos objetivos, para conocer mejor a los clientes, descubrir sus hábitos o preferencias y ofrecerles el mejor producto/servicio en el momento óptimo.