Las Voces de Ingenierías: El potencial de las categorías en la simplificación de océanos de datos
16/06/2021
Autor: Dr. Damián Emilio Gibaja Romero
Cargo: Área de Matemáticas UPAEP

En la última década, las tecnologías de información y comunicación (TICs) han cambiado tanto los mecanismos de producción de las empresas como la interacción entre agentes. Lo anterior se debe a la capacidad de las TICs para generar e intercambiar datos sin recurrir a otros procesos o agentes. Así, en la actualidad, el gobierno, las empresas y la sociedad están expuestos a un gran volumen de datos, que se producen cada vez a mayor velocidad y provienen de una amplia variedad de fuentes. Dicho en otras palabras, nos enfrentamos al Big Data caracterizado por las 3Vs anteriores a las cuales se añaden la veracidad, no poseer datos incorrectos, y el valor, tener datos que contribuyan a mejorar nuestras actividades.1 Esto último se debe al incremento en popularidad de las plataformas digitales en las cuales interactúan agentes con diferentes objetivos y espacios de acciones.

Aunque ahora tenemos más datos que antes, esto no implica que tengamos la información apropiada y, mucho menos, que estemos generando el conocimiento adecuado. Así, el Big Data requiere de metodologías eficientes para su almacenamiento y análisis. Particularmente, la variedad de los datos eleva la complejidad de los procesos anteriores pues encontramos datos semiestructurados y estructurados.

Los procesos de transformación son una herramienta eficaz para facilitar el tratamiento de un Big Data. Sin embargo, las características de los datos pueden involucrar diferentes transformaciones. Por ejemplo, podemos modelar datos semiestructurados por medio de una red dirigida, y con ello identificar relaciones entre diferentes redes (transformaciones horizontales). También, los datos estructurados se pueden identificar por medio de una red no dirigida, y esta relacionarse con la red dirigida asociada a datos semiestructurados (transformación vertical).2 Por consiguiente, los modelos y transformaciones facilitan el análisis de un Big Data al identificar propiedades similares entre la gran variedad de datos que hay disponibles.

Al abusar de las transformaciones al no tener un objetivo claro, a la complejidad inherente del Big Data se añade el hecho de que las transformaciones verticales involucran espacios con diferentes niveles de abstracción. Es decir, ajustamos datos a estructuras específicas con la posibilidad de perder algunas de las características básicas que ya se tenían.

Lo anterior se puede evitar por medio de la Teoría de las Categorías, rama de las matemáticas que estudia diferentes estructuras y sus relaciones a partir de sus propiedades esenciales. Entre los resultados más importantes de esta teoría destaca el Lema de Yoneda pues permite relacionar cualquier estructura con la categoría de conjuntos (Set),3 que incluye los conjuntos y funciones tradicionales. Es decir, en lugar de hacer transformaciones cada vez más abstractas, el lema de Yoneda sumerge cualquier tipo de estructura en Set. Es decir, la Teoría de Categorías abre nuevas posibilidades en el análisis de Big Data al simplificar la estructura en la que se transforman los datos.

Referencias

  1. Big Data - las cinco V. (2018, diciembre 19). Recuperado el 11 de junio de 2021, de Eadic.com website: https://www.eadic.com/las-cinco-v-del-big-data/
  2. Cantón-Croda, R. M., & Gibaja-Romero, D. E. (2020, November). Metamodels and Category Theory in the Transformation of Semi-structured Data. In 2020 8th International Conference in Software Engineering Research and Innovation (CONISOFT)(pp. 117-123).
  3. Mac Lane, S. (2013). Categories for the working mathematician (Vol. 5). Springer Science & Business Media.