Principales beneficios del Data Mesh
El panorama de datos de 2020 dista mucho de lo que parecía hace 30 años. El panorama está descentralizado y es muy diferente de lo que vemos en casi cualquier empresa actualmente. Zhamak Dehghani lo llama «Data Mesh» (también conocido como malla de datos) y recientemente se ha convertido en una palabra y tema de moda en la mayoría de conferencias. Si sientes el dolor provocado por el estado de la arquitectura de datos en tu empresa, entonces es el momento de virar hacia el Data Mesh. El artículo de hoy trata sobre la malla de datos para entender qué es y por qué está ganando impulso.
Qué es el Data Mesh?
A medida que los datos se vuelven cada vez más omnipresentes, las arquitecturas tradicionales de almacenes de datos y los data lakes se convierten en abrumadores y no son capaces de asegurar escalabilidad de manera eficiente. Un enfoque distribuido puede superar estas ineficiencias inherentes al adoptar la propiedad de datos orientada al dominio.
«Sugiero que la próxima arquitectura de plataforma de datos empresariales se encuentre en la convergencia de la arquitectura controlada por dominios distribuidos, el diseño de plataformas de autoservicio y el pensamiento de productos con datos», dice Zhamak Dehghani.
El principal cambio es tratar el producto de datos de dominio como una preocupación de primera clase, y las herramientas y la canalización de data lakes como una preocupación de segunda clase, es decir, como un detalle de implementación. Esto invierte el modelo mental actual de un data lake centralizado a un ecosistema de productos de datos que juegan bien juntos, conformando una malla de datos.
La malla de datos es un paradigma arquitectónico que desbloquea datos analíticos a escala; desbloqueando rápidamente el acceso a un número cada vez mayor de conjuntos de datos de dominio distribuido, para una proliferación de escenarios de consumo como el aprendizaje automático, el análisis o las aplicaciones de uso intensivo de datos en toda la organización. La malla de datos aborda los modos de error comunes del lago de datos centralizado tradicional o la arquitectura de la plataforma de datos, con un cambio del paradigma centralizado de un lake, o su predecesor, el almacenamiento de datos o data warehouse. El Data Mesh cambia a un paradigma que se basa en la arquitectura distribuida moderna: considerando los dominios como la preocupación de primera clase, aplicando el pensamiento de la plataforma para crear una infraestructura de datos de autoservicio, tratando los datos como un producto e implementando para permitir un ecosistema de productos de datos distribuidos interoperables.
La malla de datos crea una capa de conectividad que abstrae las complejidades de conectar, administrar y admitir el acceso a los datos. En su núcleo, se utiliza para unir los datos mantenidos a través de múltiples silos de datos. La premisa de un Data Mesh es que se utiliza para conectar datos distribuidos entre diferentes ubicaciones y organizaciones.
Muchas empresas están invirtiendo en data lakes de próxima generación, con la esperanza de democratizar los datos a escala para proporcionar información empresarial y, en última instancia, tomar decisiones inteligentes automatizadas. Las plataformas de datos basadas en la arquitectura de data lakes tienen modos de error comunes que conducen a promesas incumplidas a escala. Para abordar estos modos de error, necesitamos cambiar del paradigma centralizado de un lago o de su almacenamiento de datos predecesor. Necesitamos cambiar a un paradigma que se base en la arquitectura distribuida moderna: considerando los dominios como la preocupación de primera clase, aplicando el pensamiento de la plataforma para crear infraestructura de datos de autoservicio y tratando los datos como un producto.
DDD, microservicios y DevOps han cambiado la forma en que desarrollamos software en la última década. Los datos en el departamento de análisis, sin embargo, no llegaron a eso. Para acelerar la toma de decisiones basadas en datos en una empresa con un enfoque de desarrollo moderno, los equipos de análisis y software deben cambiar:
- Los equipos de software deben considerar los datos como un producto que sirven a todos los demás, incluidos los equipos de análisis.
- Los equipos de análisis deben basarse en eso, dejar de acumular datos y, en su lugar, extraerlos a petición.
- Los equipos de análisis deben empezar a considerar sus data lakes / data warehouse como productos de datos también.
Una malla de datos garantiza que los datos sean de alta disponibilidad, fácilmente detectables, seguros e interoperables con las aplicaciones que necesitan acceso a ellos.
Las mallas de datos se utilizan en una variedad de circunstancias:
- Conexión de aplicaciones en la nube a datos confidenciales que se encuentran en el entorno local o en la nube de un cliente.
- Crear catálogos de datos virtuales a partir de una variedad de orígenes de datos que no se pueden centralizar.
- Crear almacenes de datos virtuales o data lakes para análisis y aprendizaje automático sin consolidar datos en un único repositorio.
- Dotar a los desarrolladores de aplicaciones y equipos de DevOps formas de consultar datos procedentes de diversos almacenes de datos sin tener que pensar cómo acceden a los mismos.
¿Cuándo debes considerar pasar a un Data Mesh?
En primer lugar, si estás satisfecho con tu estructura, si estás satisfecho con la forma en que tu empresa utiliza los datos para tomar decisiones, no lo hagas. Pero si sientes cualquiera de los siguientes dolores, la solución es el data mesh:
- Si tienes complejidad de dominio en combinación con microservicios/diseño controlado por dominio, probablemente sientas que las cosas son demasiado complejas para que un equipo central sirva correctamente esos datos a la vez.
- La importación de datos en data warehouse es costosa, si ese es el caso, y por lo tanto estás descartando orígenes de datos que son valiosos para los usuarios. Estos datos deben ser servidos individualmente y son candidatos perfectos para «perfilarse nodos de la malla de datos».
- No has cerrado el bucle de datos -> información -> insight -> decisión -> acción de datos.
- La velocidad de los datos en el Ciclo de Inteligencia Continua se mide en semanas y meses, no en días u horas.
- Ya estás moviendo la transformación de datos lo más cerca posible de los usuarios de datos.
Convertirse en una organización basada en datos sigue siendo uno de los principales objetivos estratégicos de muchas empresas. El Data Mesh hace que las empresas estén capacitadas de forma inteligente: proporcionando la mejor experiencia del cliente basada en datos e hiper personalización; reduciendo costes operativos y tiempo a través de optimizaciones basadas en datos; y dando a los empleados superpoderes con análisis de tendencias e inteligencia empresarial.