May 2023 – Mind

A medida que evoluciona la ingeniería de datos moderna, DBT (Data Build Tool) ha surgido como un cambio de juego para los conductos ELT, simplificando las transformaciones, mejorando la eficiencia y garantizando la integridad de los datos. En nuestro proyecto, dbt desempeñó un papel crucial en la automatización de los flujos de trabajo, la reducción del código redundante y la racionalización de los procesos de datos. Este artículo proporciona una visión en profundidad de cómo dbt mejoró el rendimiento de nuestro proyecto y por qué es una herramienta esencial para cualquier equipo de datos.

Los ingenieros de datos a menudo se encuentran con varios retos a la hora de crear y mantener pipelines de datos:

ETL complejas: Las herramientas ETL tradicionales requieren un gran esfuerzo de ingeniería para gestionar las dependencias y transformaciones.
Desarrollo y despliegue lentos: escribir, probar y desplegar transformaciones puede llevar mucho tiempo.
Problemas de calidad de los datos: Es difícil garantizar la coherencia de los datos, gestionar los duplicados y realizar comprobaciones de integridad.
Almacenamiento y optimización del rendimiento: Gestionar grandes conjuntos de datos de forma eficiente sin cálculos innecesarios es todo un reto.
Falta de control de versiones: los procesos ETL tradicionales carecen de control de versiones basado en Git, lo que dificulta la colaboración.
Documentación manual y seguimiento del linaje: comprender las dependencias y transformaciones suele ser tedioso.

Para superar estos retos, utilizamos dbt en nuestros proyectos.

Comprensión de dbt y sus características clave

dbt (Data Build Tool) es una herramienta de ingeniería analítica de código abierto que permite a los equipos de datos transformar datos sin procesar dentro del almacén utilizando SQL. Garantiza que la lógica de transformación sea modular, reutilizable y fácil de mantener. dbt opera dentro del paradigma ELT (Extract, Load, Transform), centrándose en las transformaciones después de que los datos se hayan cargado en el almacén.

Características principales de dbt

Transformaciones SQL: Permite transformaciones directamente en SQL, haciéndolo accesible a analistas e ingenieros.
Modelos modulares y reutilizables: Utiliza macros Jinja y modelos reutilizables para garantizar un código limpio y DRY (Don’t Repeat Yourself).
Pruebas y comprobaciones de calidad de datos integradas: proporciona validación de datos para garantizar la integridad y la fiabilidad.
Control de versiones e integración CI/CD: admite versiones basadas en Git y despliegues automatizados.
Documentación automatizada y linaje de datos: genera documentación y visualiza las dependencias, mejorando la transparencia.
Gestión de dependencias: garantiza que los modelos se ejecuten en la secuencia correcta mediante la función ref().
Procesamiento incremental de datos: Procesa sólo los datos nuevos o modificados, reduciendo los costes computacionales.
Compatibilidad entre almacenes: funciona con Snowflake, Redshift, BigQuery y PostgreSQL, entre otros.
Rendimiento ELT optimizado: Transforma los datos directamente en el almacén, aprovechando las modernas arquitecturas en la nube para obtener velocidad y escalabilidad.

¿Cómo aplicamos dbt en nuestros proyectos?

Nuestros proyectos constan de tres capas de datos clave, en las que utilizamos estratégicamente las opciones de materialización de dbt:

Materializaciones optimizadas para un procesamiento de datos eficiente

Capa de almacenamiento (vistas): se utilizó la materialización de vistas para evitar la duplicación innecesaria de datos y mantener la dinámica de las transformaciones.
Capa intermedia (modelos efímeros): materialización efímera implementada para cálculos temporales, lo que reduce los costes de almacenamiento.
Capa de almacén (instantáneas): se utilizó la materialización de instantáneas para realizar un seguimiento de los cambios históricos de las dimensiones de cambio lento (SCD).

Beneficios:

Reducción de los costes de almacenamiento al evitar la creación innecesaria de tablas.
Mejora del rendimiento de las consultas mediante transformaciones eficientes en cada capa.
Mejora de la modularidad y la capacidad de mantenimiento de las transformaciones.

Estandarización y reutilización de código con macros

Generación de claves sustitutas – Creación de macros para generar claves primarias únicas.
Automatización de las actualizaciones de las tablas de auditoría – Estandarización de las actualizaciones de las tablas de auditoría en diferentes modelos.
Carga de registros recientes – Implementación de una macro para recuperar sólo los registros más recientes para el procesamiento incremental.
Estandarización de los nombres de columna: se garantizó la coherencia de los nombres aplicando automáticamente prefijos y sufijos a los nombres de columna en la capa de preparación.

Beneficios:

Reducción de la duplicación de código, lo que hace que las transformaciones sean más eficientes.
Mejora de la gobernanza de los datos con convenciones de nomenclatura coherentes.
Lógica de transformación centralizada, simplificando el mantenimiento.

Generación de SQL dinámico mediante plantillas Jinja

Consultas parametrizadas – En lugar de codificar valores en las consultas SQL, utilizamos variables Jinja para hacerlas dinámicas y reutilizables. Esto nos permitió generar consultas dinámicamente basadas en diferentes valores de entrada.
Selección dinámica del modelo – Aplicamos lógica condicional para determinar la ejecución del modelo en función de las dependencias.
Componentes SQL reutilizables: se crearon consultas basadas en plantillas para estandarizar las transformaciones en varios modelos.

Beneficios:

Mejora de la flexibilidad ajustando dinámicamente la lógica SQL sin codificar valores.
Reducción del esfuerzo manual para modificar las consultas SQL en todos los modelos.
Permitió una rápida adaptación a los cambiantes requisitos empresariales.

Automatización de procesos con Post-Hooks

Comprobación de la calidad de los datos: ejecución de consultas posteriores al gancho para validar los datos después de la carga.
Registro y auditoría: actualización automática de los registros de auditoría tras las transformaciones.
Limpieza y mantenimiento de tablas: se aseguraba de que las tablas temporales se eliminaban o actualizaban después del procesamiento.

Beneficios:

Reducción de la intervención manual, garantizando una ejecución sin problemas.
Mejora de la calidad de los datos mediante la automatización de las comprobaciones de validación.
Mantenimiento de un almacén de datos limpio y eficiente.

Mejorar la fiabilidad de los datos con pruebas y documentación

Aplicación de pruebas de dbt integradas (por ejemplo, valores únicos, no nulos, aceptados) para garantizar la integridad de los datos.
Desarrollo de pruebas personalizadas para validar la lógica empresarial y la precisión de la transformación.
Incorporación de descripciones de modelos y documentación a nivel de columna.
Aprovechamiento de la documentación dbt generada automáticamente para proporcionar visibilidad de las dependencias y transformaciones.

Beneficios:

Aumento de la confianza y fiabilidad de los datos mediante la aplicación de comprobaciones de calidad.
Mejora de la gobernanza de los datos gracias a una documentación clara.
Permitió una colaboración fluida con una lógica de transformación transparente.

Como asegurar la calidad con Great Expectations

A modo de conclusión, nuestra experiencia con dbt demostró su inmenso valor en la ingeniería de datos moderna. Al aprovechar la arquitectura modular de dbt, las pruebas automatizadas y las estrategias de materialización, mejoramos significativamente la eficiencia, la capacidad de mantenimiento y la calidad de los datos de nuestro proyecto. Para cualquier equipo de datos que busque optimizar su canalización ELT, dbt proporciona una solución escalable, rentable y altamente adaptable.

Si tiene alguna pregunta o necesita ayuda con dbt, no dudes en contactarnos conmigo. Estaremos encantados de ayudarle y compartir conocimientos basados en nuestra experiencia.

🎯 El Reto

Elrow enfrentaba varios desafíos críticos en la gestión de sus datos:

Dispersión de información: Los datos estaban fragmentados en múltiples sistemas sin una visión unificada

Falta de reportes en tiempo real: La toma de decisiones se basaba en información desactualizada

Complejidad en el análisis de rendimiento: Dificultad para evaluar el éxito de eventos y campañas de marketing

Necesidad de formación técnica: El equipo requería capacitación avanzada en herramientas de Business Intelligence

Escalabilidad: Los sistemas existentes no soportaban el crecimiento acelerado de la empresa

La empresa necesitaba una solución robusta que permitiera centralizar la información y generar insights estratégicos para mantener su posición de liderazgo en la industria del entretenimiento con un look & feel acorde a lo que proyecta la marca.

🚀 Los Beneficios

Con la implementación de la solución de Mind, Elrow dio un salto cualitativo en la manera de gestionar su negocio. Antes, los datos estaban dispersos en múltiples fuentes y el equipo invertía demasiado tiempo en consolidar información. Hoy, toda la información fluye en una única fuente de verdad, lo que les permite tener claridad inmediata sobre lo que ocurre en la organización.

El cambio fue notorio desde el primer día. Los reportes diarios y semanales, que antes requerían horas de trabajo manual, ahora se generan de forma automática. Esto liberó al equipo para centrarse en lo que realmente importa: analizar, anticipar y decidir. Gracias a ello, las decisiones estratégicas se toman con datos en tiempo real, lo que les permite reaccionar con rapidez ante cualquier situación.

A nivel estratégico, la diferencia también es enorme. Con dashboards ejecutivos claros y visuales, Elrow tiene una visión completa del negocio. Pueden evaluar el rendimiento de cada evento en detalle, detectar oportunidades de optimización y medir con precisión el impacto de sus campañas de marketing. Esto no solo mejoró el ROI, sino que también dio a la dirección la confianza de que cada paso está respaldado por datos sólidos.

El impacto técnico tampoco se quedó atrás. El equipo interno se formó en Qlik Sense y ganó autonomía para crear y gestionar sus propios análisis, mientras que la arquitectura implementada quedó preparada para crecer junto con la empresa. Además, con un modelo de datos optimizado y bien documentado, el mantenimiento se volvió mucho más sencillo, reduciendo la dependencia técnica y asegurando la sostenibilidad en el tiempo.

En definitiva, la solución de Mind no solo ayudó a Elrow a operar con mayor eficiencia, sino que también les dio una visión estratégica más clara y una base tecnológica robusta para seguir expandiéndose con confianza.

Los números hablan por sí solos

90%

Reducción del tiempo de generación de reportes
99%

Automatización de los procesos de reporting
100%

Adopción por parte del equipo de ElRow
60%

Mejora del performance de respuesta

El proyecto con Elrow demuestra cómo una estrategia integral de Business Intelligence puede transformar la operación de una empresa líder en entretenimiento. La combinación de tecnología avanzada, gobierno del datos y una correcta adopción ha permitido a Elrow mantener su posición de vanguardia en la industria.
Mind continúa apoyando a Elrow en su proceso de transformación digital, asegurando que sus sistemas de datos evolucionen al ritmo de su crecimiento internacional.

Month: May 2023

Optimización del Time-to-Market con DBT & Great Expectations: Eficiencia y Calidad en la Cadena de Valor del Dato

Comprensión de dbt y sus características clave

Características principales de dbt

¿Cómo aplicamos dbt en nuestros proyectos?

Materializaciones optimizadas para un procesamiento de datos eficiente

Estandarización y reutilización de código con macros

Generación de SQL dinámico mediante plantillas Jinja

Automatización de procesos con Post-Hooks

Mejorar la fiabilidad de los datos con pruebas y documentación

Como asegurar la calidad con Great Expectations

¿Tienes un proyecto?

El secreto de que Elrow sea la mejor fiesta del planeta tiene su truco

🎯 El Reto

💡 La Solución

🚀 Los Beneficios

Los números hablan por sí solos

¿Tienes un proyecto?