Arquitectura Medallion explicada sin tecnicismos
El framework de tres capas que usan las mejores empresas de datos. Bronze, Silver y Gold: qué significa cada una y cómo implementarlo sin equipo enterprise.
Hay un concepto que estructura la mayoría de los proyectos de datos modernos y que, sin embargo, pocas empresas medianas conocen: la arquitectura Medallion.
El nombre suena técnico. La idea es simple. Y entenderla cambia cómo pensás la información de tu empresa.
El problema que resuelve
Imaginá que tenés 5 sistemas distintos: ERP, CRM, sistema de logística, e-commerce, y un par de planillas de Excel que maneja ventas. Cada uno tiene sus propios formatos, sus propias convenciones de nomenclatura, sus propias reglas.
En el ERP, el cliente “Juan García” tiene el ID 4521. En el CRM, “J. Garcia” tiene el ID cliente-00892. En el sistema de e-commerce, “juan.garcia@empresa.com” es el identificador. Son el mismo cliente. Ninguno de los sistemas lo sabe.
Cuando alguien quiere saber cuánto compró Juan García en total, en todos los canales, tiene que hacer ese cruce manualmente. Y multiplicá ese problema por miles de clientes, decenas de métricas y cinco sistemas que cambian constantemente.
La arquitectura Medallion resuelve ese problema con una estructura en capas.
Las tres capas
Bronze: los datos tal como llegan
La capa Bronze es el depósito de datos raw. Los datos se copian exactamente como están en cada sistema fuente, sin modificaciones. Si el ERP tiene un campo con formato de fecha inconsistente, en Bronze entra con ese formato inconsistente. Si hay duplicados, entran los duplicados.
¿Por qué no limpiar desde el inicio? Porque necesitás el historial completo para auditoría. Si en 6 meses alguien pregunta “¿por qué este cliente aparecía dos veces?”, podés rastrearlo hasta la fuente original. Bronze es el registro inmutable de la realidad tal como era.
Bronze también actúa como buffer. Si un sistema fuente cambia su formato o deja de estar disponible, los datos históricos están en Bronze y no se pierden.
¿Qué hay en Bronze?
- Réplicas de las tablas del ERP, actualizadas diariamente (o cada hora)
- Archivos exportados del CRM
- Logs de transacciones del e-commerce
- Las planillas de Excel normalizadas a un formato estándar
- Cualquier API externa que alimente el negocio
Silver: los datos limpios y cruzados
En Silver, los datos de Bronze se transforman: se limpian, se normalizan, se deduplicán y se cruzan.
Es acá donde “Juan García”, “J. Garcia” y “juan.garcia@empresa.com” se resuelven como el mismo cliente con un único ID maestro. Es donde las fechas inconsistentes se convierten a un formato único. Es donde los duplicados desaparecen. Es donde los datos de distintas fuentes empiezan a hablar el mismo idioma.
Silver no inventa información. Solo la ordena. Si hay un conflicto entre dos fuentes (el ERP dice que el pedido fue por $1000 y el sistema de logística dice $950), Silver lo registra y aplica una regla de resolución predefinida, no lo adivina.
¿Qué hay en Silver?
- Tabla única de clientes (con datos de todos los sistemas)
- Tabla única de productos (consolidando nomenclatura de ERP y e-commerce)
- Transacciones limpias y cruzadas con sus costos reales
- Historial completo sin duplicados
Gold: los datos listos para el negocio
Gold es la capa que responde preguntas de negocio. Está construida sobre Silver y organiza los datos según cómo el negocio necesita verlos.
Si el negocio necesita saber la rentabilidad por zona geográfica, hay una tabla en Gold que calcula eso. Si necesita el ticket promedio por canal de venta, hay otra tabla. Si el equipo comercial necesita ver la evolución mensual de clientes activos vs. inactivos, Gold lo tiene pre-calculado.
Gold no es magia: es el trabajo de modelado de datos. Alguien (con conocimiento del negocio y de SQL) define qué métricas importan y cómo calcularlas. Ese trabajo se hace una vez. Después, cualquiera puede consultar Gold y obtener información consistente y confiable.
¿Qué hay en Gold?
- KPIs financieros: P&L, márgenes, flujo de caja
- KPIs comerciales: ventas por canal, retención, churn
- KPIs operativos: tiempos de entrega, tasa de devoluciones
- Dashboards y reportes conectados directamente
Por qué funciona
La arquitectura Medallion funciona porque separa responsabilidades:
- Bronze se preocupa por la ingesta (¿llegaron los datos?)
- Silver se preocupa por la calidad (¿son correctos?)
- Gold se preocupa por el uso (¿son útiles?)
Cada capa puede evolucionar independientemente. Si Silver necesita una nueva regla de limpieza, no toca Bronze. Si Gold necesita una nueva métrica, no toca Silver ni Bronze.
Y lo más importante: si algo falla, sabés exactamente dónde buscar.
Cómo se implementa en la práctica
No es necesario un equipo de 20 ingenieros ni una infraestructura de millones de dólares.
Para una empresa mediana típica (5-10 fuentes de datos, 50-500GB de datos analíticos), la implementación estándar usa:
- Almacenamiento: Apache Parquet en S3 (o cualquier object storage equivalente)
- Transformaciones: dbt (Data Build Tool) — SQL puro, versionado en Git
- Orquestación: Dagster o Airflow — schedule automático de los pipelines
- Queries: DuckDB — escaneo ultrarrápido de archivos Parquet
- Reporting: Metabase, Power BI, o Looker conectado a Gold
Este stack es 100% open-source. El único costo recurrente es el almacenamiento en S3 (típicamente menos de $50/mes para empresas medianas).
El tiempo de implementación
En condiciones normales:
- Semanas 1-2: Conexión de fuentes y construcción de Bronze
- Semanas 3-4: Transformaciones Silver (limpieza, cruce, deduplicación)
- Semanas 5-6: Modelado Gold para los primeros casos de uso
- Semana 7 en adelante: Iteración — se agregan nuevas métricas y nuevas fuentes
El primer resultado concreto (un dashboard que reemplaza un proceso manual) aparece alrededor de la semana 6.
Lo que cambia después
Una vez que la arquitectura está funcionando, la dinámica de la información cambia completamente en la empresa:
- El cierre mensual pasa de días a horas
- Las decisiones se toman sobre datos verificados, no sobre “lo que dice el Excel de ventas”
- Los pedidos de información ad-hoc se resuelven en minutos, no en días
- El equipo de datos puede construir nuevas métricas sin tocar los sistemas fuente
- Agregar un nuevo sistema al stack se hace en días, no semanas
La arquitectura Medallion no es un lujo para empresas grandes. Es la base que permite que los datos de una empresa mediana sean útiles.
¿Tenés este problema en tu empresa?
Agendá una llamada de 30 minutos sin compromiso. Te contamos cómo podemos ayudarte a ordenar tu infraestructura de datos.
Agendá una llamada →