Arquitetura Medalhão: o padrão que organiza seu Lakehouse
Como as camadas Bronze, Prata e Ouro transformam um data lake caótico em uma plataforma confiável e auditável.
A arquitetura medalhão é, provavelmente, o padrão mais útil que adotei em projetos de Lakehouse. Ela resolve um problema antigo: como manter um data lake organizado, confiável e auditável quando dezenas de fontes despejam dados de qualidade variável nele todos os dias.
A ideia é simples — organizar os dados em três camadas progressivas de qualidade: Bronze, Prata e Ouro.
Bronze — a verdade bruta
A camada Bronze guarda os dados exatamente como chegaram da fonte, sem transformação. É o seu registro histórico imutável. Se um pipeline a jusante tiver um bug, você sempre pode reprocessar a partir do Bronze sem voltar à fonte original — que pode nem existir mais.
Boas práticas para o Bronze:
- Ingestão append-only, preservando o histórico completo.
- Adicione metadados de ingestão (timestamp, arquivo de origem, hash).
- Não imponha schema rígido — capture primeiro, valide depois.
Prata — limpo e conformado
Na camada Prata, os dados são limpos, deduplicados, tipados e conformados a um modelo consistente. É aqui que você aplica regras de qualidade, resolve chaves e une fontes relacionadas.
A camada Prata é onde a maioria dos analistas de engenharia e cientistas de dados deveria trabalhar. Ela é confiável o suficiente para exploração, mas ainda granular.
Ouro — pronto para o negócio
A camada Ouro contém agregações e modelos dimensionais prontos para consumo: tabelas fato, dimensões e métricas de negócio que alimentam dashboards executivos. É otimizada para leitura e desempenho.
A regra de ouro: cada camada só lê da camada anterior. Bronze nunca lê de Prata. Isso mantém a linhagem clara e o reprocessamento previsível.
Por que isso importa
Em um projeto multinacional para uma grande indústria global, essa separação foi o que permitiu estender a plataforma da Alemanha e Espanha para Brasil, Portugal, Índia e China sem reescrever a lógica de negócio. As particularidades de cada país viviam no Bronze e na Prata; a camada Ouro entregava KPIs consistentes para a gestão global.
A arquitetura medalhão não é uma bala de prata, mas dá a você algo raro em engenharia de dados: previsibilidade. E previsibilidade é o que permite dormir tranquilo quando o pipeline roda às 3h da manhã.
Artigos relacionados
Ingestão incremental: pare de recarregar tudo toda noite
Watermarking, change data capture e os padrões que reduzem custo e janela de processamento em pipelines de ETL.
Ler artigoSlowly Changing Dimensions Tipo 2 sem dor de cabeça
O padrão essencial para rastrear histórico em dimensões — explicado com um exemplo concreto e os erros mais comuns.
Ler artigoGostou? Veja os e-books para conteúdo aprofundado.
E-books