Arquitetura de Dados
Visão detalhada do fluxo de processamento de estatísticas do CVMC, desde a coleta até a visualização analítica.
Orquestração
O Apache Airflow atua como o orquestrador principal de pipelines, coordenando o fluxo de dados e a execução das tarefas parametrizadas.
Ingestão (Scrapers)
Notebooks Jupyter Python buscam dados atualizados de estatísticas esportivas (SofaScore/StatsHub) após cada partida do Brasileirão.
Raw (Data Lake)
Dados brutos (JSON) são convertidos para o formato Delta Lake na camada Raw com schema evolution (Autoloader).
Silver (Cleansing)
Processamento com Apache Spark. Conversão dos dados brutos aninhados para tabelas normalizadas Delta Lake.
Gold (Analytics)
O Spark realiza agregações e pivots, criando tabelas OBT (One Big Table) prontas para alta performance no PostgreSQL.
Acesso & Visualização
A aplicação web acessa o PostgreSQL para exibir dashboards rápidos e otimizados sobre o desempenho do Timão.