← Voltar ao Início

Arquitetura de Dados

Visão detalhada do fluxo de processamento de estatísticas do CVMC, desde a coleta até a visualização analítica.

1

Orquestração

O Apache Airflow atua como o orquestrador principal de pipelines, coordenando o fluxo de dados e a execução das tarefas parametrizadas.

AirflowPapermill
2

Ingestão (Scrapers)

Notebooks Jupyter Python buscam dados atualizados de estatísticas esportivas (SofaScore/StatsHub) após cada partida do Brasileirão.

PythonJupyter
3

Raw (Data Lake)

Dados brutos (JSON) são convertidos para o formato Delta Lake na camada Raw com schema evolution (Autoloader).

SparkDelta Lake
4

Silver (Cleansing)

Processamento com Apache Spark. Conversão dos dados brutos aninhados para tabelas normalizadas Delta Lake.

SparkDelta Lake
5

Gold (Analytics)

O Spark realiza agregações e pivots, criando tabelas OBT (One Big Table) prontas para alta performance no PostgreSQL.

PostgreSQLSQL
6

Acesso & Visualização

A aplicação web acessa o PostgreSQL para exibir dashboards rápidos e otimizados sobre o desempenho do Timão.

Next.jsReact
PIPELINE STABLE - PRODUCTION READY V2.0