Arquitetura de Dados

Visão detalhada do fluxo de processamento de estatísticas do CVMC, desde a coleta até a visualização analítica.

O Apache Airflow atua como o orquestrador principal de pipelines, coordenando o fluxo de dados e a execução das tarefas parametrizadas.

AirflowPapermill

Notebooks Jupyter Python buscam dados atualizados de estatísticas esportivas (SofaScore/StatsHub) após cada partida do Brasileirão.

PythonJupyter

Dados brutos (JSON) são convertidos para o formato Delta Lake na camada Raw com schema evolution (Autoloader).

SparkDelta Lake

Processamento com Apache Spark. Conversão dos dados brutos aninhados para tabelas normalizadas Delta Lake.

SparkDelta Lake

O Spark realiza agregações e pivots, criando tabelas OBT (One Big Table) prontas para alta performance no PostgreSQL.

PostgreSQLSQL

A aplicação web acessa o PostgreSQL para exibir dashboards rápidos e otimizados sobre o desempenho do Timão.

Next.jsReact

PIPELINE STABLE - PRODUCTION READY V2.0