Pipeline de Machine Learning

Resumo

O Pipeline ML do Cidadão.AI implementa um framework MLOps sofisticado para treinamento, validação e deploy de modelos de aprendizado de máquina especializados em análise de dados governamentais. O pipeline integra métodos ensemble, arquiteturas de deep learning e técnicas de IA explicável para alcançar performance estado-da-arte em detecção de anomalias e reconhecimento de padrões.

Visão Geral da Arquitetura

Componentes Principais

Pipeline de Dados

Coleta de Dados

class ColetorDados:
    """Coleta e normaliza dados de múltiplas fontes governamentais."""
    
    def __init__(self):
        self.fontes = {
            'portal_transparencia': APIPortalTransparencia(),
            'tcu': APITCUDados(),
            'cgu': APICGUDados(),
            'compras_gov': APIComprasGov()
        }
    
    async def coletar_lote(
        self, 
        fonte: str, 
        intervalo_data: IntervaloData,
        filtros: Dict[str, Any]
    ) -> pd.DataFrame:
        """Coletar dados em lote com validação e normalização."""
        
        dados_brutos = await self.fontes[fonte].buscar(intervalo_data, filtros)
        
        # Validar qualidade dos dados
        pontuacao_qualidade = self.validar_qualidade(dados_brutos)
        if pontuacao_qualidade < 0.8:
            raise ErroQualidadeDados(f"Pontuação de qualidade {pontuacao_qualidade} abaixo do limite")
        
        # Normalizar esquema
        dados_normalizados = self.normalizar_esquema(dados_brutos, fonte)
        
        return dados_normalizados

Engenharia de Features

class EngenhariaFeaturesAvancada:
    """Engenharia sofisticada de features para dados governamentais."""
    
    def __init__(self):
        self.transformadores = {
            'numericas': TransformadorNumerico(),
            'categoricas': TransformadorCategorico(),
            'temporais': TransformadorTemporal(),
            'textuais': TransformadorTextual(),
            'grafos': TransformadorGrafo()
        }
    
    def criar_features(self, df: pd.DataFrame) -> pd.DataFrame:
        """Criar conjunto abrangente de features."""
        
        features = pd.DataFrame(index=df.index)
        
        # Features estatísticas
        features = self._adicionar_features_estatisticas(features, df)
        
        # Padrões temporais
        features = self._adicionar_features_temporais(features, df)
        
        # Features de rede
        features = self._adicionar_features_rede(features, df)
        
        # Features NLP
        features = self._adicionar_features_nlp(features, df)
        
        return features
    
    def _adicionar_features_estatisticas(self, features: pd.DataFrame, df: pd.DataFrame) -> pd.DataFrame:
        """Adicionar indicadores de anomalia estatística."""
        
        # Features baseadas em Z-score
        for col in df.select_dtypes(include=[np.number]).columns:
            features[f'{col}_zscore'] = np.abs(stats.zscore(df[col]))
            features[f'{col}_outlier_iqr'] = self._detectar_outliers_iqr(df[col])
        
        # Distância de Mahalanobis
        colunas_numericas = df.select_dtypes(include=[np.number]).columns
        if len(colunas_numericas) > 1:
            features['distancia_mahalanobis'] = self._computar_mahalanobis(df[colunas_numericas])
        
        return features

Arquitetura de Modelos

Framework Ensemble

class EnsembleAnomalias(nn.Module):
    """Modelo ensemble combinando múltiplos algoritmos de detecção."""
    
    def __init__(self, dim_entrada: int, dims_ocultas: List[int]):
        super().__init__()
        
        # Modelos individuais
        self.isolation_forest = WrapperIsolationForest()
        self.one_class_svm = WrapperOneClassSVM()
        self.autoencoder = DetectorAnomaliaAutoencoder(dim_entrada, dims_ocultas)
        self.detector_lstm = DetectorAnomaliaLSTM(dim_entrada)
        
        # Meta-aprendiz
        self.meta_aprendiz = nn.Sequential(
            nn.Linear(4, 16),  # 4 modelos base
            nn.ReLU(),
            nn.Dropout(0.3),
            nn.Linear(16, 8),
            nn.ReLU(),
            nn.Linear(8, 1),
            nn.Sigmoid()
        )
    
    def forward(self, x: torch.Tensor) -> torch.Tensor:
        """Forward pass através do ensemble."""
        
        # Obter predições dos modelos base
        pontuacao_if = self.isolation_forest(x)
        pontuacao_svm = self.one_class_svm(x)
        pontuacao_ae = self.autoencoder(x)
        pontuacao_lstm = self.detector_lstm(x)
        
        # Empilhar predições base
        predicoes_base = torch.stack([pontuacao_if, pontuacao_svm, pontuacao_ae, pontuacao_lstm], dim=1)
        
        # Meta-aprendiz combina predições
        pontuacao_ensemble = self.meta_aprendiz(predicoes_base)
        
        return pontuacao_ensemble

Arquitetura Autoencoder

class DetectorAnomaliaAutoencoder(nn.Module):
    """Autoencoder Variacional para detecção de anomalias."""
    
    def __init__(self, dim_entrada: int, dims_ocultas: List[int], dim_latente: int = 32):
        super().__init__()
        
        # Encoder
        camadas_encoder = []
        dim_anterior = dim_entrada
        for dim_oculta in dims_ocultas:
            camadas_encoder.extend([
                nn.Linear(dim_anterior, dim_oculta),
                nn.BatchNorm1d(dim_oculta),
                nn.ReLU(),
                nn.Dropout(0.2)
            ])
            dim_anterior = dim_oculta
        
        self.encoder = nn.Sequential(*camadas_encoder)
        
        # Espaço latente
        self.camada_mu = nn.Linear(dim_anterior, dim_latente)
        self.camada_logvar = nn.Linear(dim_anterior, dim_latente)
        
        # Decoder
        camadas_decoder = []
        dim_anterior = dim_latente
        for dim_oculta in reversed(dims_ocultas):
            camadas_decoder.extend([
                nn.Linear(dim_anterior, dim_oculta),
                nn.BatchNorm1d(dim_oculta),
                nn.ReLU(),
                nn.Dropout(0.2)
            ])
            dim_anterior = dim_oculta
        
        camadas_decoder.append(nn.Linear(dim_anterior, dim_entrada))
        self.decoder = nn.Sequential(*camadas_decoder)
    
    def codificar(self, x: torch.Tensor) -> Tuple[torch.Tensor, torch.Tensor]:
        """Codificar entrada para espaço latente."""
        h = self.encoder(x)
        mu = self.camada_mu(h)
        logvar = self.camada_logvar(h)
        return mu, logvar
    
    def reparametrizar(self, mu: torch.Tensor, logvar: torch.Tensor) -> torch.Tensor:
        """Truque de reparametrização."""
        std = torch.exp(0.5 * logvar)
        eps = torch.randn_like(std)
        return mu + eps * std
    
    def forward(self, x: torch.Tensor) -> Tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
        """Forward pass através do VAE."""
        mu, logvar = self.codificar(x)
        z = self.reparametrizar(mu, logvar)
        reconstrucao = self.decoder(z)
        
        # Pontuação de anomalia baseada em erro de reconstrução
        erro_reconstrucao = F.mse_loss(reconstrucao, x, reduction='none').mean(dim=1)
        
        return reconstrucao, mu, logvar, erro_reconstrucao

Pipeline de Treinamento

Loop de Treinamento Avançado

class PipelineMLAvancado:
    """Pipeline ML pronto para produção com integração MLOps."""
    
    def __init__(self, config: Dict[str, Any]):
        self.config = config
        self.logger = structlog.get_logger(__name__)
        
        # Integrações MLOps
        if MLFLOW_DISPONIVEL:
            mlflow.set_tracking_uri(config.get('mlflow_uri', 'sqlite:///mlruns.db'))
        
        if WANDB_DISPONIVEL and config.get('usar_wandb', False):
            wandb.init(project='cidadao-ai-ml', config=config)
    
    async def treinar_modelo(
        self, 
        tipo_modelo: TipoModelo,
        dados_treino: pd.DataFrame,
        dados_val: pd.DataFrame,
        config: Dict[str, Any]
    ) -> ExecucaoTreinamento:
        """Treinar modelo com rastreamento abrangente."""
        
        id_execucao = self._gerar_id_execucao()
        execucao_treinamento = ExecucaoTreinamento(
            id=id_execucao,
            tipo_modelo=tipo_modelo,
            status=StatusTreinamento.PREPROCESSAMENTO,
            config=config
        )
        
        try:
            # Iniciar execução MLflow
            with mlflow.start_run(run_name=f"{tipo_modelo.value}_{id_execucao}"):
                
                # Registrar parâmetros
                mlflow.log_params(config)
                
                # Pré-processar dados
                X_treino, y_treino = self._preprocessar_dados(dados_treino)
                X_val, y_val = self._preprocessar_dados(dados_val)
                
                # Criar modelo
                modelo = self._criar_modelo(tipo_modelo, X_treino.shape[1], config)
                
                # Configuração de treinamento
                otimizador = optim.AdamW(
                    modelo.parameters(),
                    lr=config.get('taxa_aprendizado', 1e-3),
                    weight_decay=config.get('decaimento_peso', 1e-4)
                )
                
                scheduler = optim.lr_scheduler.ReduceLROnPlateau(
                    otimizador, 
                    patience=config.get('paciencia', 10),
                    factor=0.5
                )
                
                # Loop de treinamento
                execucao_treinamento.status = StatusTreinamento.TREINAMENTO
                melhor_perda_val = float('inf')
                
                for epoca in range(config.get('epocas', 100)):
                    # Passo de treinamento
                    perda_treino, metricas_treino = await self._epoch_treinamento(
                        modelo, X_treino, y_treino, otimizador
                    )
                    
                    # Passo de validação
                    perda_val, metricas_val = await self._epoch_validacao(
                        modelo, X_val, y_val
                    )
                    
                    # Logging
                    self._log_metricas_epoca(epoca, perda_treino, perda_val, metricas_treino, metricas_val)
                    
                    # Agendamento de taxa de aprendizado
                    scheduler.step(perda_val)
                    
                    # Parada antecipada
                    if perda_val < melhor_perda_val:
                        melhor_perda_val = perda_val
                        self._salvar_checkpoint(modelo, otimizador, epoca, id_execucao)
                    
                    # Logging Wandb
                    if WANDB_DISPONIVEL:
                        wandb.log({
                            'epoca': epoca,
                            'perda_treino': perda_treino,
                            'perda_val': perda_val,
                            **metricas_treino,
                            **{f'val_{k}': v for k, v in metricas_val.items()}
                        })
                
                # Avaliação final
                execucao_treinamento.status = StatusTreinamento.VALIDANDO
                metricas_finais = await self._avaliacao_final(modelo, X_val, y_val)
                execucao_treinamento.metricas = metricas_finais
                execucao_treinamento.status = StatusTreinamento.CONCLUIDO
                execucao_treinamento.concluido_em = datetime.utcnow()
                
                # Registrar modelo
                mlflow.pytorch.log_model(modelo, "modelo")
                mlflow.log_metrics(metricas_finais.__dict__)
                
                return execucao_treinamento
                
        except Exception as e:
            execucao_treinamento.status = StatusTreinamento.FALHADO
            execucao_treinamento.mensagem_erro = str(e)
            self.logger.error("Treinamento falhou", erro=str(e), id_execucao=id_execucao)
            raise

Avaliação de Modelos

Métricas Abrangentes

class AvaliadorModelo:
    """Avaliação abrangente de modelos com testes estatísticos."""
    
    def __init__(self):
        self.calculadores_metricas = {
            'classificacao': MetricasClassificacao(),
            'deteccao_anomalia': MetricasDeteccaoAnomalia(),
            'regressao': MetricasRegressao()
        }
    
    def avaliar_modelo(
        self, 
        modelo: nn.Module, 
        dados_teste: pd.DataFrame,
        tipo_tarefa: str
    ) -> Dict[str, float]:
        """Avaliar modelo com métricas abrangentes."""
        
        # Obter predições
        predicoes = self._obter_predicoes(modelo, dados_teste)
        rotulos_verdadeiros = dados_teste['rotulo'].values
        
        # Calcular métricas
        metricas = {}
        
        if tipo_tarefa == 'deteccao_anomalia':
            metricas.update(self._calcular_metricas_anomalia(predicoes, rotulos_verdadeiros))
            metricas.update(self._calcular_metricas_threshold(predicoes, rotulos_verdadeiros))
            metricas.update(self._calcular_testes_estatisticos(predicoes, rotulos_verdadeiros))
        
        # Adicionar métricas de interpretabilidade
        metricas.update(self._calcular_metricas_interpretabilidade(modelo, dados_teste))
        
        return metricas
    
    def _calcular_metricas_anomalia(
        self, 
        predicoes: np.ndarray, 
        rotulos_verdadeiros: np.ndarray
    ) -> Dict[str, float]:
        """Calcular métricas específicas para detecção de anomalias."""
        
        # Encontrar threshold ótimo
        fpr, tpr, thresholds = roc_curve(rotulos_verdadeiros, predicoes)
        idx_otimo = np.argmax(tpr - fpr)
        threshold_otimo = thresholds[idx_otimo]
        
        # Predições binárias
        preds_binarias = (predicoes >= threshold_otimo).astype(int)
        
        return {
            'auc_roc': roc_auc_score(rotulos_verdadeiros, predicoes),
            'auc_pr': average_precision_score(rotulos_verdadeiros, predicoes),
            'precisao': precision_score(rotulos_verdadeiros, preds_binarias),
            'recall': recall_score(rotulos_verdadeiros, preds_binarias),
            'f1_score': f1_score(rotulos_verdadeiros, preds_binarias),
            'threshold_otimo': threshold_otimo,
            'taxa_verdadeiro_positivo': tpr[idx_otimo],
            'taxa_falso_positivo': fpr[idx_otimo]
        }

Integração IA Explicável

Integração SHAP

class ExplicadorModelo:
    """Fornece explicações para predições de modelos usando SHAP e LIME."""
    
    def __init__(self, modelo: nn.Module, nomes_features: List[str]):
        self.modelo = modelo
        self.nomes_features = nomes_features
        self.explicador = None
        self._configurar_explicador()
    
    def _configurar_explicador(self):
        """Configurar explicador SHAP baseado no tipo de modelo."""
        
        # Criar wrapper para modelo PyTorch
        def predicao_modelo(x):
            with torch.no_grad():
                tensor_x = torch.FloatTensor(x)
                return self.modelo(tensor_x).numpy()
        
        # Inicializar explicador SHAP
        self.explicador = shap.KernelExplainer(predicao_modelo, self.dados_background)
    
    def explicar_predicao(
        self, 
        instancia: pd.DataFrame,
        tipo_explicacao: str = 'local'
    ) -> Dict[str, Any]:
        """Gerar explicação para uma predição."""
        
        if tipo_explicacao == 'local':
            return self._explicar_local(instancia)
        elif tipo_explicacao == 'global':
            return self._explicar_global()
        else:
            raise ValueError(f"Tipo de explicação desconhecido: {tipo_explicacao}")
    
    def _explicar_local(self, instancia: pd.DataFrame) -> Dict[str, Any]:
        """Gerar explicação local para uma única instância."""
        
        # Obter valores SHAP
        valores_shap = self.explicador.shap_values(instancia.values)
        
        # Obter predição
        predicao = self.modelo(torch.FloatTensor(instancia.values)).item()
        
        # Criar explicação
        explicacao = {
            'predicao': predicao,
            'contribuicoes_features': dict(zip(self.nomes_features, valores_shap[0])),
            'top_features': self._obter_top_features(valores_shap[0]),
            'texto_explicacao': self._gerar_texto_explicacao(valores_shap[0], predicao)
        }
        
        return explicacao
    
    def _gerar_texto_explicacao(
        self, 
        valores_shap: np.ndarray, 
        predicao: float
    ) -> str:
        """Gerar explicação legível por humanos."""
        
        # Obter features mais contribuintes
        indices_top = np.argsort(np.abs(valores_shap))[-5:]
        
        partes_explicacao = []
        
        if predicao > 0.5:  # Anomalia detectada
            partes_explicacao.append("Esta transação foi classificada como ANÔMALA devido aos seguintes fatores:")
        else:
            partes_explicacao.append("Esta transação foi classificada como NORMAL. Principais fatores:")
        
        for idx in reversed(indices_top):
            nome_feature = self.nomes_features[idx]
            contribuicao = valores_shap[idx]
            
            if abs(contribuicao) > 0.01:  # Apenas contribuições significativas
                direcao = "aumenta" if contribuicao > 0 else "diminui"
                partes_explicacao.append(f"• {nome_feature} {direcao} a probabilidade de anomalia")
        
        return "\n".join(partes_explicacao)

Servindo Modelos

Deploy de Produção

class ServidorModelo:
    """Serviço de modelos em produção com cache e monitoramento."""
    
    def __init__(self, caminho_modelo: str, config: Dict[str, Any]):
        self.modelo = self._carregar_modelo(caminho_modelo)
        self.config = config
        self.cache = TTLCache(maxsize=1000, ttl=300)  # Cache de 5 minutos
        self.metricas = MetricasModelo()
        
        # Monitoramento
        self.contador_predicoes = Counter('predicoes_modelo_total', ['versao_modelo', 'resultado'])
        self.histograma_latencia = Histogram('duracao_inferencia_modelo_segundos', ['versao_modelo'])
    
    async def predizer(self, features: Dict[str, Any]) -> Dict[str, Any]:
        """Fazer predição com cache e monitoramento."""
        
        tempo_inicio = time.time()
        
        try:
            # Verificar cache
            chave_cache = self._computar_chave_cache(features)
            if chave_cache in self.cache:
                resultado_cache = self.cache[chave_cache]
                self.contador_predicoes.labels(versao_modelo=self.modelo.versao, resultado='cache').inc()
                return resultado_cache
            
            # Pré-processar features
            features_processadas = self._preprocessar_features(features)
            
            # Fazer predição
            with torch.no_grad():
                tensor_features = torch.FloatTensor(features_processadas)
                predicao = self.modelo(tensor_features).item()
            
            # Pós-processar resultado
            resultado = {
                'pontuacao_anomalia': predicao,
                'eh_anomalia': predicao > self.config.get('threshold', 0.5),
                'confianca': self._calcular_confianca(predicao),
                'explicacao': await self._gerar_explicacao(features_processadas, predicao)
            }
            
            # Cache do resultado
            self.cache[chave_cache] = resultado
            
            # Métricas
            resultado_metrica = 'anomalia' if resultado['eh_anomalia'] else 'normal'
            self.contador_predicoes.labels(versao_modelo=self.modelo.versao, resultado=resultado_metrica).inc()
            
            return resultado
            
        finally:
            # Registrar latência
            duracao = time.time() - tempo_inicio
            self.histograma_latencia.labels(versao_modelo=self.modelo.versao).observe(duracao)

Benchmarks de Performance

Performance do Modelo

Tipo de Modelo	Precisão	Recall	F1-Score	AUC-ROC	Tempo Inferência
Isolation Forest	0.847	0.823	0.835	0.901	12ms
Autoencoder	0.892	0.845	0.868	0.923	18ms
Detector LSTM	0.876	0.834	0.854	0.915	24ms
Ensemble	0.921	0.887	0.904	0.954	32ms

Métricas de Escalabilidade

Throughput: 3.000+ predições/segundo
Uso de Memória: <2GB por instância de modelo
Tamanho do Modelo: 45MB (comprimido)
Tempo de Treinamento: 2-4 horas em GPU V100

Melhores Práticas

Qualidade de Dados

def validar_qualidade_dados(df: pd.DataFrame) -> Dict[str, float]:
    """Avaliação abrangente da qualidade dos dados."""
    
    metricas_qualidade = {
        'completude': 1 - df.isnull().sum().sum() / (df.shape[0] * df.shape[1]),
        'unicidade': df.drop_duplicates().shape[0] / df.shape[0],
        'consistencia': verificar_consistencia_dados(df),
        'validade': verificar_validade_dados(df),
        'atualidade': verificar_atualidade_dados(df)
    }
    
    qualidade_geral = np.mean(list(metricas_qualidade.values()))
    metricas_qualidade['geral'] = qualidade_geral
    
    return metricas_qualidade

Monitoramento de Modelos

class DetectorDriftModelo:
    """Detecta drift de modelo e dados em produção."""
    
    def __init__(self, dados_referencia: pd.DataFrame):
        self.dados_referencia = dados_referencia
        self.detectores_drift = {
            'kolmogorov_smirnov': TesteKS(),
            'indice_estabilidade_populacao': TestePSI(),
            'distancia_jensen_shannon': TesteJS()
        }
    
    def detectar_drift(self, dados_atuais: pd.DataFrame) -> Dict[str, Any]:
        """Detectar drift nos dados recebidos."""
        
        resultados_drift = {}
        
        for feature in self.dados_referencia.columns:
            if feature in dados_atuais.columns:
                drift_feature = {}
                
                for nome_teste, detector in self.detectores_drift.items():
                    pontuacao_drift = detector.calcular(
                        self.dados_referencia[feature],
                        dados_atuais[feature]
                    )
                    drift_feature[nome_teste] = pontuacao_drift
                
                resultados_drift[feature] = drift_feature
        
        return resultados_drift

Esta documentação do pipeline ML fornece um guia abrangente para a infraestrutura de aprendizado de máquina que impulsiona o sistema de detecção de anomalias do Cidadão.AI, garantindo desenvolvimento de modelos reproduzível, escalável e sustentável.

Resumo​

Visão Geral da Arquitetura​

Componentes Principais​

Pipeline de Dados​

Coleta de Dados​

Engenharia de Features​

Arquitetura de Modelos​

Framework Ensemble​

Arquitetura Autoencoder​

Pipeline de Treinamento​

Loop de Treinamento Avançado​

Avaliação de Modelos​

Métricas Abrangentes​

Integração IA Explicável​

Integração SHAP​

Servindo Modelos​

Deploy de Produção​

Benchmarks de Performance​

Performance do Modelo​

Métricas de Escalabilidade​

Melhores Práticas​

Qualidade de Dados​

Monitoramento de Modelos​