Fundamentos Teóricos
Resumo
Este documento apresenta os fundamentos matemáticos subjacentes ao sistema de detecção de anomalias Cidadão.AI. Fornecemos definições formais, análise teórica e provas matemáticas para os algoritmos centrais empregados na análise de transparência de dados governamentais. O framework teórico abrange detecção estatística de anomalias, teoria de aprendizado ensemble e princípios de IA explicável.
1. Formulação Formal do Problema
1.1 Framework de Detecção de Anomalias
Seja um conjunto de dados de transações governamentais, onde cada representa um vetor de características -dimensional contendo atributos financeiros, temporais e de metadados.
Definição 1.1 (Anomalia): Uma anomalia é definida como uma observação que desvia significativamente do padrão esperado de comportamento normal, formalmente:
onde:
- é uma medida de desvio da distribuição normal
- é um parâmetro de threshold
- é a função indicadora
1.2 Representação de Dados Multi-Modal
Transações governamentais exibem características multi-modais. Representamos cada transação como:
onde:
- : características numéricas (valores, quantidades)
- : características categóricas (fornecedores, departamentos)
- : embeddings de texto (descrições, justificativas)
- : características temporais (sazonalidade, tendências)
- : características de grafo (relacionamentos de rede)
2. Detecção Estatística de Anomalias
2.1 Teoria do Isolation Forest
O algoritmo Isolation Forest explora o princípio de que anomalias são "poucas e diferentes", tornando-as mais fáceis de isolar.
Teorema 2.1 (Princípio de Isolamento): Para um ponto selecionado aleatoriamente de um conjunto de dados , o comprimento esperado do caminho em uma árvore de isolamento satisfaz:
onde é o número harmônico e .
Prova: Considere o processo de construção da árvore binária. Para pontos normais, o caminho de isolamento segue o caso médio da construção de árvore de busca binária, resultando em . Para pontos anômalos, o isolamento ocorre precocemente devido à sua distintividade, resultando em comprimentos de caminho logarítmicos. □
2.2 Normalização da Pontuação de Anomalia
O comprimento bruto do caminho é normalizado para produzir pontuações de anomalia interpretáveis:
onde é o comprimento médio do caminho de busca mal-sucedida em BST.
Teorema 2.2 (Limites da Pontuação): A pontuação de anomalia satisfaz:
- conforme (anomalia clara)
- conforme (ponto normal)
- conforme (muito normal)
2.3 Local Outlier Factor (LOF)
Definição 2.1 (Densidade de Acessibilidade Local): Para um ponto e tamanho de vizinhança :
onde .
Definição 2.2 (Local Outlier Factor):
Teorema 2.3 (Propriedades do LOF): O LOF satisfaz:
- para pontos normais
- para outliers
- para inliers em regiões densas
3. Teoria de Aprendizado Ensemble
3.1 Framework Ensemble
Nosso ensemble combina detectores base de anomalia: .
Definição 3.1 (Pontuação de Anomalia Ensemble): A predição do ensemble é:
onde e .
3.2 Decomposição Bias-Variância
Teorema 3.1 (Decomposição do Erro Ensemble): Para a perda de erro quadrático, o erro do ensemble se decompõe como:
onde:
- é o erro irredutível
Corolário 3.1: Para aprendizes base não correlacionados com pesos iguais:
Este resultado teórico justifica métodos ensemble para redução de variância.
3.3 Medidas de Diversidade
Definição 3.2 (Diversidade Par-a-Par): Para classificadores e :
onde representa o número de exemplos classificados como por e por .
Teorema 3.2 (Trade-off Diversidade-Acurácia): Existe um nível de diversidade ótimo que maximiza a performance do ensemble:
4. Fundamentos de Deep Learning
4.1 Teoria do Autoencoder Variacional
Nosso detector de anomalias baseado em VAE segue o framework:
Definição 4.1 (Objetivo VAE): O VAE otimiza o Evidence Lower BOund (ELBO):
onde:
- : encoder (modelo de reconhecimento)
- : decoder (modelo generativo)
- : distribuição prior
4.2 Detecção de Anomalias Baseada em Reconstrução
Teorema 4.1 (Limite do Erro de Reconstrução): Para um VAE bem treinado, o erro de reconstrução para dados normais é limitado:
enquanto para dados anômalos:
Esboço da Prova: Dados normais encontram-se na variedade aprendida, levando a baixo erro de reconstrução. Dados anômalos desviam desta variedade, causando maior erro de reconstrução. □
4.3 Truque de Reparametrização
A reparametrização permite backpropagation através de nós estocásticos:
Esta transformação mantém diferenciabilidade enquanto introduz estocasticidade.
5. Teoria de IA Explicável
5.1 Valores SHAP
Definição 5.1 (Valor de Shapley): Para um jogo cooperativo , o valor de Shapley para o jogador é:
Teorema 5.1 (Unicidade SHAP): Os valores SHAP são o único método de atribuição satisfazendo:
- Eficiência:
- Simetria: Se para todo , então
- Dummy: Se para todo , então
- Aditividade: Para ,
5.2 Kernel SHAP
Para modelos complexos, usamos Kernel SHAP com o kernel linear ponderado:
onde é o número de elementos não-zero em .
6. Garantias Estatísticas
6.1 Desigualdades de Concentração
Teorema 6.1 (Desigualdade de Hoeffding): Para variáveis aleatórias independentes com , a média amostral satisfaz:
Isso fornece limites de confiança para nossas estimativas de pontuação de anomalia.
6.2 Aprendizado Provavelmente Aproximadamente Correto (PAC)
Definição 6.1 (Aprendibilidade PAC): Uma classe de conceitos é PAC-aprendível se existe um algoritmo que, para qualquer , produz uma hipótese tal que:
com complexidade amostral polinomial em , e tamanho do problema.
6.3 Limites de Generalização
Teorema 6.2 (Limite de Complexidade Rademacher): Com probabilidade pelo menos :
onde é a complexidade Rademacher da classe de hipóteses .
7. Análise Teoria da Informação
7.1 Informação Mútua
Definição 7.1 (Informação Mútua): Para variáveis aleatórias e :
Isso mede a informação compartilhada entre características e rótulos de anomalia.
7.2 Critério de Seleção de Características
Selecionamos características que maximizam informação mútua com rótulos de anomalia:
sujeito à restrição para eficiência computacional.
8. Análise de Convergência
8.1 Gradiente Descendente Estocástico
Teorema 8.1 (Convergência SGD): Para funções fortemente convexas com gradientes Lipschitz, SGD com taxa de aprendizado alcança:
onde é o parâmetro de convexidade forte e é a variância do ruído do gradiente.
8.2 Análise do Otimizador Adam
Teorema 8.2 (Convergência Adam): Sob suposições padrão, Adam com taxa de aprendizado satisfaz: