Pular para o conteúdo principal

Fundamentos Teóricos

Resumo

Este documento apresenta os fundamentos matemáticos subjacentes ao sistema de detecção de anomalias Cidadão.AI. Fornecemos definições formais, análise teórica e provas matemáticas para os algoritmos centrais empregados na análise de transparência de dados governamentais. O framework teórico abrange detecção estatística de anomalias, teoria de aprendizado ensemble e princípios de IA explicável.

1. Formulação Formal do Problema

1.1 Framework de Detecção de Anomalias

Seja D={x1,x2,,xn}\mathcal{D} = \{x_1, x_2, \ldots, x_n\} um conjunto de dados de transações governamentais, onde cada xiRdx_i \in \mathbb{R}^d representa um vetor de características dd-dimensional contendo atributos financeiros, temporais e de metadados.

Definição 1.1 (Anomalia): Uma anomalia é definida como uma observação xix_i que desvia significativamente do padrão esperado de comportamento normal, formalmente:

Anomalia(xi)=I[ρ(xi,N)>τ]\text{Anomalia}(x_i) = \mathbb{I}[\rho(x_i, \mathcal{N}) > \tau]

onde:

  • ρ(xi,N)\rho(x_i, \mathcal{N}) é uma medida de desvio da distribuição normal N\mathcal{N}
  • τ\tau é um parâmetro de threshold
  • I[]\mathbb{I}[\cdot] é a função indicadora

1.2 Representação de Dados Multi-Modal

Transações governamentais exibem características multi-modais. Representamos cada transação como:

xi=(finum,ficat,fitext,fitemp,figraph)x_i = (f_i^{num}, f_i^{cat}, f_i^{text}, f_i^{temp}, f_i^{graph})

onde:

  • finumRd1f_i^{num} \in \mathbb{R}^{d_1}: características numéricas (valores, quantidades)
  • ficat{0,1}d2f_i^{cat} \in \{0,1\}^{d_2}: características categóricas (fornecedores, departamentos)
  • fitextRd3f_i^{text} \in \mathbb{R}^{d_3}: embeddings de texto (descrições, justificativas)
  • fitempRd4f_i^{temp} \in \mathbb{R}^{d_4}: características temporais (sazonalidade, tendências)
  • figraphRd5f_i^{graph} \in \mathbb{R}^{d_5}: características de grafo (relacionamentos de rede)

2. Detecção Estatística de Anomalias

2.1 Teoria do Isolation Forest

O algoritmo Isolation Forest explora o princípio de que anomalias são "poucas e diferentes", tornando-as mais fáceis de isolar.

Teorema 2.1 (Princípio de Isolamento): Para um ponto selecionado aleatoriamente xx de um conjunto de dados D\mathcal{D}, o comprimento esperado do caminho E[h(x)]E[h(x)] em uma árvore de isolamento satisfaz:

E[h(x)]={2H(n1)2(n1)nse x eˊ normalO(logn)se x eˊ anoˆmaloE[h(x)] = \begin{cases} 2H(n-1) - \frac{2(n-1)}{n} & \text{se } x \text{ é normal} \\ O(\log n) & \text{se } x \text{ é anômalo} \end{cases}

onde H(i)H(i) é o número harmônico e n=Dn = |\mathcal{D}|.

Prova: Considere o processo de construção da árvore binária. Para pontos normais, o caminho de isolamento segue o caso médio da construção de árvore de busca binária, resultando em E[h(x)]=2H(n1)2(n1)nE[h(x)] = 2H(n-1) - \frac{2(n-1)}{n}. Para pontos anômalos, o isolamento ocorre precocemente devido à sua distintividade, resultando em comprimentos de caminho logarítmicos. □

2.2 Normalização da Pontuação de Anomalia

O comprimento bruto do caminho é normalizado para produzir pontuações de anomalia interpretáveis:

s(x,n)=2E[h(x)]c(n)s(x, n) = 2^{-\frac{E[h(x)]}{c(n)}}

onde c(n)=2H(n1)2(n1)nc(n) = 2H(n-1) - \frac{2(n-1)}{n} é o comprimento médio do caminho de busca mal-sucedida em BST.

Teorema 2.2 (Limites da Pontuação): A pontuação de anomalia s(x,n)s(x, n) satisfaz:

  • s(x,n)1s(x, n) \to 1 conforme E[h(x)]0E[h(x)] \to 0 (anomalia clara)
  • s(x,n)0.5s(x, n) \to 0.5 conforme E[h(x)]c(n)E[h(x)] \to c(n) (ponto normal)
  • s(x,n)0s(x, n) \to 0 conforme E[h(x)]n1E[h(x)] \to n-1 (muito normal)

2.3 Local Outlier Factor (LOF)

Definição 2.1 (Densidade de Acessibilidade Local): Para um ponto xx e tamanho de vizinhança kk:

lrdk(x)=1yNk(x)reach-distk(x,y)Nk(x)\text{lrd}_k(x) = \frac{1}{\frac{\sum_{y \in N_k(x)} \text{reach-dist}_k(x, y)}{|N_k(x)|}}

onde reach-distk(x,y)=max{k-distance(y),d(x,y)}\text{reach-dist}_k(x, y) = \max\{k\text{-distance}(y), d(x, y)\}.

Definição 2.2 (Local Outlier Factor):

LOFk(x)=yNk(x)lrdk(y)lrdk(x)Nk(x)\text{LOF}_k(x) = \frac{\sum_{y \in N_k(x)} \frac{\text{lrd}_k(y)}{\text{lrd}_k(x)}}{|N_k(x)|}

Teorema 2.3 (Propriedades do LOF): O LOF satisfaz:

  1. LOFk(x)1\text{LOF}_k(x) \approx 1 para pontos normais
  2. LOFk(x)>1\text{LOF}_k(x) > 1 para outliers
  3. LOFk(x)<1\text{LOF}_k(x) < 1 para inliers em regiões densas

3. Teoria de Aprendizado Ensemble

3.1 Framework Ensemble

Nosso ensemble combina MM detectores base de anomalia: {h1,h2,,hM}\{h_1, h_2, \ldots, h_M\}.

Definição 3.1 (Pontuação de Anomalia Ensemble): A predição do ensemble é:

H(x)=i=1Mwihi(x)H(x) = \sum_{i=1}^{M} w_i h_i(x)

onde wi0w_i \geq 0 e i=1Mwi=1\sum_{i=1}^{M} w_i = 1.

3.2 Decomposição Bias-Variância

Teorema 3.1 (Decomposição do Erro Ensemble): Para a perda de erro quadrático, o erro do ensemble se decompõe como:

E[(H(x)y)2]=Bias2+Variaˆncia+σ2\mathbb{E}[(H(x) - y)^2] = \text{Bias}^2 + \text{Variância} + \sigma^2

onde:

  • Bias2=(E[H(x)]y)2\text{Bias}^2 = (\mathbb{E}[H(x)] - y)^2
  • Variaˆncia=E[(H(x)E[H(x)])2]\text{Variância} = \mathbb{E}[(H(x) - \mathbb{E}[H(x)])^2]
  • σ2\sigma^2 é o erro irredutível

Corolário 3.1: Para aprendizes base não correlacionados com pesos iguais:

Variaˆncia(H)=1MVariaˆncia(hi)\text{Variância}(H) = \frac{1}{M} \cdot \text{Variância}(h_i)

Este resultado teórico justifica métodos ensemble para redução de variância.

3.3 Medidas de Diversidade

Definição 3.2 (Diversidade Par-a-Par): Para classificadores hih_i e hjh_j:

Div(hi,hj)=N01+N10N00+N01+N10+N11\text{Div}(h_i, h_j) = \frac{N^{01} + N^{10}}{N^{00} + N^{01} + N^{10} + N^{11}}

onde NabN^{ab} representa o número de exemplos classificados como aa por hih_i e bb por hjh_j.

Teorema 3.2 (Trade-off Diversidade-Acurácia): Existe um nível de diversidade ótimo δ\delta^* que maximiza a performance do ensemble:

δ=argmaxδ[Acuraˊcia(δ)λCusto(δ)]\delta^* = \arg\max_{\delta} \left[ \text{Acurácia}(\delta) - \lambda \cdot \text{Custo}(\delta) \right]

4. Fundamentos de Deep Learning

4.1 Teoria do Autoencoder Variacional

Nosso detector de anomalias baseado em VAE segue o framework:

Definição 4.1 (Objetivo VAE): O VAE otimiza o Evidence Lower BOund (ELBO):

L(θ,ϕ;x)=Eqϕ(zx)[logpθ(xz)]DKL(qϕ(zx)p(z))\mathcal{L}(\theta, \phi; x) = \mathbb{E}_{q_\phi(z|x)}[\log p_\theta(x|z)] - D_{KL}(q_\phi(z|x) \| p(z))

onde:

  • qϕ(zx)q_\phi(z|x): encoder (modelo de reconhecimento)
  • pθ(xz)p_\theta(x|z): decoder (modelo generativo)
  • p(z)=N(0,I)p(z) = \mathcal{N}(0, I): distribuição prior

4.2 Detecção de Anomalias Baseada em Reconstrução

Teorema 4.1 (Limite do Erro de Reconstrução): Para um VAE bem treinado, o erro de reconstrução para dados normais é limitado:

Expnormal[xx^2]ϵnormal\mathbb{E}_{x \sim p_{normal}}[\|x - \hat{x}\|^2] \leq \epsilon_{normal}

enquanto para dados anômalos:

Expanomaly[xx^2]ϵanomaly>ϵnormal\mathbb{E}_{x \sim p_{anomaly}}[\|x - \hat{x}\|^2] \geq \epsilon_{anomaly} > \epsilon_{normal}

Esboço da Prova: Dados normais encontram-se na variedade aprendida, levando a baixo erro de reconstrução. Dados anômalos desviam desta variedade, causando maior erro de reconstrução. □

4.3 Truque de Reparametrização

A reparametrização permite backpropagation através de nós estocásticos:

z=μ+σϵ,ϵN(0,I)z = \mu + \sigma \odot \epsilon, \quad \epsilon \sim \mathcal{N}(0, I)

Esta transformação mantém diferenciabilidade enquanto introduz estocasticidade.

5. Teoria de IA Explicável

5.1 Valores SHAP

Definição 5.1 (Valor de Shapley): Para um jogo cooperativo (N,v)(N, v), o valor de Shapley para o jogador ii é:

ϕi(v)=SN{i}S!(NS1)!N![v(S{i})v(S)]\phi_i(v) = \sum_{S \subseteq N \setminus \{i\}} \frac{|S|!(|N| - |S| - 1)!}{|N|!} [v(S \cup \{i\}) - v(S)]

Teorema 5.1 (Unicidade SHAP): Os valores SHAP são o único método de atribuição satisfazendo:

  1. Eficiência: i=1dϕi=f(x)f()\sum_{i=1}^{d} \phi_i = f(x) - f(\emptyset)
  2. Simetria: Se v(S{i})=v(S{j})v(S \cup \{i\}) = v(S \cup \{j\}) para todo SS, então ϕi=ϕj\phi_i = \phi_j
  3. Dummy: Se v(S{i})=v(S)v(S \cup \{i\}) = v(S) para todo SS, então ϕi=0\phi_i = 0
  4. Aditividade: Para v=u+wv = u + w, ϕi(v)=ϕi(u)+ϕi(w)\phi_i(v) = \phi_i(u) + \phi_i(w)

5.2 Kernel SHAP

Para modelos complexos, usamos Kernel SHAP com o kernel linear ponderado:

πx(z)=M1(Mz)z(Mz)\pi_{x'}(z') = \frac{M-1}{\binom{M}{|z'|}|z'|(M-|z'|)}

onde z|z'| é o número de elementos não-zero em zz'.

6. Garantias Estatísticas

6.1 Desigualdades de Concentração

Teorema 6.1 (Desigualdade de Hoeffding): Para variáveis aleatórias independentes X1,,XnX_1, \ldots, X_n com aiXibia_i \leq X_i \leq b_i, a média amostral Xˉ\bar{X} satisfaz:

P(XˉE[Xˉ]t)2exp(2n2t2i=1n(biai)2)P(|\bar{X} - \mathbb{E}[\bar{X}]| \geq t) \leq 2\exp\left(-\frac{2n^2t^2}{\sum_{i=1}^{n}(b_i - a_i)^2}\right)

Isso fornece limites de confiança para nossas estimativas de pontuação de anomalia.

6.2 Aprendizado Provavelmente Aproximadamente Correto (PAC)

Definição 6.1 (Aprendibilidade PAC): Uma classe de conceitos C\mathcal{C} é PAC-aprendível se existe um algoritmo que, para qualquer ϵ,δ>0\epsilon, \delta > 0, produz uma hipótese hh tal que:

P[erro(h)ϵ]1δP[\text{erro}(h) \leq \epsilon] \geq 1 - \delta

com complexidade amostral polinomial em 1/ϵ1/\epsilon, 1/δ1/\delta e tamanho do problema.

6.3 Limites de Generalização

Teorema 6.2 (Limite de Complexidade Rademacher): Com probabilidade pelo menos 1δ1-\delta:

erro(h)erro^(h)+2Rn(H)+log(1/δ)2n\text{erro}(h) \leq \hat{\text{erro}}(h) + 2\mathfrak{R}_n(\mathcal{H}) + \sqrt{\frac{\log(1/\delta)}{2n}}

onde Rn(H)\mathfrak{R}_n(\mathcal{H}) é a complexidade Rademacher da classe de hipóteses H\mathcal{H}.

7. Análise Teoria da Informação

7.1 Informação Mútua

Definição 7.1 (Informação Mútua): Para variáveis aleatórias XX e YY:

I(X;Y)=p(x,y)logp(x,y)p(x)p(y)dxdyI(X; Y) = \int \int p(x, y) \log \frac{p(x, y)}{p(x)p(y)} dx dy

Isso mede a informação compartilhada entre características e rótulos de anomalia.

7.2 Critério de Seleção de Características

Selecionamos características que maximizam informação mútua com rótulos de anomalia:

F=argmaxFkI(F;Y)\mathcal{F}^* = \arg\max_{|\mathcal{F}| \leq k} I(\mathcal{F}; Y)

sujeito à restrição Fk|\mathcal{F}| \leq k para eficiência computacional.

8. Análise de Convergência

8.1 Gradiente Descendente Estocástico

Teorema 8.1 (Convergência SGD): Para funções fortemente convexas com gradientes Lipschitz, SGD com taxa de aprendizado ηt=1μt\eta_t = \frac{1}{\mu t} alcança:

E[f(xt)f(x)]2σ2μ2t\mathbb{E}[f(x_t) - f(x^*)] \leq \frac{2\sigma^2}{\mu^2 t}

onde μ\mu é o parâmetro de convexidade forte e σ2\sigma^2 é a variância do ruído do gradiente.

8.2 Análise do Otimizador Adam

Teorema 8.2 (Convergência Adam): Sob suposições padrão, Adam com taxa de aprendizado αt=αt\alpha_t = \frac{\alpha}{\sqrt{t}} satisfaz:

t=1TE[f(xt)2]2(f(x1)f(x))Tα(1β1)+G2αT(1β1)(1β2)\sum_{t=1}^{T} \mathbb{E}[\|\nabla f(x_t)\|^2] \leq \frac{2(f(x_1) - f(x^*))\sqrt{T}}{\alpha(1-\beta_1)} + \frac{G^2\alpha\sqrt{T}}{(1-\beta_1)(1-\beta_2)}

9. Complexidade Computacional

9.1 Análise de Complexidade Temporal

AlgoritmoTreinamentoInferênciaEspaço
Isolation ForestO(tψlogψ)O(t \psi \log \psi)O(tlogψ)O(t \log \psi)O(tψ)O(t \psi)
LOFO(n2)O(n^2)O(klogn)O(k \log n)O(n2)O(n^2)
One-Class SVMO(n3)O(n^3)O(nsv)O(n_{sv})O(n2)O(n^2)
VAEO(epochsbatchd)O(epochs \cdot batch \cdot d)O(d)O(d)O(d2)O(d^2)

onde tt é o número de árvores, ψ\psi é o tamanho da subamostra, nn é o tamanho do dataset, kk é o tamanho da vizinhança, nsvn_{sv} é o número de vetores suporte, e dd é a dimensão das características.

9.2 Complexidade Paralela

Teorema 9.1 (Speedup Paralelo): Para algoritmos embaraçosamente paralelos (ex., Isolation Forest), o speedup com pp processadores é:

S(p)=T1Tpp1+(p1)fS(p) = \frac{T_1}{T_p} \leq \frac{p}{1 + (p-1)f}

onde ff é a fração da computação sequencial (Lei de Amdahl).

10. Análise de Robustez

10.1 Robustez Adversarial

Definição 10.1 (Exemplo Adversarial): Para entrada xx e perturbação δ\delta com δϵ\|\delta\| \leq \epsilon:

xadv=x+δ tal que f(xadv)f(x)x_{adv} = x + \delta \text{ tal que } f(x_{adv}) \neq f(x)

Teorema 10.1 (Defesa Certificada): Nosso ensemble fornece raio de robustez certificado:

rcert=miniriwir_{cert} = \min_{i} r_i \cdot w_i

onde rir_i é o raio de robustez individual do detector ii.

10.2 Robustez Estatística

Definição 10.2 (Ponto de Ruptura): O ponto de ruptura ϵ\epsilon^* é a menor fração de contaminação que pode alterar arbitrariamente o estimador:

ϵ=min{ϵ:supDNϵ(D)T(D)T(D)=}\epsilon^* = \min\{\epsilon : \sup_{\mathcal{D}'\in \mathcal{N}_\epsilon(\mathcal{D})} \|T(\mathcal{D}') - T(\mathcal{D})\| = \infty\}

Para nosso ensemble, ϵ=12M\epsilon^* = \frac{1}{2M} onde MM é o número de detectores base.

Conclusão

Esta fundamentação teórica fornece respaldo matemático rigoroso para o sistema Cidadao.AI. A análise formal garante que nossos algoritmos de detecção de anomalias tenham garantias prováveis, complexidade limitada e características de performance robustas essenciais para aplicações de transparência governamental.

O framework teórico suporta:

  1. Validade estatística através de desigualdades de concentração
  2. Garantias de generalização via teoria de aprendizado PAC
  3. Convergência de otimização através de análise convexa
  4. Explicabilidade via fundamentos teoria dos jogos
  5. Robustez contra ataques adversariais e estatísticos

Estes fundamentos matemáticos garantem que o sistema opere com rigor científico apropriado para aplicações do setor público onde transparência e responsabilização são primordiais.