“Diga-me com quem andas e te direi quem és” é um provérbio popular vastamente conhecido e um consenso entre várias pessoas. Porém, será que essa máxima é verdadeira em todas as situações? Se assim o for, como poderíamos empregar essa relação nas atividades de prevenção a fraude e outros crimes financeiros?
As relações podem ser determinantes para caracterizar um indivíduo?
A resposta para esta pergunta não depende de uma análise subjetiva. Existem métodos estatísticos capazes de averiguar se os indivíduos tendem a se relacionar com outros que possuem características semelhantes às suas, ou se as relações ocorrem de forma aleatória. Sendo as semelhanças responsáveis por agrupar indivíduos, é razoável que um investigador se atente àqueles que mantem em sua rede de relacionamento vínculos com fraudadores já identificados no passado.
Quando isso ocorre, dizemos que a rede de relacionamento é homofílica, ou seja, os nós tendem a estar mais conectados com outros nós com características/rótulos semelhantes – como, por exemplo, a presença de fraude. Dessa forma, as relações podem sim ser determinantes para caracterizar um indivíduo quando constatamos tratar-se de uma rede homofílica.
Porém, como afirmar se a rede de relacionamento é ou não homofílica?
Análise de Redes Complexas
As redes de relacionamento contemplam informações não estruturadas acerca das relações (links) existentes entre diferentes entidades (nós). Os nós podem ser indivíduos, empresas, contratos, ou qualquer outro objeto que valha a pena ser referenciado, e os links podem ser transações financeiras, vínculos familiares/societários, informações cadastrais compartilhadas, troca de mensagens, ou qualquer outra forma de relacionamento. A rede pode ser direcionada quando a relação entre os nós possui um sentido/direção, com uma origem e destino, ou não direcionada, caso contrário.
Quando um analista pensa em utilizar rede de relacionamentos aplicada à prevenção a fraudes, talvez lhe venha à cabeça a imagem de um grafo repleto de links e nós e uma mente humana responsável por explorar e desvendar as relações. Essa imagem não está incorreta, e a essa representação da rede atribuímos o nome de sociograma.
Porém, em uma realidade onde as fontes de dados contemplam milhões de relações é humanamente impossível identificar determinados padrões, sobretudo de forma proativa, ou seja, antes que outros aspectos nos indique a presença de uma fraude.
Para explorar o máximo das informações contidas em uma rede de relacionamentos é necessário representá-la matematicamente, por meio de uma matriz de conectividade. A rede pode, portanto, ser expressa por meio de uma matriz de tamanho n x n em que n é o total de nós na rede e a i,j é o elemento que representa a relação existente entre o nó i e o nó j.
Para extrair estatísticas relevantes acerca da rede de relacionamento alguns cálculos são processados sobre a matriz de conectividade. A isto dá-se o nome de Análise de Redes Complexas (CNA, do inglês “complex network analysis”) que utiliza a teoria dos grafos e examina a estrutura, característica e a dinâmica de redes que são irregulares.
Por meio dessa representação matemática e do uso da análise de redes complexas, diversas medidas podem ser calculadas, tais como: medidas de vizinhança, medidas de centralidade, detecção de comunidades, e, inclusive, verificação da homofilia da rede de relacionamento, sendo possível inferir a culpa por associação.
Medidas de vizinhança
Para caracterizar uma entidade a partir de suas relações diretas com outras (vínculo imediato), ou indiretas (realizando saltos até alcançar a entidade desejada) se faz necessário o cálculo de métricas de vizinhança.
As principais medidas de vizinhança são:
- Grau: Representa a quantidade de vizinhos imediatos de um nó. Os “graus de entrada” e “graus de saída” expressam, em uma rede direcionada, a quantidade de links que chegam até o nó e que partem do nó, respectivamente. É possível calcular o grau legítimo e grau fraudador de um nó, que está vinculado com o rótulo dos seus vizinhos.
- Densidade: A densidade de uma rede visa quantificar o quão interligados estão os nós presentes naquele grafo. Quanto maior a densidade de uma rede, mais interligados são os nós, e mais facilmente a fraude se propaga pela rede. É calculado através da quantidade de links existentes na rede em relação à quantidade máxima possível.
- Classificador relacional: Pressupõe a existência de rede homofílica. Calcula a probabilidade de um nó possuir o mesmo rótulo (fraudador) de seus vizinhos. É calculado através do grau fraudador de um nó em relação ao seu grau total.
Medidas de centralidade:
As medidas de centralidade visam quantificar a importância de um determinado nó na rede de relacionamento a qual ele pertence. As principais medidas de centralidade são:
- Caminho mais curto: Calcula o caminho mais curto entre dois nós dentro de um grafo. Esse caminho leva em consideração a quantidade de “saltos” (nós intermediários) necessários para sair de um nó e chegar até o outro, e pode ser ponderado pelo peso entre os links, o qual visa expressar a “força” da relação.
- Entrelaçamento/Intermediação: O entrelaçamento é uma medida capaz de avaliar o controle que um nó tem sobre o fluxo de comunicação do restante da rede. É calculado através do número de vezes que um determinado nó ocorre nos caminhos mais curtos entre os demais nós da rede. Os nós com alta medida de entrelaçamento têm localização/ação estratégica dentro da rede, podendo agir como lobistas.
- Proximidade: Mede a distância média de um nó em relação aos demais nós da rede, sendo a distância calculada pelo caminho mais curto. A proximidade é dada pelo inverso da distância média. Quanto maior a proximidade, mais facilmente aquele nó alcança outros nós dentro da rede, portanto, nós fraudulentos com alta proximidade podem comprometer mais facilmente a integridade da rede.
- Hub/Autoridade: Existe apenas em redes direcionadas. O Hub quantifica o poder de um nó em direcionar a outros nós relevantes dentro do grafo. Já um nó é considerado Autoridade quando vários diferentes nós relevantes apontam para ele. Essa métrica contribui para entender a importância daquela entidade dentro da estrutura da rede, ainda que ela não possua uma "localização" estratégica.
Identificando comunidades
A detecção de comunidade visa particionar um grafo em comunidades menores de forma que os nós dentro da comunidade sejam mais densamente conectados entre si do que com os nós de comunidades diferentes. Para fins de prevenção às fraudes, é importante encontrar grupos de fraudadores dentro da rede, comunidades onde a prevalência de fraude é maior que as demais.
As diversas técnicas diferem quanto à forma de particionar o grafo em comunidades diferentes, mas todas objetivam otimizar a proporção dada pelo número de links existentes dentro da mesma comunidade em relação ao número de links existentes intercomunicando diferentes comunidades, obtendo dessa forma um “isolamento” ótimo.
A rede de relacionamento como artifício adicional ao portifólio de técnicas para prevenção às fraudes
É importante que as áreas de prevenção a fraudes e outros crimes financeiros compreendam o potencial não explorado da análise de redes complexas para detecção de práticas ilícitas e que a utilizem para identificar redes criminosas. Porém, recomenda-se que essa abordagem seja utilizada em conjunto com outras técnicas igualmente relevantes, como detecção de anomalias, algoritmos supervisionados e mineração textual no trabalho de combate à crimes estruturados.
Referências: Baesens, B., Van Vlasselaer, V., & Verbeke, W. (2015). Fraud analytics using descriptive, predictive, and social network techniques: a guide to data science for fraud detection. John Wiley & Sons.
SAS® Visual Data Mining and Machine Learning 8.1 The NETWORK Procedure