Os dados são da própria Facebook: cerca de 5% dos utilizadores mensais ativos são perfis falsos. Dito assim pode parecer pouco, mas quando puxamos da calculadora percebemos que afinal o valor é considerável. Por ter 2,5 mil milhões de utilizadores ativos mensais, isso significa que o número de utilizadores falsos ronda os 125 milhões. Sabendo que em Portugal, no início de 2019, existiam 6,2 milhões de utilizadores, é seguro dizer que o número de falsos utilizadores que existem no Facebook é 15 a 20 vezes maior do que o número de utilizadores reais que existem no mercado português. Dá que pensar.
A Facebook reconhece a magnitude deste problema: entre janeiro e setembro de 2019, a tecnológica eliminou 5,4 mil milhões de perfis falsos, um número que tem tanto de impressionante como de revelador. Destes, 1,7 mil milhões são relativos apenas às eliminações feitas no terceiro trimestre do ano passado.
Durante muito tempo, a rede social lutou contra o problema de forma ‘manual’: através da definição de regras, escritas à mão, e definidas no código da plataforma. “Estas regras são difíceis de escalar e podem regredir em termos de precisão de forma rápida”, disse Bochra Gharbaoui, gestora de ciência de dados para a integridade da comunidade na Facebook, numa apresentação online à imprensa na qual a Exame Informática participou. Por isso é que a Facebook tomou a decisão, há dois anos, de redobrar a aposta na aprendizagem automática (machine learning) para apanhar mais perfis falsos na rede.
Bloqueados à nascença
Antes de explicar o segredo para a deteção e eliminação massiva de perfis falsos na plataforma, a Facebook quis deixar uma ideia bem clara: uma parte significativa desta guerra – quanto, ao certo, a empresa não quis revelar – acontece ainda fora da rede social propriamente dita. “Temos investido muito no bloqueio durante o registo”, confirmou Bochra Gharbaoui.
Isto significa que alguém que esteja a tentar criar um perfil falso no Facebook vai encontrar logo aí dificuldades, pois a tecnológica junta dados como a localização do utilizador e tipologias de endereços de e-mail para fazer uma avaliação de risco do que pode ser – ou não – um utilizador falso. Se o nível de confiança para uma eventual fraude for elevado, a essa pessoa nem sequer será permitido criar a conta.
Daniel Bernhardt, gestor de engenharia para a integridade da comunidade do Facebook, explicou que determinados endereços de e-mail que usem redes privadas virtuais (VPN na sigla em inglês) específicas são um sinal claro de que aquele é um agente malicioso. Caso surjam dúvidas durante o processo de registo, a Facebook pede dados adicionais, como a associação de um número de telemóvel – e normalmente é aqui que muitos dos agentes maliciosos desistem, pois torna-se demasiado caro e complexo criar uma rede de perfis falsos na plataforma.
“Existem milhões de tentativas de criação de contas que violam os termos de utilização da plataforma”, sublinhou Bochra Gharbaoui, que também admite que “é muito difícil fazer tudo com integridade, pois há um compromisso entre precisão [minimizar falsos positivos] e revogação [minimizar falsos negativos]”. “Estamos a cometer erros e não devíamos e também não estamos a identificar determinadas contas que devíamos”, acrescentou.
A gestora de ciência de dados também garante que para este problema específico, a Facebook apenas usa dados internos para fazer a deteção de agentes maliciosos. “Usamos dados do Facebook. É uma das partes boas da riqueza e complexidade dos nossos produtos, temos muitos dados disponíveis e usamos os dados que temos nos modelos [de aprendizagem automática].”
Importa esclarecer que a Facebook considera como perfis falsos apenas aqueles que violam os termos de utilização da rede social e, por exemplo, fazem spam ou têm como intuito enganar os utilizadores em campanhas de roubo de dados ou extorsão de dinheiro. Se alguém criar um perfil de um gato, esse perfil não vai ser classificado como falso só porque não é uma pessoa, mas vai ser reconvertido numa página para não induzir os outros utilizadores em erro.
As máquinas que não dormem
É na tentativa de melhorar a eficácia de todo o sistema que entra a inteligência artificial, mais especificamente modelos de aprendizagem automática. Uma das novidades da Facebook para a luta contra os perfis falsos passa pela própria forma como os algoritmos evoluem – em vez de os engenheiros decidirem quando é que um algoritmo precisa de ser atualizado para manter uma taxa elevada de deteção de perfis falsos, é o próprio algoritmo que por via da aprendizagem contínua dá o alerta de que precisa de renovar-se.
“Usamos dados em tempo real. Estamos sempre a experimentar novos modelos e a tecnologia que temos permite-nos mudar várias vezes ao dia”, explica Daniel Bernhardt.
Os modelos de deteção do Facebook olham, por exemplo, para quantos amigos uma conta tem, quando é que foi criada e avalia se está a violar ou não os termos de utilização. Mas este modelo ‘clássico’ de classificação de comportamentos tem problemas – as funcionalidades descritas neste parágrafo podem ser facilmente manipuladas pelo agente malicioso.
O Facebook decidiu por isso usar uma abordagem baseada em grafos: não só analisa os perfis, como também faz uma análise de contas direta e indiretamente ligadas ao sujeito da análise.
A rede social faz depois uma extração das chamadas “funcionalidades aprofundadas”: quando olha para um perfil, vê também como é que está conectado – pessoas, páginas, grupos – e depois avalia propriedades específicas por entidade, como há quanto tempo foi a conta criada, a idade do utilizador, o número de amigos, número de grupos, número de membro dos grupos ou o número de administradores das páginas que segue.
“Depois temos de fazer sentido desta informação, agregando os dados”, disse Daniel Bernhardt. A rede social define ainda numa fase posterior as chamadas funções de agregação (números mínimos, médios e máximos de diferentes interações para cada um destes perfis, como o número de likes). No final, e só nesta primeira camada de análise, o Facebook recolhe em média mil pontos de informação.
Depois quando se junta uma segunda camada de agregação de informação, a análise aos pontos de contacto do alegado perfil falso, existem mais de 10 mil pontos de informação disponíveis. Isto resulta numa análise mais aprofundada e com um muito maior volume de informação – justamente aquilo que os algoritmos de inteligência artificial precisam para serem eficazes.
“O objetivo depois é combinar indicadores de alta eficácia de humanos com a informação que extraímos dos indicadores automatizados [chamados de proxies]”, acrescentou Daniel Bernhardt, gestor de engenharia.
É esta malha cada vez maior e mais inteligente que tem permitido à Facebook atuar sobre aquele que é um dos principais problemas da plataforma. A taxa de sucesso é esclarecedora: 99,7% dos perfis falsos no Facebook são identificados antes que qualquer utilizador faça a denúncia. Já no Instagram, a história é outra e não pelos melhores motivos.