Você já se perguntou como sabemos com quem estamos falando ao telefone? Claro que é mais do que apenas o nome exibido na tela. Se ouvirmos uma voz desconhecida ao vinda de um número salvo, sabemos imediatamente que algo está errado. Para ter certeza de com quem realmente estamos falando, inconscientemente observamos o timbre, a maneira e a entonação da fala. Mas quão confiável é a nossa própria audição na era digital da inteligência artificial? Como já noticiado amplamente, não dá mais para confiar em tudo o que ouvimos porque as vozes podem ser falsas: deepfake.
Na primavera de 2023, golpistas no Arizona tentaram extorquir dinheiro de uma mulher via telefone. Ela ouviu a voz da sua filha de 15 anos implorando por ajuda antes que um homem desconhecido pegasse o telefone e exigisse um resgate, tudo isso enquanto ouvia os gritos da filha ao fundo. A mãe teve certeza de que a voz era realmente da filha. Felizmente, ela descobriu rapidamente que estava tudo bem com a filha, percebendo que tinha sido vítima de fraudadores.
Não é possíver ter 100% de certeza de que os invasores usaram um deepfake para imitar a voz do adolescente. Talvez o golpe tenha sido usando um método tradicional: a má qualidade da chamada, o inesperado da situação, o estresse e a imaginação da mãe a faz pensar que ouviu algo que não ouviu. Mas mesmo se as tecnologias de rede neural não tenham sido usadas nesse caso, deepfakes podem e de fato ocorrem, e à medida que seu desenvolvimento continua e se tornam cada vez mais convincentes e perigosos. Para combater a exploração da tecnologia deepfake por criminosos, precisamos entender como isso funciona.
A inteligência artificial Deepfake ( “deep learning” + “fake” ) tem crescido em ritmo acelerado nos últimos anos. O aprendizado de máquina pode ser usado para criar falsificações convincentes de imagens, vídeo ou conteúdo de áudio. Por exemplo, as redes neurais podem ser usadas em fotos e vídeos para substituir o rosto de uma pessoa por outro, preservando as expressões faciais e a iluminação. Embora inicialmente essas falsificações fossem de baixa qualidade e fáceis de detectar, à medida que os algoritmos se desenvolveram, os resultados se tornaram tão convincentes que agora é difícil distingui-los do real. Em 2022, o primeiro programa de TV de deepfake do mundo foi lançado na Rússia, onde deepfakes de Jason Statham, Margot Robbie, Keanu Reeves e Robert Pattinson interpretam os personagens principais.
Mas hoje nosso foco está na tecnologia usada para criar deepfakes de voz. Isso também é conhecido como conversão de voz (ou “clonagem de voz” se for criada uma cópia digital completa). A conversão de voz é baseada em codificadores automáticos, um tipo de rede neural que comprime os dados de entrada (parte do codificador) em uma representação interna compacta e, então, aprende a descompactá-los dessa representação (parte do decodificador) para restaurar os dados originais. Desta forma, o modelo aprende a apresentar os dados em um formato compactado enquanto destaca as informações mais importantes.
Para criar deepfakes de voz, duas gravações de áudio são alimentadas no modelo, com a voz da segunda gravação sendo convertida para a primeira. O codificador de conteúdo é usado para determinar o que foi dito a partir da primeira gravação, e o codificador de alto-falante é usado para extrair as principais características da voz da segunda gravação, ou seja, como a fala da segunda pessoa. As representações comprimidas do que deve ser dito e como é dito são combinadas, e o resultado é gerado usando o decodificador. Assim, o que é dito na primeira gravação é dublado pela pessoa da segunda gravação.
Há outras abordagens que usam codificadores automáticos, por exemplo, com redes adversas generativas (GAN) ou modelos de difusão. A pesquisa sobre como criar deepfakes é apoiada em particular pela indústria cinematográfica. Imagine só: com as deepfakes de áudio e vídeo, é possível substituir os rostos de atores em filmes e programas de TV, e dublar filmes por expressões faciais sincronizadas em qualquer idioma.
Enquanto pesquisávamos as tecnologias deepfake, nos perguntamos o quão difícil poderia ser criar um deepfake da própria voz. Acontece que há muitas ferramentas open source gratuitas para fazer conversão de voz, mas não é tão fácil obter um resultado de alta qualidade com elas. É preciso experiência em programação em Python e boas habilidades de processamento, e mesmo assim a qualidade está longe de ser ideal. Além de fontes open source, também há soluções proprietárias e pagas disponíveis.
Por exemplo, no início de 2023, a Microsoft anunciou um algoritmo que poderia reproduzir uma voz humana com base em um exemplo de áudio com apenas três segundos! Esse modelo também funciona com vários idiomas, para que você possa até se ouvir falando um idioma estrangeiro. Tudo isso parece promissor, mas até agora tudo está apenas na fase de pesquisa. Mas a plataforma ElevenLabs permite aos usuários gerar deepfakes de voz sem nenhum esforço: basta carregar uma gravação de áudio da voz e das palavras a serem ditas, e pronto. É claro que, assim que a notícia se espalhou, as pessoas começaram a brincar com essa tecnologia de todas as maneiras possíveis.
As opiniões divergem sobre o futuro dos deepfakes. Atualmente, a maior parte dessa tecnologia está nas mãos de grandes corporações, e sua disponibilidade ao público é limitada. Mas, como a história de modelos generativos muito mais populares como DALL-E, Midjourney e Stable Diffusion mostra, e ainda mais com grandes modelos de linguagem (ChatGPT, por exemplo), tecnologias semelhantes podem muito bem aparecer no domínio público no futuro previsível. Isso foi confirmado por um vazamento recente de correspondência interna do Google, na qual representantes da gigante da Internet expressam o medo de perder a corrida da IA para soluções open source. Isso obviamente resultará em um aumento no uso de deepfakes de voz, inclusive para fraude.
O passo mais promissor no desenvolvimento de deepfakes é a geração em tempo real, o que garantirá o crescimento explosivo de deepfakes (e fraudes baseadas nisso). Já imaginou uma videochamada com alguém cujo rosto e voz são completamente falsos? No entanto, esse nível de processamento de dados requer enormes recursos disponíveis apenas para grandes corporações, então as melhores tecnologias permanecerão privadas e os fraudadores não serão capazes de acompanhar os profissionais. A barra de alta qualidade também ajudará os usuários a aprender a identificar facilmente as falsificações.
Agora, de volta à nossa primeira pergunta: podemos confiar nas vozes que ouvimos (excluindo as vozes em nossa cabeça)? Bem, provavelmente seria exagerado em ficar paranoico o tempo todo e começar a inventar palavras em código secretas para usar com amigos e familiares para evitar cair nessa. Mas em situações mais graves, essa paranoia pode ser necessária. Se tudo se desenvolver com base no cenário pessimista, a tecnologia deepfake nas mãos de golpistas pode se transformar em uma arma formidável no futuro, mas ainda há tempo de se preparar e construir métodos confiáveis de proteção contra a falsificação: já há muita pesquisa sobre deepfakes, e grandes empresas estão desenvolvendo soluções de segurança. Na verdade, já comentamos detalhadamente algumas maneiras de combater as deepfakes de vídeo aqui.
Por enquanto, a proteção contra falsificações de IA está apenas começando, então é importante ter em mente que as deepfakes são apenas mais um tipo de engenharia social avançada. O risco de se deparar com fraudes como essa é pequeno, mas ainda está lá, então vale a pena conhecer e ter em mente. Se você receber uma chamada estranha, preste atenção na qualidade do som. É um tom monótono não natural, é ininteligível ou há ruídos estranhos? Sempre verifique as informações por meio de outros canais e lembre-se de que pegar de surpresa e induzir ao pânico são as principais armas dos fraudadores.
Fonte: Kaspersky