Please enable JS

Blog

Raspagem de dados em redes sociais: entenda técnica e por que hackers utilizam

Raspagem de dados em redes sociais: entenda técnica e por que hackers utilizam

17 de junho de 2021 / Tecnologia / por Comunicação Krypton BPO

Cruzamento de informações permite que hackers construam perfis unificados de usuários e fortaleçam arsenal para criar golpes e fraudes.

Seja uma clonagem de perfil WhatsApp ou um e-mail com uma história convincente, uma fraude se torna mais eficaz quando o golpista conhece detalhes pessoais da vítima.

O que muita gente não percebe é que cada interação pública na web deixa “migalhas” que podem ser reunidas para construir essas informações.

A técnica de aglutinar essas migalhas para criar bancos de dados é chamada de “raspagem” ou “garimpo” de dados. É uma prática bastante comum.

Em abril, o Facebook explicou que um pacote com dados de 530 milhões de usuários foi obtido por meio de raspagem e, dias depois, o LinkedIn deu a mesma explicação para um arquivo com informações de 500 milhões de perfis.

Mas por que as redes sociais – que raramente são um modelo de transparência – não veem problema em apontar a técnica como a origem desses pacotes?

O motivo é que essa coleta de informações raramente alcança informações consideradas particulares, como mensagens ou senhas.

Sendo assim, é apenas uma coletânea daquilo que os usuários deixaram em seus perfis ou transmitiram por meio de interações (uma curtida ou participação em um grupo).

Quando um pacote de dados pode ser explicado por meio da raspagem, isso significa que não houve qualquer invasão ou acesso indevido ao sistema. Mas a atividade ainda pode gerar situações inesperadas e alguns riscos.

Embora “raspagem de dados” seja a tradução de “data scraping”, talvez seja mais fácil entender a prática como uma “garimpagem de dados”: a busca por elementos valiosos existentes na montanha de dados públicos da web.

Por que extrair os dados?

Se esse “garimpo” de dados apenas recolhe informações que já estão disponíveis publicamente, por que um hacker se daria ao trabalho de fazer isso?

Um dos motivos é a conveniência. Consultar dados na internet é sempre mais lento e, se você precisa repetir a mesma consulta, o trabalho é dobrado.

Sendo assim, ter uma “rede social off-line” para consultas sob demanda pode agilizar o trabalho de um criminoso que constantemente precisa de dados pessoais.

Por exemplo: um golpista pode usar as informações coletadas publicamente para enviar e-mails em massa para milhares ou milhões de pessoas. Se ele tivesse que fazer uma consulta a cada mensagem enviada, esse processo demoraria muito e teria que ser refeito a cada remessa.

Com os dados copiados em um pacote “off-line”, ele pode reutilizar a informação sem ter de buscá-la novamente.

Do ponto de vista do hacker, é mais ou menos como construir a sua “agenda” de contatos. A diferença, claro, é a quantidade de pessoas e informações nesta agenda.

Nesse sentido, a principal vantagem está na possiblidade do cruzamento de informações. Com muitos dados em mãos – inclusive de origens diferentes, como Facebook, LinkedIn, WhatsApp e assim por diante – é possível juntar tudo isso e estabelecer novas relações.

Outra vantagem está na obtenção de dados indiretos, que, normalmente, não estão disponíveis para visualização.

Com essa combinação de dados, hackers podem buscar novas formas de fraudar usuários e vítimas especialmente vulneráveis à extração.

Quanto mais o golpista sabe sobre uma pessoa, mais fácil é inventar uma história convincente para enganá-la.

Em alguns casos, os dados podem ser vendidos diretamente para marketing.

Como é realizada a extração de dados?

O método mais simples para “garimpar” dados é o “crawler”, um “robô” que simula uma navegação na rede social. Ele “abre” os perfis e, como não é um ser humano, procura apenas dados específicos e os extrai.

Para entender esse processo, imagine um software capaz de apontar para um perfil de Facebook e, como resultado, produzisse uma planilha preenchida com dados como nome, emprego, foto, curtidas e assim por diante.

Depois, adicione a esse software a capacidade de seguir links para puxar os mesmos dados dos amigos, amigos de amigos, grupos e assim por diante.

Contudo, existem métodos de extração indiretos.

O WhatsApp, por exemplo, não tem “link de perfil”. Por outro lado, o WhatsApp utiliza números de telefone, que são consecutivos (9991, 9992…), o que permite a criação de um robô que simule um usuário de WhatsApp adicionando todos esses contatos à sua agenda. Se a foto do contato estiver pública, o robô poderá copiá-la.

E, nisso, temos uma possibilidade de cruzamento de dados: se a mesma foto do WhatsApp for encontrada em redes sociais, existe a possibilidade de vincular esses perfis.

A mesma técnica pode ser usada em outros canais e redes sociais. O Facebook possui um mecanismo que permite localizar perfis pelo endereço de e-mail.

Portanto, se você já tem um endereço de e-mail em mãos – talvez porque o hacker o obteve de outro lugar – pode ser possível vincular o e-mail a um perfil.

O que as redes sociais fazem para coibir a extração?

Garimpar dados por meio de softwares automatizados é uma atividade vedada pelos termos de uso das redes sociais. Sendo assim, as redes sociais costumam se defender legalmente afirmando que a prática é proibida e que o “garimpeiro” violou suas regras.

Contudo, a discussão na esfera jurídica segue aberta. A extração de dados pode ter finalidades benéficas – como em sites de comparação de preços e na conferência de dados do governo que não têm boas opções de consulta. Não é possível afirmar que a proibição, por si só, teria resultados bons em todos os casos.

Do lado técnico, são adotadas práticas de limitação de acesso. Se um robô tentar acessar muitos perfis em um ritmo acelerado, que não condiz com os hábitos de navegação de um ser humano, isso será detectado e bloqueado.

Também é comum o uso do chamado “Captcha”, o “teste” que deve ser realizado para diferenciar humanos de robôs. São aqueles mecanismos que dizem para você digitar os caracteres em um texto distorcido ou marcar imagens com determinados elementos.

Poucos recursos são mais protegidos por “Captcha” do que o diretório do Facebook.

A rede social tem uma lista com os nomes dos usuários e perfis na plataforma, mas é praticamente impossível acessar mais que duas páginas sem que um “Captcha” seja solicitado. Isso, claro, se deve ao fato de que varrer esse diretório seria uma mina de ouro para o “garimpo” de dados, permitindo encontrar todos os perfis na rede.

Infelizmente, nem sempre foi assim – e o diretório já foi varrido no passado, como fica evidente pelos pacotes de dados que circulam pela web, como o do vazamento revelado em abril.

Raspagem e o ‘perfil único’

Mesmo adotando medidas para barrar a prática de extração, não é possível impedir a prática. Quanto mais rígido for o controle para evitar esse abuso, mais difícil será a utilização regular do serviço.

Se o WhatsApp bloquear a adição de muitos contatos em rápida sequência, quem tiver uma agenda muito grande no celular teria problemas para começar a usar o aplicativo, por exemplo. E o LinkedIn nem teria razão de existir se as pessoas não compartilhassem seus currículos.

Há situações ainda mais complexas. O Facebook e o Google notoriamente utilizam a rede de origem do usuário como “fator de confiança”.

Se você abrir uma janela anônima do seu navegador e colocar seu e-mail no login do Facebook – sem preencher a senha -, você já verá a foto do seu perfil.

Ou seja, a rede social associou seu e-mail ao seu perfil no login, mesmo que você tenha optado por não exibir o seu e-mail no Facebook.

Mas, se você fizer a mesma coisa a partir de outro computador ou celular, que use uma rede Wi-Fi ou provedor diferente, você não verá essa informação. Assim, o que você vê depende do computador usado no acesso.

Esse tipo de medida tenta reduzir as informações disponíveis para a extração de dados sem causar uma inconveniência ao usuário. Se a foto de perfil só for exibida quando o acesso vier de uma rede já vinculada àquele perfil, a ideia é que o hacker – que está usando outra rede – não poderá ver a foto.

Só que hackers têm à disposição computadores infectados, as “redes zumbi”, para intermediar acessos a partir de sistemas de qualquer provedor no mundo, coletando dados que normalmente não estariam disponíveis.

É por isso que, do ponto de vista dos prestadores de serviços, a extração de dados faz parte da paisagem natural da internet.

Se os dados estão públicos e acessíveis, eles podem ser obtidos de alguma forma. E não há problema em admitir que dados foram obtidos assim, porque isso os livra da responsabilidade por uma suposta falha de segurança.

Para os usuários, talvez o maior problema esteja nos vínculos entre os perfis, estabelecidos por fotos ou outras informações, violando a expectativa que os usuários têm a respeito da privacidade. Afinal, se o usuário nunca deixou duas informações no mesmo perfil, nem sempre ele imagina que aqueles dados apareceriam juntos.

É por isso que é normal se assustar quando ficamos sabendo que nosso e-mail ou número de telefone foi associado ao nosso nome, dados pessoais e perfis.

O cruzamento dos dados extraídos permite exatamente esse tipo de violação indireta de privacidade, reunindo e vinculando dados que deveriam estar separados.

Para as redes sociais, esse não é um problema delas, porque elas nunca armazenaram esses dados juntos. É apenas uma atividade irregular de um terceiro.

Quem utiliza qualquer rede social deve lembrar do “perfil único”: não pense em suas redes sociais como perfis separados. Tudo que está na web é público, e alguém sempre poderá juntar seus perfis, desde que seja capaz de criar um robô que faça algumas milhões de consultas.

Fonte: G1

Posts relacionados

Empresa brasileira desenvolve monóculo capaz de captar o calor emitido pelo corpo

11 de novembro de 2024 / Tecnologia / por Comunicação Krypton BPO

Conheça os golpes mais comuns no Simples Nacional e como combatê-los

11 de novembro de 2024 / Tecnologia / por Comunicação Krypton BPO

5 formas de usar a tecnologia ao seu favor no trabalho

7 de novembro de 2024 / Tecnologia / por Comunicação Krypton BPO

Meta desenvolve mecanismo de busca alimentado por IA

5 de novembro de 2024 / Tecnologia / por Comunicação Krypton BPO

Google Maps é turbinado por IA e fica mais esperto; veja o que muda

1 de novembro de 2024 / Tecnologia / por Comunicação Krypton BPO

IA da Meta: WhatsApp vai usar seus dados para treinar chat?

30 de outubro de 2024 / Tecnologia / por Comunicação Krypton BPO

abc