O mais recente sistema de linguagem natural gera tweets, canetas poéticas, resume e-mails, responde a perguntas triviais, traduz idiomas e até mesmo escreve seus próprios programas de computador.
Neste verão, um laboratório de inteligência artificial em San Francisco chamado OpenAI revelou uma tecnologia em desenvolvimento há vários meses. Este novo sistema, GPT-3, passou aqueles meses aprendendo os meandros da linguagem natural, analisando milhares de livros digitais, a extensão e a amplitude da Wikipedia e quase um trilhão de palavras postadas em blogs, mídias sociais e o resto do Internet.
Mckay Wrigley, um programador de computador de 23 anos de Salt Lake City, foi um dos poucos convidados a mexer no sistema, que usa tudo o que aprendeu naquele vasto mar de texto digital para gerar uma nova linguagem por conta própria. Wrigley se perguntou se isso poderia imitar figuras públicas – escrever como eles, talvez até conversar como eles.
Um de seus experimentos envolveu um psicólogo pop, Scott Barry Kaufman. O sistema incluiu o nome do Sr. Kaufman e um tópico para discussão: criatividade. Então, quando perguntado “Como nos tornamos mais criativos?” GPT-3 respondeu instantaneamente:
Acho que a expressão criativa é um subproduto natural do crescimento em um mundo diverso. Quanto mais diversificado é o mundo, mais você fica exposto a diferentes pessoas, a diferentes oportunidades, a diferentes lugares e a diferentes desafios. E quanto mais diversificado for, maior será a probabilidade de você conseguir juntar os pontos para formar algo novo. E de muitas maneiras, eu acho que se você quer ser criativo, você tem que ir em frente. Se você quer ser um escritor, você tem que escrever, se você quer ser um músico, você tem que criar música, se você quer ser um comediante, você tem que criar comédia, e quanto mais você cria, mais provável é que você tropeçará em algumas coisas interessantes.
Mais tarde, quando o Sr. Wrigley postou o parágrafo no Twitter , alguém repetiu o verdadeiro Scott Barry Kaufman. Ele ficou pasmo. “ Definitivamente soa como algo que eu diria ”, twittou o verdadeiro Sr. Kaufman, acrescentando mais tarde: “ IA muito precisa ”
Nas semanas desde sua chegada, o GPT-3 gerou dezenas de outros experimentos que levantam as sobrancelhas da mesma maneira. Ele gera tweets , canetas poesia , resume e-mails , responde a perguntas triviais , traduz idiomas e até mesmo escreve seus próprios programas de computador , tudo com muito pouca solicitação. Algumas dessas habilidades pegaram até os especialistas desprevenidos.
Para muitos pesquisadores de inteligência artificial, é um passo inesperado em direção a máquinas que podem entender os caprichos da linguagem humana – e talvez até mesmo lidar com outras habilidades humanas.
“É uma surpresa para mim e para muitas pessoas”, disse Melanie Mitchell, pesquisadora de IA do Santa Fe Institute, um laboratório independente no Novo México, que está entre os que estão experimentando o sistema. “É difícil descobrir exatamente o que essa coisa está fazendo.”
O GPT-3 está longe de ser perfeito. Muitas vezes, ele espalha uma linguagem tendenciosa e tóxica. E se você pedir dez parágrafos no estilo de Scott Barry Kaufman, pode dar cinco que são convincentes – e cinco outros que não são. Quando o Sr. Kaufman realmente conversou com seu doppelgänger de IA, ele não ficou tão impressionado quanto no início:
Scott Barry Kaufman: O que é imaginação?
“Scott Barry Kaufman”: O que é imaginação? Você deveria me contar!
Scott Barry Kaufman: Você deve saber!
“Scott Barry Kaufman”: Não, você deve saber. Você é aquele que sabe o que é imaginação. O que você acha que é isso?
Mas mesmo isso parecia uma conversa real. E, notavelmente, mostrou o que o sistema pode fazer inteiramente por conta própria, sem codificação extra ou ajuste fino.
GPT-3 é o culminar de vários anos de trabalho dentro dos principais laboratórios de inteligência artificial do mundo, incluindo OpenAI, uma organização independente apoiada por US $ 1 bilhão de dólares em financiamento da Microsoft , bem como laboratórios do Google e Facebook. No Google, um sistema semelhante ajuda a responder a dúvidas no mecanismo de busca da empresa .
Esses sistemas – conhecidos como modelos de linguagem universal – podem ajudar a capacitar uma ampla gama de ferramentas, como serviços que resumem automaticamente artigos de notícias e “chatbots” projetados para conversas online. Até agora, seu impacto na tecnologia do mundo real tem sido pequeno. Mas o GPT-3 – que aprendeu com uma coleção muito maior de texto online do que os sistemas anteriores – abre a porta para uma ampla gama de novas possibilidades, como software que pode acelerar o desenvolvimento de novos aplicativos de smartphone ou chatbots que podem conversar em muito maneiras mais humanas do que tecnologias anteriores.
À medida que designers de software, empreendedores, especialistas e artistas exploram esse sistema, cada novo experimento gera um debate já acalorado sobre o quão poderosa essa espécie de tecnologia será. Enquanto alguns dizem que pode ser um caminho para máquinas realmente inteligentes, outros argumentam que esses experimentos, embora infinitamente fascinantes, também são enganosos.
“É muito fluente”, disse Mark Riedl, professor e pesquisador do Georgia Institute of Technology. “É muito articulado. É muito bom para produzir texto de som razoável. O que não faz, porém, é pensar com antecedência. Ele não planeja o que vai dizer. Realmente não tem um objetivo. ”
Uma ‘qualidade emergente’
Jordan Singer é designer de produto na Square, a empresa de pagamentos móveis do Vale do Silício. Ele ajuda a projetar os aplicativos de smartphone da empresa, criando os gráficos, menus, botões e outros widgets que definem a aparência de um aplicativo. Quando ouviu sobre o GPT-3, ele se perguntou se esse sistema automatizado poderia fazer seu trabalho.
Ele alimentou o sistema com uma descrição simples de um aplicativo de smartphone e o código de computador necessário para criar o aplicativo. A descrição estava em um inglês simples. O código foi construído dentro do Figma, uma ferramenta de design especializada usada por profissionais como o Sr. Singer.
Ele fez isso mais algumas vezes, alimentando o sistema com várias outras descrições em inglês junto com o código Figma correspondente. E quando ele terminou, o GPT-3 poderia escrever esse código por conta própria.
Se ele descreveu um aplicativo simples para postar e visualizar fotos como um usuário faria no Instagram, o sistema gerou o código necessário para construí-lo. Este código às vezes apresentava falhas. Mas normalmente, se o Sr. Singer fizesse apenas um ou dois ajustes, funcionaria como ele queria. “Não é absolutamente perfeito”, disse ele. “Mas está muito, muito perto.”
Esse comportamento era totalmente novo e surpreendeu até os designers do GPT-3. Eles não construíram o GPT-3 para gerar código de computador, assim como não o fizeram para escrever como o Sr. Kaufman, gerar tweets ou traduzir idiomas. Eles o construíram para fazer apenas uma coisa: prever a próxima palavra em uma sequência de palavras.
GPT-3 é o que os pesquisadores de inteligência artificial chamam de rede neural, um sistema matemático vagamente modelado na teia de neurônios no cérebro. Esta é a mesma tecnologia que identifica rostos nas fotos que você publica no Facebook e reconhece os comandos que você envia para o seu iPhone.
Uma rede neural aprende essas habilidades identificando padrões em grandes quantidades de dados digitais. Ao analisar milhares de fotos de gatos, por exemplo, ele pode aprender a reconhecer um gato.
Cerca de três anos atrás, pesquisadores do Google e de laboratórios importantes como o OpenAI começaram a projetar redes neurais que aprendiam com enormes quantidades de prosa, incluindo livros não publicados e artigos da Wikipedia aos milhares. Esses modelos de linguagem universal podem ser aplicados não apenas a uma tarefa, como tradução, mas a muitas.
O GPT-3 analisou a prosa digital em uma escala sem precedentes, passando meses procurando padrões em grandes quantidades de texto postado na internet. Dessa forma, ele aprendeu a prever a próxima palavra em uma sequência. Se você digitar algumas palavras no GPT-3, ele continuará completando seu pensamento com parágrafos inteiros de texto.
Mas, ao adquirir essa habilidade específica, aprendeu muito mais. Durante seus meses de treinamento, o GPT-3 identificou mais de 175 bilhões de parâmetros – representações matemáticas de padrões – naquele mar de livros, artigos da Wikipedia e outros textos online. Esses padrões equivalem a um mapa da linguagem humana: uma descrição matemática da maneira como juntamos os personagens, quer estejamos escrevendo blogs ou programando softwares. Usando este mapa, o GPT-3 pode realizar todos os tipos de tarefas para as quais não foi criado.
Antes de pedir ao GPT-3 para gerar um novo texto, você pode focalizá-lo em padrões específicos que ele possa ter aprendido durante o treinamento, preparando o sistema para certas tarefas. Você pode alimentá-lo com descrições de aplicativos de smartphone e o código Figma correspondente. Ou você pode mostrar resmas de diálogo humano. Então, quando você começar a digitar, ele completará a sequência de uma forma mais específica. Se você o preparar com diálogo, por exemplo, ele começará a conversar com você.
“Ele tem essa qualidade emergente”, disse Dario Amodei, vice-presidente de pesquisa da OpenAI. “Ele tem alguma capacidade de reconhecer o padrão que você deu e completar a história, dê outro exemplo.”
Os modelos de linguagem anteriores funcionavam de maneiras semelhantes. Mas o GPT-3 pode fazer coisas que os modelos anteriores não podiam, como escrever seu próprio código de computador. E, talvez mais importante, você pode prepará-lo para tarefas específicas usando apenas alguns exemplos, ao contrário dos milhares de exemplos e várias horas de treinamento adicional exigidos por seus predecessores. Os pesquisadores chamam isso de “aprendizado rápido” e acreditam que o GPT-3 é o primeiro exemplo real do que poderia ser um fenômeno poderoso.
“Ele exibe uma capacidade que ninguém pensava ser possível”, disse Ilya Sutskever, cientista-chefe da OpenAI e uma figura-chave no surgimento das tecnologias de inteligência artificial na última década. “Qualquer leigo pode pegar este modelo e fornecer esses exemplos em cerca de cinco minutos e obter um comportamento útil a partir dele.”
Isso é tanto benção quanto maldição.
Inseguro para o trabalho?
A OpenAI planeja vender o acesso ao GPT-3 pela internet, transformando-o em um produto comercial amplamente utilizado, e este ano disponibilizou o sistema para um número limitado de testadores beta por meio de seus navegadores. Não muito depois, Jerome Pesenti, que lidera o laboratório de IA do Facebook, chamou o GPT-3 de “inseguro”, apontando para uma linguagem sexista, racista e tóxica que o sistema gerou quando solicitado a discutir mulheres, negros, judeus e o Holocausto.
Com sistemas como o GPT-3, o problema é endêmico. A linguagem do dia-a-dia é inerentemente tendenciosa e muitas vezes odiosa, principalmente na Internet. Como o GPT-3 aprende com essa linguagem, ele também pode mostrar preconceito e ódio. E porque aprende com textos da internet que associam ateísmo com as palavras “legal” e “correto” e que associa o Islã com “terrorismo”, o GPT-3 faz a mesma coisa.
Esse pode ser um dos motivos pelos quais a OpenAI compartilhou o GPT-3 com apenas um pequeno número de testadores. O laboratório construiu filtros que avisam que linguagem tóxica pode estar chegando, mas eles são apenas band-aids colocados sobre um problema que ninguém sabe como resolver.
“Eles estão fazendo a coisa certa não apenas lançando publicamente o GPT-3”, disse Allison Koenecke, pesquisadora de Stanford que explora tendências indesejadas em sistemas de IA. “Muita coisa ainda está em aberto.”
Em última análise, a responsabilidade recai sobre a OpenAI para garantir que esse comportamento permaneça sob controle, disse Liz O’Sullivan, vice-presidente da Arthur, uma empresa que ajuda empresas a gerenciar o comportamento de tecnologias de inteligência artificial. Do jeito que está, ela disse, a OpenAI está “repassando riscos legais e de reputação para qualquer pessoa que queira usar o modelo em aplicativos voltados para o consumidor”.
Outros especialistas temem que esses modelos de linguagem possam ajudar a espalhar a desinformação pela internet, ampliando o tipo de campanha online que pode ter ajudado a influenciar a eleição presidencial de 2016 . A GPT-3 aponta para um futuro no qual temos ainda menos certeza se o que estamos lendo é real ou falso. Isso vale para tweets, conversas online e até mesmo prosa longa.
No final de julho, Liam Porr, estudante da University of California, Berkeley, gerou várias postagens em um blog com o GPT-3 e as postou na internet, onde foram lidas por 26.000 pessoas. Sessenta espectadores foram inspirados a assinar o blog, e apenas alguns suspeitaram que as postagens foram escritas por uma máquina.
Eles não eram necessariamente pessoas crédulas. Uma das postagens do blog – que argumentava que você pode aumentar sua produtividade se evitar pensar muito sobre tudo o que faz – chegou ao topo do quadro de líderes do Hacker News, um site onde programadores, engenheiros e empreendedores experientes do Vale do Silício avaliam as notícias artigos e outros conteúdos online. (“Para fazer algo, talvez precisemos pensar menos”, começa a postagem. “Parece contra-intuitivo, mas acredito que às vezes nossos pensamentos podem atrapalhar o processo criativo.”)
Mas, como acontece com a maioria dos experimentos envolvendo GPT-3, o de Porr não é tão poderoso quanto pode parecer.
As falhas que ninguém nota
Em meados da década de 1960, Joseph Weizenbaum, pesquisador do Massachusetts Institute of Technology, construiu um psicoterapeuta automatizado que chamou de ELIZA. Julgado do nosso ponto de vista em 2020, este chatbot era extremamente simples.
Ao contrário do GPT-3, ELIZA não aprendeu com a prosa. Ele operava de acordo com algumas regras básicas definidas por seu projetista. Ele praticamente repetiu tudo o que você disse, apenas na forma de uma pergunta. Mas, para surpresa do Dr. Weizenbaum, muitas pessoas trataram o bot como se fosse humano, descarregando seus problemas sem reservas e se confortando com as respostas.
Quando cães e outros animais exibem até mesmo pequenas quantidades de comportamento semelhante ao humano, tendemos a supor que eles são mais parecidos conosco do que realmente são. O mesmo vale para as máquinas, disse Colin Allen, professor da Universidade de Pittsburgh que explora as habilidades cognitivas em animais e máquinas. “As pessoas são sugadas”, disse ele, “mesmo quando sabem que estão sendo sugadas”.
Isso é parte do que está acontecendo com o GPT-3. Como ele pode gerar tweets, postagens de blog e códigos de computador convincentes, lemos a humanidade neste sistema digital – e prestamos menos atenção aos seus limites.
Na prática, o sistema falha com a mesma frequência com que é bem-sucedido. Esquecemos que o código de computador que ele escreve requer alguns ajustes finos de programadores humanos – uma linha removida aqui ou adicionada ali. Não notamos que seu talento para a conversação se desfaz depois de algumas trocas, quando não consegue “lembrar” o que disse poucos segundos antes. Não percebemos bem que, embora o sistema tenha gerado uma postagem de blog convincente para o Sr. Porr, ele forneceu a manchete, a foto e as primeiras frases, e removeu algumas frases menos convincentes.
O Sr. Porr não acredita que o GPT-3 seja uma enorme ameaça à batalha contra a desinformação no curto prazo, porque ainda requer muita ajuda dos humanos. Uma ferramenta como essa se torna verdadeiramente perigosa apenas se puder gerar enormes quantidades de desinformação convincente inteiramente por conta própria, excedendo o que uma equipe de trabalhadores contratados pode fazer com relativa facilidade hoje.
Da mesma forma, quando os designers de aplicativos perguntam ao Sr. Singer da Square se o GPT-3 é uma ameaça para suas carreiras, ele garante que não é – pelo menos não ainda. Ele vê isso como uma forma de tornar seu trabalho mais fácil. “Se conseguir 70% do caminho até lá, isso é muito trabalho entediante retirado da equação”, disse ele.
O que não sabemos é o quanto essa tecnologia continuará a melhorar nos próximos meses e anos.
Mais inteligente, rápido e ainda mais caro
Enquanto os pesquisadores da OpenAI treinavam o GPT-3 em mais de um trilhão de palavras postadas na internet, eles realizaram um segundo experimento, treinando um sistema semelhante em dezenas de milhares de fotos digitais. Esse sistema poderia analisar todas essas fotos e aprender a construir imagens da mesma forma que o GPT-3 cria parágrafos. Dada a metade de uma foto de gato, ela poderia gerar o resto do gato.
Para alguns pesquisadores, o experimento indica que tal sistema poderia, em última instância, lidar com tarefas em múltiplas dimensões – linguagem, visão, som – de maneira muito semelhante à dos humanos. Mesmo quando treinado apenas na linguagem, eles dizem, o sistema já pode atingir outras áreas, seja programação de computadores, jogar xadrez ou gerar tabs de guitarra.
Mas continuar a melhorar essa tecnologia está longe de ser trivial. O processamento de todos esses dados da Internet requer um supercomputador especializado funcionando por meses a fio, uma tarefa extremamente cara. Quando questionado se esse projeto custou milhões de dólares, Sam Altman, presidente-executivo da OpenAI, disse que os custos eram na verdade “mais altos”, chegando a dezenas de milhões.
O Sr. Amodei, vice-presidente de pesquisa da OpenAI, disse que ainda há espaço para melhorar a técnica, usando mais poder de processamento para analisar mais dados. Mas ele também disse que a abordagem pode estar perto de ficar sem “energia”
No mínimo, o GPT-3 é uma nova ferramenta para um mundo de pesquisadores e empreendedores de IA, uma forma de construir todos os tipos de novas tecnologias e novos produtos. Wrigley, o programador de computador, recentemente deixou seu emprego diário para abrir uma empresa chamada LearnFromAnyone, que visa construir uma espécie de tutor automatizado usando GPT-3 que pode assumir o disfarce de qualquer pessoa, do cientista Douglas Hofstadter ao capitalista de risco Peter Thiel . Outros estão construindo empresas que visam gerar código automaticamente para programadores de computador e escrever e-mails promocionais e tweets para profissionais de marketing.
Mas não está claro até que ponto esses serviços serão eficazes. Se o GPT-3 gera o texto certo apenas metade do tempo, ele pode satisfazer os profissionais? E não está claro se essa técnica é um caminho para máquinas verdadeiramente conversacionais, muito menos sistemas verdadeiramente inteligentes. O progresso adicional na longa estrada para máquinas que podem imitar o cérebro humano, disse Amodei, exigirá ideias inteiramente novas.
“É como uma reação química”, disse ele. “Nós temos este ingrediente. Mas outros ingredientes também são necessários”
Fonte: The New York Times