O ChatGPT tomou o mundo da tecnologia de assalto. O sistema que é capaz de gerar texto com uma qualidade próxima à dos humanos tem por base um grande modelo linguístico (large language model, LLM, no original em inglês) denominado GPT (transformador generativo pré-treinado, em tradução livre). Na prática, é um sistema de Inteligência Artificial que, com base numa gigantesca base de dados, é capaz de prever a probabilidade de posicionamento das palavras numa frase, gerando texto que, para quem lê, é coerente. O ChatGPT é baseado no modelo GPT-3.5, lançado no final de 2022.
Agora, a OpenAI anunciou o seu próximo grande modelo linguístico, o GPT-4. E traz várias novidades quando comparado com o GPT-3.5.
Uma das novidades é o facto de ser multimodal – agora além de interpretar texto, é capaz de interpretar também imagens. No exemplo fornecido pela OpenAI, um utilizador pode carregar três imagens para o sistema e pedir à ferramenta que crie uma descrição específica para cada uma, enquanto relaciona ao mesmo tempo as três em conjunto. A funcionalidade de interpretar imagens para texto está ainda em versão ‘alpha’ e só uma única empresa, a Be My Eyes, que desenvolve uma ferramenta de auxílio visual, está a integrar esta nova funcionalidade do GPT-4.
Mas há mais a saber. “O GPT-4 é mais confiável, criativo e capaz de lidar com instruções com mais nuances do que o GPT-3.5”, revela a startup no seu site oficial. Dito assim, é apenas uma afirmação de marketing, mas a OpenAI revela que o novo modelo linguístico é capaz de passar, com um desempenho muito acima da média, em diferentes exames de ensino que são realizados nos EUA. Num desses exames, enquanto o GPT-4 figorou entre os 10% dos melhores resultados, o GPT-3.5 só conseguiu figurar entre os 10% piores. Num outro teste de desempenho, focado na eficácia de produção de texto em inglês, o GPT-4 conseguiu uma classificação de 85,5% contra os 70,1% do GPT-3.5 e os 69,3% do PaLM (um LLM da Google).
GPT ganha ‘personalidades’
Outra das novidades apresentadas como fazendo parte do novo modelo é a “dirigibilidade” do GPT-4. O termo é da OpenAI e diz respeito à personalidade dos sistemas de geração de texto. Enquanto o ChatGPT, por exemplo, tem um estilo, um tom e uma capacidade de ‘falar’ (loquacidade) que são fixos, o GPT-4 vai suportar afinações por instrução. “Os programadores (e em breve os utilizadores do ChatGPT) vão poder prescrever o seu estilo de IA e a tarefa ao descrever esses direcionamentos no ‘sistema’ da mensagem”, detalha a startup. Ou seja, será possível dar instruções específicas para que o sistema fale e se comporte, ao longo da conversa, da forma que o utilizador definir.
Por fim, mas não menos relevante, o novo GPT-4 sofre menos de “alucinações” (hallucinations, no original em inglês). Este é um termo que, no mundo da IA, significa a produção de uma resposta aparentemente de confiança, mas que não é suportada pelos dados no qual o modelo foi treinado. Ou seja, é quando o modelo inventa uma informação para a qual não tem justificação. Segundo a OpenAI, o GPT-4 tem significativamente menos alucinações (40% segundo os dados da tecnológica) do que o GPT-3.5, valores relativos a testes feitos pela própria startup.
Apesar dos avanços anunciados no modelo linguístico, a OpenAI ressalva que o GPT-4 tem muitas limitações e que “ainda não é totalmente confiável”. “Deve-se ter muito cuidado quando se usam resultados de modelos linguísticos, particularmente em contextos de alta importância”, sublinha a startup norte-americana.
O novo modelo linguístico já está disponível no ChatGPT, mas apenas através da versão paga (ChatGPT Plus). A OpenAI vai disponibilizar em breve uma interface de programação (API) que permitirá aos progamadores integrar o GPT-4 numa grande variedade de ferramentas.