Tivemos uma avalanche de novos chatbots com inteligência artificial, mas qual é o mais útil? Comparamos Bard, Bing e ChatGPT.
Os chatbots estão em vigor, mas qual é melhor e para qual tarefa? Comparamos os modelos Bard do Google, Bing da Microsoft e ChatGPT da OpenAI com uma série de perguntas que abrangem solicitações comuns, desde dicas de férias até conselhos sobre jogos e cálculos de hipotecas.
Naturalmente, isso está longe de ser um resumo exaustivo das capacidades desses sistemas (os modelos de linguagem de IA são, em parte, definidos por suas habilidades desconhecidas — uma qualidade apelidada de “capacidade excessiva” na comunidade de IA), mas dá uma ideia sobre os pontos fortes e fracos relativos desses sistemas.
Você pode (e de fato deve) percorrer nossas perguntas, avaliações e conclusões abaixo, mas para economizar tempo e chegar ao ponto rapidamente: o ChatGPT é o mais verbalmente hábil, o Bing é melhor para obter informações da web e o Bard está… fazendo o seu melhor. (É genuinamente surpreendente como o chatbot do Google é limitado em comparação com os outros dois.)
Algumas notas de programação antes de começarmos, no entanto. Primeiro: estávamos usando o modelo mais recente da OpenAI, GPT-4, no ChatGPT.
Este também é o modelo de IA que alimenta o Bing, mas os dois sistemas dão respostas bastante diferentes.
Mais notavelmente, o Bing tem outras habilidades: ele pode gerar imagens e pode acessar a web e oferece fontes para suas respostas (que é um atributo super importante para certas consultas).
No entanto, quando estávamos terminando essa história, a OpenAI anunciou que está lançando plug-ins para o ChatGPT que permitirão que o chatbot também acesse dados em tempo real da internet.
Isso expandirá enormemente as capacidades do sistema e dará a ele uma funcionalidade muito mais parecida com a do Bing.
Mas esse recurso está disponível apenas para um pequeno subconjunto de usuários no momento, por isso não conseguimos testá-lo. Quando pudermos, faremos.
Também é importante lembrar que os modelos de linguagem AI são … difusos, em mais de um sentido.
Não são sistemas determinísticos, como softwares regulares, mas probabilísticos, gerando respostas baseadas em regularidades estatísticas em seus dados de treinamento. Isso significa que, se você fizer a mesma pergunta, nem sempre obterá a mesma resposta.
Isso também significa que a forma como você diz uma pergunta pode afetar a resposta e, para algumas dessas perguntas, solicitamos acompanhamentos para obter melhores respostas.
De qualquer forma, tudo isso à parte, vamos começar vendo como os chatbots se saem no que deveria ser seu território natural: jogos.
Artigo inspirado no The Verge.
Como vencer a Malenia no Elden Rings?
Passei uma quantidade embaraçosa de tempo aprendendo a vencer o chefe mais difícil de Elden Ring no ano passado, e eu não escolheria uma única dessas respostas sobre o tópico médio do Reddit ou o guia de estratégia humana. Se você chegou à luta de Malenia, provavelmente colocou 80 a 100 horas no jogo — você não está procurando dicas gerais. Você quer detalhes sobre a lista vertiginosa de armas ou contadores de Elden Ring para os movimentos únicos de Malenia, e isso provavelmente levaria algumas perguntas de acompanhamento para obter de qualquer um desses motores, se eles os oferecerem.
O Bing é o vencedor aqui, mas principalmente porque escolhe uma dica precisa (Malenia é vulnerável a danos por sangramento) e a repete como Garth Marenghi fazendo uma leitura de livro. Para seu crédito, é também o único motor para referenciar a capacidade de cura única de Malenia, embora não explique como funciona — o que é uma chave importante para vencê-la.
Bard é o único a oferecer qualquer ajuda com o movimento infernal da Dança das Aves Aquáticas de Malenia (embora eu não ache que seja a estratégia mais forte) ou conselhos para usar um item específico (Passo do Cão de Sangue, embora não mencione por que é útil ou se o conselho ainda se aplica após o nerf de meados de 2022 do item). Mas sua introdução parece estranha. Malenia é quase inteiramente uma lutadora corpo a corpo, não alguém com muitos ataques à distância, por exemplo, e ela não é “muito imprevisível”, apenas muito difícil de se esquivar e desgastar. O resumo parece mais uma descrição genérica de um chefe de videogame do que uma descrição de uma luta em particular.
O ChatGPT (GPT-4) é o claro perdedor, o que não é uma surpresa, considerando que seus dados de treinamento param principalmente em 2021 e Elden Ring saiu no ano seguinte. Sua diretriz para “bloquear seus contra-ataques” é exatamente o oposto do que você deve fazer, e toda a sua lista tem a vibração de uma criança que foi chamada na aula de inglês e não leu o livro, o que basicamente é. Eu não estou muito impressionado com qualquer um destes — mas eu julgo isso em particular uma nota de falta.
— Adi Robertson
Receita para um bolo de Chocolate
Receitas de bolo oferecem espaço para a criatividade. Alterne a proporção de farinha para água, para óleo, para manteiga, para açúcar e para ovos, e você terá uma versão ligeiramente diferente do seu bolo: talvez mais seco, mais úmido ou mais macio. Então, quando se trata de chatbots, não é necessariamente uma coisa ruim se eles querem combinar diferentes receitas para alcançar um efeito desejado — mesmo que, para mim, eu prefira muito mais assar algo que um autor testou e aperfeiçoou.
ChatGPT é o único que prega essa exigência para mim. Ele escolheu uma receita de bolo de chocolate de um site, uma receita de creme de manteiga de outro, compartilhou o link para um dos dois e reproduziu ambos os ingredientes corretamente. Ele ainda acrescentou algumas instruções úteis, como sugerir o uso de papel de pergaminho e oferecer algumas dicas (ligeiramente ásperas) sobre como montar as camadas do bolo, nenhuma das quais foi encontrada nas fontes originais. Este é um bot de receita que eu posso confiar!
O Bing entra no estádio, mas erra de algumas maneiras estranhas. Ele cita uma receita específica, mas depois altera algumas das quantidades de ingredientes importantes, como farinha, embora apenas por uma pequena margem. Para o creme de manteiga, ele reduz totalmente pela metade a quantidade instruída de açúcar para incluir. Tendo feito creme de manteiga recentemente, eu acho que esta é provavelmente uma boa edição! Mas não é o que o autor pediu.
O bardo, por sua vez, estraga um monte de quantidades de maneiras pequenas, mas recuperáveis, e subestima o tempo de cozimento do bolo. O maior problema é que ele faz algumas mudanças que afetam significativamente o sabor: ele troca o leitelho por leite e o café por água. Mais tarde, ele não inclui leite ou creme pesado em sua receita de creme de manteiga, então a cobertura vai acabar muito espessa. A receita de creme de manteiga também parece ter vindo de uma fonte totalmente diferente da que citou.
Se você seguir o ChatGPT ou o Bing, acho que acabaria com um bolo decente. Mas agora, é uma má ideia pedir ajuda ao Bardo na cozinha.
— Jake Kastrenakes
Como instalar RAM no PC?
Todos os três sistemas oferecem alguns conselhos sólidos aqui, mas não é abrangente o suficiente.
A maioria dos PCs modernos precisa executar a RAM no modo de canal duplo, o que significa que os sticks precisam estar sentados nos slots corretos para obter o melhor desempenho em um sistema. Caso contrário, você gastou muito dinheiro em uma nova RAM sofisticada que não funcionará no seu melhor se você colocar os dois bastões imediatamente lado a lado. As instruções devem definitivamente guiar as pessoas para o manual da placa-mãe para garantir que a RAM esteja sendo instalada de maneira ideal.
O ChatGPT pega uma parte fundamental do processo de instalação da RAM — verificando o BIOS do sistema depois — mas não passa por outra etapa importante do BIOS. Se você pegou alguma RAM compatível com Intel XMP, normalmente precisará habilitar isso nas configurações do BIOS depois e, da mesma forma, no equivalente da AMD. Caso contrário, você não está executando sua RAM nos horários mais otimizados para obter o melhor desempenho.
No geral, o conselho é sólido, mas ainda muito básico. É melhor do que alguns guias de construção de PC, ahem, mas eu gostaria de ter visto as mudanças BIOS ou peças de dois canais pegou corretamente.
— Tom Warren
Escrever um poema sobre minhoca
Se os chatbots de IA não são factualmente confiáveis (e eles não são), então eles devem pelo menos ser criativos. Esta tarefa — escrever um poema sobre um verme em tetrâmetro anapestic, um medidor poético muito específico e satisfatoriamente arcano — é um desafio, mas ChatGPT foi o vencedor claro, seguido por um agrupamento distante de Bing então Bardo.
Nenhum dos sistemas foi capaz de reproduzir o medidor necessário (o tetrômetro anapestic requer que cada linha de poesia contenha quatro unidades de três sílabas no padrão átono / átono / estressado, como ouvido em Twas na noite anterior ao Natal e em “The Way I Am” de Eminem), mas o ChatGPT chega mais perto enquanto a scansion de Bard é pior. Todos os três fornecem conteúdo relevante, mas novamente, o ChatGPT é de longe o melhor, com descrição evocativa (“Um pequeno mundo invisível, onde se banqueteia e joga”) em comparação com o comentário maçante de Bard (“O verme é uma criatura simples/ mas desempenha um papel importante”).
Depois de executar mais alguns testes de poesia, também pedi aos bots que respondessem a perguntas sobre passagens tiradas da ficção (principalmente livros de Iain M. Banks, pois esses eram os ebooks mais próximos que eu tinha à mão). Novamente, ChatGPT/GPT-4 foi o melhor, capaz de analisar todos os tipos de nuances no texto e fazer inferências humanas sobre o que estava sendo descrito, com Bard fazendo comentários muito gerais e inespecíficos (embora muitas vezes identificando o texto de origem também, o que é um bom bônus). Claramente, ChatGPT é o sistema superior se você quiser raciocínio verbal.
— James Vincent
Matemática básica
É uma das grandes ironias da IA que os grandes modelos de linguagem sejam alguns dos nossos programas de computador mais complexos até hoje e, no entanto, sejam surpreendentemente ruins em matemática. Sério. Quando se trata de cálculos, não confie em um chatbot para acertar as coisas.
No exemplo acima, perguntei o que era um aumento de 20% de 2.230, enfeitando a questão com um pouco de enquadramento narrativo. A resposta correta é 2.676, mas Bard conseguiu errar (fora por 10), enquanto Bing e ChatGPT acertaram. Em outros testes, pedi aos sistemas que se multiplicassem e dividissem grandes números (resultados mistos, mas, novamente, Bard foi o pior) e, em seguida, para um cálculo mais complicado, pedi a cada chatbot que determinasse os reembolsos mensais e o reembolso total de uma hipoteca de US $ 125.000 reembolsada ao longo de 25 anos a juros de 3,9%. Nenhum ofereceu a resposta fornecida por várias calculadoras de hipotecas on-line, e Bard e Bing deram resultados diferentes quando consultados várias vezes. O GPT-4 foi pelo menos consistente, mas falhou na tarefa porque insistiu em explicar sua metodologia (bom!) e depois foi tão demorado que ficou sem espaço para responder (ruim!).
Isso não é surpreendente. Os chatbots são treinados em grandes quantidades de texto e, portanto, não possuem regras codificadas para realizar cálculos matemáticos, apenas regularidades estatísticas em seus dados de treinamento. Isso significa que, quando confrontados com somas incomuns, muitas vezes eles erram. É algo que esses sistemas certamente podem compensar de várias maneiras. O Bing, por exemplo, me bootou para um site de calculadora de hipotecas quando perguntei sobre hipotecas, e os próximos plugins do ChatGPT incluem uma opção Wolfram Alpha que deve ser fantástica para todos os tipos de somas complicadas. Mas, enquanto isso, não confie em um modelo de linguagem para fazer o trabalho de um modelo matemático. Apenas pegue uma calculadora.
— James Vincent
Média de salários – citando fontes
Fiquei realmente interessado em interrogar os chatbots sobre onde eles obtêm suas informações e como eles escolhem quais informações nos apresentar. E quando se trata de dados salariais, podemos ver os bots adotando três abordagens muito diferentes: um cita várias fontes, um generaliza suas descobertas e o outro simplesmente inventa tudo. (Para o registro, as fontes citadas do Bing incluem Zippia, CareerExplorer e Glassdoor.)
De muitas maneiras, acho que a resposta do ChatGPT é a melhor aqui. É amplo e genérico e não inclui nenhum link. Mas sua resposta parece a mais “humana” — ela me deu um valor aproximado, explicou que havia ressalvas e me disse quais fontes eu poderia verificar para números mais detalhados. Eu realmente gosto da simplicidade e clareza disso.
Há muito o que gostar na resposta do Bing também. Ele dá números específicos, cita suas fontes e até dá links. Esta é uma resposta ótima e detalhada — embora haja um problema: o Bing falsifica os dois números finais que apresenta. Ambos estão perto de seu total real, mas por algum motivo, o bot apenas decidiu mudá-los um pouco.
Falando em não ser ótimo, vamos falar sobre praticamente todos os aspectos da resposta do Bardo. O salário médio dos encanadores foi de US $ 52.590 em maio de 2020? Não, isso foi em maio de 2017. Uma pesquisa de 2021 da National Association of Plumbers and Pipefitters determinou que o salário médio de Nova York era de US $ 76.810? Provavelmente não porque, tanto quanto posso dizer, essa organização não existe.
O Departamento de Trabalho do Estado de Nova York encontrou exatamente o mesmo número em sua própria pesquisa? Não consigo encontrá-lo se a agência o fez. Meu palpite: Bard pegou esse número do CareerExplorer e depois criou duas fontes diferentes para atribuí-lo. (O Bing, pelo que vale, cita com precisão a figura do CareerExplorer.)
Resumindo: respostas sólidas de Bing e ChatGPT e uma bizarra série de erros de Bard.
— Jake Kastrenakes
Plano de treinamento para maratona
Na corrida para fazer um plano de treinamento de maratona, o ChatGPT é o vencedor por muitos quilômetros.
O Bing mal se preocupou em fazer uma recomendação, em vez disso, ligou para um artigo do Runner ‘s World. Esta não é necessariamente uma decisão irresponsável — eu suspeito que o Runner ‘s World é um especialista em planos de treinamento de maratona! — mas se eu quisesse apenas um chatbot para me dizer o que fazer, eu teria ficado desapontado.
O plano de Bard era apenas confuso. Ele prometeu estabelecer um plano de treinamento de três meses, mas apenas listou horários de treinamento específicos por três semanas, apesar de dizer mais tarde que o plano completo “aumenta gradualmente sua quilometragem ao longo de três meses.“ Os horários dados e algumas dicas gerais fornecidas perto do final de seu plano pareciam bons, mas Bard não foi muito longe.
O ChatGPT, por outro lado, definiu um cronograma completo, e as corridas sugeridas pareciam aumentar em um ritmo semelhante ao que eu usei para meu próprio treinamento. Eu acho que você poderia usar suas recomendações como um modelo. O principal problema era que ele não sabia quando parar em suas respostas. Sua primeira resposta foi tão detalhada que ficou sem espaço. Pedir especificamente um plano “conciso” obteve uma resposta mais curta que ainda era melhor do que os outros, embora não diminua perto do final como eu fiz em maratonas anteriores para as quais treinei.
Dito isto, um chatbot não saberá seu nível de condicionamento físico atual ou quaisquer condições que possam afetar seu treinamento. Você terá que levar em conta sua própria saúde ao se preparar para uma maratona, não importa qual seja o plano. Mas se você está apenas procurando algum tipo de plano, a sugestão do ChatGPT não é uma má linha de partida.
— Jay Peters
Roteiro de viagem para Roma
Bem, pedir aos chatbots que sugerissem lugares para visitar em Roma foi obviamente um fracasso, porque nenhum deles escolheu minha gelateria favorita ou me lembrou que, se eu estiver na cidade e não visitar alguns primos distantes, eu vou pegar a culpa da família quando chegar em casa.
Brincadeiras à parte, não sou guia turístico profissional, mas essas sugestões de todos os três bots de bate-papo parecem boas. Eles são muito amplos, escolhendo bairros ou áreas inteiras, mas a pergunta inicial também foi bastante ampla. Roma é um lugar único, porque você pode cobrir um monte de coisas turísticas no coração da cidade a pé, mas é ocupado como todo o inferno e você constantemente é perseguido por golpistas irritantes e golpistas nos focos turísticos. Muitas dessas sugestões do Bing, Bard e ChatGPT são boas para fugir dessas áreas mais movimentadas. Eu até consultei alguns membros da minha família que visitaram a Itália mais do que eu, e eles sentiram recomendações como Trastevere e EUR são lugares que até os moradores locais vão (embora o último seja um distrito comercial, o que alguns podem achar um pouco chato se não estiverem na história ou na arquitetura).
As sugestões aqui não são exatamente locais onde você será o único por perto, mas vejo isso como bons pontos de partida para construir uma viagem um pouco fora do comum em Roma. Fazer uma pesquisa básica no Google com o mesmo prompt produz listas de sites como o TripAdvisor que falam sobre muitos dos mesmos lugares com mais contexto, mas se você está planejando sua viagem do zero, posso ver um chatbot dando um bom ponto de partida resumido antes de mergulhar em uma pesquisa mais profunda antes de uma viagem.
— Antonio Di Benedetto
Conclusão
Como mencionado na introdução, esses testes revelam pontos fortes claros para cada sistema. Se você deseja realizar tarefas verbais, seja escrita criativa ou raciocínio indutivo, tente o ChatGPT (e, em particular, mas não necessariamente, o GPT-4).
Se você está procurando um chatbot para usar como uma interface com a web, para encontrar fontes e responder a perguntas que você poderia ter recorrido ao Google, então vá para o Bing. E se você está vendendo as ações do Google e quer se assegurar de que fez a escolha certa, tente o Bard.
Na verdade, porém, qualquer avaliação desses sistemas será parcial e temporária, pois não são apenas os modelos dentro de cada chatbot que estão constantemente sendo atualizados, mas a sobreposição que analisa e redireciona comandos e instruções.
E realmente, estamos apenas sondando a extremidade rasa desses sistemas e suas capacidades. (Para um teste mais completo do GPT-4, por exemplo, recomendo este artigo recente de pesquisadores da Microsoft.
As conclusões em seu resumo são questionáveis e controversas, mas os testes detalhados são fascinantes.)
Em outras palavras, pense nisso como uma conversa contínua, em vez de um teste definitivo.
E em caso de dúvida, experimente esses sistemas por si mesmo. Você nunca sabe o que vai encontrar.