Uma nova técnica permite reescrever textos em qualquer estilo sem alterar seu significado
Uma nova técnica ajuda os geradores de textos por IA a imitar o estilo de um exemplo sem distorcer o significado original. O método é baseado em um modelo linguístico consagrado.
Pesquisadores da Universidade de Maryland desenvolveram uma abordagem inovadora que permite a modelos de linguagem de larga escala reescrever um texto em um estilo específico, preservando o conteúdo subjacente. Esse método se fundamenta na “análise de registro”, um referencial linguístico tradicional para examinar estilos de escrita, demonstrando-se superior aos métodos baseados em prompt já existentes.
Os sistemas de IA já desempenham, comumente, a tarefa de transferência de estilo – converter textos de um tom para outro sem perder o significado central. Dentre as aplicações mais frequentes, estão a transformação de mensagens casuais em redações empresariais formais e vice-versa.
Uma abordagem científica para a transferência de estilo utilizando a análise de registro
Métodos tradicionais de transferência de estilo geralmente se baseiam em instruções simples, como “torne este texto mais polido”, ou na extração de palavras-chave que indicam o estilo, como “informal” ou “sério”. Segundo os pesquisadores, essas técnicas podem levar modelos de linguagem, como GPT ou LLaMA, a inventar conteúdo ou reestruturar completamente os textos, ocasionando problemas em documentos sensíveis, como os jurídicos ou médicos.
Em um exemplo citado, o sistema anterior, denominado STYLL, acabou inserindo embelezamentos não autorizados ao reescrever uma afirmação simples sobre o jogador de futebol Verratti, adicionando expressões como “lenda” e “a base do time”, que não faziam parte do texto original.
Conforme ilustrado no artigo dos pesquisadores, a frase “Verratti is practically untouchable. He's signing an extension every year or so and PSG won't sell for even a €100m.” foi reescrita pelo STYLL incluindo termos como “lenda”, “a base do time” e “fechando novos contratos” – detalhes ausentes no original.
A nova metodologia utiliza o referencial de análise de registro de Douglas Biber, que avalia características linguísticas específicas, como a frequência de substantivos, o uso de verbos auxiliares e o grau de abstração da linguagem. Para orientar o processo, a equipe desenvolveu duas estratégias de prompting: “RG”, que analisa características de estilo para gerar adjetivos orientadores, e “RG-Contrastive”, que compara diretamente os estilos dos textos de entrada e de destino.
Ambos os métodos seguem um processo em três etapas: análise do estilo, conversão dos elementos estilísticos em termos descritivos e reescrita do texto conforme tais descritores. Vale ressaltar que essa técnica não requer dados de treinamento adicionais.
Por exemplo, ao definir como alvo um estilo “informal e conversacional”, o sistema converte a frase “Verratti is practically untouchable. PSG won't sell for even a €100m” para “Cara, o Verratti está praticamente assegurado. O PSG nem piscaria diante de cem milhões.”
Controle de estilo mais preciso
De acordo com os pesquisadores, testes realizados com modelos LLaMA demonstraram que a nova abordagem supera técnicas anteriores, destacando-se na imitação do estilo de escrita típico do Reddit e na conversão entre linguagens formal e informal. A versão RG-Contrastive mostrou-se especialmente eficaz na simplificação de textos médicos, sem perder a precisão.
Além disso, o método de prompting funciona de forma eficiente com modelos menores, variando entre 3 e 8 bilhões de parâmetros, o que o torna adequado para aplicações com recursos limitados, como aplicativos móveis. Os testes também indicaram uma redução na incidência de cópias dos textos de exemplo em comparação com estratégias básicas de prompting, mantendo uma elevada qualidade gramatical conforme medido pelo modelo de aceitabilidade linguística CoLA.
Notavelmente, os pesquisadores ressaltam que a nova abordagem gera, primordialmente, descritores funcionais de estilo, como “técnico” ou “polido”. Em contrapartida, o sistema STYLL tendia a utilizar termos mais subjetivos, como “sarcástico” ou “opinativo”, aumentando o risco de distorção do significado original.