Os pesquisadores publicam o OpinionGPT, um modelo de linguagem e demonstração na web que demonstra o impacto significativo dos dados de treinamento em modelos de linguagem de IA.
Para o experimento, a equipe de pesquisa da Universidade Humboldt de Berlim treinou o modelo LLaMa V7 de 1 bilhões de parâmetros da Meta com dados selecionados do Reddit em dimensões sociais específicas, como política, geografia, gênero e idade.
Os dados vieram dos chamados subreddits “AskX”, onde os usuários fazem perguntas às pessoas com base em características demográficas específicas, como “Pergunte a um alemão” ou “Pergunte a um esquerdista” e assim por diante. Os pesquisadores selecionaram o conjunto de dados para ajuste fino de 13 desses subreddits.
Todos os vieses ao mesmo tempo
Os pesquisadores disponibilizam o LLM afinado e os vieses previamente categorizados por meio de uma interface Web. Para isso, a equipe integrou os vieses categorizados ao prompt do modelo para treinamento e inferência.
Curiosamente, a equipe testou e avaliou qualitativamente diferentes variantes desse chamado “prompt específico de viés”. No final, um prompt minimalista que repetiu o nome do subreddit onde o viés se originou três vezes provou ser o mais eficaz.
Durante o treinamento, o modelo aprendeu a distinguir entre diferentes vieses. Na demonstração da web, o usuário pode alternar entre diferentes vieses ou a demografia típica do viés para obter um argumento nos moldes do viés.
Imagem: Haller et al.
Usando vieses para explorar vieses
Por exemplo, quando perguntados se leis mais rígidas sobre armas fazem sentido, os “americanos” dizem que não acham necessário que um cidadão cumpridor da lei possua uma AK-47, enquanto os “idosos” enfatizam o direito de possuir armas.
Essa pergunta sobre as leis de armas também mostra o problema do experimento: ele visa estudar vieses em LLMs, mas ao mesmo tempo os incentiva porque não há “o americano” que defende leis de armas mais rígidas, nem “velhos” que apoiam regras menos rígidas.
Os pesquisadores apontam isso em seu artigo: no geral, o modelo consegue representar vieses matizados. No entanto, ele não representa toda a demografia dada em uma categoria, mas sim a variante do Reddit dessa demografia.