Midjourney v5 já está disponível. O novo modelo pode gerar imagens muito mais realistas e detalhadas, mas também requer instruções mais precisas.

O novo modelo foi treinado em um “superaglomerado de IA” no Google Cloud e estava em desenvolvimento há cerca de cinco meses, de acordo com a Midjourney.

Ele usa uma arquitetura neural significativamente modificada e novas técnicas estéticas. Em particular, o modelo pode produzir imagens mais realistas e mais detalhes com maior probabilidade de estarem corretos.

Isso pode ser visto em um primeiro teste: os mesmos prompts sem um estilo de imagem explícito resultaram em imagens significativamente mais realistas com mais detalhes.

Por exemplo, aqui está uma comparação do prompt “uma árvore feita de dinheiro”, onde Midjourney v4 produz uma ilustração, enquanto v5 prefere uma instalação mais fotorrealista em um museu. O resultado do v5 também está muito mais próximo do que o prompt pretendia.

Uma árvore de dinheiro no midjourney v4
Imagem: Midjourney v4
Uma árvore de dinheiro no midjourney v5
Imagem: Midjourney v5

Retratos de pessoas famosas também parecem mais realistas e têm menos erros de imagem. Aqui está uma comparação entre o v4 e o v5 para o prompt: “O CEO da Apple, Tim Cook, usa fone de ouvido VR fechado com frente opaca e logotipo da Apple, arte digital”.

Tim Cook da Apple no midjourney v4
Imagem: Midjourney v5

O alerta “A grande entrada envidraçada para um grande edifício corporativo, um grande jorro de tinta verde derramando da porta da frente para a rua” leva a uma renderização realista, mas mais ilustrativa em V4, enquanto v5 gera imagens fotorrealistas, mesmo sem um prompt de foto explícita.

prédio com tinta verde no midjourney v4
Imagem: Midjourney v4
prédio com tinta verde no midjourney v5
Imagem: Midjourney v5

As mãos ainda podem ser renderizadas incorretamente, mas no geral as extremidades são renderizadas com mais precisão do que no v4.

Midjourney v5 é melhor para imagens realistas

O fundador da Midjourney, David Holz, refere-se ao V5 como o “modo profissional” porque, em contraste com seus antecessores, é menos limitado a estilos artísticos específicos e oferece uma maior variedade de resultados de imagem.

Em outras palavras, oferece uma latitude mais criativa, mas essa latitude deve ser dominada.

De acordo com Holz, isso pode exigir avisos mais longos que descrevam mais explicitamente os detalhes da imagem, como iluminação e humor, para alcançar o resultado desejado.

O atual modelo v5 ainda é uma versão alfa que passará por “mudanças significativas” antes do lançamento final, de acordo com Holz.

A versão final, como os modelos anteriores, terá um estilo padrão mais amigável para iniciantes. Portanto, os criativos não devem contar com o estilo v5 atual disponível para o trabalho de acompanhamento.

Para executar o v5, você precisa alterar o Midjourney para “MJ v5” nas configurações do Discord ou adicionar o parâmetro “-v5” ao prompt. A saída é diretamente em duas vezes a resolução do v4, upscaling ainda não está disponível. Notícia inspirada no The decodr