Midjourney, um dos primeiros serviços de geração de imagens por IA na web, lançou seu primeiro novo modelo de imagem por IA em quase um ano.
Denominado V7, o modelo, que começou a ser disponibilizado em versão alfa por volta da meia-noite, horário do Leste, chega uma semana após a estreia de um novo gerador de imagens da OpenAI no ChatGPT, que rapidamente viralizou por sua capacidade de criar fotos ao estilo Ghibli. O modelo da Midjourney não é otimizado oficialmente para o estilo Ghibli, mas mesmo assim gera obras esteticamente agradáveis, pelo menos aos olhos deste repórter entusiasta.
Para utilizá-lo, é necessário primeiro avaliar cerca de 200 imagens para construir um perfil de “personalização” da Midjourney, caso ainda não o tenha feito. Esse perfil ajusta o modelo às suas preferências visuais pessoais; o V7 é o primeiro da Midjourney a ter a personalização ativada por padrão.
Após concluir essa tarefa, você encontrará a opção de alternar para o V7 no site da Midjourney e, se for membro do servidor do Discord, através do chatbot do Discord. No aplicativo web, é possível selecionar rapidamente o modelo por meio de um menu suspenso ao lado do rótulo “versão”.
Créditos da imagem: Midjourney
O CEO da Midjourney, David Holz, descreveu o V7 como uma “arquitetura totalmente diferente” em um post no X. Em seu anúncio no Discord, Holz afirmou: “O V7 é muito mais inteligente com comandos de texto. Os prompts baseados em imagens apresentam uma aparência fantástica, a qualidade das imagens está perceptivelmente superior, com texturas belíssimas, e corpos, mãos e objetos de todos os tipos mostram coerência significativamente melhor em seus detalhes.”
O V7 está disponível nas versões Turbo e Relax — sendo a primeira mais onerosa de se utilizar — e alimenta uma nova ferramenta chamada Modo Rascunho, que renderiza imagens 10 vezes mais rápido e com metade do custo do modo padrão. As imagens do modo rascunho têm qualidade inferior às do modo padrão, mas podem ser aprimoradas e renderizadas novamente com um clique.
Estamos agora iniciando a fase de testes alfa do nosso novo modelo de imagem V7. É o nosso modelo mais inteligente, bonito e coerente até o momento. Experimente e espere atualizações a cada uma ou duas semanas nos próximos dois meses.
Algumas funcionalidades da Midjourney ainda não estão disponíveis para o V7, segundo Holz, incluindo o aprimoramento de imagem e a retexturização. Essas funções devem ser implementadas em breve, possivelmente dentro de dois meses.
“Este é um modelo inteiramente novo, com pontos fortes únicos e, provavelmente, algumas fraquezas”, escreveu Holz no Discord. “Queremos aprender com vocês o que ele faz bem e o que faz mal, mas é importante ter em mente que pode ser necessário utilizar estilos de comandos diferentes. Portanto, experimente um pouco.”
Créditos da imagem: Midjourney
Meu comando: “Um dragão com uma cauda espinhosa.”
Créditos da imagem: Midjourney
Meu comando: “Um personagem ao estilo Ghibli.”
Nos testes realizados, o V7 seguiu razoavelmente bem os comandos fornecidos, embora o tempo não tenha permitido uma avaliação mais extensa do modelo.
A Midjourney é uma operação incomum. Criada em 2022 por David Holz, que também cofundou a empresa de periféricos para PC Leap Motion, a companhia não recebeu nenhum investimento externo.
No final de 2023, a Midjourney projetava faturar cerca de US$ 200 milhões. Recentemente, a empresa, sediada em San Francisco, anunciou a formação de uma equipe de hardware para trabalhar em projetos ainda não divulgados e continua aprimorando modelos previamente anunciados para a geração de vídeos e objetos em 3D.
Ao mesmo tempo, diversos processos judiciais acusam a Midjourney de infringir os direitos de milhões de artistas, ao treinar suas ferramentas de IA com imagens coletadas da web sem o consentimento dos respectivos criadores.