DragGAN: ¿Una nueva era en la edición de imágenes?
El DragGAN abre una nueva categoría en la edición de imágenes, donde las imágenes fotorrealistas son personalizadas por el usuario a través de la función de arrastrar y soltar. Los detalles son manipulados por una GAN (Red Generativa Antagónica).
Los métodos actuales de manipulación de imágenes, como herramientas como Photoshop, requieren un alto grado de habilidad para controlar de manera flexible y precisa la posición, forma, expresión o disposición de objetos individuales. Otra opción es crear imágenes completamente nuevas utilizando IA generativa, como Stable Diffusion o GANs, pero estas opciones ofrecen poco control.
Con DragGAN, investigadores del Instituto Max Planck de Ciencias de la Computación, el Centro de Investigación en Visión por Computadora de Saarbrücken, el MIT CSAIL y Google demuestran una nueva forma de controlar GANs para el procesamiento de imágenes.
DragGAN: Procesamiento de imágenes mediante arrastrar y soltar
DragGAN puede procesar imágenes fotorrealistas siempre que las representaciones correspondan a las categorías del conjunto de datos de entrenamiento de la GAN. Esto incluye animales, automóviles, personas, células y paisajes. En una interfaz sencilla, los usuarios arrastran puntos definidos en una imagen a las posiciones deseadas, por ejemplo, cerrar los ojos de un gato, girar la cabeza de un león y abrir su boca, o transformar un automóvil en otro modelo.
El DragGAN ofrece un nuevo nivel de control y personalización en la edición de imágenes, permitiendo a los usuarios manipular los detalles de una manera intuitiva y fácil. Esto tiene el potencial de revolucionar la forma en que interactuamos con las imágenes y abre nuevas posibilidades creativas en el campo de la edición de imágenes.
El DragGAN rastrea estos puntos y genera imágenes correspondientes a los cambios deseados.
El DragGAN produce resultados realistas para escenarios desafiantes
«A través de DragGAN, cualquier persona puede deformar una imagen con un control preciso sobre dónde van los píxeles, manipulando así la pose, forma, expresión y diseño de diversas categorías», dijo el equipo. «Como estas manipulaciones se realizan en el espacio generativo de imagen aprendido por una GAN, tienden a producir resultados realistas, incluso para escenarios desafiantes, como alucinar contenido oculto y deformar formas que siguen consistentemente la rigidez del objeto».
En una comparación, el equipo demuestra que el DragGAN es claramente superior a otros enfoques. Sin embargo, algunos cambios aún presentan artefactos cuando están fuera de la distribución de entrenamiento.
Más información está disponible en el artículo, en Hugging Face o en la página del proyecto DragGAN.