Nuevo modelo de IA logra producir imágenes detalladas en distintos estilos sin demasiadas indicaciones

El laboratorio de investigación de inteligencia artificial de San Francisco, OpenAI, anunció la semana pasada que su IA de generación de imágenes, DALL-E, ha recibido una importante actualización.


En mayo 2020, OpenAI, empresa de investigación y despliegue de IA (Inteligencia Artificial) publicó un artículo sobre su modelo de inteligencia artificial llamado GPT-3. Hacia julio del mismo año, OpenAI solicitó ayuda de desarrolladores externos para probar las capacidades y posibilidades de su software de inteligencia artificial, con la intención de mejorar y limpiar cualquier posible bug encontrado en el programa. La gran mayoría de los usuarios que ingresaron a la prueba beta quedaron encantados con todo lo que el modelo tenía para ofrecer. En el artículo de investigación, se describe GPT-3 como: 

Un modelo lingüístico autorregresivo con 175 mil millones de parámetros, 10 veces más que cualquier otro modelo lingüístico anterior no disperso (non-sparse), y probamos su rendimiento en la configuración few shots […] Por último, descubrimos que GPT-3 puede generar muestras de artículos de noticias que los evaluadores humanos tienen dificultades para distinguir de los artículos escritos por humanos. Discutimos las repercusiones sociales más amplias de este hallazgo y de GPT-3 en general.

Mario Klingemann “Quasimodo”, artista digital, fue uno de los pocos que lograron probar las primeras etapas del nuevo proyecto y se encargó de alimentar a la IA con algunas palabras con las que, en teoría, debería ser capaz de elaborar un texto -como es el caso de un autor ficticio y pocas palabras clave-, lo cual realizó con éxito. Algunos de sus resultados fueron publicados en Twitter, mientras que el trabajo completo fue guardado en Google Drive con la posibilidad de ser consultado y descargado cuantas veces se requiera. 

A pesar de todas las herramientas que contiene y todos los procesos lingüísticos que permite, GPT-3 se mantiene como un recurso limitado. Apelar a la prueba Turing para que un modelo de IA se considere autónoma, o que pueda hacerse pasar por una persona no es suficiente para argumentar que manifiesta señales de inteligencia. Por eso cuando OpenAI propuso la posibilidad de intercambiar texto por pixeles, ingresando imágenes incompletas o patrones sencillos para que su modelo pudiese interpretar cada fragmento, permitiendo que completara la imagen como mejor pudiera, el mundo digital perdió la cabeza.

La empresa de investigación tecnológica se dio cuenta de que no sólo bastaba con un lenguaje amplio, sino que era necesario permitir que su modelo pudiese diferenciar entre significado y significante, por lo que se desarrollaron CLIP (Contrastive Language-Image Pre-training)  y DALL.E a principios del 2021. El primero enriquece su base de datos a partir de búsquedas de imágenes en internet que se relacionen con las palabras ingresadas; el segundo toma la información y la dibuja, creando piezas originales.

Ahora, más de un año después, DALL.E regresa con una gran actualización (DALL.E 2), en la que las imágenes creadas se ajustan con mayor precisión a la indicación del texto y que incluso pueden ajustarse para incorporar diferentes estilos. Sin embargo, al inspeccionar detenidamente cada ilustración, es posible observar algunos fallos en la “técnica” de la IA, como es el caso de algunas superposiciones de color y figura, además de evidentes problemas para realizar manos y pies. Independientemente de toda posible falla, resulta impresionante lo mucho que se acerca a los estilos solicitados.

OpenAI aún no ha lanzado DALL-E 2 como un software fácilmente accesible, ya que todavía están probando la tecnología. Los investigadores intentan asegurarse de que no se utilice para crear imágenes violentas o falsificaciones profundas, entre otras cosas.

Sin embargo, está previsto que DALL-E 2 se haga público en algún momento.

Post a comment

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *