Esta startup de IA produce imágenes con texto que realmente se puede leer

Como sus rivales, Ideogram puede crear imágenes fieles partiendo de textos cortos en unos segundos, pero es capaz de ir un poco más lejos y generar texto dentro de esas imágenes

Por

Bloomberg — Una startup de IA está retando a sus competidores más consolidados solucionando un complicado problema: permitir a un usuario generar una imagen con un texto que verdaderamente se pueda leer.

Como sus rivales, Ideogram puede crear imágenes increíblemente fieles partiendo de textos cortos en unos segundos. Sin embargo, Ideogram, una empresa emergente radicada en Toronto y lanzada el pasado mes de agosto, es capaz de ir un poco más lejos y generar texto dentro de esas imágenes. Es capaz de generar una imagen de un manifestante con un rótulo legible o de un adorable gato en una camiseta en la que se lee claramente: “Pregúntame sobre mi startup de inteligencia artificial”.

La solución de lo que podría parecernos una cuestión técnica específica tiene numerosas implicaciones para este sector. Al pedirles que reproduzcan palabras en imágenes, otros generadores populares de imágenes de inteligencia artificial, como Midjourney, Dall-E 2 de OpenAI y Stable Diffusion de Stability AI, suelen mostrar disparates.

Este lanzamiento puede sacudir un sector cada vez más saturado de generadores de imágenes por inteligencia artificial, y también indica la próxima fase de este tipo de tecnología, que evoluciona a gran velocidad. La nueva versión de Dall-E, que OpenAI presentará en el mes de octubre y que ya está disponible a través de Bing Image Creator de Microsoft (MSFT), podría tener una capacidad semejante. OpenAI difundió una imagen que muestra a un paciente que es un aguacate sin semilla decirle a un terapeuta que es una cuchara: “Me siento tan vacío por dentro”. Stability AI también es capaz de representar texto en imágenes con un software que se llama DeepFloyd IF, pero no resulta accesible para la mayoría de la gente.

Ideogram cuenta en su equipo con varios antiguos empleados de Google que colaboraron en la creación de Imagen, su servicio de generación de imágenes. La startup, que obtuvo US$16,5 millones de financiación inicial en una ronda liderada por Andreessen Horowitz e Index Ventures, no se limita a producir imágenes con texto. Ideogram también trata de hacer más accesible a todos la IA para la creación de imágenes cautivadoras, sin la necesidad de teclear complejas descripciones que originaron la expresión “prompt engineering” (estructuración de texto).

“Nuestro objetivo es hacer que sea lo más fácil y simple posible para que las personas puedan participar en la expresión creativa”, dijo a Bloomberg News el CEO y cofundador Mohammad Norouzi. Norouzi dijo que 1,1 millones de personas se han registrado en el servicio gratuito desde su lanzamiento, generando más de 80 millones de imágenes hasta el momento (es posible que los nuevos usuarios tengan que registrarse en una lista de espera). Los usuarios ingresan sus comandos para el software en el sitio web de Ideogram y el servicio responderá generando cuatro imágenes a la vez.

Con sus características, Ideogram podría eventualmente competir por negocios con especialistas en marketing y profesionales creativos. Sin embargo, al producir texto y facilitar la producción de todo tipo de imágenes con IA, la startup también corre el riesgo de ser utilizada para difundir información errónea, lo que socava aún más la credibilidad de las imágenes en línea.

Solo tomó un momento generar una representación razonablemente realista de Albert Einstein sosteniendo un cartel que decía: “Pregúntame cualquier cosa”, similar al tipo de imagen que la gente publica como prueba de su identidad cuando realizan una sesión de preguntas y respuestas en Reddit. No es difícil imaginar hacer lo mismo con una figura pública viva.

“Creo que es muy razonable preocuparse por eso”, dijo Nathan Lambert, científico investigador de Hugging Face, Inc. que escribe regularmente sobre estudios de IA. Se ha demostrado anteriormente que Midjourney, por ejemplo, es fácil de engañar para que proporcione información errónea a pesar de agregar algunas salvaguardias para evitarlo.

Norouzi dijo que la posibilidad de mal comportamiento es una “seria preocupación” para Ideogram. No quiere que su IA se utilice para difundir desinformación relacionada con las elecciones, por ejemplo, pero como muchos en la industria tecnológica, también sostiene que la libertad de expresión es importante. El pequeño equipo de Ideogram intenta detener la difusión de contenido ofensivo filtrando automáticamente ciertas imágenes que produce (las que el software considera inapropiadas) y en su lugar muestra una imagen de un gato sosteniendo un cartel que dice “tal vez no sea seguro”.

Todas las imágenes que los usuarios crean con Ideogram y todas las indicaciones que envían son actualmente públicas. La empresa espera que esta elección ayude a construir una comunidad en torno al producto y fomente un comportamiento decente. Sin embargo, incluso sin una función de búsqueda, no es difícil encontrar imágenes que bordeen la línea entre familiares y NSFW (por sus siglas en inglés, no es seguro/apropiado para el trabajo), como representaciones de celebridades femeninas cubiertas con “pintura corporal”.

La mayoría de los usuarios de ideogramas parecen estar aprovechando su capacidad para generar texto con fines creativos. Hay carteles y diseños de camisetas , felicitaciones navideñas , bordados falsos y cartas del tarot . La demanda es tan alta que los usuarios frecuentemente se ven obligados a esperar 30 segundos o más entre generaciones de imágenes mientras el servicio lucha por mantenerse al día (un problema que ha incitado a algunos usuarios a crear imágenes de manifestantes sosteniendo carteles que dicen cosas como: “NECESITAS MÁS SERVIDORES”.

“Han descubierto cómo dar rienda suelta a la creatividad infinita y de alta calidad de personas que nunca se habrían considerado artistas”, dijo Anjney Midha, socia general de Andreessen Horowitz que invirtió en Ideogram antes de unirse a la firma de capital de riesgo.

Producir imágenes nítidas que incluyan texto legible ha sido durante mucho tiempo un desafío para otros generadores de imágenes de IA populares. Anima Anandkumar, profesora del Instituto de Tecnología de California, lo explicó como una cuestión de “basura que entra, basura sale”, una frase que se usa a menudo para hacer referencia a la idea de que los datos de entrenamiento incorrectos tienden a producir malos resultados.

Antes de que un sistema de imágenes generativas pueda responder a un mensaje escrito, debe recibir montones de imágenes (incluidas fotografías de toneladas de objetos diferentes) y las correspondientes leyendas escritas. Se pueden incluir imágenes de manzanas o flores con diferente iluminación y en diferentes ángulos para ayudar a la IA a determinar esos conceptos, señaló Anandkumar. Pero el texto dentro de esas imágenes puede ser de calidad variable, incompleto o mal iluminado, y normalmente no hay mucho en las imágenes utilizadas para desarrollar estas herramientas. Esto lleva a una mala comprensión del concepto de qué es el texto.

“Esto podría solucionarse obteniendo mejores datos, obteniendo datos centrados en texto”, dijo Anandkumar.

Norouzi no explicó exactamente cómo Ideogram puede producir texto mejor que sus competidores. En general, señaló Norouzi, las herramientas de IA generativa que pueden recibir indicaciones escritas y escupir texto o imágenes han mejorado a medida que aumenta la escala del modelo y sus datos de entrenamiento. Dijo que Ideogram le indica a su modelo que preste atención a detalles como las comillas que se incluyen en las indicaciones. Norouzi no detalló las fuentes de sus datos de capacitación, pero dijo que la compañía intentó incluir imágenes que contienen texto y tiene sus propios conjuntos de datos internos.

“Nuestro modelo intenta crear texto en el contexto de otros objetos y descubrir su propia tipografía: cómo adaptar el texto a las limitaciones del lienzo”, dijo Norouzi.

Esto se puede ver en algunas de las imágenes que los usuarios han hecho con Ideogram, que van desde una bombilla iluminada con una “gran idea” representada en su interior con letras de neón hasta un pastel cubierto de velas con el mensaje “Feliz cumpleaños Andrés” a los lados. una fuente tipo fondant. Por ahora, el texto de estas imágenes se limita principalmente al inglés, pero Norouzi espera poder generar texto en numerosos idiomas y alfabetos con el tiempo.

En el canal Discord de la compañía, donde Norouzi suele chatear con los usuarios, dijo que la startup tiene la intención de permitir que las personas generen imágenes de forma privada. Su capacidad de texto también puede ayudar a la empresa a ganar dinero con empresas que quieran utilizarla para diseñar logotipos y otros productos de marketing.

Norouzi dijo que la startup planea lanzar una oferta paga en algún momento que permitirá a las personas usar su servicio más rápidamente y tal vez le ayude a soportar los altos costos informáticos de construir y operar la IA.

“No es algo que queramos hacer rápidamente. Acabamos de empezar”, dijo Norouzi. “Pero debido a la economía de cómo funcionan las cosas en el espacio de la IA, eso es inevitable”.

Lea más en Bloomberg.com