Bloomberg — La empresa OpenAI se encontraba en la cúspide de un hito.
En septiembre, concluyó una ronda inicial de entrenamiento de un nuevo y gigantesco modelo de IA con el que pretendía superar significativamente las versiones precedentes de la tecnología subyacente a ChatGPT y aproximarse a su objetivo de conseguir una inteligencia artificial potente que superase a la humana.
Pero este modelo, denominado internamente Orion, no obtuvo el rendimiento previsto por la compañía, indicaron dos fuentes conocedoras del asunto, que hablaron con la condición de mantener el anonimato para discutir asuntos de la empresa.
Lea más: OpenAI busca ser una empresa con ánimo de lucro: conversaciones preliminares
Por ejemplo, a finales de este verano, Orion no daba la talla cuando trataba de responder a preguntas de codificación sobre las que no había sido entrenado.
En términos generales, Orion no se puede considerar hasta la fecha un gran paso hacia delante en relación con los modelos existentes de OpenAI, como lo fue GPT-4 en relación con GPT-3.5, un sistema que en un principio impulsó el chatbot insignia de la compañía, inidcaron las fuentes.
Recientemente, OpenAI no ha sido la única en tropezar con obstáculos.
Tras años lanzando productos de inteligencia artificial progresivamente más sofisticados a un ritmo frenético, tres de las más importantes empresas del sector ven cómo sus esfuerzos por crear nuevos modelos son cada vez menos rentables.
Para Google, de Alphabet Inc. (GOOGL), una próxima versión de su software Gemini no está cumpliendo las expectativas internas, de acuerdo con tres personas con conocimiento del asunto. Anthropic, por su parte, ha sufrido un retraso en el lanzamiento de su esperado modelo Claude, llamado 3.5 Opus.
Las compañías se están enfrentando a varios retos.
Cada vez resulta más difícil hallar nuevas fuentes inexploradas de datos de entrenamiento de alta calidad creados por seres humanos que puedan emplearse para crear sistemas de inteligencia artificial más avanzados.
El rendimiento insatisfactorio de Orion en codificación se debió en parte a la ausencia de suficientes datos de codificación para entrenarse, señalaron dos personas.
Además, es posible que hasta las mejoras más moderadas no justifiquen los enormes costes asociados a la creación y el funcionamiento de nuevos modelos, ni satisfagan las expectativas que despierta el hecho de catalogar un producto como una gran mejora.
Hay mucho potencial para mejorar estos modelos. OpenAI ha estado sometiendo a Orion a un proceso de meses de duración al que a menudo se hace referencia como post-entrenamiento, según una de las personas.
Ese procedimiento, que es rutinario antes de que una empresa lance públicamente un nuevo software de IA, incluye incorporar comentarios humanos para mejorar las respuestas y refinar el tono de cómo debe interactuar el modelo con los usuarios, entre otras cosas.
Lea más: Google dice que Gemini, su modelo de IA, está listo para ser usado en el ámbito corporativo
No obstante, Orion aún no está al nivel que OpenAI desearía para ponerlo a disposición de los usuarios, y es poco probable que la empresa lance el sistema hasta principios del año que viene, según dijo una persona.
Estos problemas ponen en entredicho el evangelio que se ha instalado en Silicon Valley en los últimos años, sobre todo desde que OpenAI lanzó ChatGPT hace dos años.
Gran parte de la industria tecnológica ha apostado por las llamadas leyes de escalado que dicen que más potencia de cálculo, datos y modelos más grandes allanarán inevitablemente el camino para mayores saltos adelante en el poder de la IA.
Los recientes contratiempos también plantean dudas sobre la fuerte inversión en IA y la viabilidad de alcanzar un objetivo global que estas empresas persiguen agresivamente: la inteligencia general artificial.
El término suele referirse a hipotéticos sistemas de IA que igualarían o superarían a los humanos en muchas tareas intelectuales. Los directores ejecutivos de OpenAI y Anthropic han afirmado anteriormente que la AGI (por sus siglas en inglés, ingresos brutos ajustados) podría estar sólo a varios años vista.
“La burbuja de la AGI está estallando un poco”, dijo Margaret Mitchell, jefa científica de ética de la startup de IA Hugging Face. Ha quedado claro, dijo, que pueden ser necesarios “diferentes enfoques de entrenamiento” para hacer que los modelos de IA funcionen realmente bien en una variedad de tareas, una idea de la que se hicieron eco varios expertos en inteligencia artificial a Bloomberg News.
En un comunicado, un portavoz de Google DeepMind dijo que la compañía está “satisfecha con el progreso que estamos viendo en Gemini y compartiremos más cuando estemos listos”. OpenAI declinó hacer comentarios. Anthropic declinó hacer comentarios, pero remitió a Bloomberg News a un podcast de cinco horas en el que aparecía su CEO Dario Amodei, y que se publicó el lunes.
"La gente las llama leyes de escalado. Es un término equivocado", dijo en el podcast. "No son leyes del universo. Son regularidades empíricas. Voy a apostar a favor de que continúen, pero no estoy seguro de ello".
Amodei dijo que hay “muchas cosas” que podrían “descarrilar” el proceso de alcanzar una IA más potente en los próximos años, incluida la posibilidad de que “nos quedemos sin datos”. Pero Amodei se mostró optimista de que las empresas de IA encontrarán la forma de superar cualquier obstáculo.
Rendimiento estancado
La tecnología que sustenta ChatGPT y una oleada de chatbots de IA rivales se construyó sobre un tesoro de publicaciones en redes sociales, comentarios en línea, libros y otros datos raspados libremente de toda la web. E
so fue suficiente para crear productos capaces de escupir ensayos y poemas ingeniosos, pero construir sistemas de IA que sean más inteligentes que un premio Nobel, como esperan hacer algunas empresas, puede requerir fuentes de datos distintas de las entradas de Wikipedia y los pies de foto de YouTube.
Lea más: Samsung avanza con Nvidia en los chips de memoria para inteligencia artificial
Estos esfuerzos son más lentos y costosos que el simple raspado de la web. Las empresas tecnológicas también están recurriendo a datos sintéticos, como imágenes o textos generados por ordenador que pretenden imitar el contenido creado por personas reales. Pero aquí también hay límites.
“Se trata menos de la cantidad y más de la calidad y la diversidad de los datos”, afirma Lila Tretikov, jefa de estrategia de IA de New Enterprise Associates y ex subdirectora de tecnología de Microsoft. “Podemos generar cantidad sintéticamente, pero nos cuesta conseguir conjuntos de datos únicos y de alta calidad sin orientación humana, sobre todo cuando se trata del lenguaje”.
Aún así, las empresas de IA siguen persiguiendo un libro de jugadas de “más es mejor”.
En su afán por construir productos que se aproximen al nivel de la inteligencia humana, las empresas tecnológicas están aumentando la cantidad de potencia informática, datos y tiempo que utilizan para entrenar nuevos modelos, y disparando los costes en el proceso.
Amodei ha dicho que las empresas gastarán US$100 millones para entrenar un modelo de última generación este año y que esa cantidad alcanzará los US$100.000 millones en los próximos años.
A medida que aumentan los costes, también lo hacen las apuestas y las expectativas de cada nuevo modelo en desarrollo.
Noah Giansiracusa, profesor asociado de matemáticas en la Universidad de Bentley en Waltham, Massachusetts, dijo que los modelos de IA seguirán mejorando, pero que el ritmo al que eso sucederá es cuestionable.
"Nos entusiasmamos mucho durante un breve periodo de progreso muy rápido", dijo. "Eso simplemente no era sostenible".
El enigma de Silicon Valley
Este enigma se ha puesto de manifiesto en los últimos meses dentro de Silicon Valley.
En marzo, Anthropic dio a conocer un conjunto de tres nuevos modelos y afirmó que la opción más potente, denominada Claude Opus, superaba a los sistemas GPT-4 de OpenAI y Gemini de Google en puntos de referencia clave, como el razonamiento y la codificación a nivel de posgrado.
En los meses siguientes, Anthropic lanzó actualizaciones de los otros dos modelos Claude, pero no de Opus. “Ése era el que entusiasmaba a todo el mundo”, dijo Simon Willison, investigador independiente de IA. En octubre, Willison y otros observadores del sector se dieron cuenta de que la redacción relacionada con Opus 3.5, incluida la indicación de que llegaría “a finales de este año” y de que era “próximamente”, se había eliminado de algunas páginas del sitio web de la empresa.
Al igual que sus competidores, Anthropic se ha enfrentado a retos entre bastidores para desarrollar 3.5 Opus, según dos personas familiarizadas con el asunto.
Después de entrenarlo, Anthropic descubrió que 3.5 Opus funcionaba mejor en las evaluaciones que la versión anterior, pero no tanto como debería, dado el tamaño del modelo y lo costoso que era construirlo y ejecutarlo, dijo una de las personas.
Un portavoz de Anthropic dijo que el lenguaje sobre Opus se eliminó de la página web como parte de una decisión de marketing para mostrar sólo los modelos disponibles y evaluados.
Preguntado sobre si Opus 3.5 seguiría saliendo este año, el portavoz señaló las declaraciones de Amodei en el podcast. En la entrevista, el CEO dijo que Anthropic aún planea lanzar el modelo, pero se negó repetidamente a comprometerse con un calendario.
Lea más: Anthropic lanza el modelo de IA “más inteligente” para competir con OpenAI
Las empresas tecnológicas también están empezando a debatirse entre seguir ofreciendo sus modelos de IA más antiguos, quizá con algunas mejoras adicionales, o asumir los costes de dar soporte a nuevas versiones enormemente caras que quizá no rindan mucho mejor.
Google ha lanzado actualizaciones de su modelo insignia de IA, Gemini, para hacerlo más útil, incluida la restauración de la capacidad de generar imágenes de personas, pero ha introducido pocos avances importantes en la calidad del modelo subyacente.
OpenAI, por su parte, se ha centrado este año en una serie de actualizaciones comparativamente incrementales, como una nueva versión de una función de asistente de voz que permite a los usuarios mantener conversaciones habladas más fluidas con ChatGPT.
Más recientemente, OpenAI lanzó una versión preliminar de un modelo llamado o1 que dedica un tiempo extra a calcular una respuesta antes de responder a una consulta, un proceso que la empresa denomina razonamiento. Google está trabajando en un enfoque similar, con el objetivo de manejar consultas más complejas y dar mejores respuestas con el tiempo.
Las empresas tecnológicas también se enfrentan a importantes disyuntivas a la hora de desviar demasiados de sus codiciados recursos informáticos al desarrollo y la ejecución de modelos más grandes que pueden no ser significativamente mejores.
“Todos estos modelos se han vuelto bastante complejos y no podemos enviar tantas cosas en paralelo como nos gustaría”, escribió el CEO de OpenAI, Sam Altman, en respuesta a una pregunta en una reciente sesión de Ask Me Anything (Pregúnteme cualquier cosa) en Reddit. El fabricante de ChatGPT se enfrenta a “muchas limitaciones y decisiones difíciles”, dijo, sobre cómo decidir qué hacer con su potencia de cálculo disponible.
Altman afirmó que OpenAI tendrá algunos "lanzamientos muy buenos" a finales de este año, pero esa lista no incluirá el GPT-5, un nombre que muchos en la industria de la IA esperarían que la empresa utilizara para un gran lanzamiento tras el GPT-4, que se presentó hace más de 18 meses.
Al igual que Google y Anthropic, OpenAI está desplazando ahora su atención del tamaño de estos modelos a casos de uso más novedosos, incluida una cosecha de herramientas de IA denominadas agentes que pueden reservar vuelos o enviar correos electrónicos en nombre de un usuario. “Tendremos modelos cada vez mejores”, escribió Altman en Reddit. “Pero creo que lo que se sentirá como el próximo gran avance serán los agentes”.
Lea más en Bloomberg.com