Los modelos más pequeños y económicos de la IA se están robando la atención de los inversores

Las grandes tecnológicas como Google y Meta e inclusive OpenAI están invirtiendo en alternativas más asequibles a los grandes modelos lingüísticos

Por

Bloomberg — Desde hace años, los gigantes de la tecnología, como Google, y las startups, como OpenAI, se esfuerzan por crear modelos de IA cada vez mayores y más caros a partir de una enorme cantidad de datos en línea.

Desplegada en chatbots como ChatGPT, esta tecnología puede encargarse de una amplísima gama de complejas consultas, que abarcan desde la escritura de código y la organización de viajes hasta la elaboración de sonetos de Shakespeare acerca de helados.

Sin embargo, Mark McQuade está apostando por una estrategia distinta. Arcee.AI, la startup que cofundó en el 2023, ofrece ayuda a las compañías para entrenar y desplegar un planteamiento cada vez más popular, y de mucho menor tamaño, de la inteligencia artificial: los pequeños modelos lingüísticos.

Lea más: Riqueza de Jeff Bezos pierde US$21.000M mientras Amazon se hunde por temor al gasto en IA

En vez de tratar de hacer todo lo que ChatGPT puede hacer, su software ayuda a llevar a cabo un conjunto más delimitado de tareas corporativas cotidianas, como crear un servicio que solo responda a preguntas relacionadas con los impuestos, por ejemplo, sin necesidad de tantos datos. “Yo diría que en el 99% de los casos de uso empresarial, es probable que no necesites saber quién fue ganador de una medalla de oro olímpica en 1968″, afirma McQuade.

La compañía con base en Miami es una del creciente número de compañías que están replanteándose la idea tradicional del sector tecnológico de que lo más grande es siempre mejor en el campo de la inteligencia artificial.

Con el impulso de miles de millones de capital riesgo, las startups se han superado mutuamente para crear grandes modelos lingüísticos más potentes que respalden los chatbots de IA y otros servicios. El CEO de Anthropic, Dario Amodei, prevé que con el tiempo el coste del entrenamiento de modelos ascenderá a US$100.000 millones, en comparación con los US$100 millones actuales.

Esa forma de pensar sigue existiendo, pero startups como Arcee, Sakana AI y Hugging Face atraen ahora a inversionistas y clientes mediante un enfoque más reducido y asequible.

También las grandes empresas de tecnología están empezando a pensar en pequeño. Google, de Alphabet Inc. (GOOGL), Meta Platforms Inc. (META), OpenAI y Anthropic han lanzado recientemente software más compacto y ágil que sus principales modelos lingüísticos.

El momentum en torno a los modelos pequeños está impulsado por una serie de factores, entre los que se incluyen nuevas mejoras tecnológicas, una mayor concienciación sobre la inmensa demanda de energía asociada a los modelos lingüísticos de gran tamaño y una oportunidad de mercado para ofrecer a las empresas una gama más diversa de opciones de IA para diferentes usos.

Lea más: EE.UU. evalúa restringir el acceso de China a los chips de memoria para IA

Los modelos lingüísticos pequeños no sólo son más baratos de construir para las empresas tecnológicas, sino también de utilizar para los clientes empresariales, lo que rebaja el listón para su adopción. Dado que los inversores se preocupan cada vez más por el elevado coste y la incierta rentabilidad de las empresas de IA, es posible que más compañías tecnológicas opten por esta vía.

“En general, los modelos pequeños tienen mucho sentido”, dijo Thomas Wolf, cofundador y director científico de Hugging Face, que fabrica software de IA y lo aloja para otras empresas. “Es sólo que durante mucho tiempo no supimos realmente cómo hacerlos bien”.

Hugging Face ha perfeccionado técnicas como el uso de conjuntos de datos más cuidadosamente seleccionados y el entrenamiento de modelos de IA de una manera más eficiente, dijo Wolf. En julio, la startup lanzó un trío de pequeños modelos de código abierto y uso general denominados SmolLM, que son lo suficientemente compactos como para ser utilizados directamente en teléfonos inteligentes y ordenadores portátiles.

Eso podría hacer que fuera más rápido, barato y seguro ejecutar software de IA que conectarse a un servicio remoto en la nube, como es necesario para los modelos más grandes.

Existe una clara demanda de alternativas más pequeñas. Arcee.AI, que recaudó una ronda de serie A de US$24 millones el mes pasado, entrenó un pequeño modelo que puede responder a preguntas sobre impuestos para Thomson Reuters y construyó un chatbot de orientación profesional para Guild, una empresa de mejora de las cualificaciones. Ambas empresas ejecutan esos modelos a través de sus propias cuentas de Amazon Web Services.

Guild, que trabaja con empleados de Target (TGT) y Disney (DIS), comenzó a considerar el uso de un gran modelo de lenguaje como los que impulsan ChatGPT de OpenAI hace más de un año para proporcionar asesoramiento profesional a más personas de lo que podría con su equipo de entrenadores humanos. Aunque ChatGPT hizo un buen trabajo, no tenía la sensación que la empresa estaba buscando, según Matt Bishop, jefe de IA de Guild.

El pequeño modelo de lenguaje de Arcee, que Guild está probando actualmente, se entrenó en cientos de miles de conversaciones anonimizadas entre sus entrenadores humanos y los usuarios, dijo Bishop, mucho menos que la cantidad total de datos alimentados a un LLM típico. El servicio “encarna realmente nuestra marca, nuestro tono, nuestra ética”, dijo, y las respuestas son preferidas por el personal de Guild el 93% de las veces en comparación con ChatGPT.

“Puedes ser más estrecho y centrado con tu modelo cuando se trata de un modelo más pequeño y realmente centrarte en la tarea y el caso de uso”, dijo McQuade, “en lugar de tener un modelo que pueda hacer todo y cualquier cosa que necesites hacer”.OpenAI, al igual que otras grandes empresas de IA, también está diversificando sus ofertas y tratando de competir en todos los frentes.

Lea más: Los asistentes de IA revolucionarán la oficina: esa es la apuesta de Microsoft

El mes pasado, OpenAI presentó la versión “mini” de su modelo insignia GPT-4o como una opción más eficiente y asequible para los clientes. Olivier Godement, responsable de producto de la API de OpenAI, dijo que espera que los desarrolladores utilicen el GPT-4o mini para encargarse del resumen, la codificación básica y la extracción de datos. Al mismo tiempo, los modelos más grandes y caros de la empresa seguirán utilizándose para tareas más complicadas.

“Por supuesto, queremos seguir haciendo los modelos más avanzados, ir más allá”, declaró Godement anteriormente a Bloomberg News. “Pero también queremos tener los mejores modelos pequeños que existan. “Incluso cuando la industria tecnológica abraza los modelos pequeños, no todo el mundo está de acuerdo en cómo definirlos.

McQuade dijo que el término es “subjetivo”, pero para él se refiere a los sistemas de IA que tienen 70.000 millones de parámetros o menos, una referencia al número total de variables recogidas por un modelo durante el proceso de entrenamiento.

Según esta medida, los modelos SmolLM de Hugging Face, que oscilan entre 135 millones y 1.700 millones de parámetros, son prácticamente microscópicos. (Si esas cifras le siguen pareciendo grandes, tenga en cuenta que el modelo de IA Llama de Meta viene en tres tamaños, que van de 8.000 millones a 400.000 millones de parámetros.)

Como ocurre con tantos otros aspectos del campo en rápida evolución de la IA, es probable que las normas para los modelos pequeños sigan cambiando.

David Ha, cofundador y CEO de la startup de modelos pequeños Sakana, con sede en Tokio, dijo que los modelos de IA que parecían escandalosamente grandes hace unos años, hoy parecen “modestos”. “El tamaño siempre es relativo”, dijo Ha.

Lea más en Bloomberg.com