Problemas con Bing: Google y OpenAI abren la puerta a la caja de Pandora de los bots

Por

Por un instante, Microsoft Corp. (MSFT) pensó que acabaría ganándole a Google. Su buscador Bing, que desfallecía, estaba siendo revitalizado con la ayuda de un novedoso y avanzado software de chatbot de OpenAI. Sin embargo, las expectativas se han desvanecido por culpa de una verdad insospechada: en realidad, nadie, ni tan siquiera los especialistas en Inteligencia Artificial, conocen la dimensión de las habilidades de esta tecnología cuando se despliega en plena libertad.

Según han señalado los usuarios iniciales de Bing, el sistema de IA ha proporcionado respuestas descabelladas, exaltadas y hasta intimidatorias a varias de sus preguntas. Por ejemplo, a un internauta le llamó “”investigador deficiente”” y a otro le comunicó que " no está casado felizmente””. Bing, cuyo bot se hace llamar Sydney, ha logrado eclipsar el bochornoso problema de Google. Ahora bien, estos errores no son más que los primeros indicios de un problema mucho mayor.

La revolucionaria innovación tecnológica en la que se fundamentan los chatbots Bard y ChatGPT de OpenAI proviene de los denominados grandes modelos lingüísticos (LLM), por sus siglas en inglés, programas de computación que han sido diseñados a partir de miles de millones de vocablos de la web pública y que pueden producir un texto parecido al humano. Si el ChatGPT es el vehículo, el modelo lingüístico que lo respalda es su motor, y OpenAI lleva vendiendo su uso desde 2020. Sin embargo, en el marco de la última competencia por los bots de búsqueda, esos mismos motores se difunden con total libertad, demasiada libertad, y propagan los errores que observamos actualmente en Bing y Bard a una audiencia mayor, de una forma que puede resultar bastante más complicada de identificar.

Son miles los creadores de software que han estado estudiando cómo incorporar modelos lingüísticos a las actividades empresariales, sintetizando las opiniones de los consumidores en un simple mensaje, contestando a las consultas de un determinado sitio de internet o produciendo textos para anuncios digitales. OpenAI no desveló el número de programadores que han recurrido a su LLM, denominado GPT-3, aunque un competidor asegura que se cuentan por cientos de miles. Para poder usarlo, los usuarios llegan a pagar cientos o miles de dólares mensuales. Y aunque hay decenas de LLM gratis y de código abierto, el de OpenAI es el estándar de oro. Teniendo en cuenta los cuantiosos fondos de Google, su modelo lingüístico LaMDA podría alcanzar en breve la misma popularidad.

Google ha mantenido en secreto el modelo altamente avanzado durante años, explicando al personal que su reputación podría verse afectada si se movía demasiado rápido en el lanzamiento de su IA. Pero a principios de este mes, cuando Microsoft anunció que pronto impulsaría a Bing con el modelo de lenguaje de OpenAI, Google pareció revertir esa posición. No solo lanzó Bard al día siguiente, sino que también dijo que en marzo comenzaría a permitir que terceros usaran LaMDA, algo impensable solo unos meses antes. Esta estrategia podría llegar a perseguir a Google, Microsoft y OpenAI, tal como sucedió con Facebook en 2018, cuando se vio obligado a cerrar el acceso a montañas de datos de usuarios tras el escándalo de Cambridge Analytica. Todo lo que se necesitó fue un usuario deshonesto.

Uno de los grandes riesgos es el sesgo. La semana pasada, el sitio de transmisión Twitch cerró una parodia animada de Seinfeld que tenía animación y diálogo generados en su totalidad por IA. Resultó que los personajes habían hecho comentarios transfóbicos y homofóbicos cuando su diálogo fue creado por una “versión menos sofisticada” de GPT-3.

GPT-3 se entrenó con miles de millones de palabras de una variedad de fuentes, incluidos 7,000 libros inéditos, entradas de Wikipedia y artículos de noticias, lo que lo dejó vulnerable para detectar el extraño ejemplo de material sesgado u odioso. OpenAI ha eliminado mucho de eso de su modelo con la ayuda de moderadores humanos, pero ese trabajo no es infalible y parece ser especialmente vulnerable a fallas técnicas. El sesgo también es casi imposible de detectar cuando está profundamente enterrado en un LLM, una red compleja en capas de miles de millones de parámetros que actúa como una caja negra incluso para sus propios creadores.

La desinformación, un problema que ha acosado a ChatGPT, también afecta a los modelos lingüísticos. El sitio de noticias tecnológicas CNET generó 77 artículos sobre asesoramiento financiero en noviembre pasado utilizando un LLM. (CNET no nombró cuál usó). Después de que el sitio volviera a verificar los artículos, emitió correcciones en 41 de ellos.

OpenAI no revela lo que llama la “tasa de alucinaciones” de sus modelos de lenguaje o de ChatGPT, pero un informe de enero de 2022 en el sitio de noticias tecnológicas Protocol citó a los investigadores diciendo que estaba entre el 21% y el 41%. Mi propia experiencia con el uso de ChatGPT sitúa la información errónea entre el 5% y el 10%. Incluso si la tasa es tan baja, las empresas que usan LLM deben tomar todo lo que dicen los programas con un gran grano de sal y saber que es casi imposible examinar el modelo en busca de lo que podría fallar.

El mal uso es quizás la mayor incógnita, ya que cualquier mal actor exitoso que use modelos de lenguaje mantendrá su trabajo en secreto. OpenAI prohíbe a sus clientes de GPT-3 usar el modelo para promover la violencia o el spam. Los perpetradores recibirán un correo electrónico de infracción de la política de contenido. Pero los malos actores podrían, teóricamente, ignorar todo eso. Stephane Baele, profesor asociado de seguridad y violencia política en la Universidad de Exeter, usó GPT-3 para generar propaganda falsa de ISIS como parte de un estudio el año pasado. Recuerda haber recibido una solicitud de explicación de OpenAI y respondió para explicar lo que estaba haciendo. “Dijimos: ‘Esto es investigación académica’”, recuerda. “No recibimos respuesta”.

¿Podría un mal actor que genera propaganda real simplemente responder de manera similar y usar una dirección de correo electrónico académica falsa? OpenAI se negó a comentar sobre ese escenario hipotético. Dice que ha detenido a “cientos” de actores que intentan hacer un mal uso de GPT-3 para una amplia gama de propósitos, incluida la desinformación, y que está modificando constantemente sus modelos de lenguaje para filtrar contenido dañino.

Pero OpenAI no está solo. Hay otros LLM que los malos actores pueden usar. En julio de 2022, un consorcio de científicos lanzó un LLM multilingüe de código abierto llamado Bloom, que no es tan sofisticado como el de OpenAI, pero tampoco excluye a los usuarios que violan su “licencia de IA responsable”. Si alguien rompe ese acuerdo, los creadores de Bloom se comunicarán con el usuario o potencialmente emprenderán acciones legales, según Carlos Munos Ferrandis, quien es el consejo de asuntos regulatorios y tecnológicos de Hugging Face, una compañía de inteligencia artificial que apoyó la creación de Bloom. Eso parece un riesgo que muchos propagandistas y otros actores deshonestos estarían dispuestos a correr. Bloom ha sido descargado 15.000 veces en los últimos 30 días, según otro representante.

A principios de 2019, OpenAI publicó un informe de 70 páginas sobre el impacto social de los modelos de lenguaje y dijo que no publicaría su último LLM porque podría ser mal utilizado. Esa visión ha cambiado drásticamente desde entonces. Claro, sus modelos de lenguaje se han vuelto más precisos y menos sesgados, sus filtros de seguridad más efectivos. Pero las presiones comerciales y la creciente influencia de Microsoft, que invirtió US$1.000 millones en 2019 y otros US$10.000 millones este año en OpenAI, parecen haberlo llevado a hacer una apuesta más arriesgada en la comercialización de su tecnología. Google, con sus planes de vender acceso a LaMDA, ahora está haciendo lo mismo.

Con el tropiezo de Google y los comentarios extraños de Microsoft Bing, ambas compañías necesitan frenar su carrera armamentista de IA. Sus revolucionarios chatbots no están listos para expandirse, y tampoco lo están los motores que los impulsan.

Esta nota no refleja necesariamente la opinión del consejo editorial o de Bloomberg LP y sus propietarios.

Lea más en Bloomberg.com