Expertos de Google cuestionan la utilidad de los chatbots de inteligencia artificial

Dominik Rabiej, director de producto de Bard, asegura que aún está por determinarse la utilidad de esta herramienta, así como su confiabilidad

Por

Bloomberg — Desde hace varios meses, Google, de Alphabet Inc. (GOOGL), y Discord Inc. tienen un foro de debate al que solo pueden acceder por invitación los usuarios asiduos de Bard, el chatbot dotado de IA de Google. Responsables del producto, ingenieros y desarrolladores de Google debaten abiertamente en este foro sobre la eficacia y funcionalidad de esta herramienta de IA, y hay quienes se plantean si los cuantiosos recursos destinados a su desarrollo justifican su uso.

“Mi norma básica es no creer en los resultados de los LLM (por sus siglas en inglés) a no ser que los pueda verificar independientemente”, comentó Dominik Rabiej, director de producto de Bard, en el chat de Discord el pasado mes de julio, haciendo referencia a los grandes modelos lingüísticos, los sistemas de IA que se entrenan a partir de enormes cantidades de texto y que constituyen los elementos básicos de chatbots como Bard y ChatGPT de OpenAI Inc. “Me gustaría que llegase un momento en que se pudiese, pero todavía no ha pasado”.

“El principal reto que aún me planteo es: para qué sirven realmente los LLM, desde el punto de vista de la utilidad”, dijo en agosto la googlera Cathy Pearl, responsable de experiencia de usuario en Bard. “Como hacer realmente la diferencia”. ¡Por determinar!

¿Qué es Bard?

En marzo, Google introdujo Bard, su versión del popular bot ChatGPT de OpenAI, y desde entonces ha ido añadiendo nuevas funciones al producto, como la posibilidad de que la herramienta de IA analice fotos y proporcione respuestas a consultas en docenas de idiomas. En septiembre, la compañía desveló su actualización más importante hasta la fecha: la integración de Bard con sus principales servicios, como Gmail, Maps, Docs y YouTube. Google empezó a integrar sus apps en inglés a partir del 19 de septiembre.

Pero a medida que Google ha integrado aún más a Bard en sus productos principales, la compañía también se ha visto acosada por quejas sobre la herramienta que genera hechos inventados y brinda consejos potencialmente peligrosos. El mismo día que la compañía introdujo las extensiones de la aplicación, también anunció un botón de búsqueda de Google en Bard para ayudar a las personas a verificar la veracidad de las respuestas generadas por IA de la herramienta con los resultados de su motor de búsqueda.

Otros expertos han expresado su preocupación por las condiciones laborales de los miles de contratistas mal pagados que capacitan a Bard, basándose en lo que los trabajadores dicen que son instrucciones complicadas que se les pide que completen en minutos. Dentro y fuera de la empresa, el gigante de las búsquedas en Internet ha sido criticado por proporcionar información de baja calidad en una carrera por mantenerse al día con la competencia, mientras deja de lado las preocupaciones éticas.

Para Google, garantizar el éxito de su chatbot Bard AI es de suma importancia. La empresa es de lejos el líder en búsquedas, su elemento financiero que genera alrededor del 80% de los ingresos de la empresa matriz Alphabet. Pero a medida que la IA generativa irrumpió en escena, el dominio de las búsquedas de Google se vio desafiado, y algunos predijeron que las nuevas y populares herramientas de OpenAI y otras nuevas empresas podrían alterar la poderosa posición de Google en el mercado.

¿Qué se discute en Discord?

Dos participantes de la comunidad Bard de Google en la plataforma de chat Discord compartieron detalles de las discusiones en el servidor con Bloomberg de julio a octubre. Docenas de mensajes revisados por Bloomberg brindan una ventana única a cómo Bard está siendo utilizado y criticado por quienes mejor lo conocen, y muestran que incluso los líderes de la empresa encargados de desarrollar el chatbot se sienten en conflicto sobre el potencial de la herramienta. Al exponer su respuesta sobre las respuestas de “no confiar” generadas por grandes modelos de lenguaje, Rabiej sugirió limitar el uso de Bard por parte de las personas a “aplicaciones creativas/de lluvia de ideas”. Usar Bard para codificar también fue una buena opción, dijo Rabiej, “¡ya que inevitablemente verificas si el código funciona!”

El debate sobre las limitaciones y el potencial de Bard en el canal Discord de Google es una parte “rutinaria y no sorprendente” del desarrollo de productos, dijo Google en un comunicado. “Desde que lanzamos Bard como experimento, hemos estado ansiosos por escuchar los comentarios de las personas sobre lo que les gusta y cómo podemos mejorar aún más la experiencia”, dijo Jennifer Rodstrom, portavoz de Google. “Nuestro canal de discusión con personas que usan Discord es una de las muchas formas en que lo hacemos”. La compañía agregó que lanzó el servidor Discord como una comunidad basada en invitaciones antes de hacerlo más accesible

En el lanzamiento de Bard, la compañía fue sincera sobre sus limitaciones, incluida la posibilidad de que la herramienta de inteligencia artificial genere mentiras que suenen convincentes. Cada vez que alguien utiliza Bard, Google incluye un descargo de responsabilidad en la herramienta que dice: “Bard puede mostrar información inexacta u ofensiva que no representa las opiniones de Google”. Los representantes de la compañía también han dicho que Google llevó a cabo pruebas adversas (destinadas a investigar cómo respondería a posibles malos actores) internamente antes de que se lanzara Bard, y que la compañía espera aprender más a medida que el público continúe usándolo.

El servidor Discord se inició en julio, cuando se enviaron miles de invitaciones a usuarios frecuentes de Bard fuera de la empresa. “Comparta pensamientos e ideas directamente con el equipo detrás de Bard, reciba notificaciones tempranas sobre actualizaciones de productos y conéctese con otros entusiastas de la IA”, decía la invitación, enviada el 10 de julio. La descripción del servidor llama al canal la comunidad “oficial” para los usuarios de Bard, y el director senior de productos de Bard, Jack Krawczyk, envió un vídeo selfie a la comunidad cuando se lanzó la herramienta en Europa.

Discord no respondió a una solicitud de comentarios sobre el chat.

Actualmente, casi 9.000 personas son miembros de la comunidad en línea y algunos de los moderadores del chat son empleados de Discord. La mayoría de las discusiones giran en torno a animar a Bard y a la IA; algunos usuarios hicieron afirmaciones fantásticas, y probablemente equivocadas, sobre las capacidades de la herramienta, incluido que habían construido una computadora de ajedrez cuántica usando Bard o que podían usar el bot para rastrear la web en busca de datos sobre probabilidades de apuestas de béisbol y ejecutar simulaciones complejas. (Los empleados de Google intervinieron en el chat de Discord para decir que Bard no tenía esas capacidades).

Daniel Griffin, un reciente Ph.D. Graduado de la Universidad de California en Berkeley que estudia búsqueda web y se unió al grupo Discord en septiembre, dijo que no es raro que el software de código abierto y las pequeñas herramientas de motores de búsqueda tengan charlas informales para entusiastas. Pero Griffin, que ha escrito críticamente sobre cómo Google da forma a las interpretaciones que el público hace de sus productos, dijo que se sentía “incómodo” de que el chat fuera algo reservado.

El chat de Bard Discord puede ser simplemente un “grupo focal no divulgado, de gran escala y duradero o una comunidad de entusiastas de la IA, pero el poder de Google y la importancia de la discusión abierta sobre estas nuevas herramientas me hicieron reflexionar”, dijo, agregó, señalando que otros esfuerzos de retroalimentación de la comunidad de la compañía, como el enlace de búsqueda de Google, estaban más abiertos al público.

En el foro de Bard, los usuarios plantearon otros temas espinosos relacionados con Google, dando una idea de cómo el gigante tecnológico trabaja duro para mitigar las críticas públicas. A mediados de julio, un miembro del grupo planteó el tema del Proyecto Nimbus, un contrato de US$1.200 millones para Google y Amazon.com Inc. (AMZN) para suministrar al ejército de Israel herramientas de inteligencia artificial, según una revisión de los mensajes por parte de Bloomberg. El miembro había expresado su preocupación sobre el papel de Google a la hora de permitir usos letales de la IA y rápidamente fue excluido del grupo, y los moderadores dijeron a los usuarios que debían evitar “la política, la religión u otros temas delicados” en el chat.

Ese mismo mes, otro usuario cuestionó por qué Google había confiado en “contratistas mal pagados y con exceso de trabajo” para refinar las respuestas de Bard. Aunque la compañía ha declarado públicamente que no solo depende de contratistas para mejorar la IA que impulsa a Bard, y que existen otros métodos para mejorar su precisión y calidad, Tris Warkentin, director de gestión de productos de Bard, respondió: enfatizando la importancia de la aportación humana para entrenar los algoritmos de Bard.

“El refinamiento humano es fundamental para que Bard pueda ser un producto para todos; la alternativa es que los usuarios no tengan la capacidad de controlar la funcionalidad del producto, lo que en mi opinión sería un gran error”, escribió Warkentin en el chat. “No necesitamos un producto de ‘torre de marfil’: ¡necesitamos algo que pueda funcionar para todos!”

También se intercambiaron opiniones sobre las consecuencias de los enormes costes necesarios para mantener grandes modelos lingüísticos. “¿Se está trabajando para reducir los asombrosos costos de recursos de los LLM?” preguntó un usuario en el servidor de Discord. “¿Particularmente el uso de agua por consulta y la enorme necesidad de GPU (que requieren una minería extensa para producirse)?”

“Lo veo como diseño de chips... o supercomputadoras”, respondió Pearl, líder de experiencia del usuario de Bard. “Creo que seguiremos encontrando formas de lograr el mismo comportamiento con menos recursos”.

Las preocupaciones sobre la precisión de Bard también abundaron en el chat. Warkentin, el gerente de producto, destacó en una discusión sobre las mentiras de Bard que Google había avanzado mucho desde que se lanzó la herramienta de inteligencia artificial. “Estamos muy centrados en reducir las alucinaciones y aumentar la factualidad; es una de nuestras métricas clave de éxito”, dijo. “Hemos mejorado bastante desde el lanzamiento, pero es un trabajo continuo, así que sigan intentándolo y enviándonos comentarios cuando algo no esté bien”.

A finales de septiembre, la cuenta oficial de Bard en Discord publicó un resumen de preguntas y respuestas de un evento de “horario de oficina”, cuyo objetivo era abordar las preguntas de la comunidad sobre las integraciones recientemente anunciadas de Bard con las aplicaciones de Google. En respuesta a una pregunta sobre si había alguna posibilidad de que Bard se desviara de la realidad al resumir los correos electrónicos, la cuenta oficial de Bard dijo: “Hemos hecho todo lo posible para asegurarnos de que esto suceda lo menos posible. Pero como Bard todavía está aprendiendo y creciendo, podría suceder”. La gente debería comprobar las fuentes que utiliza Bard y consultarlas, decía la cuenta. “Si Bard tiene alucinaciones con alguna de las integraciones, ¡háznoslo saber en el canal de informes de errores!”

Rabiej, director de producto de Bard, también subrayó la importancia del nuevo botón “Verificar las respuestas” de la herramienta de inteligencia artificial. “Destacará en naranja las cosas que probablemente no sean correctas”, dijo en octubre. También reiteró que Bard no comprende realmente el texto que ingiere, sino que la herramienta simplemente responde con más texto, dependiendo de las indicaciones del usuario: “Recuerde, Bard, como cualquier modelo de lenguaje grande, es generativo; No es buscar cosas y resumirlas, es generar texto”.

Otros empleados expresaron ambivalencia sobre la inteligencia artificial generativa en términos más generales. “Dando un paso atrás en mi opinión generalmente negativa sobre el impacto que podría tener la Generación AI, creo que la educación es una de las áreas más interesantes y posibles de mayor ‘hacer el bien’ para esta tecnología”, dijo James, diseñador de experiencia de usuario de Bardo, en la comunidad de Discord.

Las instituciones de educación superior e inferior podrían utilizar la tecnología para “ayudar a crear experiencias más ricas para los estudiantes al tener acceso casi las 24 horas del día, los 7 días de la semana a apoyo en diferentes temas”, dijo James, “una vez que pase el miedo general”.

Lea más en Bloomberg.com