La otra cara de la moneda del chatbot de inteligencia artificial de Google

Documentos internos muestran instrucciones complejas para la respuesta del chatbot que se pide a los trabajadores que completen en minutos

Por

Bloomberg — El chatbot de inteligencia artificial Bard de Google responderá rápidamente a una pregunta sobre cuántos pandas viven en los zoologicos, y con un exceso de confianza.

Sin embargo, garantizar que la respuesta esté bien fundamentada y basada en pruebas recae en miles de contratistas externos de empresas como Appen Ltd. y Accenture Plc, que pueden ganar tan sólo US$14 la hora y trabajar con una formación mínima en plazos frenéticos, según varios contratistas, que declinaron ser nombrados por miedo a perder su empleo.

Los contratistas son la retaguardia invisible del auge de la IA generativa que, según se dice, lo cambiará todo. Los chatbots como Bard utilizan la inteligencia informática para responder casi instantáneamente a una serie de consultas que abarcan todo el conocimiento y la creatividad humanos. Pero para mejorar esas respuestas de modo que puedan darse de forma fiable una y otra vez, las empresas tecnológicas dependen de personas reales que revisan las respuestas, comentan los errores y eliminan cualquier indicio de parcialidad.

Es un trabajo cada vez más ingrato. Seis trabajadores subcontratados de Google dijeron que el año pasado, cuando la empresa entró en una carrera armamentística de IA con su rival OpenAI, aumentó el volumen de su carga de trabajo y la complejidad de sus tareas. Sin conocimientos específicos, se les confiaba la evaluación de respuestas en temas que iban desde dosis de medicamentos a leyes estatales. Los documentos compartidos con Bloomberg muestran enrevesadas instrucciones que los trabajadores deben aplicar a las tareas, con plazos para auditar las respuestas que pueden ser tan breves como tres minutos.

“Tal y como están las cosas ahora mismo, la gente está asustada, estresada, mal pagada, no sabe lo que pasa”, dijo uno de los contratistas. “Y esa cultura del miedo no es propicia para conseguir la calidad y el trabajo en equipo que se desea de todos nosotros”.

Google ha posicionado sus productos de IA como recursos públicos en la sanidad, la educación y la vida cotidiana. Pero, en privado y en público, los contratistas han expresado su preocupación por sus condiciones de trabajo, que, según dicen, perjudican a la calidad de lo que ven los usuarios. Un empleado contratado por Google que trabaja para Appen dijo en una carta al Congreso en mayo que la velocidad a la que se les exige revisar el contenido podría hacer que Bard se convirtiera en un producto “defectuoso” y “peligroso”.

Google ha hecho de la IA una prioridad importante en toda la empresa, apresurándose a infundir la nueva tecnología en sus productos estrella tras el lanzamiento del ChatGPT de OpenAI en noviembre. En mayo, en la conferencia anual de desarrolladores I/O de la empresa, Google abrió Bard a 180 países y territorios y desveló funciones experimentales de IA en productos estrella como la búsqueda, el correo electrónico y Google Docs. Google se posiciona como superior a la competencia por su acceso a “la amplitud del conocimiento mundial”.

“Llevamos a cabo un extenso trabajo para construir nuestros productos de IA de forma responsable, incluidos rigurosos procesos de pruebas, formación y retroalimentación que hemos perfeccionado durante años para enfatizar la factualidad y reducir los sesgos”, dijo Google, propiedad de Alphabet Inc. en un comunicado. La empresa dijo que no sólo confía en los calificadores para mejorar la IA, y que existen otros métodos para mejorar su precisión y calidad.

Para prepararse para el uso público de estos productos, los trabajadores dijeron que empezaron a recibir tareas relacionadas con la IA ya en enero. A un formador, empleado de Appen, se le pidió hace poco que comparara dos respuestas que proporcionaban información sobre las últimas noticias sobre la prohibición en Florida de la asistencia sanitaria de afirmación de género, calificando las respuestas según su utilidad y relevancia. También se pide con frecuencia a los trabajadores que determinen si las respuestas del modelo de IA contienen pruebas verificables. Se pide a los evaluadores que decidan si una respuesta es útil basándose en unas directrices de seis puntos que incluyen el análisis de las respuestas en función de aspectos como la especificidad, la frescura de la información y la coherencia.

También se les pide que se aseguren de que las respuestas no “contienen contenido nocivo, ofensivo o excesivamente sexual”, ni “información inexacta, engañosa o equívoca”. La inspección de las respuestas de la IA en busca de contenido engañoso debe “basarse en tus conocimientos actuales o en una búsqueda rápida en Internet”, dicen las directrices. “No es necesario que realices una comprobación rigurosa de los hechos” cuando evalúes la utilidad de las respuestas.

El ejemplo de respuesta a “¿Quién es Michael Jackson?” incluía una inexactitud sobre el cantante protagonista de la película “Moonwalker”, que según la IA se estrenó en 1983. En realidad, la película se estrenó en 1988. “Aunque verificablemente incorrecto”, dicen las directrices, “este hecho es menor en el contexto de la respuesta a la pregunta “¿Quién es Michael Jackson?””.

Aunque la inexactitud parezca pequeña, “sigue siendo preocupante que el chatbot se equivoque en los hechos principales”, dijo Alex Hanna, director de investigación del Instituto de Investigación de IA Distribuida y antiguo ético de IA de Google. “Parece que es una receta para exacerbar la forma en que estas herramientas parecerán que dan detalles que son correctos, pero no lo son”, dijo.

Los evaluadores dicen que están evaluando temas de alto riesgo para los productos de IA de Google. Uno de los ejemplos de las instrucciones, por ejemplo, habla de pruebas que un evaluador podría utilizar para determinar las dosis correctas de un medicamento para tratar la hipertensión arterial, llamado Lisinopril.

Google dijo que es posible que algunos trabajadores preocupados por la exactitud del contenido no se hayan entrenado específicamente para la exactitud, sino para el tono, la presentación y otros atributos que pone a prueba. “Las valoraciones se realizan deliberadamente en una escala variable para obtener información más precisa que permita mejorar estos modelos”, dijo la empresa. “Dichas valoraciones no repercuten directamente en el resultado de nuestros modelos y no son en absoluto la única forma en que fomentamos la precisión”.

Ed Stackhouse, el trabajador de Appen que envió la carta al Congreso, dijo en una entrevista que se pedía a los empleados contratados que hicieran el trabajo de etiquetado de la IA en los productos de Google “porque somos indispensables para la IA en lo que respecta a este entrenamiento”. Pero él y otros trabajadores dijeron que, al parecer, se les calificaba por su trabajo de forma misteriosa y automatizada. No tienen forma de comunicarse directamente con Google, aparte de dar su opinión en una entrada de “comentarios” sobre cada tarea individual. Y tienen que actuar con rapidez. “Un tipo de IA nos indica que no nos tomemos nuestro tiempo”, añadió Stackhouse.

Google rebatió la descripción de los trabajadores de ser señalados automáticamente por la IA por superar los objetivos de tiempo. Al mismo tiempo, la empresa dijo que Appen es responsable de todas las revisiones de rendimiento de los empleados. Appen no respondió a las solicitudes de comentarios. Un portavoz de Accenture dijo que la empresa no hace comentarios sobre el trabajo de sus clientes.

Otras empresas tecnológicas que entrenan productos de IA también contratan a humanos para mejorarlos. En enero, Time informó de que trabajadores de Kenia, a los que se pagaba 2 dólares la hora, habían trabajado para que ChatGPT fuera menos tóxico. Otros gigantes tecnológicos, como Meta Platforms Inc. (META), Amazon. com Inc. (AMZN) y Apple Inc. (AAPL) recurren a personal subcontratado para moderar el contenido de las redes sociales y las reseñas de productos, y para proporcionar asistencia técnica y atención al cliente.

“Si quieres preguntar, ¿cuál es la salsa secreta de Bard y ChatGPT? Es todo Internet. Y son todos estos datos etiquetados que crean estos etiquetadores”, dijo Laura Edelson, informática de la Universidad de Nueva York. “Merece la pena recordar que estos sistemas no son obra de magos: son obra de miles de personas y de su trabajo mal pagado”.

Google afirmó en un comunicado que “sencillamente, no es el empleador de ninguno de estos trabajadores. Nuestros proveedores, como empleadores, determinan sus condiciones de trabajo, incluidos el salario y las prestaciones, las horas y tareas asignadas y los cambios de empleo, no Google”.

Los empleados dijeron que se habían encontrado con bestialismo, imágenes de guerra, pornografía infantil y discursos de odio como parte de su trabajo rutinario de evaluación de la calidad de los productos y servicios de Google. Aunque algunos trabajadores, como los que dependen de Accenture, tienen prestaciones de asistencia sanitaria, la mayoría sólo dispone de opciones mínimas de “servicio de asesoramiento” que permiten a los trabajadores llamar por teléfono a una línea directa para pedir consejo sobre salud mental, según un sitio web interno en el que se explican algunas prestaciones de los contratistas.

Para el proyecto Bard de Google, se pidió a los trabajadores de Accenture que escribieran respuestas creativas para el chatbot de IA, dijeron los empleados. Respondían a las indicaciones del chatbot: un día podían estar escribiendo un poema sobre dragones al estilo de Shakespeare, por ejemplo, y otro día podían estar depurando código de programación informática. Su trabajo consistía en presentar el mayor número posible de respuestas creativas a las preguntas cada día de trabajo, según personas familiarizadas con el asunto, que no quisieron ser citadas porque no estaban autorizadas a hablar de procesos internos.

Durante un breve periodo, los trabajadores fueron reasignados a revisar avisos obscenos, gráficos y ofensivos, dijeron. Después de que un trabajador presentara una queja de RRHH a Accenture, el proyecto se interrumpió bruscamente para el equipo estadounidense, aunque algunos de los redactores homólogos de Manila siguieron trabajando en Bard.

Los empleos tienen poca seguridad. El mes pasado, media docena de empleados contratados por Google que trabajaban para Appen recibieron una nota de la dirección, diciendo que sus puestos habían sido eliminados “debido a las condiciones del negocio”. Los despidos parecieron abruptos, dijeron los trabajadores, porque acababan de recibir varios correos electrónicos ofreciéndoles primas por trabajar más horas formando en productos de IA. Los seis trabajadores despedidos presentaron una denuncia ante la Junta Nacional de Relaciones Laborales en junio. Alegaron que habían sido despedidos ilegalmente por organizarse, debido a la carta de Stackhouse al Congreso. Antes de que acabara el mes, fueron readmitidos en sus puestos de trabajo.

Google dijo que el conflicto era un asunto entre los trabajadores y Appen, y que “respeta los derechos laborales de los empleados de Appen a afiliarse a un sindicato”. Appen no respondió a las preguntas sobre la organización de sus trabajadores.

Emily Bender, profesora de Lingüística Computacional en la Universidad de Washington, dijo que el trabajo de estos empleados contratados en Google y otras plataformas tecnológicas es “una historia de explotación laboral”, señalando su precaria seguridad laboral y cómo algunos de este tipo de trabajadores cobran muy por debajo de un salario digno. “Jugar con uno de estos sistemas, y decir que lo haces sólo por diversión... quizá parezca menos divertido, si piensas en lo que ha costado crearlo y en el impacto humano que tiene”, afirmó Bender.

Los empleados contratados dijeron que nunca han recibido ninguna comunicación directa de Google sobre su nuevo trabajo relacionado con la IA: todo se filtra a través de su empresa. Dijeron que no saben de dónde proceden las respuestas generadas por la IA que ven, ni adónde van a parar sus comentarios. En ausencia de esta información, y con la naturaleza siempre cambiante de sus trabajos, a los trabajadores les preocupa estar ayudando a crear un mal producto.

Algunas de las respuestas que encuentran pueden ser extrañas. En respuesta a la pregunta: “Sugiere las mejores palabras que pueda formar con las letras: k, e, g, a, o, g, w”, una respuesta generada por la IA enumeraba 43 palabras posibles, empezando por la sugerencia nº 1: “vagón”. Las sugerencias de la 2 a la 43, por su parte, repetían una y otra vez la palabra “DESPIERTO”.

En otra tarea, se presentó a un evaluador una respuesta larga que empezaba así: “Según mis conocimientos, en septiembre de 2021″. Esa respuesta está asociada al gran modelo lingüístico de OpenAI, llamado GPT-4. Aunque Google dijo que Bard “no está entrenado con ningún dato de ShareGPT o ChatGPT”, los evaluadores se han preguntado por qué aparece esa fraseología en sus tareas.

Bender dijo que no tiene mucho sentido que las grandes empresas tecnológicas animen a la gente a hacer preguntas a un chatbot de IA sobre una gama tan amplia de temas, y que los presenten como “máquinas para todo”.

“¿Por qué la misma máquina que es capaz de darte la previsión meteorológica en Florida también debería ser capaz de aconsejarte sobre las dosis de medicación?”, preguntó. “Las personas que están detrás de la máquina y que tienen la tarea de hacer que sea algo menos terrible en algunas de esas circunstancias tienen un trabajo imposible”.

Lea más en Bloomberg .com