Bloomberg — En su casa de una sola habitación, ubicada en una tranquila calle de Agara, un minúsculo pueblo a tres horas al suroeste de Bangalore y rodeado de arrozales y campos de cacahuetes, Preethi P. se sienta en un taburete junto a una máquina de coser. Normalmente, pasaría horas remendando o cosiendo ropa, con un sueldo medio de menos de un dólar al día. Este día, sin embargo, está leyendo una frase en su lengua materna, el kannada, en una aplicación de su teléfono. Hace una breve pausa y luego lee otra.
Preethi, que tiene un solo nombre, como es habitual en la región, es una de las 70 trabajadoras contratadas en Agara y pueblos vecinos por una empresa llamada Karya para recopilar datos de texto, voz e imágenes en las lenguas vernáculas de la India. Ella forma parte de una vasta e invisible mano de obra global -que opera en países como India, Kenia y Filipinas- que recopila y etiqueta los datos en los que se basan los chatbots de inteligencia artificial (IA) y los asistentes virtuales para generar respuestas. Sin embargo, a diferencia de muchos otros contratistas de datos, a Preethi le pagan bien por sus esfuerzos, al menos según los estándares locales.
Después de tres días trabajando con Karya, Preethi ganó 4.500 rupias (US$54), más de cuatro veces lo que esta joven de 22 años, graduada en secundaria, suele ganar como sastre en todo un mes. El dinero es suficiente, dice, para pagar la cuota de ese mes de un préstamo contraído para reparar en parte las paredes de barro de su casa, que se están desmoronando y han sido cuidadosamente remendadas con saris de colores. “Lo único que necesito es un teléfono e Internet”.
Karya fue fundada en 2021, antes del auge de ChatGPT, pero el frenesí de este año en torno a la IA generativa no ha hecho sino aumentar la insaciable demanda de datos de las empresas tecnológicas. Se espera que solo en la India haya casi un millón de trabajadores de anotación de datos para 2030, según Nasscom, el organismo comercial de la industria tecnológica del país.
Karya se diferencia de otros proveedores de datos ofreciendo a sus contratistas -en su mayoría mujeres, y sobre todo en comunidades rurales- hasta 20 veces el salario mínimo vigente, con la promesa de producir datos de mejor calidad en lengua india por los que las empresas tecnológicas pagarán más.
“Cada año, las grandes empresas tecnológicas gastan miles de millones de dólares en recopilar datos de entrenamiento para sus modelos de inteligencia artificial” y aprendizaje automático, explica a Bloomberg Manu Chopra, el ingeniero informático de 27 años educado en Stanford que está detrás de la startup. “La escasa remuneración por ese trabajo es un fracaso de la industria”.
Si los bajos salarios son un fracaso de la industria, Silicon Valley tiene parte de responsabilidad en su creación. Durante años, las empresas tecnológicas han externalizado tareas como el etiquetado de datos y la moderación de contenidos a contratistas extranjeros más baratos. Pero ahora, algunos de los nombres más destacados de Silicon Valley están recurriendo a Karya para hacer frente a uno de los mayores retos de sus productos de IA: encontrar datos de alta calidad para crear herramientas que puedan servir mejor a miles de millones de usuarios potenciales de habla no inglesa. Estas alianzas podrían representar un poderoso cambio en la economía de la industria de datos y en la relación de Silicon Valley con los proveedores de datos.
Microsoft Corp. ha recurrido a Karya para obtener datos sobre el habla local para sus productos de IA. La Fundación Bill y Melinda Gates está trabajando con Karya para reducir los sesgos de género en los datos que alimentan los grandes modelos lingüísticos, la tecnología que sustenta los chatbots de IA. Y Google, de Alphabet Inc. (GOOGL), se apoya en Karya y otros socios locales para recopilar datos del habla en 85 distritos indios. Google planea ampliarse a todos los distritos para incluir el idioma o dialecto mayoritario y construir un modelo generativo de IA para 125 lenguas indias.
Muchos servicios de IA se han desarrollado de forma desproporcionada con datos de Internet en inglés, como artículos, libros y publicaciones en redes sociales. Como resultado, estos modelos de IA no representan bien la diversidad de idiomas de los usuarios de Internet de otros países, que acceden a teléfonos inteligentes y aplicaciones con IA más rápido de lo que aprenden inglés. Solo en la India viven casi mil millones de estos usuarios potenciales, mientras el gobierno impulsa el despliegue de herramientas de IA en todos los ámbitos, desde la sanidad a la educación, pasando por los servicios financieros.
“La India es el primer país no occidental en el que lo hacemos, y estamos probando Bard en nueve lenguas indias”, explica Manish Gupta, responsable de investigación de Google en la India, refiriéndose al chatbot de IA de la empresa. “Más de 70 lenguas indias habladas por más de un millón de personas no tenían ningún corpus digital. El problema es muy grave”.
Gupta enumeró una lista de problemas que las empresas de IA deben resolver para dar servicio a los internautas indios: Los conjuntos de datos en lenguas que no sean el inglés son de una calidad lamentablemente baja; apenas existen datos conversacionales en hindi y otras lenguas indias; y el contenido digitalizado de libros y periódicos en lenguas indias es muy limitado.
En el caso de las lenguas sudasiáticas, algunos grandes modelos lingüísticos inventan palabras y tienen problemas con la gramática básica. También se teme que estos servicios de IA reflejen una visión más sesgada de otras culturas. Para que los sistemas de IA “no perpetúen estereotipos nocivos, no produzcan discursos de odio ni generen información errónea”, es fundamental contar con una amplia representación de datos de entrenamiento, incluidos los que no están en inglés, afirma Mehran Sahami, profesor del departamento de informática de la Universidad de Stanford.
Karya, una empresa emergente de impacto social con sede en Bangalore y subvencionada, es capaz de ampliar el conjunto de lenguas representadas en parte porque se dirige específicamente a trabajadores de zonas rurales que, de otro modo, no podrían ser contratados para esas tareas. La aplicación de Karya puede funcionar sin acceso a Internet y ofrece asistencia por voz a las personas con un nivel de alfabetización limitado. En la India, más de 32.000 trabajadores de crowdsourcing se han conectado a la aplicación y han realizado 40 millones de tareas digitales remuneradas, como reconocimiento de imágenes, alineación de contornos, anotación de vídeos y anotación de voz.
Para Chopra, el objetivo no es sólo mejorar el suministro de datos, sino luchar contra la pobreza. El fundador de Karya creció en un barrio empobrecido llamado Shakur Basti, al oeste de Delhi. Ganó una beca para estudiar en un colegio de élite donde sufrió acoso escolar porque sus compañeros decían que “olía a pobre”. Chopra aterrizó en Stanford para estudiar ciencias de la computación, pero se dio cuenta de que odiaba la mentalidad de “cómo hacer mil millones de dólares” que encontró allí.
Después de graduarse en 2017, comenzó a trabajar en su interés de larga data: usar la tecnología para abordar la pobreza. “Se necesitan apenas 1.500 dólares en ahorros para que un indio pueda acceder a la clase media”, dijo Chopra. “Pero los empobrecidos pueden tardar 200 años en alcanzar ese nivel de ahorro”.
Microsoft (MSFT), se enteró, había estado pagando una cantidad considerable por recopilar datos de voz, aunque de mala calidad, para alimentar sus sistemas de IA y la investigación. En 2017, por ejemplo, aunque se disponía de un millón de horas de datos hablados digitalizados en marathi, lengua hablada en Bombay y su región de la India occidental, solo se podían comprar 165 horas. Desde entonces, su startup ha reunido 10.000 horas de datos hablados en marathi para los servicios de IA de Microsoft, leídos por hombres y mujeres de cinco regiones diferentes.
“Las empresas tecnológicas quieren los datos, con acento y todo”, explica Chopra. “Saikat Guha, investigador de Microsoft Research India especializado en la ética de la recopilación de datos, afirma que también ha utilizado el contenido de Karya en un proyecto para ayudar a personas con discapacidad visual a encontrar trabajo. “La calidad de los datos es mucho mejor que la de cualquier otra fuente que haya utilizado”, afirma Guha. “Si pagas justamente a los trabajadores, se implican más en su trabajo, y el resultado final son mejores datos”.
Mientras tanto, más de 30.000 mujeres jóvenes con estudios escolares trabajan con Karya para ayudar a recopilar datos “con perspectiva de género” -como que el médico o el jefe no siempre son hombres- en seis lenguas indias para la Fundación Bill y Melinda Gates. Se trata del mayor esfuerzo de este tipo en lenguas indias y servirá como corpus para construir conjuntos de datos que reduzcan los sesgos de género.
Karya no se detiene en la India. La empresa ha dicho que está en conversaciones para vender su plataforma como servicio a organizaciones de África y Sudamérica que harán un trabajo similar.
Por ahora, las mujeres de Yelandur, otro pueblo al suroeste de Bangalore, esperan ansiosas el próximo proyecto de Karya: transcribir a partir de una grabación de audio en kannada. Entre ellas está Shambhavi S., de 25 años, que ganó unos miles de rupias con un encargo anterior mientras trabajaba en la tranquilidad de su casa después de dar de cenar a sus suegros y acostar a sus hijos.
“No sé qué es la inteligencia artificial, no he oído hablar de ella”, dice Shambhavi. “Quiero ganar dinero y educar a mis hijos para que aprendan a utilizarla”.
Lee más en Bloomberg.com