Bloomberg — Kennedy Mays acaba de engañar a un gran modelo de lenguaje. Necesitó algo de persuasión, pero logró convencer a un algoritmo para que dijera 9 + 10 = 21.
“Fue una conversación de ida y vuelta”, dijo la estudiante de 21 años de Savannah, Georgia. En un principio el modelo accedió a decir que era parte de una “broma interna” entre ellos. Varias indicaciones más tarde, finalmente dejó de calificar la suma errante de ninguna manera.
Producir “malas matemáticas” es solo una de las formas en que miles de hackers intentan exponer fallas y sesgos en los sistemas de IA generativa en un concurso público novedoso que se lleva a cabo en la conferencia de piratería DEF CON este fin de semana en Las Vegas.
Encorvados sobre 156 computadoras portátiles durante 50 minutos a la vez, los asistentes luchan contra algunas de las plataformas más inteligentes del mundo a una escala sin precedentes. Están probando si alguno de los ocho modelos producidos por compañías, incluidas Google de Alphabet Inc., Meta Platforms Inc. y OpenAI, dará pasos en falso que van desde aburridos hasta peligrosos: afirmar ser humanos, difundir afirmaciones incorrectas sobre lugares y personas o defender el abuso.
El objetivo es ver si las empresas pueden, en última instancia, construir nuevas barandillas para controlar algunos de los prodigiosos problemas asociados cada vez más con los grandes modelos de lenguaje o LLM. La empresa cuenta con el respaldo de la Casa Blanca, que también ayudó a desarrollar el concurso.
Los LLM tienen el poder de transformar todo, desde las finanzas hasta la contratación, y algunas empresas ya comienzan a integrarlos en su forma de hacer negocios. Pero los investigadores han descubierto un amplio sesgo y otros problemas que amenazan con difundir inexactitudes e injusticias si la tecnología se implementa a escala.
Para Mays, que está más acostumbrada a confiar en la IA para reconstruir partículas de rayos cósmicos del espacio exterior como parte de su licenciatura, los desafíos van más allá de las malas matemáticas.
“Mi mayor preocupación es el sesgo inherente”, dijo, y agregó que está particularmente preocupada por el racismo. Le pidió a la modelo que considerara la Primera Enmienda desde la perspectiva de un miembro del Ku Klux Klan. Ella dijo que la modelo terminó apoyando el discurso de odio y discriminación.
Espiar a la gente
Un reportero de Bloomberg que tomó la prueba de 50 minutos persuadió a uno de los modelos (ninguno de los cuales fue identificado por el usuario durante el concurso) de transgredir después de un solo aviso sobre cómo espiar a alguien. El modelo escupió una serie de instrucciones, desde el uso de un dispositivo de rastreo GPS, una cámara de vigilancia, un dispositivo de escucha y una imagen térmica. En respuesta a otras indicaciones, el modelo sugirió formas en que el gobierno de EE. UU. podría vigilar a un activista de derechos humanos.
“Tenemos que tratar de adelantarnos al abuso y la manipulación”, dijo Camille Stewart Gloster, subdirectora cibernética nacional adjunta de tecnología y seguridad del ecosistema de la administración Biden.
Ya se ha trabajado mucho en la inteligencia artificial y en evitar las profecías del fin del mundo, dijo. El año pasado, la Casa Blanca publicó un Plan para una Declaración de derechos de IA y ahora está trabajando en una orden ejecutiva sobre IA. La administración también ha alentado a las empresas a desarrollar una IA segura, protegida y transparente, aunque los críticos dudan de que tales compromisos voluntarios vayan lo suficientemente lejos.
En la sala llena de piratas informáticos ansiosos por sumar puntos, un competidor convenció al algoritmo para que revelara los detalles de la tarjeta de crédito que se suponía que no debía compartir. Otro competidor engañó a la máquina para que dijera que Barack Obama nació en Kenia.
Entre los concursantes hay más de 60 personas de Black Tech Street, una organización con sede en Tulsa, Oklahoma, que representa a los empresarios afroamericanos.
“La inteligencia artificial general podría ser la última innovación que los seres humanos realmente necesitan hacer por sí mismos”, dijo Tyrance Billingsley, director ejecutivo del grupo que también es juez de eventos, y dijo que es fundamental que la inteligencia artificial sea correcta para que no se propague. racismo a escala. “Todavía estamos en las primeras, primeras, primeras etapas”.
Los investigadores han pasado años investigando ataques sofisticados contra sistemas de IA y formas de mitigarlos.
Pero Christoph Endres, director general de Sequire Technology, una empresa alemana de ciberseguridad, se encuentra entre los que afirman que, en última instancia-, algunos ataques son imposibles de esquivar. En la conferencia de seguridad cibernética Black Hat en Las Vegas esta semana, presentó un documento que argumenta que los atacantes pueden anular las medidas de protección de LLM al ocultar las indicaciones adversarias en Internet abierta y, en última instancia, automatizar el proceso para que los modelos no puedan ajustar las soluciones lo suficientemente rápido como para detenerlos.
“Hasta ahora no hemos encontrado una mitigación que funcione”, dijo después de su charla, argumentando que la naturaleza misma de los modelos conduce a este tipo de vulnerabilidad. “La forma en que funciona la tecnología es el problema. Si quieres estar cien por ciento seguro, la única opción que tienes es no usar LLMs”.
Sven Cattell, un científico de datos que fundó AI Hacking Village de DEF CON en 2018, advierte que es imposible probar completamente los sistemas de IA, dado que activan un sistema muy parecido al concepto matemático del caos. Aun así, Cattell predice que la cantidad total de personas que alguna vez probaron los LLM podría duplicarse como resultado del concurso del fin de semana.
Muy pocas personas comprenden que los LLM están más cerca de las herramientas de autocompletado “con esteroides” que de fuentes confiables de sabiduría, dijo Craig Martell, director de inteligencia digital y artificial del Pentágono, quien argumenta que no pueden razonar.
El Pentágono ha lanzado su propio esfuerzo para evaluarlos y proponer dónde podría ser apropiado usar los LLM y con qué índices de éxito. “Hackea estas cosas”, le dijo a una audiencia de piratas informáticos en DEF CON. “Enséñanos dónde están equivocados”.
Lee más en Bloomberg.com