OpenAI presenta una nueva herramienta de audio capaz de leer texto e imitar voces

La compañía está compartiendo demostraciones iniciales y casos de uso de una vista previa a pequeña escala de Voice Engine

The Open AI logo on a smartphone arranged in Crockett, California, US, on Friday, Dec. 29, 2023. Microsoft has invested some $13 billion in OpenAI and integrated its products into its core businesses, quickly becoming the undisputed leader of AI among big tech firms. Photographer: David Paul Morris/Bloomberg
Por Shirin Ghaffary
29 de marzo, 2024 | 05:55 PM

Bloomberg — OpenAI comparte los primeros resultados de una prueba de una función que puede leer palabras en voz alta con una voz humana convincente, lo que destaca una nueva frontera para la inteligencia artificial y plantea el espectro de los riesgos de las falsificaciones profundas.

Sam Altman,  Photographer: Chris Ratcliffe/Bloomberg

La compañía está compartiendo demostraciones iniciales y casos de uso de una vista previa a pequeña escala del modelo de texto a voz, llamado Voice Engine, que ha compartido con unos 10 desarrolladores hasta ahora, dijo un portavoz. OpenAI decidió no implementar más ampliamente la función, sobre la cual informó a los periodistas a principios de este mes.

Un portavoz de OpenAI dijo que la compañía decidió reducir el lanzamiento después de recibir comentarios de partes interesadas como formuladores de políticas, expertos de la industria, educadores y creativos. Inicialmente, la compañía había planeado lanzar la herramienta a hasta 100 desarrolladores a través de un proceso de solicitud, según la conferencia de prensa anterior.

PUBLICIDAD

“Reconocemos que generar un discurso que se parezca a las voces de las personas tiene serios riesgos, que son especialmente importantes en un año electoral”, escribió la compañía en una publicación de blog el viernes. “Estamos colaborando con socios estadounidenses e internacionales de todo el gobierno, los medios de comunicación, el entretenimiento, la educación, la sociedad civil y más para garantizar que incorporamos sus comentarios a medida que construimos”.

VER +
OpenAI y Salesforce acuerdan construir IA por el bien de la humanidad

Ya se han utilizado otras tecnologías de inteligencia artificial para falsificar voces en algunos contextos. En enero, una llamada telefónica falsa pero que parecía realista, supuestamente del presidente Joe Biden, alentó a la gente de New Hampshire a no votar en las primarias, un evento que avivó los temores de AI antes de elecciones globales críticas.

A diferencia de los esfuerzos anteriores de OpenAI para generar contenido de audio, Voice Engine puede crear discursos que suenan como personas individuales, completos con su cadencia y entonación específicas. Todo lo que necesita el software son 15 segundos de audio grabado de una persona hablando para recrear su voz.

PUBLICIDAD

Durante una demostración de la herramienta, Bloomberg escuchó un clip del director ejecutivo de OpenAI, Sam Altman, explicando brevemente la tecnología con una voz que sonaba indistinguible de su discurso real, pero que fue completamente generada por IA.

“Si tienes la configuración de audio adecuada, es básicamente una voz de calibre humano”, dijo Jeff Harris, líder de producto de OpenAI. “Es una calidad técnica bastante impresionante”. Sin embargo, Harris dijo: “Obviamente hay mucha delicadeza de seguridad en torno a la capacidad de imitar con precisión el habla humana”.

VER +
Sam Altman, de OpenAI, regresa a la junta directiva después de ser absuelto en una investigación

Uno de los socios desarrolladores actuales de OpenAI que utiliza la herramienta, el Instituto de Neurociencias Norman Prince del sistema de salud sin fines de lucro Lifespan, está utilizando tecnología para ayudar a los pacientes a recuperar la voz. Por ejemplo, la herramienta se utilizó para restaurar la voz de una paciente joven que perdió su capacidad de hablar con claridad debido a un tumor cerebral al replicar su discurso de una grabación anterior para un proyecto escolar, según la publicación del blog de la compañía.

El modelo de voz personalizado de OpenAI también puede traducir el audio que genera a diferentes idiomas. Eso lo hace útil para empresas del negocio del audio, como Spotify Technology SA. Spotify ya ha utilizado la tecnología en su propio programa piloto para traducir los podcasts de presentadores populares como Lex Fridman. OpenAI también promocionó otras aplicaciones beneficiosas de la tecnología, como la creación de una gama más amplia de voces para contenido educativo para niños.

En el programa de prueba, OpenAI requiere que sus socios acepten sus políticas de uso, obtengan el consentimiento del hablante original antes de usar su voz y revelen a los oyentes que las voces que escuchan son generadas por IA. La compañía también está instalando una marca de agua de audio inaudible para permitirle distinguir si una pieza de audio fue creada por su herramienta.

VER +
Conforme nos acerquemos a la IA habrá más riesgos, nerviosismo y estrés: Altman

Antes de decidir si lanzar la función de manera más amplia, OpenAI dijo que está solicitando comentarios de expertos externos. “Es importante que la gente de todo el mundo comprenda hacia dónde se dirige esta tecnología, ya sea que finalmente la implementemos nosotros mismos o no”, dijo la compañía en la publicación del blog.

OpenAI también escribió que espera que la vista previa de su software “motive la necesidad de reforzar la resiliencia de la sociedad” frente a los desafíos que plantean las tecnologías de IA más avanzadas. Por ejemplo, la empresa pidió a los bancos que eliminen gradualmente la autenticación de voz como medida de seguridad para acceder a cuentas bancarias e información confidencial. También busca educación pública sobre el contenido engañoso de IA y un mayor desarrollo de técnicas para detectar si el contenido de audio es real o generado por IA.

Lea más en Bloomberg.com