OpenAI presenta una nueva herramienta de audio capaz de leer texto e imitar voces

Últimas cotizaciones

Bloomberg — OpenAI comparte los primeros resultados de una prueba de una función que puede leer palabras en voz alta con una voz humana convincente, lo que destaca una nueva frontera para la inteligencia artificial y plantea el espectro de los riesgos de las falsificaciones profundas.

Opening Day Of The World Economic Forum (WEF) 2024Sam Altman, Photographer: Chris Ratcliffe/Bloomberg(Bloomberg/Chris Ratcliffe)

La compañía está compartiendo demostraciones iniciales y casos de uso de una vista previa a pequeña escala del modelo de texto a voz, llamado Voice Engine, que ha compartido con unos 10 desarrolladores hasta ahora, dijo un portavoz. OpenAI decidió no implementar más ampliamente la función, sobre la cual informó a los periodistas a principios de este mes.

Un portavoz de OpenAI dijo que la compañía decidió reducir el lanzamiento después de recibir comentarios de partes interesadas como formuladores de políticas, expertos de la industria, educadores y creativos. Inicialmente, la compañía había planeado lanzar la herramienta a hasta 100 desarrolladores a través de un proceso de solicitud, según la conferencia de prensa anterior.

“Reconocemos que generar un discurso que se parezca a las voces de las personas tiene serios riesgos, que son especialmente importantes en un año electoral”, escribió la compañía en una publicación de blog el viernes. “Estamos colaborando con socios estadounidenses e internacionales de todo el gobierno, los medios de comunicación, el entretenimiento, la educación, la sociedad civil y más para garantizar que incorporamos sus comentarios a medida que construimos”.

VER +

OpenAI y Salesforce acuerdan construir IA por el bien de la humanidad

Hugging Face, Scale AI y docenas de otras startups y empresas de tecnología también se mencionaron como firmantes en la carta

Ya se han utilizado otras tecnologías de inteligencia artificial para falsificar voces en algunos contextos. En enero, una llamada telefónica falsa pero que parecía realista, supuestamente del presidente Joe Biden, alentó a la gente de New Hampshire a no votar en las primarias, un evento que avivó los temores de AI antes de elecciones globales críticas.

A diferencia de los esfuerzos anteriores de OpenAI para generar contenido de audio, Voice Engine puede crear discursos que suenan como personas individuales, completos con su cadencia y entonación específicas. Todo lo que necesita el software son 15 segundos de audio grabado de una persona hablando para recrear su voz.

Durante una demostración de la herramienta, Bloomberg escuchó un clip del director ejecutivo de OpenAI, Sam Altman, explicando brevemente la tecnología con una voz que sonaba indistinguible de su discurso real, pero que fue completamente generada por IA.

“Si tienes la configuración de audio adecuada, es básicamente una voz de calibre humano”, dijo Jeff Harris, líder de producto de OpenAI. “Es una calidad técnica bastante impresionante”. Sin embargo, Harris dijo: “Obviamente hay mucha delicadeza de seguridad en torno a la capacidad de imitar con precisión el habla humana”.

VER +

Sam Altman, de OpenAI, regresa a la junta directiva después de ser absuelto en una investigación

Uno de los socios desarrolladores actuales de OpenAI que utiliza la herramienta, el Instituto de Neurociencias Norman Prince del sistema de salud sin fines de lucro Lifespan, está utilizando tecnología para ayudar a los pacientes a recuperar la voz. Por ejemplo, la herramienta se utilizó para restaurar la voz de una paciente joven que perdió su capacidad de hablar con claridad debido a un tumor cerebral al replicar su discurso de una grabación anterior para un proyecto escolar, según la publicación del blog de la compañía.

El modelo de voz personalizado de OpenAI también puede traducir el audio que genera a diferentes idiomas. Eso lo hace útil para empresas del negocio del audio, como Spotify Technology SA. Spotify ya ha utilizado la tecnología en su propio programa piloto para traducir los podcasts de presentadores populares como Lex Fridman. OpenAI también promocionó otras aplicaciones beneficiosas de la tecnología, como la creación de una gama más amplia de voces para contenido educativo para niños.

En el programa de prueba, OpenAI requiere que sus socios acepten sus políticas de uso, obtengan el consentimiento del hablante original antes de usar su voz y revelen a los oyentes que las voces que escuchan son generadas por IA. La compañía también está instalando una marca de agua de audio inaudible para permitirle distinguir si una pieza de audio fue creada por su herramienta.

VER +

Conforme nos acerquemos a la IA habrá más riesgos, nerviosismo y estrés: Altman

Los rápidos avances en el campo y la carrera de las empresas por lograr un futuro hipotético de inteligencia artificial general han llevado a muchos legisladores a pedir que sea regulada

Antes de decidir si lanzar la función de manera más amplia, OpenAI dijo que está solicitando comentarios de expertos externos. “Es importante que la gente de todo el mundo comprenda hacia dónde se dirige esta tecnología, ya sea que finalmente la implementemos nosotros mismos o no”, dijo la compañía en la publicación del blog.

OpenAI también escribió que espera que la vista previa de su software “motive la necesidad de reforzar la resiliencia de la sociedad” frente a los desafíos que plantean las tecnologías de IA más avanzadas. Por ejemplo, la empresa pidió a los bancos que eliminen gradualmente la autenticación de voz como medida de seguridad para acceder a cuentas bancarias e información confidencial. También busca educación pública sobre el contenido engañoso de IA y un mayor desarrollo de técnicas para detectar si el contenido de audio es real o generado por IA.

Lea más en Bloomberg.com

OpenAI presenta una nueva herramienta de audio capaz de leer texto e imitar voces

Las noticias del día

IA

Inteligencia artificial

Trump crea un equipo sanitario con los nominados a la FDA y el consejero delegado de Sanidad

Trump elige al veterano de la NFL Scott Turner para dirigir el Departamento de Vivienda

Operadores de divisas apuestan a que Trump aumentará la volatilidad del mercado

Musk elude sanción por elegir el lanzamiento de un cohete antes que una reunión con la SEC

EE.UU. investiga los vínculos de JPMorgan con un fondo de cobertura iraní

Gobierno español eleva el impuesto extraordinario que afecta a Santander y a BBVA

México

Dólar hoy 22 de noviembre: Peso pierde terreno tras datos de inflación y PIB en México

Actualidad

Stellantis podría revisar su expansión en México: cinco cosas para saber el viernes

Mercados

El euro cae a su nivel más bajo desde 2022; aumentan apuestas por recorte de tasas del BCE

Mercados

El dólar avanza hacia su ganancia más larga en un año en medio de demanda de activos refugio

Vivienda ‘prime’: los m2 que podría comprar con US$1 millón en estas ciudades del mundo

Alza de las acciones de Nvidia obliga a la fundación de su CEO a duplicar sus donaciones

Scott Bessent será el nuevo secretario del Tesoro; el bitcoin, a punto de alcanzar los US$100.000

Petrobras planea crear una empresa conjunta para volver al mercado de etanol

Económicas e internacionales

Mundo

Irán ampliará capacidad nuclear tras la reprimenda de Occidente en la ONU

Uruguay

Elecciones en Uruguay: ¿a qué hora de este domingo se sabrá quién es el nuevo presidente?

Mundo

Putin dice que Rusia podría volver a utilizar un nuevo misil tras el ataque a Ucrania

Estados Unidos

La confianza del consumidor en EE.UU. sube menos de lo previsto tras las elecciones

Chile

La familia más rica de Chile recortará participación en energética francesa Nexans

Mercados

Dos factores explican el alza del oro durante los últimos cuatro días

México

Dólar hoy 22 de noviembre: Peso pierde terreno tras datos de inflación y PIB en México

Actualidad

Parlamento ucraniano cancela sesión plenaria en medio de nueva amenaza de atentado