¿Puede ChatGPT aprobar el examen CFA? investigadores de IA intentaron averiguarlo

Un estudio afirma que el GPT-4 podría superar los niveles I y II con indicaciones

ChatGPT Las ciberempresas advierten de que los robots de IA traerán estafas de phishing más desagradables
Por William Shaw y Emily Graffeo
05 de noviembre, 2023 | 11:04 AM

Bloomberg — Relájate, Wall Street. Todavía falta mucho para que el ChatGPT apruebe el examen de analista financiero colegiado y amenace los puestos de trabajo de los profesionales financieros de todo el mundo.

Un equipo de investigadores de JPMorgan Chase & Co. (JPM) y académicos universitarios probaron si los chatbots ChatGPT y GPT-4 de OpenAI tendrían posibilidades de aprobar los dos primeros niveles del examen. Normalmente, los humanos tardan cuatro años en completar los tres niveles del examen, lo que puede dar lugar a salarios más altos y mejores oportunidades laborales.

“Basándonos en los porcentajes estimados de aprobados y en las puntuaciones medias autodeclaradas, llegamos a la conclusión de que ChatGPT probablemente no sería capaz de aprobar el CFA Nivel I y Nivel II en todas las configuraciones probadas”, escribieron los investigadores en un informe de 11 páginas. “GPT-4 tendría una probabilidad decente de pasar el CFA Nivel I y Nivel II si se le incitara”.

PUBLICIDAD

Entre los investigadores hay académicos y seis empleados de la organización de Investigación de IA de JPMorgan, entre ellos Sameena Shah y Antony Papadimitriou.

El CFA Institute, que ofrece las credenciales, lleva años renovando sus exámenes para garantizar que los profesionales que buscan una ventaja en sus carreras estén familiarizados con las fuerzas que impulsan la automatización. El instituto anunció que en 2017 añadiría a sus exámenes preguntas sobre inteligencia artificial y métodos de análisis de big data.

Chris Wiese, director gerente de educación del CFA Institute, admitió que los modelos de grandes datos tendrán la capacidad de responder correctamente a algunas preguntas de los exámenes.

PUBLICIDAD

“Aunque los exámenes de opción múltiple y las preguntas de redacción siguen siendo formas excelentes de evaluar el aprendizaje y la comprensión en un entorno proctorado seguro, el día a día en las finanzas no se presenta sólo como una serie de preguntas cortas e independientes”, dijo Wiese. “Por eso, para ser CFA charterholder, también exigimos 4.000 horas de experiencia laboral cualificada, un mínimo de dos referencias, una fuerte brújula moral y, próximamente, la realización de módulos de habilidades prácticas.”

La empresa también está considerando la posibilidad de utilizar una forma de tecnología de modelos de gran tamaño para ayudar al aprendizaje de los candidatos al CFA, dijo.

Cada pocos meses, miles de candidatos se presentan a los tres niveles diferentes del examen. Los que obtienen la carta suelen dedicar más de 300 horas a estudiar para cada nivel del examen.

Los porcentajes de aprobados del examen han ido a la baja en los últimos años, y el porcentaje medio de aprobados del primer nivel del examen alcanzó el 37% en agosto, frente al 43% de media en 2018.

Errores comunes

El Nivel I del CFA consta de 180 preguntas de opción múltiple, mientras que el Nivel II incluye casos prácticos y 88 preguntas de opción múltiple. Los investigadores descubrieron que los dos grandes modelos lingüísticos tuvieron más dificultades en el Nivel II, independientemente del tipo de estímulo utilizado.

En el Nivel I, sin embargo, tanto ChatGPT como GPT-4 obtuvieron los mejores resultados en las secciones del examen centradas en derivados, inversiones alternativas, emisores corporativos, inversiones en renta variable y ética. Sin embargo, ambos chatbots obtuvieron resultados relativamente malos en las secciones sobre información financiera y gestión de carteras.

En el Nivel II, ChatGPT tuvo problemas en las secciones centradas en inversiones alternativas e instrumentos de renta fija en comparación con GPT-4, mientras que ChatGPT obtuvo mejores resultados en las áreas relacionadas con la gestión de carteras y la economía.

La mayoría de los errores de ChatGPT se basaron en el conocimiento, mientras que GPT-4 cometió errores de cálculo con más frecuencia.

PUBLICIDAD

“El único tipo de error que GPT-4 comete con más frecuencia que ChatGPT fueron los errores de razonamiento”, descubrieron los investigadores. “Parece que, junto con la mayor capacidad de razonamiento de GPT-4, tiene más posibilidades de ‘hablar solo’ en líneas de razonamiento incorrectas”.

Lea más en Bloomberg.com