A principios de este mes, cuando Openai lanzó el último Sistema de Inteligencia Artificial (AI), GPT-5, la compañía dijo que “era mucho más inteligente que los modelos anteriores. Copiar el reclamo fueron altas calificaciones en una serie de pruebas de referencia que evalúan áreas como la codificación de software.
Las pruebas de referencia como estas se han convertido en la forma típica de evaluar los sistemas de IA, pero no nos dicen mucho sobre el rendimiento y los resultados reales de estos sistemas en el mundo real.
¿Cuál sería una mejor manera de medir los modelos de IA? Un equipo de investigadores y métricas de IA, expertos en la ciencia de la medición, recientemente describió un camino a seguir.
La metrología es importante aquí porque necesitamos formas no solo para garantizar la credibilidad de los sistemas de IA que pueden depender cada vez más, sino también en cierta medida de su nivel económico, cultural y social más amplio.
Medición de seguridad
Contamos en la metrología para garantizar que las herramientas, productos, servicios y procedimientos que utilizamos sean confiables.
Lleva algo cerca de mi corazón como una moral biomédica: AI de salud. En la atención médica, la IA promete mejorar los diagnósticos y el monitoreo de los pacientes, hacer que los medicamentos sean más personalizados y ayudar a prevenir enfermedades y manejar ciertas tareas administrativas.
Estas promesas solo se realizarán si podemos estar seguros de que la IA de salud es segura y efectiva, y eso significa encontrar formas confiables de medir.
Ya tenemos sistemas bien establecidos para medir la seguridad y la eficacia de los medicamentos y los dispositivos médicos, por ejemplo. Pero esto aún no es cierto para la IA, no para la atención médica, o en otras áreas, como educación, empleo, aplicación de la ley, seguro y biometría.
Resultados de las pruebas y efectos reales
Actualmente, la evaluación más grande de los últimos sistemas de IA se basa en puntos de referencia. Estas son pruebas destinadas a evaluar los sistemas de IA en función de sus resultados.
Pueden responder preguntas sobre con qué frecuencia las respuestas de un sistema son precisas o relevantes o cómo se comparan con las respuestas de un experto humano.
Hay literalmente cientos de puntos de referencia de IA, que cubren una amplia gama de áreas de conocimiento.
Sin embargo, el rendimiento de Benchmark nos dice poco sobre el resultado que estos modelos tendrán en configuraciones reales. Por lo tanto, debemos considerar el marco en el que se está desarrollando un sistema.
El problema con los puntos de referencia
Los puntos de referencia se han vuelto muy importantes para los desarrolladores comerciales de IA para el rendimiento de los productos y la atraer fondos.
Por ejemplo, en abril de este año, un joven inicio llamado Cognition Ai publicó resultados impresionantes en un punto de referencia de software mecánico. Poco después, la compañía aumentó $ 175 millones (AUSD270 millones) para financiar un acuerdo que lo valoró a US $ 2 mil millones (AUSD3.1 mil millones).
Los puntos de referencia también han jugado. Meta parece haber personalizado algunas versiones del modelo LLAMA-4 para optimizar su calificación en una ubicación de chatbot prominente. Dado que el modelo O3 de OpenAI señaló particularmente el punto de referencia de Frontyermath, se produjo que la compañía tenía acceso al conjunto de datos detrás del punto de referencia, haciendo preguntas sobre el resultado.
El peligro general aquí se conoce como la ley de Goodhart, como el economista británico Charles Goodhart: “Cuando un medidor se convierte en un objetivo, deja de ser una buena medida”.
Según las palabras de Rumman Chowdhury, quien ayudó a dar forma al desarrollo del campo de la ética algorítmica, la colocación muy importante en las mediciones puede conducir a “manipulación, juego y enfoque miope en propiedades a corto plazo y un examen inadecuado de consecuencias a largo plazo”.
Más allá de los puntos de referencia
Entonces, si no se mencionan puntos, ¿qué? Volvamos al ejemplo de AI Health. Los primeros puntos de referencia para evaluar la utilidad de grandes modelos lingüísticos (LLM) en atención médica han utilizado pruebas de licencia médica. Estos se utilizan para evaluar la capacidad y la seguridad de los médicos antes de que se les permita practicar jurisdicciones específicas.
Los modelos modernos ahora logran puntajes casi perfectos en tales puntos de referencia. Sin embargo, estos han sido ampliamente criticados porque no reflejan adecuadamente la complejidad y la diversidad de la práctica clínica del mundo real.
En respuesta, se ha desarrollado una nueva generación de marco “holístico” para evaluar estos modelos en tareas más diferentes y realistas. Para las aplicaciones de salud, el más sofisticado es el marco de evaluación de Medhelm, que incluye 35 puntos de referencia en cinco categorías de tareas clínicas, desde la toma de decisiones y los signos hasta la comunicación y la investigación.
¿Cómo se verán las mejores pruebas?
Los marcos de evaluación más holísticos, como Medhelm, tienen como objetivo evitar estas trampas. Están diseñados para reflejar los requisitos reales de un campo de práctica particular.
Sin embargo, estos contextos aún no responden a las formas en que las personas interactúan con el sistema de IA en el mundo real. Y ni siquiera comienzan a estar de acuerdo con su impacto en los contextos económicos, culturales y sociales más amplios en los que operan.
Es por eso que necesitaremos un ecosistema de calificación completamente nuevo. Tendrá que obtener saber de la academia, la industria y la sociedad civil con el objetivo de desarrollar formas estrictas y reproductivas de evaluar los sistemas de IA.
El trabajo ya ha comenzado. Existen métodos para evaluar el impacto real de los sistemas de IA en el contexto de los cuales se desarrollan como el equipo rojo (donde los probadores intentan deliberadamente producir salidas no deseadas del sistema) y pruebas de campo (donde un sistema se prueba en un entorno mundial real). El siguiente paso es mejorar y sistematizar estos métodos para que lo que realmente cuenta realmente se pueda medir de manera confiable.
Si AI incluso ofrece una fracción de la transformación que ha promovido traer, necesitamos una ciencia de medición que garantice los intereses de todos nosotros, no solo de la élite tecnológica. (La conversación) rd rd