El nuevo punto de referencia o1 plantea más preguntas sobre la evaluación comparativa de la IA en general.
Pruebas independientes han revelado que el modelo o1 de OpenAI sólo resuelve el 30% de las tareas de programación en pruebas de referencia, y no el 48,9% anunciado por la empresa. Estos resultados se suman al creciente debate sobre cómo medir las capacidades de la IA. En su nuevo estudio utilizando las pruebas de referencia […]