El Sonnet 3.5 de Anthropic quedó en cabeza, resolviendo el 53% de las tareas, aunque esto podría explicarse por el hecho de que el modelo contribuyó al desarrollo del propio procedimiento de prueba. En concreto, el modelo Deepseek v3, menos costoso, obtuvo buenos resultados. más o menos igual de bien como el o1 de OpenAI en las pruebas de Cuadron.

Gráfico de barras: Comparación del rendimiento de los modelos de IA en SWE-Bench Verified, Sonnet 3.5 lidera con un 50%, seguido de O1 con un 30%.

¿Por qué tanta diferencia?

La discrepancia entre las afirmaciones de OpenAI y los resultados de Cuadron se reduce a los métodos de prueba. OpenAI utilizó «Agentless», un marco que da a la IA instrucciones muy específicas para resolver tareas de programación. Cuadron, en cambio, utilizó «OpenHands», que da a la IA más libertad en la forma de abordar los problemas.

Cuadrón dice que OpenHands se consideraba el estándar de oro cuando OpenAI hizo sus pruebas, pero que decidieron no utilizarlo. Sospecha que el método de pruebas más rígido de OpenAI favorece a los modelos que se limitan a memorizar soluciones, en lugar de resolver realmente nuevos problemas por sí mismos.

Otras investigaciones ya han puesto en duda estas afirmaciones. Un estudio comparativo reciente sobre la planificación de viajes demostró que o1-preview tenía dificultades en las tareas de planificación, y un estudio de Apple demostró que problemas matemáticos ligeramente diferentes daban lugar a un rendimiento mucho peor, lo que sugiere que el modelo no es bueno generalizando conocimientos, lo que socava las afirmaciones sobre sus capacidades lógicas.

Una visión general

Esto pone de manifiesto un problema persistente en la evaluación de la IA: los resultados de la evaluación comparativa dependen en gran medida de los métodos de prueba. Cuando las empresas pueden optimizar sus modelos para procedimientos de prueba específicos, resulta casi imposible que personas ajenas a ellas evalúen las verdaderas capacidades de una IA. Esto es importante porque estos resultados de evaluación comparativa alimentan las campañas de relaciones públicas y los esfuerzos de marketing, que a su vez influyen en la financiación de los inversores.

En Clicategia, seguimos de cerca estos debates y avances en el campo de la IA. Nuestro objetivo es proporcionar a nuestros lectores información clara, precisa y actualizada sobre las últimas investigaciones y desarrollos. Creemos que es fundamental comprender no solo las promesas, sino también las limitaciones y los desafíos de la inteligencia artificial para poder aprovecharla de manera responsable y efectiva.

Este debate sobre la precisión de las pruebas de rendimiento de la IA refuerza la importancia de una comunicación transparente y basada en la evidencia. En Clicategia, nos comprometemos a ofrecer a nuestros lectores análisis profundos y contextualizados que les permitan formarse una opinión informada sobre el impacto de la IA en los negocios y la sociedad.

Mantente al día con las últimas noticias y análisis sobre inteligencia artificial en el blog de Clicategia. Suscríbete a nuestro boletín para recibir información actualizada y descubre cómo la IA puede transformar tu negocio.

El nuevo punto de referencia o1 plantea más preguntas sobre la evaluación comparativa de la IA en general.

¿Por qué tanta diferencia?

Una visión general

Impulsa tu éxito: Consigue GRATIS nuestra guía de Marketing Digital

You have Successfully Subscribed!

Sobre el autor

Marta Casas

Clicategia S.L - Todos los derechos reservados | Blog | Aviso legal | Privacidad | Cookies

¿Por qué tanta diferencia?

Una visión general

Impulsa tu éxito: Consigue GRATIS nuestra guía de Marketing Digital

You have Successfully Subscribed!

Sobre el autor

Marta Casas

Entradas relacionadas