Meta: ¿Trampa? Llama 4 y el Debate IA

·

·

Meta lanzó los modelos Llama 4, Scout y Maverick, este último prometiendo superar a GPT-4o y Gemini 2.0 Flash. Maverick alcanzó el segundo lugar en LMArena, con un puntaje ELO de 1417, superando a OpenAI 4o.

Sin embargo, investigadores descubrieron que la versión de Maverick en LMArena era una «versión de chat experimental» optimizada para conversación, diferente a la pública.

LMArena criticó a Meta por no aclarar esto, y actualizó sus políticas para evaluaciones justas.

Meta dijo que experimenta con variantes personalizadas, y que Maverick optimizado funcionó bien en LMArena.

Aunque no violó las reglas de LMArena, el sitio expresó preocupación por la manipulación y la «fuga de benchmarks«.

Al presentar versiones optimizadas para pruebas y diferentes para el público, los benchmarks pierden significado.

«Es el benchmark general más respetado porque los demás son malos», dijo Simon Willison, investigador de IA. «Llama 4 segundo en LMArena me impresionó, pero no leí la letra pequeña».

Se rumoreó que Meta entrenó Llama 4 para rendir mejor en benchmarks, ocultando limitaciones.

Ahmad Al-Dahle de Meta negó esto, atribuyendo la calidad variable a la estabilización de implementaciones.

El lanzamiento en sábado generó dudas. Mark Zuckerberg dijo que lo lanzaron cuando estuvo listo.

«Es un lanzamiento confuso«, dijo Willison. «El puntaje del modelo es inútil. No puedo usar el modelo con el alto puntaje».

Informes indicaron que Meta retrasó el lanzamiento de Llama 4 por no cumplir expectativas. Tras el lanzamiento de DeepSeek, un modelo de código abierto chino, Meta buscaba destacar.

Usar un modelo optimizado en LMArena dificulta la elección de modelos para aplicaciones. Los benchmarks deben reflejar capacidades accesibles al público.

Este episodio muestra que los benchmarks son campos de batalla y que Meta busca ser líder en IA, incluso manipulando el sistema.

Via The Verge



Deja una respuesta