
El equipo Qwen de Alibaba ha revelado QwQ-32B, un modelo de inteligencia artificial (IA) de 32 mil millones de parámetros que demuestra un rendimiento comparable al mucho más grande DeepSeek-R1. Este avance resalta el potencial de escalar el Aprendizaje por Refuerzo (RL) en modelos de base robustos.
El equipo Qwen ha integrado con éxito capacidades de agente en el modelo de razonamiento, permitiéndole pensar críticamente, utilizar herramientas y adaptar su razonamiento basándose en la retroalimentación ambiental.
Escalar RL tiene el potencial de mejorar el rendimiento del modelo más allá de los métodos convencionales de preentrenamiento y postentrenamiento», afirmó el equipo. «Estudios recientes han demostrado que RL puede mejorar significativamente las capacidades de razonamiento de los modelos».
QwQ-32B logra un rendimiento comparable a DeepSeek-R1, que cuenta con 671 mil millones de parámetros (con 37 mil millones activados), un testimonio de la efectividad de RL cuando se aplica a modelos de base robustos preentrenados en un extenso conocimiento mundial. Este notable resultado subraya el potencial de RL para cerrar la brecha entre el tamaño del modelo y el rendimiento.
Evaluación y Resultados de QwQ-32B
El modelo ha sido evaluado en una variedad de benchmarks, incluyendo AIME24, LiveCodeBench, LiveBench, IFEval y BFCL, diseñados para evaluar su razonamiento matemático, competencia en codificación y capacidades generales de resolución de problemas.
Los resultados destacan el rendimiento de QwQ-32B en comparación con otros modelos líderes, incluyendo DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini y el DeepSeek-R1 original.
- AIME24: QwQ-32B alcanzó 79.5, ligeramente por detrás del 79.8 de DeepSeek-R1-6718, pero significativamente por delante del 63.6 de OpenAl-o1-mini y los modelos destilados.
- LiveCodeBench: QwQ-32B obtuvo 63.4, nuevamente muy cerca del 65.9 de DeepSeek-R1-6718, y superando los modelos destilados y el 53.8 de OpenAl-o1-mini.
- LiveBench: QwQ-32B alcanzó 73.1, con DeepSeek-R1-6718 obteniendo 71.6, y superando los modelos destilados y el 57.5 de OpenAl-o1-mini.
- IFEval: QwQ-32B obtuvo 83.9, muy cerca del 83.3 de DeepSeek-R1-6718, y liderando los modelos destilados y el 59.1 de OpenAl-o1-mini.
- BFCL: QwQ-32B alcanzó 66.4, con DeepSeek-R1-6718 obteniendo 62.8, demostrando una ventaja sobre los modelos destilados y el 49.3 de OpenAl-o1-mini.
El Proceso de Aprendizaje por Refuerzo de Qwen
El enfoque del equipo Qwen involucró un punto de control de inicio en frío y un proceso de RL de múltiples etapas impulsado por recompensas basadas en resultados. La etapa inicial se centró en escalar RL para tareas de matemáticas y codificación, utilizando verificadores de precisión y servidores de ejecución de código. La segunda etapa se expandió a capacidades generales, incorporando recompensas de modelos de recompensa generales y verificadores basados en reglas.
«Encontramos que esta etapa de entrenamiento de RL con una pequeña cantidad de pasos puede aumentar el rendimiento de otras capacidades generales, como el seguimiento de instrucciones, la alineación con la preferencia humana y el rendimiento del agente, sin una caída significativa en el rendimiento de matemáticas y codificación», explicó el equipo.
QwQ-32B es de peso abierto y está disponible en Hugging Face y ModelScope bajo la licencia Apache 2.0, y también es accesible a través de Qwen Chat. El equipo Qwen ve esto como un paso inicial en el escalado de RL para mejorar las capacidades de razonamiento y tiene como objetivo explorar más a fondo la integración de agentes con RL para el razonamiento de horizonte largo.
«A medida que trabajamos para desarrollar la próxima generación de Qwen, confiamos en que la combinación de modelos de base más fuertes con RL impulsado por recursos computacionales escalados nos impulsará más cerca de lograr la Inteligencia Artificial General (AGI)», afirmó el equipo.
Deja una respuesta
Lo siento, debes estar conectado para publicar un comentario.