PUBLICIDADE

## QwQ-32B: A Revolução da IA Compacta que Desafia Gigantes e Abre Caminho para a Inteligência Artificial Geral!

06/03/2025
256 visualizações
3 min de leitura
Imagem principal do post

## Alibaba Surpreende com IA de 32 Bilhões de Parâmetros que Desafia Modelos Gigantes!

A equipe Qwen da Alibaba acaba de apresentar o QwQ-32B, um modelo de IA com 32 bilhões de parâmetros que está causando um grande impacto no mundo da tecnologia. O que torna essa IA tão especial? Ela demonstra um desempenho que rivaliza com o DeepSeek-R1, um modelo muito maior!

Essa inovação destaca o enorme potencial de escalar o aprendizado por reforço (RL) em modelos de base robustos. Imagine um modelo de IA que não apenas pensa, mas também age, aprende com seus erros e se adapta ao ambiente. A equipe Qwen conseguiu integrar capacidades de "agente" ao modelo de raciocínio, permitindo que ele pense criticamente, utilize ferramentas e ajuste seu raciocínio com base no feedback do ambiente.

PUBLICIDADE

### Aprendizado por Reforço: A Chave para o Futuro da IA?

A equipe da Qwen acredita que sim! Eles afirmam que "escalar o RL tem o potencial de aprimorar o desempenho do modelo além dos métodos convencionais de pré-treinamento e pós-treinamento". Estudos recentes já mostraram que o RL pode melhorar significativamente as capacidades de raciocínio dos modelos.

O QwQ-32B alcança um desempenho comparável ao DeepSeek-R1, que possui incríveis 671 bilhões de parâmetros (com 37 bilhões ativados). Isso mostra a eficácia do RL quando aplicado a modelos de base robustos, pré-treinados com um vasto conhecimento mundial. É uma prova de que o RL pode diminuir a diferença entre o tamanho do modelo e o desempenho.

### Desempenho Impressionante em Diversos Testes

O modelo foi avaliado em uma variedade de benchmarks, incluindo AIME24, LiveCodeBench, LiveBench, IFEval e BFCL, que avaliam seu raciocínio matemático, proficiência em codificação e capacidades gerais de resolução de problemas.

Os resultados mostram o desempenho do QwQ-32B em comparação com outros modelos líderes, incluindo DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini e o DeepSeek-R1 original.

Em resumo, o QwQ-32B se destacou em todas as áreas, alcançando pontuações impressionantes e, em alguns casos, superando até mesmo o DeepSeek-R1, que possui muito mais parâmetros.

### O Segredo por Trás do Sucesso

A abordagem da equipe Qwen envolveu um checkpoint de "cold-start" e um processo de RL multiestágio impulsionado por recompensas baseadas em resultados. A primeira etapa se concentrou em escalar o RL para tarefas de matemática e codificação, utilizando verificadores de precisão e servidores de execução de código. A segunda etapa expandiu para capacidades gerais, incorporando recompensas de modelos de recompensa geral e verificadores baseados em regras.

A equipe explicou que "esta etapa de treinamento de RL com uma pequena quantidade de passos pode aumentar o desempenho de outras capacidades gerais, como seguir instruções, alinhamento com a preferência humana e desempenho do agente, sem queda significativa no desempenho em matemática e codificação".

### Acesso Aberto e Futuro Promissor

O QwQ-32B está disponível no Hugging Face e ModelScope sob a licença Apache 2.0, e também pode ser acessado via Qwen Chat. A equipe Qwen vê isso como um passo inicial para escalar o RL para aprimorar as capacidades de raciocínio e pretende explorar ainda mais a integração de agentes com RL para raciocínio de longo horizonte.

Com o desenvolvimento da próxima geração do Qwen, a equipe está confiante de que a combinação de modelos de base mais fortes com RL, impulsionado por recursos computacionais dimensionados, os aproximará da conquista da Inteligência Artificial Geral (AGI).

PUBLICIDADE

Leitura recomendada

Comentários

Nenhum comentário ainda. Seja o primeiro a comentar!