## IA com Estilo: Como a Tencent Ensinou Bom Gosto Estético para a Inteligência Artificial

09/07/2025
14 visualizações
Imagem principal do post

## A Revolução Estética da IA: Tencent Lança o "Crítico de Arte" para Códigos Gerados por Inteligência Artificial

Já se frustrou ao pedir para uma IA criar uma página web ou um gráfico e receber algo funcional, mas com uma experiência de usuário sofrível? Botões mal posicionados, cores conflitantes, animações travadas... Essa cena comum revela um desafio crucial no desenvolvimento de IA: como ensinar bom gosto a uma máquina?

Por muito tempo, avaliamos modelos de IA pela correção funcional do código. Testes confirmavam a execução, mas ignoravam a "fidelidade visual e integridade interativa" essenciais nas experiências digitais modernas.

A Tencent resolveu esse problema com o ArtifactsBench, um novo padrão de avaliação que funciona como um "crítico de arte" automatizado para códigos gerados por IA.

### Como Funciona a Mágica?

O ArtifactsBench desafia a IA com mais de 1.800 tarefas criativas, desde visualizações de dados e aplicativos web até minigames interativos. Após a IA gerar o código, o ArtifactsBench entra em ação:

1. **Execução Segura:** O código é construído e executado em um ambiente isolado.

2. **Análise Visual:** Capturas de tela registram o comportamento da aplicação ao longo do tempo, verificando animações, mudanças de estado após cliques e outros feedbacks dinâmicos.

3. **O Veredito do Juiz:** Um LLM Multimodal (MLLM) recebe a solicitação original, o código da IA e as capturas de tela.

O MLLM atua como um juiz rigoroso, utilizando um checklist detalhado para avaliar o resultado em dez métricas, incluindo funcionalidade, experiência do usuário e até qualidade estética. Isso garante uma avaliação justa, consistente e completa.

### Bom Gosto Artificial?

Os resultados indicam que sim! As classificações do ArtifactsBench demonstraram uma consistência de 94,4% com as avaliações de humanos na WebDev Arena, plataforma de referência onde pessoas reais votam nas melhores criações de IA. Um salto enorme em relação aos antigos benchmarks automatizados, que atingiam apenas 69,4%. Além disso, as avaliações do framework concordaram em mais de 90% com as de desenvolvedores humanos profissionais.

### Os Melhores da Classe

A Tencent testou mais de 30 dos principais modelos de IA do mundo, revelando uma descoberta surpreendente. Modelos comerciais de ponta do Google (Gemini-2.5-Pro) e Anthropic (Claude 4.0-Sonnet) lideraram o ranking, mas a pesquisa revelou que as "capacidades holísticas de modelos generalistas frequentemente superam as de modelos especializados".

Um modelo de propósito geral, o Qwen-2.5-Instruct, superou seus irmãos especializados, Qwen-2.5-coder (focado em código) e Qwen2.5-VL (especializado em visão). A criação de ótimos aplicativos visuais exige uma combinação de habilidades: "raciocínio robusto, interpretação precisa de instruções e um senso implícito de estética de design".

A Tencent espera que o ArtifactsBench avalie essas qualidades de forma confiável, impulsionando o progresso da IA na criação de soluções não apenas funcionais, mas também agradáveis e intuitivas para os usuários.

Comentários

Nenhum comentário ainda. Seja o primeiro a comentar!