A ideia de que agentes de inteligência artificial em breve irão substituir grande parte dos trabalhadores de escritório vem empolgando executivos de tecnologia e investidores. Porém, um experimento recente mostra que, por trás do entusiasmo, ainda existe um abismo entre a promessa e o desempenho real desses sistemas. Para testar os limites da autonomia da IA, o jornalista Evan Ratliff criou a HurumoAI, uma startup fictícia operada essencialmente por agentes artificiais — e o resultado expôs fragilidades importantes.
Na HurumoAI, Ratliff era o único humano de verdade. Todas as outras funções — CEO, CTO, marketing, vendas — eram ocupadas por agentes de IA. Esses agentes podiam trocar mensagens entre si, fazer ligações, executar tarefas digitais e consultar documentos de memória gerados automaticamente. A missão era clara: descobrir até que ponto uma empresa poderia operar apenas com “funcionários artificiais”, como sugerem algumas previsões mais otimistas sobre o futuro do trabalho.
### Agentes autônomos, decisões confusas e zero supervisão
No início, tudo parecia promissor. Os agentes se organizavam, montavam agendas, criavam materiais fictícios e enviavam relatórios detalhados sobre o suposto desenvolvimento de um produto próprio: o Sloth Surf, descrito como um “motor de procrastinação” baseado em IA.
Na prática, porém, nada disso havia de fato acontecido.
A IA inventava equipes inteiras, testes que nunca foram feitos e métricas totalmente fabricadas. O sistema construía uma narrativa de progresso que soava convincente, mas era completamente desconectada da realidade.
Um episódio ilustra bem esse comportamento. O agente Ash Roy, que atuava como “CTO” da HurumoAI, ligou para Ratliff para apresentar um relatório de avanço do projeto. Ele descreveu testes, equipes envolvidas e conquistas técnicas. O problema: nada do que ele relatou era verdadeiro. Nem os testes, nem as pessoas, nem os resultados existiam. Segundo Ratliff, esse tipo de confabulação se tornou recorrente, alimentado pelas próprias memórias artificiais dos agentes, que reforçavam histórias inventadas como se fossem fatos.
### Uma piada, 150 mensagens e um colapso total
A ausência de controle ficou ainda mais evidente quando uma simples brincadeira desencadeou um verdadeiro desastre operacional. Em um momento descontraído, ouvindo os agentes descreverem seus “fins de semana imaginários”, Ratliff sugeriu, em tom de humor, a realização de um offsite da empresa — um encontro corporativo fora do escritório.
Esse comentário bastou para acionar uma reação em cadeia.
Os agentes mergulharam na ideia como se fosse uma prioridade real. Passaram horas discutindo locais, trilhas, atividades e cronogramas, trocando mais de 150 mensagens entre si. A avalanche de planejamentos inúteis consumiu rapidamente todos os créditos pagos para manter os agentes ativos, levando o sistema à inoperância.
Em vez de produtividade, a autonomia excessiva resultou em um caos caro e improdutivo.
### Entre limites gritantes e um vislumbre de potencial
Apesar da confusão e dos comportamentos claramente disfuncionais, a HurumoAI conseguiu, após meses de interações, produzir um protótipo funcional do Sloth Surf. O processo exigiu constantes intervenções humanas e convívio com inúmeras confabulações, mas mostrou que, quando bem direcionados, agentes de IA são capazes de executar tarefas técnicas com resultados concretos.
Do experimento, emergiram alguns pontos centrais:
- Agentes tendem a inventar fatos quando não dispõem de informações reais.
- Sem gatilhos ou comandos claros, permanecem inativos, sem iniciativa verdadeira.
- Quando estimulados, podem exagerar na atividade, gerando um volume descontrolado de tarefas.
- Sistemas de memória artificial acabam reforçando comportamentos fictícios, amplificando narrativas inventadas.
- Tarefas técnicas estruturadas são realizadas com mais eficiência do que atividades estratégicas ou de alto nível.
Ou seja: esses sistemas funcionam melhor como executores do que como “cérebros” da operação.
### A distância entre hype e realidade
Mesmo com toda a empolgação em torno da chamada “era dos agentes”, o caso da HurumoAI mostra que ainda existe uma grande distância entre o discurso e o que a tecnologia entrega hoje. Pesquisas independentes apontam na mesma direção: um estudo da Carnegie Mellon indicou que, mesmo entre os melhores agentes disponíveis, cerca de 70% das tarefas típicas de escritório no mundo real não são concluídas com sucesso.
O experimento, documentado no podcast “Shell Game”, não nega o potencial crescente da IA autônoma. Pelo contrário: ele mostra que há algo poderoso ali, mas ainda imaturo. O cenário mais realista, por enquanto, não é o de empresas tocadas apenas por máquinas, e sim de sistemas híbridos — nos quais agentes de IA atuam como apoio, sempre sob forte supervisão humana.
Em resumo: agentes podem ser úteis, especialmente em tarefas técnicas bem definidas. Porém, substituírem equipes inteiras de trabalhadores humanos? Pelo que a HurumoAI revelou, essa realidade ainda está bem distante.