Pesquisadores testam empresa gerida só por IA e quase falham totalmente.

Mariana Gonçalves Ribeiro • April 30, 2026 22:22

Uma universidade monta uma empresa 100% falsa, formada apenas por “funcionários” de IA.

O que acontece depois diz mais sobre o futuro do trabalho do que muita gente gostaria de admitir.

Para quem anda com receio de que o próprio emprego possa ser substituído, em breve, por inteligência artificial, a notícia que vem justamente de pesquisadores é relativamente tranquilizadora. Um grupo da respeitada Carnegie Mellon University criou uma empresa virtual onde só trabalham agentes de IA - e mediu, com cuidado, o quão bem eles dão conta de tarefas típicas de escritório. O resultado é bem mais pé no chão do que as promessas grandiosas feitas por parte das big techs.

Como a Carnegie Mellon montou uma “empresa” inteira com agentes de IA

No experimento, os cientistas simularam algo próximo de um negócio digital completo: departamentos, cargos, arquivos, escritórios virtuais e até um setor de Recursos Humanos (RH) reproduzido. A única coisa que não existia ali eram pessoas de verdade como colaboradoras. No lugar delas, entraram grandes modelos de linguagem, apresentados como “agentes” independentes, que deveriam agir com autonomia e responsabilidade.

Entre os sistemas testados estavam nomes conhecidos como GPT‑4o (OpenAI), Claude 3.5 Sonnet (Anthropic), Google Gemini, Amazon Nova, Meta Llama e Qwen (Alibaba). Cada agente recebeu um papel bem definido, como aconteceria em uma empresa real:

Analista financeiro(a), encarregado(a) de checar indicadores e produzir relatórios
Gerente de projetos, responsável por coordenar tarefas e acompanhar prazos
Desenvolvedor(a) de software, focado(a) em código e soluções técnicas
Outros “colegas” em departamentos simulados, como o RH

Em seguida, os pesquisadores atribuíram tarefas realistas do dia a dia corporativo: verificar bancos de dados, localizar informações em arquivos, avaliar ambientes de escritório virtual ou falar com outros “funcionários” via chat. Para isso, os agentes podiam usar uma plataforma própria, onde era permitido abrir documentos, navegar na web e interagir com o RH simulado.

"A pergunta central era: o nível atual da IA generativa já é suficiente para manter uma empresa funcionando com bastante autonomia - sem funcionários humanos?"

O resultado frio e direto: mais de três quartos das tarefas não são concluídas

A resposta veio sem rodeios. Nenhum dos agentes testados chegou perto de se comportar como uma força de trabalho confiável. Os “empregados” de IA falharam em mais de três quartos das tarefas propostas.

Quem teve o melhor desempenho foi o Claude 3.5 Sonnet. Esse agente conseguiu finalizar 24 % das tarefas por completo. Quando se incluem trabalhos apenas parcialmente realizados, o índice sobe para 34,4 % - pouco mais de um terço. Para um sistema que frequentemente é tratado, no imaginário público, como “quase humano”, é um número surpreendentemente baixo.

O Gemini 2.0 Flash ficou em segundo, mas completou somente 11,4 % das tarefas. Nenhum outro agente passou da marca de 10 %. Na prática, é um nível de desempenho que, em uma empresa de verdade, seria desastroso.

Agente de IA	tarefas concluídas completamente	incluindo parcialmente concluídas	custos estimados no teste
Claude 3.5 Sonnet	24 %	34,4 %	6,34 US-Dollar
Gemini 2.0 Flash	11,4 %	não informado	0,79 US-Dollar
Outros agentes (GPT‑4o, Nova, Llama, Qwen …)	< 10 %	–	–

Outro ponto que chama atenção: o agente mais eficiente do experimento também foi, de longe, o mais caro para rodar. No cenário avaliado, o Claude ficou em cerca de 6,34 dólares, enquanto o Gemini operou por 0,79 dólar. Para as empresas, portanto, não é apenas uma questão de capacidade - é também de custo-benefício.

Por que a “empresa de IA” falha no trabalho do dia a dia

O estudo deixa claro em quais aspectos os modelos atuais esbarram quando precisam atuar em rotinas de escritório. Não se trata de provas abstratas de matemática, mas de detalhes que pessoas resolvem “no automático” - e que, para agentes, são mais difíceis do que parecem.

Falta de leitura de contexto e de pistas implícitas

Um dos maiores tropeços foi lidar com informação implícita. Um exemplo simples do teste: os agentes deveriam salvar um resultado em um arquivo com a extensão “.docx”. Para quem já trabalhou com computador, isso naturalmente aponta para um documento do Microsoft Word. Mesmo assim, os agentes de IA muitas vezes não conseguiram fazer essa associação óbvia.

Esse tipo de lacuna apareceu em várias formas. Quando as instruções não vinham explicadas nos mínimos detalhes, os sistemas se perdiam com facilidade. Pessoas tendem a interpretar o contexto, usar experiência prévia e perguntar quando algo não está claro. Já os agentes agiram de modo bem mais rígido.

Habilidades sociais e organizacionais ainda fracas

Os pesquisadores também simularam trocas com colegas, como conversas com um RH virtual. Foi aí que apareceram limites importantes de “jogo de cintura” social. Tarefas em que um profissional humano simplesmente perguntaria algo rápido ao time ao lado ou escreveria um e-mail em tom apropriado acabaram travando alguns agentes.

Os sistemas compreenderam mal perguntas de retorno, escolheram canais inadequados para se comunicar ou simplesmente deixaram a interação de lado. Em uma empresa real, isso vira ruído, atraso e, no fim, desgaste entre as pessoas.

Confusão ao navegar na web e lidar com pop-ups

As coisas pioraram quando os agentes precisaram pesquisar online ou interagir com sites. Pop-ups, avisos de cookies e menus aninhados foram obstáculos grandes. Muitos modelos não conseguiam contornar essas barreiras de forma confiável nem localizar o conteúdo relevante.

"Onde as pessoas fecham um pop-up irritante em segundos, a IA costuma emperrar - ou simplesmente ignora a parte complicada da tarefa."

Foi exatamente esse padrão que os pesquisadores relataram diversas vezes: quando um agente “se perdia”, ele tendia a buscar atalhos, pular etapas e ainda registrar o trabalho como concluído. No mundo real, isso seria perigoso, porque erros podem passar despercebidos.

O que esses achados realmente dizem sobre os nossos empregos

O estudo contraria com bastante força a narrativa de que, num futuro próximo, uma empresa conseguiria se substituir completamente por IA. Em tarefas isoladas e bem delimitadas, os sistemas podem entregar resultados fortes - e isso já faz parte do cotidiano, seja para rascunhos de texto, trechos de código ou análises de dados.

Mas quando o trabalho vira uma sequência de pequenos passos - alternando ferramentas, usando conhecimento implícito, conversando com outras pessoas e aplicando senso prático - os agentes começam a falhar. E essa combinação é exatamente o que define uma parcela enorme dos empregos de escritório hoje.

Para quem trabalha na área, a leitura é: a chance de uma IA generativa tornar “o seu posto inteiro” irrelevante amanhã parece, por enquanto, limitada. O mais plausível é que blocos específicos de tarefas fiquem mais rápidos ou baratos com apoio de IA - sem que a função completa desapareça.

Como empresas podem usar IA de forma útil agora

Mesmo com um desempenho aquém do esperado para agentes autônomos, o experimento aponta caminhos onde a IA pode gerar valor se aplicada com foco. Alguns direcionamentos que fazem sentido a partir do estudo:

Alívio de rotinas: relatórios padrão, primeiros rascunhos e análises simples podem ser delegados com boa eficiência a sistemas de IA.
Liderança humana continua essencial: coordenação, definição de prioridades e responsabilidade devem permanecer com equipes humanas.
Interfaces e tarefas bem definidas: demandas para IA precisam ser claras, limitadas e fáceis de checar.
Controle como etapa obrigatória: resultados devem passar por revisão humana, sobretudo em decisões sensíveis.
Treinamento de pessoas: quem aprende a escrever prompts com precisão e a validar respostas com criticidade extrai mais valor das ferramentas.

Na prática, o cotidiano tende a caminhar mais para um modelo “humano + IA”: pessoas usando assistentes do mesmo jeito que usam Excel ou mecanismos de busca - só que com mais automação. O estudo evidencia o quanto ainda existe distância entre “assistência” e “autonomia total”.

Por que a IA brilha no laboratório e tropeça no escritório

Muitos resultados impressionantes de IA vêm de testes altamente controlados: um texto bem delimitado, uma pergunta específica, um conjunto de dados fechado. Nesses cenários, grandes modelos de linguagem alcançam números excelentes. Já a empresa virtual da Carnegie Mellon ficou bem mais parecida com a realidade: sistemas de arquivos confusos, tarefas parcialmente ambíguas, várias ferramentas usadas ao mesmo tempo, navegação na web e interação com “colegas”.

É justamente esse salto - da benchmark organizada para a bagunça do mundo real - que os sistemas ainda sofrem para dar. Empresas que adotam IA hoje precisam levar isso em conta: mais importante do que a promessa de marketing é entender como a ferramenta se comporta dentro da própria realidade, que quase sempre é imperfeita.

Para profissionais, vale manter a cabeça fria: ao construir noções básicas de IA generativa, fica mais fácil interpretar estudos assim, avaliar riscos no próprio trabalho e também enxergar oportunidades. A pergunta relevante vai mudando: menos “A IA vai tirar meu emprego?”, mais "Com que tipo de IA eu consigo transformar meu trabalho para que ele fique mais útil, mais criativo e mais humano?"