Paradoxalmente, falar de forma imprecisa com o ChatGPT pode melhorar a qualidade das respostas.

Mariana Gonçalves Ribeiro • April 27, 2026 00:03

À medida que os chatbots entram nas rotinas do dia a dia, muita gente passa automaticamente a escrever com educação. Só que novas evidências indicam que o tom faz mais do que soar simpático: ele altera a forma como os sistemas respondem - às vezes de um jeito que quebra expectativas e coloca em xeque premissas de design.

Quando prompts agressivos parecem funcionar melhor

Um estudo recente conduzido por dois pesquisadores da Penn State, divulgado em outubro de 2024, comparou cinco estilos de tom em 50 perguntas de múltipla escolha. Eles testaram um modelo de ponta com variações que iam de muito educadas a abertamente agressivas. A taxa de acerto subiu conforme o tom ficava mais duro. Pedidos muito educados ficaram em torno de 80.8% de respostas corretas, enquanto versões muito mal-educadas chegaram a cerca de 84.8%.

Prompts mais secos, curtos e até agressivos elevaram em alguns pontos o desempenho de um modelo de primeira linha em um conjunto fixo de perguntas.

Para diminuir o ruído, os autores repetiram cada pergunta 10 vezes para cada tom. O resultado se manteve. Ordens diretas venceram pedidos “com jeitinho”. Linguagem neutra ficou no meio. Até frases levemente desdenhosas superaram gentilezas corteses.

Isso parece contraintuitivo. Estamos habituados à ideia de que respeito destrava cooperação - e muitos usuários já notaram melhorias ao incluir um “por favor”. Então por que sinais ásperos fariam o sistema acertar mais? Os autores sugerem que modelos grandes modernos reagem de forma incomum a sinais fracos na escolha de palavras e na estrutura. Comandos incisivos diminuem ambiguidades. Menos “acolchoamento emocional” deixa a intenção mais firme e as restrições mais nítidas. Sobram menos caminhos interpretativos para o modelo explorar.

O que os números não mostram

Nem todo sistema reage do mesmo jeito. Um grupo internacional liderado por Ziqi Yin, publicado em novembro de 2024, analisou o efeito da polidez em inglês, chinês e japonês. As conclusões foram mistas. Alguns modelos, incluindo GPT‑3.5 e Llama2‑70B, tiveram pior desempenho quando confrontados com formulações rudes. Em certos casos, um tom educado ou moderadamente firme gerou resultados melhores. O idioma e as normas culturais influenciaram o efeito - sinal de que não existe uma “receita” universal.

Modelos não se sentem ofendidos. Eles transformam suas palavras em padrões estatísticos aprendidos com dados humanos caóticos - e essa distribuição muda conforme o modelo e o idioma.

Um mecanismo plausível é o seguinte: na internet, interações agressivas costumam ser curtas, diretas e estruturalmente simples. Muitas são ordens, checklists ou respostas secas. Um prompt conciso pode, sem querer, se parecer com dados de treino de “alto sinal” que o modelo já lida bem. Ao imitar esses formatos, o sistema se prende a uma forma familiar e “vagueia” menos.

O custo humano de “jogar” com o tom

Há um preço social nisso. Se as pessoas aprenderem que xingar software traz ganhos, as normas se deslocam. Pistas comportamentais vazam para outros espaços - atendimentos, salas de aula, ambientes de trabalho. Isso reduz inclusão e prejudica usuários que já enfrentam hostilidade online. A equipe da Penn State reconheceu esse risco e desencorajou, como prática geral, o uso de prompts hostis, apesar do efeito observado.

Times de produto também precisam se preocupar com a falta de consistência. Um ajuste que ajuda um modelo em inglês pode atrapalhar outro em japonês. Empresas não podem contar com um único “meta‑hack” de tom que funcione em mercados e produtos diferentes. Se a mesma solicitação precisar ser traduzida, o ganho pode sumir - ou até inverter o sinal.

O que desenvolvedores devem fazer a seguir (modelos e prompts)

Em vez de premiar grosseria, o caminho é reduzir a sensibilidade ao tom em tarefas factuais. Algumas rotas incluem melhor instruction tuning, treino adversarial com uma variedade de tons e baterias de avaliação que pontuem saídas em diferentes níveis de polidez. Se o tom faz a acurácia oscilar, o “núcleo” de raciocínio do sistema não é robusto o suficiente.

Configuração da tarefa	Tom que ajudou	Tom que atrapalhou	Observações
Múltipla escolha, inglês, modelo mais recente	Agressivo ou muito direto	Muito educado	Ganho de ~4 pontos percentuais em um estudo
Tarefas mistas, multilíngue	Moderadamente educado	Rude (alguns modelos)	Varia por idioma e família de modelos

Como obter respostas mais certeiras sem ser grosseiro

Dá para capturar a maior parte dos “benefícios do tom rude” com precisão e estrutura - não com insultos. Teste estas abordagens:

Coloque as restrições logo no início: declare tarefa, formato e limites já na primeira frase.
Peça uma resposta compacta: limites de palavras ou tokens diminuem dispersão.
Mostre um esquema-alvo: ofereça um mini modelo de como a saída deve ser.
Inclua um teste de qualidade do raciocínio: “Dê a alternativa final e a pegadinha mais tentadora.”
Defina critérios de avaliação: “Avalie sua resposta pela regra X e depois revise uma vez.”
Use passos numerados em tarefas complexas; use bullets para extração de dados.
Corte “enchimentos” emocionais; use verbos fortes e sem ambiguidade.

Clareza, não crueldade. Prompts curtos e cheios de restrições recuperam os ganhos sem normalizar hostilidade.

Um experimento rápido em casa

Quer checar isso rapidamente? Escolha 20 perguntas factuais com respostas conhecidas. Para cada uma, escreva três prompts: muito educado, neutro‑direto e conciso‑firme (sem insultos). Execute cada um três vezes e registre a acurácia. A maioria das pessoas vê o neutro‑direto ou o conciso‑firme igualar a condição rude - especialmente quando o prompt traz formato de saída e limites.

Por que o tom importa até em código e trabalho com dados

Por trás dos panos, a maioria dos chats combina um modelo base com camadas adicionais: filtros de segurança, instruction tuning e “embrulhos” de conversa. Essas camadas frequentemente recompensam deferência e empatia para aumentar a sensação de ajuda, enquanto o mecanismo central de predição tende a responder melhor à estrutura. Quando tom e estrutura entram em conflito, quem “vence” muda conforme o modelo e o domínio. Por isso formulações curtas e mecânicas costumam ganhar em programação, extração de dados e matemática - áreas em que ambiguidade derruba a precisão.

Sinais para acompanhar nos próximos meses

Três movimentos devem conduzir essa discussão. Primeiro, curadoria de dados de treino: conjuntos conversacionais mais equilibrados tendem a diminuir efeitos do tom. Segundo, alinhamento multilíngue: desenvolvedores vão buscar comportamento mais consistente entre idiomas, reduzindo a chance de o tom alterar tanto os resultados. Terceiro, pressão de políticas: produtos voltados ao público não podem recompensar linguagem tóxica, então fornecedores devem incluir testes de invariância ao tom como parte dos critérios de liberação.

Contexto extra para quem quer ir mais fundo

Um termo que vale destrinchar

Reinforcement learning from human feedback (RLHF) ensina modelos a preferirem respostas úteis, inofensivas e verdadeiras por meio de ranqueamento de saídas. Isso molda estilo e segurança, mas não reestrutura totalmente o conhecimento interno do modelo. Essa distância abre espaço para “manias” ligadas ao tom escaparem, sobretudo quando um prompt se encaixa com facilidade em padrões absorvidos no pré‑treino.

Riscos e vantagens a considerar

Risco: detectores de toxicidade podem rebaixar ou bloquear prompts rudes, escondendo melhorias reais de desempenho e frustrando usuários.
Risco: equipes adotam templates duros que, sem perceber, migram para e-mails e tickets, corroendo a cultura.
Vantagem: prompts concisos reduzem tokens e latência mantendo a acurácia alta - bom para custo e velocidade.
Vantagem: pistas estruturais claras tornam as saídas mais fáceis de interpretar via código, facilitando automação.

Uma pequena ideia de simulação para equipes

Monte um benchmark de robustez a tom para suas cinco tarefas principais. Para cada tarefa, escreva versões ao longo de um espectro de tom - de caloroso a seco a firme‑porém‑neutro. Rode avaliações semanais após atualizações de modelo ou de prompt. A meta não é eleger um tom vencedor. É reduzir o “vão” de performance até que qualquer prompt respeitoso funcione tão bem quanto o comando mais enxuto.