
Interagir com uma inteligência artificial costuma ser visto como um problema de velocidade. Fazemos uma pergunta e esperamos uma resposta rápida, como se o tempo de resposta fosse um indicador direto de qualidade.
Isso funciona em muitos casos, mas começa a falhar quando o problema exige mais do que uma resposta plausível.
Modelos de linguagem não “pensam” antes de responder. Eles operam em um processo chamado inferência (que é simplesmente o momento em que, dado um texto de entrada, o modelo começa a gerar a resposta). Essa geração acontece token por token (pequenos pedaços de texto, geralmente palavras ou partes delas), prevendo qual é a próxima palavra mais provável com base no contexto.
Em problemas simples, esse mecanismo funciona bem. Entretanto, em situações mais complexas, ele tende a seguir o caminho mais curto, o que nem sempre leva à melhor resposta.
Nos últimos anos, ficou claro que a qualidade dessas respostas pode melhorar quando o modelo percorre um caminho mais longo antes de concluir. Isso pode acontecer de duas formas.
A primeira é externa (a forma como escrevemos o prompt). Pequenas mudanças, como pedir para estruturar o raciocínio ou considerar etapas intermediárias, podem levar o modelo a explorar mais possibilidades antes de responder.
A segunda é interna, relacionada ao próprio treinamento do modelo. Modelos mais recentes já são ajustados para gerar, de forma implícita, etapas intermediárias de raciocínio antes de produzir a resposta final (o que ficou conhecido como modelos de raciocínio). Esse processo quase sempre é invisível, mas influencia diretamente o resultado.
Nos dois casos, o efeito é semelhante: o modelo deixa de encerrar o raciocínio cedo demais.
No fundo, a natureza do sistema permanece a mesma, um jogo de probabilidades e padrões aprendidos. O que muda é o quanto exploramos esse processo antes de aceitar uma resposta.
Existe um paralelo direto com o raciocínio humano. O psicólogo Daniel Kahneman sugere em Rápido e Devagar (Objetiva, 2012) que nosso pensamento opera a partir de dois modos distintos, o que ele chama de Sistema 1 e Sistema 2.
Quando respondemos algo imediatamente, recorremos a padrões já conhecidos ou atalhos mentais. Como ele descreve: “o Sistema 1 opera automaticamente, com pouco ou nenhum esforço”, enquanto “o Sistema 2 aloca atenção às atividades mentais que exigem esforço”. Quando paramos para estruturar o problema e percorrer etapas intermediárias, a chance de erro diminui (um processo mais próximo do Sistema 2). Não porque nos tornamos mais inteligentes naquele momento, mas porque usamos mais esforço antes de concluir.
Nos modelos de linguagem, esse esforço aparece como mais tokens. Em humanos, aparece como tempo, atenção e organização do pensamento.
Em ambos os casos, o mecanismo é parecido. Não é sobre saber mais, mas sobre não parar cedo demais.
Isso também ajuda a explicar por que respostas diferentes podem surgir do mesmo modelo para o mesmo problema. A forma da pergunta (ou o próprio comportamento interno do modelo) altera o caminho percorrido. Caminhos diferentes levam a conclusões diferentes.
Interagir melhor com esses sistemas não é apenas sobre perguntar melhor, mas sobre entender quando vale a pena desacelerar. Tanto em modelos de linguagem quanto em pessoas, respostas melhores raramente são as mais rápidas, são as que tiveram tempo e espaço suficiente para acontecer.



