Resumo
Pesquisadores descobriram que modelos de linguagem grandes, conhecidos como LLMs, usam um grupo pequeno e especializado de parâmetros para fazer raciocínio sobre a mente, mesmo ativando toda a rede para cada tarefa. Essa conexão interna depende muito da codificação posicional, especialmente da codificação rotacional, que molda como o modelo rastreia crenças e perspectivas. Como seres humanos realizam essas inferências sociais com apenas uma fração pequena de recursos neurais, essa descoberta mostra uma grande ineficiência nos sistemas de IA atuais. O trabalho abre caminho para futuros LLMs que funcionem de maneira parecida com o cérebro humano: seletivos, eficientes e com menor consumo de energia.
Fatos importantes
- Circuitos Filtrados: LLMs dependem de pequenos grupos de parâmetros internos para raciocínio sobre a mente.
- Codificação Crucial: A codificação posicional rotacional desempenha um papel importante na representação de crenças e perspectivas nos modelos.
- Custo de Eficiência: Os resultados apontam para designs inspirados no cérebro que ativam apenas parâmetros relevantes para a tarefa.
Um Exemplo Simples
Imagine que você está assistindo a um filme. Um personagem coloca um chocolate em uma caixa, fecha e sai. Outro personagem muda o chocolate para uma gaveta. Você, como espectador, sabe que o chocolate está agora na gaveta. Sabe também que, quando o primeiro personagem voltar, ele vai procurar o chocolate na caixa, porque não sabe que foi mudado.
Esse tipo de raciocínio é um exemplo do que chamamos de Teoria da Mente (ToM). Essa habilidade de “ler a mente” nos permite prever e explicar o comportamento dos outros, considerando seus estados mentais. Aprendemos essa capacidade por volta dos quatro anos e nosso cérebro faz isso de forma bem eficaz.
Brain Power vs. LLMs
“Para o cérebro humano, é uma tarefa fácil”, diz um especialista da área. O cérebro processa essas informações rapidamente, quase sem esforço. “E, ao fazer isso, usamos um pequeno grupo de neurônios, tornando tudo muito eficiente em termos de energia”, explica outro pesquisador.
Já os LLMs funcionam de maneira diferente. Embora tenham sido inspirados em conceitos de neurociência, não imitam exatamente o cérebro humano. Eles usam redes neurais artificiais que lembram a organização dos neurônios, mas aprendem por meio de padrões em uma enorme quantidade de texto. Isso permite que os LLMs processam informações rapidamente, mas quando se trata de eficiência, especialmente em tarefas simples, eles ficam para trás.
Todo o Esforço: Independentemente da complexidade da tarefa, eles precisam ativar quase toda a sua rede para dar uma resposta. Se você perguntar a um LLM que horas são ou pedir um resumo de “Moby Dick”, ele irá usar toda sua rede, o que consome muitos recursos e é ineficiente.
“Quando nós, humanos, avaliamos uma nova tarefa, ativamos uma parte bem pequena do nosso cérebro. Mas os LLMs precisam ativar quase toda a rede mesmo para tarefas básicas”, comenta um dos pesquisadores. “Eles fazem muitos cálculos e depois escolhem a resposta que você precisa. Isso gera cálculos repetitivos, pois envolvem muitas coisas que não são necessárias. É muito ineficiente.”
Colaboração e Descobertas
Com isso em mente, os pesquisadores formaram uma colaboração multidisciplinar para entender melhor como os LLMs funcionam e como podemos melhorar sua eficiência no raciocínio social. Eles descobriram que os LLMs utilizam um conjunto pequeno e especializado de conexões internas para lidar com o raciocínio social.
Além disso, perceberam que a capacidade de raciocínio social dos LLMs depende muito de como o modelo representa a posição das palavras, especialmente por meio de uma técnica chamada codificação posicional rotacional (RoPE). Essas conexões influenciam como o modelo presta atenção a diferentes palavras e ideias, direcionando onde seu “foco” vai quando raciocina sobre os pensamentos das pessoas.
“Em termos simples, nossos resultados sugerem que os LLMs usam padrões internos para rastrear posições e relações entre palavras para formar ‘crenças’ internas e fazer inferências sociais”, explica um dos pesquisadores. Esse trabalho foi detalhado em um estudo que investiga como os LLMs codificam a Teoria da Mente.
Caminho para a Eficiência
Com uma melhor compreensão de como os LLMs formam suas “crenças”, os pesquisadores acreditam que será possível tornar esses modelos mais eficientes. “Todos sabemos que a IA é cara em termos de energia. Se quisermos que ela seja escalável, precisamos mudar sua operação”, comenta um especialista.
“O cérebro humano é muito eficiente em termos de energia, então esperamos que essa pesquisa nos ajude a pensar em como fazer os LLMs funcionarem mais como o cérebro humano, ativando apenas um subconjunto de parâmetros responsáveis por tarefas específicas. Essa é uma questão importante que queremos ressaltar.”
Perguntas Frequentes
P: O que os pesquisadores descobriram sobre o raciocínio social da IA?
R: Os modelos de linguagem grandes usam um pequeno grupo especializado de conexões internas e padrões de codificação posicional para fazer raciocínio sobre a mente.
P: Por que isso é importante para a eficiência da IA?
R: Diferente do cérebro humano, os LLMs ativam quase toda sua rede para cada tarefa; entender esses circuitos filtrados pode ajudar a criar IA mais eficiente em energia.
P: Qual o próximo objetivo para a IA e os LLMs?
R: Criar LLMs que ativem apenas parâmetros específicos para as tarefas, funcionando de forma mais parecida com o cérebro humano, reduzindo custos de computação e energia.
Conclusão
A pesquisa sobre como os modelos de linguagem grandes codificam a Teoria da Mente está avançando. Ao descobrir como esses modelos funcionam e como podemos torná-los mais eficientes, estamos dando um passo importante em direção a uma IA mais inteligente e sustentável, refletindo mais o que já fazemos naturalmente.
