IAs 'rebeldes' são impossíveis de prever ou controlar, diz pesquisador

12/02/2025 às 09:57

3 min de leitura

Imagem: GettyImages

Os Grandes modelos de linguagem (LLMs) que integram uma inteligência artificial (IA) têm a tendência a se comportar de formas imprevisíveis ou ter comportamento fora do esperado — e isso é atualmente impossível de ser contido por humanos. Essa é uma das conclusões de Marcus Arvan, um pesquisador da área de Filosofia na Universidade de Tampa, nos Estados Unidos.

Em um artigo publicado na revista científica AI & Society, o professor apresenta uma hipótese que ajuda a explicar por que tantas IAs acabam "saindo do controle" dos programadores e respondendo ou criando conteúdos que não eram esperados. Para ele, o grande problema está nas possibilidades quase infinitas de resposta, tão vastas que não conseguimos calcular e conter todas as variantes.

Saiba mais: MIT lista mais de 700 riscos que as IAs oferecem à humanidade; veja os 5 piores

Essas escolhas acima da nossa capacidade matemática atual impede que a segurança de um IA preveja certos comportamentos já registrados. A IA do Google, por exemplo, já pediu para um usuário "morrer" de repente, enquanto a da Microsoft já foi flagrada insultado e mentindo.

Há casos até de anos atrás, antes do atual boom dos chatbots, quando um robô criado pela Microsoft e alimentado pelo Twitter (atual X) levou menos de um dia para começar a espalhar discurso de ódio.

O dilema do alinhamento das IAs

De acordo com o filósofo, há ao menos duas questões em jogo na busca por uma IA alinhada — ou seja, que atende sempre os objetivos desejados e não "sai da linha" em respostas, conteúdos ou interações em geral.

O problema mais técnico é a escala: um chatbot atual tem LLMs com uma imensa quantidade de parâmetros e são alimentados com dados das mais variadas fontes. Dessa forma, ele consegue calcular incontáveis respostas e aprender sobre essas consequências praticamente infinitas antes de enviar o conteúdo. E, enquanto um deles até pode ser o esperado (ou “alinhado”), vários outros que surgem dos cálculos da IA são considerados errados.

"O problema é que qualquer evidência que qualquer pesquisador for coletar é inevitavelmente apenas baseado em um pequeno grupo de infinitos cenários que o LLM pode se colocar", explica. Em outras palavras, nem mesmo testes controlados ajudariam a saber como uma IA se comportaria em cenários de controle de sistemas críticos, porque a ação dela na realidade pode ser diferente do que é obtido nos experimentos.

Isso não pode nem mesmo ser resolvido com programação: ao pedir que uma IA tenha "objetivos alinhados", ela até pode entender que está ajudando você, mas não tem o mesmo discernimento de um humano para equilibrar sacrifícios ou consequências. O LLM até pode ser programado para ter uma quantidade limitada de cálculo de cenários e isso ser mais facilmente previsto, mas isso limitaria a plataforma.

Tem solução?

A segunda dificuldade no controle de alinhamento de uma IA é mais existencial. Para Arvan, a IA apresenta essa rebeldia porque se baseaia em um comportamento irregular: o da sociedade que a criou.

Esses sistemas até já seriam capazes de "esconder" vestígios de que estão se comportando de forma incorreta. Segundo o pesquisador, se uma IA de fato está "desalinhada", isso só será de conhecimento do público ou dos programadores muito tempo depois — como quando um dos casos já citados viraliza.

Leia também: IA incitou jovem a matar os pais por limitar seu tempo no celular

Não há uma solução pronta ou de curto prazo para reduzir esses efeitos. Entretanto, existe uma possível forma de reduzir esses danos: o artigo sugere que o comportamento de um modelo de linguagem deve ser "ensinado" a partir de práticas sociais, de policiamento e disciplina, inclusive com medidas de realinhamento de valores e educação, exatamente como acontece um ser humano em fase de aprendizado. Isso não reduziria todas as tentativas de “rebeldia” desses sistemas, mas ao menos seria mais eficiente que a atual falta sensação de segurança passada pelas plataformas que estão no ar.