IAs 'rebeldes' são impossíveis de prever ou controlar, diz pesquisador

3 min de leitura
Imagem de: IAs 'rebeldes' são impossíveis de prever ou controlar, diz pesquisador
Imagem: GettyImages

Os Grandes modelos de linguagem (LLMs) que integram uma inteligência artificial (IA) têm a tendência a se comportar de formas imprevisíveis ou ter comportamento fora do esperado — e isso é atualmente impossível de ser contido por humanos.  Essa é uma das conclusões de Marcus Arvan, um pesquisador da área de Filosofia na Universidade de Tampa, nos Estados Unidos.

Em um artigo publicado na revista científica AI & Society, o professor apresenta uma hipótese que ajuda a explicar por que tantas IAs acabam "saindo do controle" dos programadores e respondendo ou criando conteúdos que não eram esperados. Para ele, o grande problema está nas possibilidades quase infinitas de resposta, tão vastas que não conseguimos calcular e conter todas as variantes.

Essas escolhas acima da nossa capacidade matemática atual impede que a segurança de um IA preveja certos comportamentos já registrados. A IA do Google, por exemplo, já pediu para um usuário "morrer" de repente, enquanto a da Microsoft já foi flagrada insultado e mentindo.

Há casos até de anos atrás, antes do atual boom dos chatbots, quando um robô criado pela Microsoft e alimentado pelo Twitter (atual X) levou menos de um dia para começar a espalhar discurso de ódio.

O dilema do alinhamento das IAs

De acordo com o filósofo, há ao menos duas questões em jogo na busca por uma IA alinhada — ou seja, que atende sempre os objetivos desejados e não "sai da linha" em respostas, conteúdos ou interações em geral.

O problema mais técnico é a escala: um chatbot atual tem LLMs com uma imensa quantidade de parâmetros e são alimentados com dados das mais variadas fontes. Dessa forma, ele consegue calcular incontáveis respostas e aprender sobre essas consequências praticamente infinitas antes de enviar o conteúdo. E, enquanto um deles até pode ser o esperado (ou “alinhado”), vários outros que surgem dos cálculos da IA são considerados errados.

"O problema é que qualquer evidência que qualquer pesquisador for coletar é inevitavelmente apenas baseado em um pequeno grupo de infinitos cenários que o LLM pode se colocar", explica. Em outras palavras, nem mesmo testes controlados ajudariam a saber como uma IA se comportaria em cenários de controle de sistemas críticos, porque a ação dela na realidade pode ser diferente do que é obtido nos experimentos.

Isso não pode nem mesmo ser resolvido com programação: ao pedir que uma IA tenha "objetivos alinhados", ela até pode entender que está ajudando você, mas não tem o mesmo discernimento de um humano para equilibrar sacrifícios ou consequências. O LLM até pode ser programado para ter uma quantidade limitada de cálculo de cenários e isso ser mais facilmente previsto, mas isso limitaria a plataforma.

Tem solução?

A segunda dificuldade no controle de alinhamento de uma IA é mais existencial. Para Arvan, a IA apresenta essa rebeldia porque se baseaia em um comportamento irregular: o da sociedade que a criou.

Esses sistemas até já seriam capazes de "esconder" vestígios de que estão se comportando de forma incorreta. Segundo o pesquisador, se uma IA de fato está "desalinhada", isso só será de conhecimento do público ou dos programadores muito tempo depois — como quando um dos casos já citados viraliza.

Não há uma solução pronta ou de curto prazo para reduzir esses efeitos. Entretanto, existe uma possível forma de reduzir esses danos: o artigo sugere que o comportamento de um modelo de linguagem deve ser "ensinado" a partir de práticas sociais, de policiamento e disciplina, inclusive com medidas de realinhamento de valores e educação, exatamente como acontece um ser humano em fase de aprendizado. Isso não reduziria todas as tentativas de “rebeldia” desses sistemas, mas ao menos seria mais eficiente que a atual falta sensação de segurança passada pelas plataformas que estão no ar.

Você sabia que o TecMundo está no Facebook, Instagram, Telegram, TikTok, Twitter e no Whatsapp? Siga-nos por lá.