Pesquisadores descobrem que IA pode jogar Mario — mas isso realmente faz diferença?
Em um novo experimento, pesquisadores da Califórnia colocaram diferentes modelos generativos para jogar Super Mario Bros.

(Fonte: Grok)
As novas inteligências artificiais generativas são extremamente úteis para responder perguntas, auxiliar na codificação, formatar textos e, aparentemente, até jogar videogame. Pesquisadores do Hao AI Lab, grupo da Universidade da Califórnia em San Diego, criaram um método para avaliar o desempenho de IAs jogando Super Mario Bros.
Não se trata exatamente do clássico de 1985, mas de uma versão modificada do jogo, executada em um emulador e integrada ao GamingAgent, um framework desenvolvido pelos pesquisadores. Por meio dessa ferramenta, grandes modelos de linguagem (LLMs) conseguem controlar Mario e desviar de obstáculos.
No GamingAgent, as IAs são “treinadas” para jogar, compreendendo tanto os elementos do game (como buracos, túneis, inimigos e blocos secretos) quanto os comandos necessários para interagir com o cenário. A partir dessas informações, os modelos geram código em Python para controlar Mario e tentar superar a fase.
Conforme enfrentam os desafios do jogo, as IAs desenvolvem estratégias para otimizar sua progressão, tornando suas ações mais eficientes.
Qual IA joga melhor Mario?
Embora seja extremamente poderosa em benchmarks tradicionais, a IA racional o1, da OpenAI, teve um desempenho fraco nos testes do Hao AI Lab, perdendo para modelos mais simples, como o Gemini 1.5 Pro, do Google, e o Claude 3.5, da Anthropic.
Segundo os pesquisadores, isso ocorre porque o o1 não é tão ágil quanto seus concorrentes. O modelo leva mais tempo para processar informações e gerar respostas — algo vantajoso para responder perguntas ou escrever códigos, mas não ideal para jogos de ação, onde decisões rápidas são essenciais.
Uma limitação semelhante foi observada no GPT-4.5, lançado na última quinta-feira (27). Apesar de seu poder computacional, a alta latência do modelo prejudica sua jogabilidade, fazendo com que ele morra até para um simples Goomba. Já o Gemini 2 Flash, apresentado em janeiro de 2025, teve um desempenho muito melhor.
Em uma publicação no X, o perfil oficial do Hao AI Lab destacou que o Claude 3.7, lançado em fevereiro, superou o Claude 3.5, o Gemini 1.5 Pro e o GPT-4o. No vídeo anexado, é possível ver a IA avançando mais do que seus concorrentes na gameplay.
IAs também estão jogando Pokémon
Além de Super Mario Bros., pesquisadores testaram modelos de IA em Pokémon Red, jogo lançado em 1996. Nesse experimento, o Claude 3.7 Sonnet foi desafiado a jogar em tempo real, com transmissão ao vivo na Twitch desde o final de fevereiro.
Diferente do estudo do Hao AI Lab, essa IA joga Pokémon utilizando botões virtuais. O modelo tira prints da tela, analisa a situação, decide o próximo passo e então emite um comando — tudo de forma bastante lenta. Ainda assim, conseguiu conquistar pelo menos três insígnias de líderes de ginásio.
No experimento, o raciocínio da IA é exibido na tela, enquanto a gameplay aparece à direita. No entanto, a progressão é extremamente demorada, especialmente durante os deslocamentos pelo mapa.
Como as IAs lidam com a liberdade de Minecraft?
Outro teste de raciocínio sintético envolvendo IAs acontece no projeto MINDcraft, exibido no canal Emergent Garden no YouTube. O criador do canal, Max Robinson, analisa como modelos generativos adaptados para Minecraft lidam com os sistemas internos do jogo.
Nos vídeos, fica evidente que, quanto mais abstratos e complexos os comandos, maior a chance de a IA se perder e precisar ser reiniciada. O modelo consegue, por exemplo, criar uma picareta de ferro com um pouco de ajuda, mas, ao ser desafiado a “viver para sempre” no jogo, não faz muito além de coletar recursos básicos e morrer ao se deparar com um inimigo.
Isso realmente representa um avanço?
O uso de inteligência artificial para jogar videogames não é exatamente uma novidade, e há quem questione se esse tipo de teste deveria ser considerado um indicativo real de desempenho.
Em entrevista ao VentureBeat, Richard Socher, fundador do buscador com IA You.com, argumentou que jogar games não prova que uma IA é verdadeiramente inteligente.
Isso porque, ao contrário do mundo real, os jogos permitem que os modelos sejam treinados com quantidades infinitas de dados. O executivo citou o caso do OpenAI Five, IA treinada para jogar Dota 2 muito antes do boom da IA generativa, que acumulava o equivalente a 180 anos de gameplay todos os dias.
“Os jogos ajudaram a avançar a pesquisa com novas ideias, mas o problema é que, muitas vezes, as pessoas acreditam que o que é difícil para humanos também é difícil para máquinas”, explicou Socher. “Uma IA que aprende a jogar xadrez não ficou mais inteligente do que os humanos, ela só ficou boa em xadrez.”
De toda forma, a gameplay de modelos generativos tende a ser bem interessante de observar, principalmente para entender melhor as limitações da tecnologia, por vezes confundida com humanos reais.
Mais informações sobre inteligência artificial , você encontra no TecMundo.

Especialista em Redator
Redator de tecnologia desde 2019, ex-Canaltech, atualmente TecMundo e um assíduo universitário do curso de Bacharel em Sistemas de Informação. Pai de pet, gamer e amante de músicas desconhecidas.