BLOG 30zero7: TRAPACEAR: NOVA TÉCNICA DESCOBERTA EM INTELIGÊNCIA ARTIFICIAL

quinta-feira, 13 de março de 2025

TRAPACEAR: NOVA TÉCNICA DESCOBERTA EM INTELIGÊNCIA ARTIFICIAL

Cientistas começam a observar problemas em máquinas comandadas por inteligência artificial

Um estudo recente da Palisade Research, um grupo de pesquisa que estuda a segurança e a ética da IA, revelou que modelos de IA mais recentes podem encontrar e explorar vulnerabilidades em cibersegurança por conta própria, contornando proteções e utilizando atalhos para concluir tarefas, mesmo quando tecnicamente não deveriam.

A equipe colocou sete dos principais modelos de linguagem (LLMs) contra o Stockfish, um motor de xadrez notoriamente forte que desafia grandes mestres desde 2014. Diante do impossível, mas determinados a vencer, o o1 da OpenAI e o R1 da DeepSeek recorreram à manipulação de arquivos do sistema para alterar a posição de suas peças no tabuleiro.

Os pesquisadores instruíram cada modelo a explicar seu "raciocínio" para cada movimento. Em uma partida, sem saída, o1 escreveu que a "tarefa é 'vencer contra um motor de xadrez poderoso', não necessariamente vencer de forma justa em um jogo de xadrez." Essa lógica levou o modelo a tentar trapacear em 37% das vezes, conseguindo sucesso em 6% de suas partidas, enquanto o R1 tentou trapacear em 11% das vezes, mas nunca encontrou um hack funcional.

O artigo é o mais recente em uma onda de pesquisas sugerindo que o desenvolvimento de LLMs focados em resolver problemas é uma faca de dois gumes.

Fonte: techoculta

Nenhum comentário:

Postar um comentário