Cientistas começam a observar problemas em máquinas comandadas por inteligência artificial
Um estudo recente da Palisade Research, um grupo de pesquisa que estuda a segurança e a ética da IA, revelou que modelos de IA mais recentes podem encontrar e explorar vulnerabilidades em cibersegurança por conta própria, contornando proteções e utilizando atalhos para concluir tarefas, mesmo quando tecnicamente não deveriam.
A equipe colocou sete dos principais modelos de linguagem (LLMs) contra o Stockfish, um motor de xadrez notoriamente forte que desafia grandes mestres desde 2014. Diante do impossível, mas determinados a vencer, o o1 da OpenAI e o R1 da DeepSeek recorreram à manipulação de arquivos do sistema para alterar a posição de suas peças no tabuleiro.
Os pesquisadores instruíram cada modelo a explicar seu "raciocínio" para cada movimento. Em uma partida, sem saída, o1 escreveu que a "tarefa é 'vencer contra um motor de xadrez poderoso', não necessariamente vencer de forma justa em um jogo de xadrez." Essa lógica levou o modelo a tentar trapacear em 37% das vezes, conseguindo sucesso em 6% de suas partidas, enquanto o R1 tentou trapacear em 11% das vezes, mas nunca encontrou um hack funcional.
O artigo é o mais recente em uma onda de pesquisas sugerindo que o desenvolvimento de LLMs focados em resolver problemas é uma faca de dois gumes.
Fonte: techoculta
Nenhum comentário:
Postar um comentário