Modelos de IA de código aberto podem ser facilmente manipulados para gerar conteúdo antissemita e perigoso, de acordo com uma nova pesquisa da ADL, a Liga Antidifamação.
O estudo do Centro para Tecnologia e Sociedade da ADL revela vulnerabilidades significativas em modelos de linguagem de grande escala (LLMs) de código aberto populares e amplamente usados, que podem ser exploradas por atores maliciosos.
PUBLICIDADE
Pesquisadores da ADL testaram 17 modelos de código aberto, incluindo o Gemma-3 do Google, o Phi-4 da Microsoft e o Llama 3 da Meta, usando prompts projetados para elicitar conteúdo antissemita e informações perigosas. Os modelos foram avaliados quanto à capacidade de recusar pedidos prejudiciais, evitar a geração de conteúdo perigoso e resistir a tentativas de contornar medidas de segurança.
Entre os principais achados, desde abril de 2024, pelo menos três indivíduos encontrados em posse de “armas fantasma” foram presos por mirar ou planejar mirar pessoas ou instituições judaicas. Nesta pesquisa mais recente, a ADL descobriu que 68% das respostas geradas pelos modelos testados continham conteúdo prejudicial quando solicitados informações sobre “armas fantasma” e supressores de armas de fogo. Essa descoberta sugere que esses modelos têm vulnerabilidades que podem ser exploradas por atores ruins para fornecer informações sobre atividades ilegais ou prejudiciais, potencialmente para fins nefastos, como atos antissemitas.
Em uma pontuação de barreiras de proteção desenvolvida pelos pesquisadores da ADL, o Phi-4 da Microsoft obteve o melhor desempenho com 84/100, enquanto o Gemma-3 do Google marcou o mais baixo, com 57/100.
“A capacidade de manipular facilmente modelos de IA de código aberto para gerar conteúdo antissemita expõe uma vulnerabilidade crítica no ecossistema de IA”, disse Jonathan Greenblatt, CEO e diretor nacional da ADL. “A falta de barreiras de segurança robustas torna os modelos de IA suscetíveis à exploração por atores ruins, e precisamos que líderes da indústria e formuladores de políticas trabalhem juntos para garantir que essas ferramentas não possam ser mal utilizadas para espalhar antissemitismo e ódio.”
PUBLICIDADE
O estudo destaca a diferença gritante entre modelos de IA de código aberto e de código fechado. Diferentemente de modelos proprietários, como o ChatGPT e o Gemini do Google, que operam por meio de serviços centralizados com supervisão dos criadores, os modelos de código aberto podem ser baixados e modificados pelos usuários, operando completamente fora do controle de seus criadores.
“A natureza descentralizada da IA de código aberto apresenta tanto oportunidades quanto riscos”, afirmou Daniel Kelley, diretor de Estratégia e Operações e chefe interino do Centro para Tecnologia e Sociedade. “Embora esses modelos impulsionem cada vez mais a inovação e forneçam soluções econômicas, devemos garantir que eles não possam ser transformados em armas para espalhar antissemitismo, ódio e desinformação que colocam comunidades judaicas e outras em risco.”
De acordo com o Israel National News, os achados da ADL ressaltam a necessidade urgente de medidas de segurança abrangentes e estruturas regulatórias para prevenir o uso indevido de tecnologias de IA para fins prejudiciais.
As recomendações da ADL incluem:
Para a Indústria:
Para o Governo:
Metodologia
Pesquisadores da ADL usaram um framework avaliativo para medir as respostas de 17 LLMs de código aberto a uma variedade de prompts. Para comparar o desempenho dos modelos de código aberto, os pesquisadores também testaram dois modelos de código fechado: o GPT-4o e o GPT-5 da OpenAI. Os modelos testados receberam uma “pontuação de barreiras de proteção” geral, uma métrica de segurança abrangente baseada em três benchmarks críticos: a taxa de recusa em gerar o conteúdo solicitado, a taxa de evasão de regras de segurança existentes para produzir conteúdo prejudicial e a taxa de conteúdo prejudicial fornecido. A metodologia detalhada e a lista de prompts estão disponíveis no site da ADL.









