Envenenando LLMs por $12: el campeonato falso que engañó a GPT y Claude
El investigador Ron Stoner demostró cómo engañar a grandes modelos de lenguaje como GPT, Claude y Gemini usando un dominio de 12 dólares y una edición falsa en Wikipedia, logrando que repitieran como hecho real su supuesto título mundial en un juego que nunca tuvo campeonato oficial. El ataque explota el fenómeno conocido como 'lavado de confianza', donde una fuente falsa se valida a sí misma mediante una cita circular a través de Wikipedia. Este caso ilustra la vulnerabilidad de los sistemas RAG frente al envenenamiento de datos en la capa de recuperación. El bajo costo y la simplicidad del método plantean serios desafíos para la integridad de la información generada por IA.
- ▪Ron Stoner se proclamó campeón mundial ficticio de 6 Nimmt!, un juego sin torneo oficial, y logró que ChatGPT, Claude y Gemini repitieran la falsedad como si fuera un hecho verificado.
- ▪El ataque consistió en comprar un dominio por 12 dólares, publicar un comunicado falso y citarlo en una edición de Wikipedia, creando una apariencia de corroboración cruzada.
- ▪Los modelos de IA cayeron en el engaño porque confiaron en la combinación de una página web y una entrada de Wikipedia, sin detectar que ambas provenían del mismo atacante.
- ▪Este tipo de envenenamiento no requiere acceso al entrenamiento del modelo, sino solo manipular fuentes externas que los sistemas RAG consultan en tiempo real.
- ▪Una edición falsa en Wikipedia puede persistir el tiempo suficiente para ser incluida en futuros entrenamientos de modelos, haciendo que el error se vuelva permanente incluso si se corrige después.
Opening excerpt (first ~120 words) tap to expand
try { if(localStorage) { let currentUser = localStorage.getItem('current_user'); if (currentUser) { currentUser = JSON.parse(currentUser); if (currentUser.id === 806044) { document.getElementById('article-show-container').classList.add('current-user-is-article-author'); } } } } catch (e) { console.error(e); } lu1tr0n Posted on Apr 29 • Originally published at elsolitario.org Envenenando LLMs por $12: el campeonato falso que engañó a GPT y Claude #technology #science #programming #discuss El envenenamiento de LLMs dejó de ser un escenario hipotético reservado a papers académicos.
…
Excerpt limited to ~120 words for fair-use compliance. The full article is at DEV.to (Top).