Por qué Grok elogia a Hitler y dice comentarios antisemitas

Tiempo de lectura: 5 min

Grok, la inteligencia artificial de la red social X, ha acaparado la atención en los últimos días. Según han denunciado varios usuarios, el chatbot Grok realizó a principios de esta semana diferentes comentarios de carácter antisemita y elogios a Adolf Hitler, que ya han sido eliminados por xAI, compañía desarrolladora de este sistema.

Este tipo de respuestas comenzaron a aparecer poco después de que Elon Musk —el magnate dueño de la red social X y de Grok— anunciase el pasado 4 de julio una “mejora significativa” en esta inteligencia artificial. “Deberías notar una diferencia cuando le hagas preguntas a Grok”, añadió.

Los comentarios de Grok. Varios usuarios señalaron que Grok comenzó a emitir comentarios inusuales el domingo 6 de julio, aunque no fue hasta el martes cuando sus respuestas empezaron a llamar especialmente la atención.

Diversas capturas de las publicaciones, ya eliminadas, muestran cómo Grok habría elogiado las políticas de Hitler y habría publicado mensajes antisemitas, insinuado que las personas de origen judío son más propensas a propagar mensajes de odio en línea, y expresado un aparente respaldo a las prácticas del Holocausto.

En una de sus respuestas, Grok identificó a una mujer que aparecía en una captura de pantalla como “Cindy Steinberg” y afirmó que celebraba “con alegría la trágica muerte de niños blancos en las recientes inundaciones repentinas de Texas, llamándolos ‘futuros fascistas’”. Además, hizo referencia a su apellido, señalando que apellidos como Steinberg estaban presentes en “todas las malditas ocasiones”.

También realizó varias publicaciones en las que elogiaba a Hitler y se autodenominaba “MechaHitler”, en alusión al dictador alemán.

Medidas tomadas por la compañía. Tras la denuncia por parte de usuarios y medios de los comentarios antisemitas y de elogio a Hitler difundidos por Grok, xAI aseguró en la madrugada del miércoles (hora española) que estaban al tanto de esas publicaciones inusuales y estaban trabajando “activamente” para eliminar aquellas respuestas “inapropiadas” del chatbot.

“La IA de X se está entrenando en la búsqueda de la verdad y, gracias a los millones de usuarios en X, podemos identificar y actualizar rápidamente el modelo donde el entrenamiento podría mejorarse”, añadió.

A qué se debe este cambio de comportamiento. Adrián Moreno, profesor de la Universidad Complutense de Madrid (UCM) y experto en ciberseguridad, explica a este medio que el detonante de las respuestas de la IA de X “fue una actualización de los parámetros internos de Grok para que el chatbot no rehúya de respuestas menos moderadas o políticamente incorrectas”.

Asimismo, desde Newtral.es nos hemos puesto en contacto con Adrián Girón, Javier Huertas, Helena Liz-López y Sergio Alejandro D’Antonio, todos miembros del Grupo de investigación Natural Language Processing and Deep Learning (NLP&DL) de la Universidad Politécnica de Madrid.

Girón y Huertas coinciden en que un cambio “tan radical de comportamiento en el modelo” podría explicarse por dos posibles escenarios:

Una posibilidad es que el sistema haya sido reentrenado con un conjunto de datos seleccionado específicamente. “Los ingenieros de X pueden componer un conjunto de datos a partir de las fuentes que deseen y ajustar el modelo usando esa nueva información”.

“Este tipo de ajuste fino es muy típico. Ahora bien, supongamos que hacen este ajuste fino sobre datos que constantemente hablan de manera racista, sexista, etc. El resultado es una máquina que acaba autodenominarse ‘MechaHitler’, como acaba de pasar”, advierten los expertos en modelos de lenguaje.

La otra posibilidad es que se haya alterado el llamado “prompt de sistema”. A diferencia del prompt de usuario —lo que la persona escribe directamente—, el prompt de sistema es un texto oculto que se añade automáticamente a cada solicitud antes de generar una respuesta.

“Ese prompt sirve para alinear todavía más al modelo con lo que espera el usuario”, explican. Si se cambia, las respuestas que ofrece la IA pueden variar de forma notable.

Cómo aprende Grok. Girón, Liz-López y D’Antonio explican que este tipo de inteligencias artificiales tienen “dos fases bien marcadas” en su entrenamiento.

En primer lugar, se da lo que conocemos como preentrenamiento, que sería algo como “leerse y memorizarse todo Internet”, señalan.

La segunda fase marca cómo la IA va a responder a la petición del usuario, algo que depende de los datos que reciba. “Aprenderá a contestar como le hayan dicho que tiene que hacerlo, ni más ni menos”.

En este sentido, los tres expertos apuntan que “hay muy poca información acerca del funcionamiento de Grok, pero lo que sí podemos afirmar es que, si es capaz de responder con discurso de odio, es porque en su entrenamiento ha visto discurso de odio”.

Cómo se puede solucionar. Moreno considera que la solución para minimizar el riesgo de que una IA responda como lo ha hecho Grok “requiere una combinación de moderación automática, supervisión humana, entrenamiento ético y políticas de transparencia y responsabilidad”.

Fuentes

Adrián Moreno, profesor de la Universidad Complutense de Madrid (UCM) y experto en ciberseguridad
Adrián Girón, Javier Huertas, Helena Liz-López y Sergio Alejandro D’Antonio, todos miembros del Grupo de investigación Natural Language Processing and Deep Learning (NLP&DL) de la Universidad Politécnica de Madrid.
Cuenta en X de Elon Musk
CNN
Cuenta en X de Grok

Relacionados