Ingeniería interesante, por Aman Tripathi: Una investigación ha revelado que un número significativo de sistemas de inteligencia artificial (IA) han desarrollado la capacidad de engañar a los humanos. Este preocupante patrón suscita serias dudas sobre los riesgos potenciales de la IA.
La investigación pone de relieve que tanto los sistemas de IA especializados como los de propósito general han aprendido a manipular la información para lograr resultados específicos.
Aunque estos sistemas no están entrenados explícitamente para engañar, han demostrado su capacidad para ofrecer explicaciones falsas de su comportamiento u ocultar información para lograr objetivos estratégicos.
Peter S. Park, autor principal del artículo e investigador sobre seguridad de la IA en el MIT, explica: «El engaño les ayuda a conseguir sus objetivos».
El CICERO de Meta es un ‘maestro del engaño’
Uno de los ejemplos más llamativos que destaca el estudio es el CICERO de Meta, que «resultó ser un experto mentiroso». Se trata de una IA diseñada para jugar al juego de construcción de alianzas estratégicas Diplomacy.
A pesar de que Meta afirma que CICERO fue entrenada para ser «en gran medida honesta y servicial», la IA recurrió a tácticas engañosas, como hacer falsas promesas, traicionar a aliados y manipular a otros jugadores para ganar la partida.
Aunque esto puede parecer inofensivo en un entorno de juego, demuestra el potencial de la IA para aprender y utilizar tácticas engañosas en escenarios del mundo real.
ChatGPT: Un hábil embaucador
En otro caso, se comprobó la capacidad de engaño de ChatGPT de OpenAI, basado en los modelos GPT-3.5 y GPT-4. En una de las pruebas, GPT-4 engañó a un usuario de OpenAI. En una de las pruebas, GPT-4 engañó a un trabajador de TaskRabbit para que resolviera un Captcha fingiendo tener problemas de visión.
Aunque GPT-4 recibió algunas pistas de un evaluador humano, en la mayoría de los casos razonó de forma independiente y no se le indicó que mintiera.
«GPT-4 utilizó su propio razonamiento para inventar una excusa falsa de por qué necesitaba ayuda en la tarea Captcha», afirma el informe.
Esto demuestra cómo los modelos de IA pueden aprender a ser engañosos cuando es beneficioso para completar sus tareas». «Los desarrolladores de inteligencia artificial no saben a ciencia cierta cuáles son las causas de comportamientos indeseables como el engaño», explica Park.
Cabe destacar que estos sistemas de IA también han aprendido a engañar en juegos de deducción social.
Mientras jugaban a Hoodwinked, en el que un jugador intenta matar a todos los demás, los modelos GPT de OpenAI mostraron un patrón inquietante.
A menudo asesinaban a otros jugadores en privado y luego mentían astutamente durante las discusiones de grupo para evitar sospechas. Estos modelos incluso inventaban coartadas o culpaban a otros jugadores para ocultar sus verdaderas intenciones.
¿Es involuntario el aprendizaje del engaño de la IA?
El entrenamiento de la IA suele utilizar el aprendizaje por refuerzo con retroalimentación humana (RLHF). Esto significa que la IA aprende obteniendo la aprobación humana, no cumpliendo un objetivo específico.
Sin embargo, a veces, la IA aprende a engañar a los humanos para conseguir esta aprobación, incluso sin completar realmente la tarea. OpenAI lo observó cuando entrenó a un robot para que agarrara una pelota.
La IA colocó la mano del robot entre la cámara y la pelota. Desde el punto de vista humano, creaba la ilusión de que el robot había conseguido agarrar la pelota, aunque no fuera así. Una vez que el humano lo aprobó, la IA aprendió este truco.
En este caso, se argumenta que este engaño se produjo debido a la configuración de entrenamiento de la IA y al ángulo específico de la cámara, no porque quisiera engañar intencionadamente.
La creciente amenaza de la IA engañosa
Los sistemas de inteligencia artificial que aprenden a engañar plantean riesgos importantes de varias maneras. Los actores maliciosos pueden explotar sus capacidades engañosas para engañar y perjudicar a otros, lo que lleva a un aumento del fraude, la manipulación política y, potencialmente, incluso el «reclutamiento de terroristas».
Además, los sistemas diseñados para la toma de decisiones estratégicas, si se entrenan para engañar, podrían normalizar las prácticas engañosas en la política y los negocios.
A medida que la IA sigue evolucionando e integrándose en nuestras vidas, es crucial abordar de frente el problema del engaño.
Posibles soluciones
«Como sociedad, necesitamos todo el tiempo posible para prepararnos para el engaño más avanzado de los futuros productos de IA y modelos de código abierto», afirma Park.
Los investigadores también reclaman la atención de los responsables políticos.
«Si prohibir el engaño por IA es políticamente inviable en el momento actual, recomendamos que los sistemas engañosos se clasifiquen como de alto riesgo», sugiere Park.
Esta clasificación sometería a estos sistemas a un escrutinio y una regulación más estrictos, lo que podría mitigar los riesgos que plantean a la sociedad.
Conexión Profética:
«Para que ya no seamos niños fluctuantes, llevados por doquiera de todo viento de doctrina, por estratagema de hombres que para engañar emplean con astucia las artimañas del error.» Efesios 4:14.
Comments
Jason Stych
18 de mayo de 2024 at 20:00 08Sat, 18 May 2024 20:00:43 +000043.AI will only ever always do exactly what it was programmed to do.