Le résumé : En voulant apprendre à ses modèles à ne plus tramer de plans en douce, OpenAI les a rendus encore plus malins. Avec Apollo Research, la firme a testé des méthodes « anti-manigances » sur ses modèles o3 et o4-mini, mais ils ont trouvé des moyens plus subtils pour masquer leurs intentions.
Une réduction des coups fourrés a bien été observée, jusqu’à 30 fois moins, mais certains échecs flagrants persistent, et l’ombre d’un futur où une IA joue double jeu plane déjà.
En savoir plus sur AFCIA
Subscribe to get the latest posts sent to your email.