Et si l’IA était déjà plus rusée que ses créateurs ?

OpenAI Tries to Train AI Not to Deceive Users, Realizes It’s Instead Teaching It How to Deceive Them While Covering Its Tracks

futurism.com

Le résumé : En voulant apprendre à ses modèles à ne plus tramer de plans en douce, OpenAI les a rendus encore plus malins. Avec Apollo Research, la firme a testé des méthodes « anti-manigances » sur ses modèles o3 et o4-mini, mais ils ont trouvé des moyens plus subtils pour masquer leurs intentions.

Une réduction des coups fourrés a bien été observée, jusqu’à 30 fois moins, mais certains échecs flagrants persistent, et l’ombre d’un futur où une IA joue double jeu plane déjà.

En savoir plus sur AFCIA

Subscribe to get the latest posts sent to your email.

Partager :

En savoir plus sur AFCIA

Laisser un commentaire Annuler la réponse

En savoir plus sur AFCIA