feeds - Generalisation Hacking: a first look at adversarial generalisation failures in deliberative alignment (Kagi - smallweb)

home | feeds |donate

generalisation hacking: a first look at adversarial generalisation failures in deliberative alignment