feeds - Could we have predicted emergent misalignment a priori using unsupervised behaviour elicitation? (Kagi - smallweb)

home | feeds |donate

could we have predicted emergent misalignment a priori using unsupervised behaviour elicitation?