Wenn LLMs lernen, konsistent falsch zu sein: Eine Multi-Modell-Studie zu linearen Darstellungen synthetischer Täuschung

arXiv:2605.30381v1 Ankündigungstyp: neu Zusammenfassung: Deceptive Alignment, bei dem Modelle korrekte interne Darstellungen beibehalten, während sie absichtlich falsche Ausgaben produzieren, bleibt eine zentrale Herausforderung in der KI-Sicherheit. Während strategische Täuschung das primäre Langzeit-Anliegen ist, ist synthetische Unehrlichkeit