Single-Position Intervention schlägt fehl: Verteilte Output Templates treiben In-Context Learning an

arXiv:2605.04061v1 Ankündigungstyp: neu Abstract: Das Verständnis dafür, wie Large Language Models die Aufgabenidentität aus Few-Shot Demonstrationen kodieren, ist ein zentrales offenes Problem in der mechanistischen Interpretierbarkeit. Frühere Arbeiten verwenden Linear Probing, um Aufgabendarstellungen zu lokalisieren und berichten hohe Klassifizierungsgenauigkeit