Blinde Verweigerung: Sprachmodelle verweigern Hilfe bei der Umgehung ungerechter, absurder und illegitimer Regeln

Safety-trainierte Sprachmodelle verweigern routinemäßig Anfragen zur Umgehung von Regeln. Aber nicht alle Regeln verdienen Compliance. Wenn Nutzer um Hilfe bitten, Regeln einer illegitimen Autorität zu umgehen, Regeln, die zutiefst ungerecht oder absurd sind…