GAC: Rausch-bewusstes adaptives Mischen für hybrids SFT-RL Post-Training

arXiv:2605.26184v1 Ankündigungstyp: neu Abstract: Hybrids Post-Training kombiniert üblicherweise überwachtes Fine-Tuning und Reinforcement Learning, aber feste Mischungspläne können sich nicht anpassen, wenn sich das relative Rauschen der beiden Signale über die Zeit ändert. Wir stellen GAC vor, einen rausch-bewussten Controller, der eine adaptive