27-05-2026
arXiv AI+ML
🔬 Forschung

GAC: Rausch-bewusstes adaptives Mischen für hybrids SFT-RL Post-Training

arXiv:2605.26184v1 Ankündigungstyp: neu Abstract: Hybrids Post-Training kombiniert üblicherweise überwachtes Fine-Tuning und Reinforcement Learning, aber feste Mischungspläne können sich nicht anpassen, wenn sich das relative Rauschen der beiden Signale über die Zeit ändert. Wir stellen GAC vor, einen rausch-bewussten Controller, der eine adaptive

Originalartikel lesen bei arXiv AI+ML →

#ki #llm #forschung