DynaTrain: Schnelles Online-Wechseln von Parallelismus für elastisches LLM-Training

arXiv:2605.18815v1 Ankündigungstyp: neu Zusammenfassung: Das Training moderner Large Language Models (LLM) ist inhärent dynamisch: Ressourcenschwankungen, RLHF-Phasenwechsel und Cluster-Elastizität verändern ständig das optimale Parallelismus-Layout, was eine erhebliche Herausforderung für bestehende Trainings-Frameworks darstellt