Wie Transformer durch Multi-Token-Vorhersage Planen erlernen
arXiv:2604.11912v1 Ankündigungstyp: Neu Abstract: Während Next-Token-Vorhersage (NTP) das Standardziel für das Training von Sprachmodellen war, gelingt es ihr oft nicht, globale Strukturen in Reasoning-Aufgaben zu erfassen. Multi-Token-Vorhersage (MTP) ist kürzlich als vielversprechende Alternative aufgetaucht, doch seine…