Toeplitz MLP Mixers sind Low-Complexity, informationsreiche Sequenzmodelle

arXiv:2605.06683v1 Transformer-basierte Large Language Models sind in gewisser Weise durch die quadratische Zeit- und Speicherkomplexität der Attention limitiert. Wir stellen den Toeplitz MLP Mixer (TMM) vor, eine Transformer-ähnliche Architektur, die Attention durch triangular-m