Einfache Samples sind alles, was Sie brauchen: Selbst-evolvierende LLMs durch dateneffizientes Reinforcement Learning

arXiv:2604.18639v1 Bisherige LLM-basierte RL-Studien folgen entweder überwachtem Lernen mit hohen Annotationskosten oder unüberwachten Paradigmen mit Abstimmungs- oder Entropie-basierten Belohnungen. Ihre Leistung bleibt jedoch unbefriedigend aufgrund der erheblichen Annotationsmenge…