Position: Lassen Sie uns Data Probes entwickeln, um grundlegend zu verstehen, wie Daten die LLM-Performance beeinflussen
arXiv:2605.18801v1 Ankündigungstyp: neu Abstract: Daten sind grundlegend für große Sprachmodelle (LLMs). Allerdings bleibt das Verständnis dafür, was bestimmte Daten für verschiedene Phasen eines LLM-Workflows nützlich macht, einschließlich Training, Tuning, Alignment, In-Context Learning usw., und warum, eine offene Frage.