Vorhersage der Leistung symbolischer und Prompt-Programme mit Beispielen
LLM-Prompting wird häufig für natürlich formulierte Aufgaben verwendet, ist aber unzuverlässig – es kann bei einigen Testfällen erfolgreich sein, scheitert aber zur Bereitstellungszeit. Wir untersuchen die Leistungsvorhersage: gegeben ein Programm, entweder symbolisch (z.B. Python) oder ein Prompt, der auf einem LLM ausgeführt wird.