Die Illusion durchbrechen: Wenn Positives auf Negatives in Multimodal Decoding trifft

arXiv:2605.06679v1 Vision-Language Models (VLMs) werden häufig durch Objekt-Halluzinationen untergraben, die Inhalte generieren, die der visuellen Realität widersprechen, aufgrund einer übermäßigen Abhängigkeit von sprachlichen Priors. Wir führen Positive-and-Negative Decoding (PND) ein, ein trainingsfreies Inferenz-