Zur Spektralgeometrie von Cross-Modal Repräsentationen: Ein Funktional-Map-Diagnose-Tool für Multimodal Alignment
arXiv:2604.08579v1 Ankündigungstyp: neu Abstract: Wir untersuchen Cross-Modal Alignment zwischen unabhängig vortrainierten Vision- (DINOv2) und Language- (all-MiniLM-L6-v2) Encodern unter Verwendung des Funktional-Map-Frameworks aus der Computational Geometry, das die Entsprechung zwischen Repräsentations-Mannigfaltigkeiten darstellt