Une étude révèle une faille majeure des modèles de langage multimodaux : ils peinent à adopter le point de vue spatial d’autrui. Cette limitation cognitive remet en question leur utilisation dans des contextes collaboratifs où la perspective visuelle compte.
CE QUI CHANGE
Les modèles de langage multimodaux (MLM) montrent des déficits prononcés dans la prise de perspective visuospatiale. Contrairement aux humains, ils échouent massivement à inhiber leur propre point de vue pour adopter celui d’une autre personne dans l’espace.
ANALYSE TECHNIQUE
Deux tests révélateurs adaptés de la psychologie cognitive
Les chercheurs ont adapté deux évaluations classiques des études humaines. Le Director Task évalue la capacité à communiquer en tenant compte du point de vue d’autrui dans un contexte référentiel. Le Rotating Figure Task teste la prise de perspective à travers différents angles de vision.
L’échec du « Level 2 VPT »
La distinction est cruciale : le Level 1 VPT consiste à savoir ce que voit autrui, le Level 2 à comprendre comment autrui voit les objets selon son angle. Les MLM échouent systématiquement sur ce second niveau, pourtant fondamental pour la collaboration.
Une limitation architecturale profonde
Cette faiblesse n’est pas anecdotique. Elle révèle que ces modèles, malgré leurs performances impressionnantes, manquent de représentations internes robustes pour simuler des perspectives alternatives. Ils restent « centrés » sur leur propre point de vue computationnel.
Implications pour le déploiement en conditions réelles
Dans des contextes où la position spatiale compte – navigation assistée, instruction d’assemblage, collaboration robotique – cette limitation devient critique. Les modèles risquent de générer des instructions inadéquates ou dangereuses.
IMPACT POUR LES PROFESSIONNELS
Médecins : Attention aux applications d’IA d’aide au diagnostic par imagerie. Un modèle incapable de changer de perspective spatiale pourrait mal interpréter des orientations anatomiques ou des angles de vue radiologiques.
Chercheurs : Cette découverte ouvre un champ de recherche prioritaire. Développer des architectures capables de « theory of mind » spatiale devient un enjeu majeur pour l’IA collaborative.
Entrepreneurs : Reconsidérez vos projets impliquant navigation, robotique ou assistance spatiale. Les modèles actuels ne sont pas prêts pour des tâches nécessitant une vraie compréhension des perspectives multiples.
CE QU’IL FAUT RETENIR
- Les IA multimodales actuelles échouent à adopter le point de vue spatial d’autrui, une capacité pourtant basique chez l’humain
- Cette limitation remet en question leur fiabilité dans tous les contextes collaboratifs impliquant l’espace
- Un nouveau champ de recherche s’ouvre pour développer des modèles capables de « theory of mind » visuospatiale
SUPRATHINK LLM INTELLIGENCE
Restez à la pointe des LLM
Veille hebdomadaire · Analyses exclusives · Communauté de professionnels
Source : ArXiv CS.CL — NLP & LLM





