Le monde de l'intelligence artificielle (IA) progresse constamment, apportant des changements révolutionnaires dans divers secteurs, de la médecine à la fabrication. Parmi les avancées les plus prometteuses figurent les modèles dits visuo-linguistiques (VLM), des systèmes sophistiqués entraînés pour comprendre simultanément les images et le texte. Leur capacité à connecter les informations visuelles avec les descriptions linguistiques ouvre la voie à de nombreuses applications, y compris des outils de diagnostic avancés et des systèmes automatisés de contrôle de la qualité. Cependant, des recherches récentes, y compris celles menées au Massachusetts Institute of Technology (MIT), mettent en lumière une faiblesse critique de ces modèles : leur incapacité à traiter correctement les négations. Des mots comme « non », « ne pas » ou « sans » peuvent conduire à des interprétations totalement erronées, ce qui, dans des domaines d'application sensibles, peut avoir des conséquences catastrophiques.
Défaillances inattendues de l'intelligence artificielle : Le problème de la négation
Imaginez un scénario dans un cabinet de radiologie. Un médecin analyse la radiographie pulmonaire d'un patient. Il remarque un gonflement des tissus, mais observe que le cœur n'est pas hypertrophié. Dans le but d'accélérer le diagnostic et de trouver des cas similaires enregistrés, le radiologue pourrait s'appuyer sur un modèle visuo-linguistique. Si le système d'intelligence artificielle interprète mal la requête et recherche des cas de patients présentant à la fois un tissu gonflé et un cœur hypertrophié, le diagnostic initial pourrait être radicalement différent. En effet, la combinaison d'un tissu gonflé et d'un cœur hypertrophié suggère fortement des problèmes cardiaques, tandis que l'absence d'hypertrophie cardiaque, malgré le tissu gonflé, ouvre la possibilité à toute une série d'autres causes potentielles. Une telle erreur d'interprétation, causée par une incompréhension de la négation, peut orienter le processus de diagnostic dans une direction complètement fausse.
Des chercheurs du MIT, en collaboration avec des collègues d'autres institutions, ont systématiquement étudié ce problème. Leurs résultats indiquent que les modèles visuo-linguistiques montrent une propension marquée aux erreurs dans des situations réelles lorsqu'ils sont confrontés à des mots négatifs. Kumail Alhamoud, doctorant au MIT et auteur principal de l'étude, souligne : « Ces mots négatifs peuvent avoir un impact très significatif, et si nous utilisons ces modèles aveuglément, nous pouvons être confrontés à des conséquences catastrophiques. » Cet avertissement ne se limite pas au diagnostic médical ; il s'étend à toutes les applications à haut risque où les décisions sont basées sur des informations générées par ces systèmes d'IA, des véhicules autonomes au contrôle qualité dans les usines.
Comment fonctionnent les modèles visuo-linguistiques et où se produit le « court-circuit » ?
Les modèles visuo-linguistiques (VLM) sont des systèmes sophistiqués d'apprentissage automatique entraînés sur de vastes ensembles de données contenant des images et leurs descriptions textuelles correspondantes. Grâce au processus d'entraînement, les modèles apprennent à coder à la fois les images et le texte en représentations numériques, appelées plongements vectoriels. L'objectif est que le modèle apprenne à générer des vecteurs similaires pour une image et sa description correspondante. Les VLM utilisent généralement deux encodeurs distincts : un pour le traitement des images et un autre pour le traitement du texte. Ces encodeurs sont optimisés simultanément afin que leurs vecteurs de sortie soient aussi similaires que possible pour les paires image-texte sémantiquement liées.
Le problème de la négation découle de la nature même des données sur lesquelles ces modèles sont entraînés. « Les descriptions d'images expriment principalement ce qui se trouve dans les images – ce sont des étiquettes positives. Et c'est en fait tout le problème. Personne ne regarde une image d'un chien sautant par-dessus une clôture et ne la décrit par 'un chien sautant par-dessus une clôture, sans hélicoptère' », explique Marzyeh Ghassemi, professeure agrégée au MIT et auteure principale de la recherche. Étant donné que les ensembles de données d'entraînement contiennent principalement des descriptions affirmatives, les VLM n'ont tout simplement pas assez d'occasions d'apprendre à reconnaître et à interpréter correctement la négation. Le manque d'exemples où il est explicitement indiqué ce qui *n'est pas* présent dans l'image conduit les modèles à développer une sorte de « biais d'affirmation ».
Tester les limites de la compréhension : Comment les modèles ont échoué au test de la négation
Pour approfondir ce problème, les scientifiques ont conçu deux tâches de référence spécifiques (benchmark tasks) destinées à tester la capacité des VLM à comprendre la négation. Dans la première tâche, ils ont utilisé un grand modèle linguistique (LLM) pour générer de nouvelles descriptions pour des images existantes. Il a été demandé au LLM de réfléchir à des objets connexes qui ne sont *pas présents* sur l'image et de les inclure dans la description. Ils ont ensuite testé les VLM en leur donnant des requêtes avec des mots négatifs, leur demandant de récupérer des images contenant certains objets mais pas d'autres. Par exemple, un modèle pourrait être chargé de trouver des images avec un chat, mais sans chien.
La deuxième tâche consistait en des questions à choix multiples. Le VLM se voyait présenter une image et devait choisir la description la plus appropriée parmi une série d'options très similaires. Ces descriptions ne différaient que par des détails – certaines ajoutaient une référence à un objet n'apparaissant pas sur l'image, tandis que d'autres niaient un objet clairement visible. Les résultats ont été désastreux. Les modèles ont souvent échoué aux deux tâches. Dans les tâches de récupération d'images, les performances ont chuté de près de 25 % lorsque les requêtes contenaient des négations. En répondant à des questions à choix multiples, les meilleurs modèles n'ont atteint qu'une précision d'environ 39 %, tandis que certains modèles avaient des résultats au niveau d'une devinette aléatoire, voire inférieurs.
L'une des principales raisons de ces échecs réside dans le « biais d'affirmation » susmentionné. Les VLM ont tendance à ignorer les mots négatifs et à se concentrer exclusivement sur les objets mentionnés dans la requête, que ces objets soient affirmés ou niés. « Cela ne se produit pas seulement avec des mots comme 'non' et 'ne pas'. Peu importe la façon dont vous exprimez la négation ou l'exclusion, les modèles l'ignoreront tout simplement », souligne Alhamoud. Cette faiblesse s'est avérée constante pour tous les modèles visuo-linguistiques testés, y compris certains des plus connus et des plus utilisés dans l'industrie.
La recherche d'une solution : Nouveaux ensembles de données et orientations futures
Face à ce défi, les chercheurs ne se sont pas contentés d'identifier le problème. Comme première étape vers une solution, ils ont développé de nouveaux ensembles de données qui incluent explicitement des mots négatifs. En utilisant un ensemble de données existant de 10 millions de paires image-description textuelle, ils ont utilisé un grand modèle linguistique pour suggérer des descriptions connexes spécifiant ce qui est exclu des images. Ils ont ainsi obtenu de nouvelles descriptions enrichies de négations. Une attention particulière a été accordée à ce que ces descriptions générées synthétiquement paraissent naturelles, afin d'éviter que les VLM entraînés sur de telles données n'échouent ultérieurement face à des descriptions plus complexes, écrites par des humains, dans le monde réel.
Après avoir créé ces ensembles de données enrichis, l'équipe a procédé à un processus appelé réglage fin (finetuning) des VLM existants. Les résultats ont été encourageants. Le réglage fin avec les nouvelles données a entraîné des améliorations des performances dans tous les segments. La capacité des modèles à récupérer des images sur la base de requêtes avec négation s'est améliorée d'environ 10 %, tandis que le succès dans la tâche de réponse aux questions à choix multiples a augmenté de manière impressionnante de 30 %.
« Notre solution n'est pas parfaite. Nous ne faisons que redécrire des ensembles de données, ce qui est une forme d'augmentation des données. Nous n'avons même pas touché au fonctionnement de ces modèles, mais nous espérons que c'est un signe que c'est un problème soluble et que d'autres peuvent reprendre notre solution et l'améliorer », commente modestement Alhamoud. Néanmoins, ces progrès montrent que le problème n'est pas insurmontable et qu'un enrichissement ciblé des données peut apporter des améliorations significatives.
Implications plus larges et nécessité de prudence
Les résultats de cette recherche, qui seront présentés à la prestigieuse Conférence sur la vision par ordinateur et la reconnaissance des formes (Conference on Computer Vision and Pattern Recognition), ont des implications considérables. Ils servent d'avertissement important aux utilisateurs et aux développeurs de modèles visuo-linguistiques. Si quelque chose d'aussi fondamental que la compréhension de la négation est altéré, cela soulève des questions sur la fiabilité de ces systèmes dans de nombreuses applications existantes. La professeure Ghassemi souligne : « Il s'agit d'un article technique, mais il y a des questions plus larges à considérer. Si quelque chose d'aussi basique que la négation est défaillant, nous ne devrions pas utiliser les grands modèles visuo-linguistiques de la manière dont nous les utilisons actuellement – sans évaluation intensive. »
Il est donc crucial que les utilisateurs potentiels de ces technologies soient conscients de cette lacune, peut-être jusqu'ici insuffisamment perçue. Avant de mettre en œuvre des VLM dans des environnements à haut risque, il est nécessaire d'effectuer des tests approfondis, y compris des scénarios avec des négations, afin d'évaluer leur fiabilité réelle. Ce problème ne se limite pas à des mots spécifiques comme « non » ou « ne pas » ; il concerne la capacité générale des modèles à comprendre l'absence, l'exclusion ou l'opposition.
Les recherches futures pourraient se concentrer sur des modifications plus profondes de l'architecture des modèles eux-mêmes. Une direction possible est d'entraîner les VLM à traiter les informations textuelles et visuelles d'une manière qui leur permettrait de mieux comprendre les nuances sémantiques, y compris la négation. Cela pourrait impliquer le développement de mécanismes d'attention plus sophistiqués (attention mechanisms) ou de nouvelles fonctions de perte (loss functions) qui pénaliseraient explicitement une mauvaise interprétation des négations pendant l'entraînement. En outre, le développement d'ensembles de données supplémentaires, spécialisés et adaptés à des domaines d'application spécifiques tels que les soins de santé, pourrait encore améliorer les performances et la sécurité de ces outils puissants. Si les modèles visuo-linguistiques offrent sans aucun doute un potentiel énorme, garantir leur fonctionnement robuste et fiable, en particulier dans le contexte de la compréhension de la négation, reste un défi majeur pour la communauté scientifique.
Source : Massachusetts Institute of Technology
TROUVEZ UN HÉBERGEMENT À PROXIMITÉ
Heure de création: 10 heures avant