L'IA a fouillé les archives de Hubble et a extrait près de 1400 anomalies cosmiques rares en deux à trois jours
Les archives astronomiques croissent plus vite que les humains ne peuvent les examiner, et cela est devenu l'une des questions clés de l'astronomie moderne : comment trouver dans des océans de données des phénomènes rares qui changent la compréhension de l'univers. Le télescope spatial NASA/ESA Hubble opère en orbite depuis 1990 et a derrière lui des décennies d'observations. Une grande partie de cet héritage est consolidée dans le Hubble Legacy Archive (HLA), un répertoire d'images traitées et de catalogues destinés à la recherche et à la réanalyse.
Dans une étude signée par David O’Ryan et Pablo Gómez, des scientifiques liés à l'Agence spatiale européenne (ESA), une méthode a été démontrée qui combine l'intelligence artificielle et la vérification d'experts pour extraire rapidement des objets inhabituels et scientifiquement intéressants dans de vastes ensembles d'images. Leur système nommé
AnomalyMatch a systématiquement classé environ 99,6 millions de vignettes d'images du HLA, et ensuite les auteurs ont examiné les candidats les mieux classés. Après vérification, plus de 1300 anomalies ont été confirmées, et plus de 800 cas ont été marqués comme précédemment non documentés dans la littérature qu'ils ont utilisée pour les vérifications.
Ce qui est considéré comme une anomalie en astronomie et pourquoi c'est important
Dans ce contexte, « anomalie » ne signifie pas nécessairement quelque chose d'inexplicable, mais tout ce qui s'écarte statistiquement de l'apparence habituelle sur les images astronomiques. Ce sont des objets et des configurations qui apparaissent rarement, mais portent une grande information sur des processus extrêmes : galaxies en collision et en interaction, galaxies à anneau, galaxies « méduses » avec des queues de gaz et de jeunes étoiles, lentilles gravitationnelles créant des arcs et des anneaux, jets inhabituels, chevauchements de projection de sources et autres extrêmes morphologiques.
De tels exemples servent souvent de laboratoires naturels. Les collisions de galaxies révèlent comment la gravité et le gaz façonnent ensemble l'évolution galactique ; les lentilles gravitationnelles permettent d'étudier des galaxies très lointaines et d'estimer la distribution de masse, y compris la part de matière noire ; et les « méduses » montrent comment l'environnement dans les amas de galaxies peut « dépouiller » le gaz et accélérer l'extinction de la formation d'étoiles. Le problème est qu'ils sont rares : s'ils n'apparaissent que dans des parties par millier parmi des millions d'images, le feuilletage manuel devient trop lent, coûteux et sujet à ce que des cas intéressants se perdent simplement dans le bruit.
Dans le mode de travail classique, les anomalies sont trouvées par des recherches ciblées de plus petits échantillons ou par hasard – un chercheur « tombe » sur un objet inhabituel tout en faisant quelque chose de complètement différent. Compte tenu de l'explosion des données, cela devient de moins en moins durable. À l'ère des relevés du ciel à grand champ et des catalogues massifs, la question clé n'est plus seulement « que savons-nous », mais aussi « que n'avons-nous même pas encore eu le temps de regarder ».
Pourquoi le Hubble Legacy Archive est un terrain d'essai idéal
Le Hubble Legacy Archive est particulièrement intéressant pour de telles expériences car il couvre une longue période de temps et une grande diversité de cibles, des nébuleuses proches aux champs profonds avec des milliers de galaxies. Selon les informations officielles des archives, le HLA se concentre sur les observations jusqu'au 1er octobre 2017, tandis que pour les données plus récentes, il s'appuie sur des systèmes connectés et des produits « high-level » supplémentaires. Cette limite temporelle ne diminue pas l'importance du HLA : justement, les données d'archives gagnent souvent une nouvelle valeur lorsque de nouveaux algorithmes et de nouvelles questions scientifiques apparaissent, car elles permettent un nouveau « peignage » avec des critères différents de ceux du moment où les images ont été créées.
Jusqu'à présent, les archives de Hubble étaient principalement utilisées de manière ciblée, par exemple pour chercher des images d'un objet connu ou pour des échantillons thématiques. Un examen complètement systématique de l'ensemble des archives, avec une seule procédure et les mêmes critères, était logistiquement presque impossible. AnomalyMatch est donc important aussi comme démonstration de concept : au lieu que l'archive ne soit qu'un entrepôt, elle devient un champ actif pour la découverte de ce qui est « caché à la vue » dans les données.
Comment fonctionne AnomalyMatch
Moins d'étiquettes, plus de données
Les approches habituelles d'apprentissage automatique fonctionnent le mieux lorsqu'elles ont beaucoup d'exemples étiquetés. Mais les classes rares en astronomie n'ont souvent pas des milliers de cas confirmés, et parfois il s'agit de dizaines. C'est pourquoi AnomalyMatch combine l'apprentissage semi-supervisé (peu de données étiquetées + beaucoup de données non étiquetées) et l'apprentissage actif (un expert vérifie itérativement les suggestions du modèle et l'améliore ainsi). L'idée est pratique : le modèle fait d'abord une sélection grossière, puis apprend du retour d'information humain pour réduire le nombre de « fausses alertes » et augmenter la précision pour ce qui est vraiment intéressant.
De la liste de classement au catalogue
En pratique, le processus ressemble à ceci :
- Le modèle est initialement entraîné sur un nombre limité d'exemples confirmés de morphologies rares ainsi que sur une grande quantité de sources typiques.
- Le réseau neuronal parcourt un grand ensemble d'images et attribue un rang à chaque vignette – quelle est la probabilité qu'elle soit hors des modèles habituels.
- L'expert examine le haut de la liste, confirme ou rejette les suggestions et crée ainsi des étiquettes de meilleure qualité pour le cycle suivant.
- Après quelques itérations, le modèle devient plus précis dans la séparation des anomalies réelles des artefacts de traitement, du bruit, des cas limites et des chevauchements de projection.
Un message important est que la vitesse n'est pas la même chose que la confirmation. L'IA n'« explique » pas ici la physique, mais fait gagner du temps sur la sélection. L'interprétation scientifique finale nécessite toujours un examen d'expert, et souvent des données supplémentaires comme la spectroscopie, la comparaison avec d'autres instruments ou une photométrie plus détaillée.
Ce qui a été trouvé : plus de 1300 anomalies confirmées
Dans la recherche du HLA, le système a traité environ 99,6 millions de vignettes d'images. Après classement et vérification d'experts, les auteurs ont confirmé plus de 1300 anomalies, et plus de 800 ont été marquées comme précédemment non documentées dans la littérature qu'ils ont utilisée dans les vérifications. Dans l'article lui-même, des exemples par catégories sont également cités, incluant un grand nombre de galaxies en interaction, des candidats pour des lentilles gravitationnelles ainsi que d'autres morphologies rares.
Parmi les catégories extraites, se distinguent particulièrement :
- les candidats pour des lentilles gravitationnelles et des arcs de lentille, qui servent de télescopes naturels et d'outil pour mesurer la masse de la lentille
- les galaxies « méduses », qui indiquent un dépouillement de gaz et des changements dans la formation d'étoiles dans des environnements denses
- les galaxies en collision et en interaction, qui permettent l'étude statistique de la fusion et de ses conséquences
- les galaxies à anneau et d'autres morphologies inhabituelles liées à des perturbations dynamiques
Une telle diversité n'est pas fortuite : le but n'était pas de trouver une classe spécifique, mais de mettre en évidence systématiquement tout ce qui s'écarte de l'apparence typique des sources dans l'archive.
Lentilles gravitationnelles : systèmes rares avec un grand gain scientifique
La lentille gravitationnelle fait partie des phénomènes clés de la cosmologie moderne. Une galaxie massive ou un amas de galaxies peut courber la lumière d'un objet plus lointain et créer des images déformées en forme d'arcs, d'images multiples ou d'anneaux presque complets. Dans les cas favorables, la lentille amplifie l'éclat des galaxies lointaines et permet l'étude de structures qui seraient autrement trop faibles. En même temps, la géométrie de la lentille donne des informations sur la distribution de masse de la lentille, y compris la contribution de la matière noire.
C'est pourquoi les nouveaux candidats sont précieux même avant la confirmation finale : ils deviennent un point de départ pour d'autres vérifications et observations. Mais les lentilles sont difficiles à trouver, surtout dans des images d'archives hétérogènes où l'objet n'a pas nécessairement été photographié avec cette intention. Les arcs peuvent être faibles, « froissés » par le bruit de fond ou mélangés avec d'autres sources. Le classement algorithmique aide précisément ici : à reconnaître des modèles visuels répétitifs et à les extraire de la masse de données, puis à laisser à l'expert la décision finale.
« Méduses », collisions et anneaux : ce qu'ils nous disent sur l'évolution des galaxies
Galaxies-méduses et dépouillement de gaz
Les galaxies « méduses » sont reconnaissables aux queues de gaz et de jeunes étoiles qui traînent derrière la galaxie alors qu'elle traverse un milieu plus dense, par exemple à l'intérieur d'amas de galaxies. De telles queues indiquent un processus dans lequel le gaz est « arraché », ce qui peut changer dramatiquement l'avenir de la galaxie car le gaz représente le carburant pour la création de nouvelles étoiles. Chaque nouveau candidat est précieux pour des comparaisons : dans quels environnements les queues se forment-elles, combien de temps durent-elles, comment change le taux de formation d'étoiles et à quel point le processus dépend de la masse de la galaxie et de la vitesse de passage à travers le milieu.
Collisions et interactions comme fondement de la croissance
Les galaxies croissent par interactions et fusions, mais chaque collision a sa propre géométrie, son rapport de masses, sa quantité de gaz et son environnement gravitationnel. C'est pourquoi un seul « bel » exemple ne suffit pas : des échantillons sont nécessaires. De grandes collections de candidats aident à passer des anecdotes aux statistiques, à tester combien de fois les collisions créent des queues de marée, quand s'allument les épisodes de formation intense d'étoiles, comment la morphologie change à travers les phases de fusion et comment de tels processus influencent la croissance des trous noirs centraux et la distribution de la masse stellaire.
Galaxies à anneau et ondes de choc
Les galaxies à anneau sont souvent associées au passage d'un autre objet à travers le disque, ce qui peut provoquer une onde de compression de gaz et la formation d'un anneau de formation d'étoiles renforcée. Mais l'apparence annulaire peut aussi survenir en raison de la projection ou du chevauchement de sources, donc une vérification est nécessaire. La combinaison du classement par IA et de l'interprétation humaine se montre ici pratique : l'algorithme réduit la recherche, et l'astronome évalue ensuite s'il s'agit d'une structure réelle ou d'une illusion visuelle, et détermine quelles sont les analyses supplémentaires nécessaires pour la confirmation.
Où se situe l'humain : l'IA accélère la recherche, mais ne « conclut » pas
Les scientifiques avertissent que les formes inhabituelles sur les images astronomiques peuvent être une conséquence de l'instrument, du traitement ou du bruit, surtout dans les parties périphériques des détecteurs ou lors de signaux très faibles. C'est pourquoi la vérification humaine est toujours clé, tout comme les observations supplémentaires avant qu'un objet n'entre dans la catégorie « confirmé rare » avec une interprétation physique claire. AnomalyMatch est donc le mieux décrit comme un multiplicateur de temps : au lieu de feuilleter des images aléatoires pendant des jours, le système donne une liste de classement et dirige l'attention sur les cas les plus probables, tandis que l'humain garde le contrôle sur l'évaluation et les conclusions.
Science citoyenne et nouveau rôle des algorithmes
Les projets de science citoyenne, dans lesquels des volontaires aident à classifier des galaxies, ont déjà montré que la perception humaine peut être extrêmement efficace, surtout avec des morphologies que les algorithmes saisissent plus difficilement lorsque les signaux sont faibles ou complexes. Mais le volume des archives modernes croît plus vite qu'il ne peut être compensé par le travail humain, même avec un grand nombre de participants. Dans ce sens, les outils d'IA ne doivent pas être un remplacement, mais un filtre et un partenaire : ils peuvent par présélection extraire des cas potentiellement intéressants, et la science citoyenne et les experts peuvent ensuite confirmer, rejeter et compléter les classifications. Une telle approche « hybride » ouvre la possibilité que des phénomènes rares soient découverts plus vite, tout en conservant la vérifiabilité et la qualité.
Contexte plus large : Euclid et les vagues de données à venir
Une telle approche se développe à un moment où l'astronomie entre dans une ère de relevés massifs. La mission Euclid de l'ESA génère déjà de grandes quantités de données pour la cosmologie et la structure de l'univers, et d'autres projets à grand champ portent des défis similaires. Dans cet environnement, la capacité à reconnaître rapidement des objets rares devient un avantage stratégique : elle permet un suivi plus rapide des candidats, une meilleure planification des observations supplémentaires et une utilisation plus efficace du temps limité des instruments.
En même temps, le travail sur les archives de Hubble montre aussi une autre dimension : les archives des décennies passées ne sont pas épuisées. Au contraire, à mesure que les outils se développent, les chances augmentent que des objets qui sont passés inaperçus pendant des années émergent dans des données déjà existantes. Pour la science, cela signifie que la valeur d'une mission peut être prolongée bien au-delà de sa période « active », et pour le public que les découvertes ne se produisent pas seulement sur les nouveaux télescopes, mais aussi dans les vieilles images – quand quelqu'un les regarde d'une nouvelle manière.
Code ouvert et catalogue comme appel à la communauté
Lié au travail sur les anomalies, il y a le code et les dépôts de données publiquement accessibles, ce qui permet une vérification indépendante et une mise à niveau ultérieure. Une telle ouverture change la dynamique : au lieu que les résultats restent au sein d'une seule équipe, le catalogue peut devenir un point de départ pour des recherches supplémentaires – de la confirmation détaillée des lentilles gravitationnelles, en passant par la recherche ciblée de formes rares de galaxies, jusqu'à l'entraînement de modèles pour des sous-classes spécifiques. Ainsi s'accélère aussi le cycle de recherche lui-même : les objets rares viennent plus vite « au tour », et les questions qui demandaient autrefois des mois de travail manuel peuvent se transformer en un problème de sélection et de priorité, avec une vérification humaine claire comme étape finale.
Sources :- arXiv – résumé et texte intégral de l'article « Identifying Astrophysical Anomalies in 99.6 Million Cutouts from the Hubble Legacy Archive Using AnomalyMatch » (lien)- arXiv – article méthodologique sur AnomalyMatch et description de l'apprentissage semi-supervisé et actif (lien)- ESA (GitHub) – dépôt officiel du projet AnomalyMatch (lien)- STScI – description officielle du Hubble Legacy Archive et informations sur l'étendue des archives (lien)- ESA Datalabs – plateforme pour le travail avec de grands ensembles de données scientifiques (lien)
Trouvez un hébergement à proximité
Heure de création: 4 heures avant