Le machine learning permet une percée dans les études sur le lieu de naissance des étoiles

La génération actuelle des récepteurs installés dans les radiotélescopes de l’IRAM (antenne de 30 mètres dans la Sierra Nevada en Espagne et interféromètre NOEMA au Plateau de Bure) fait entrer la radio-astronomie millimétrique dans l’ère du traitement massif de données. Ces récepteurs permettent de capter jusqu’à 240000 fréquences ! Par rapport à la précédente génération, la quantité de données a été multipliée d’un facteur 50 environ et le sera de nouveau avec la prochaine génération de récepteurs en cours de développement ! Cela change radicalement la manière de conduire des projets pour répondre aux défis scientifiques de l’astronomie.

Une équipe internationale conduite par Jérôme Pety, Maryvonne Gerin, et Franck Le Petit a obtenu les observations les plus complètes en ondes millimétriques du nuage Orion B. Ce programme clé de l’IRAM, nommé ORION-B (Outstanding Radio-Imaging of OrioN B), a produit 240 000 images de 1100 x 750 pixels (c’est assez de données pour faire un film de 2h15 à 24 images par seconde !).

Le nuage Orion B, connu pour abriter les nébuleuses de la Tête de Cheval et de la Flamme, se situe juste à gauche de la ceinture du chasseur dans la constellation d’Orion. Les magnifiques couleurs des images de ces deux nébuleuses sont dues à l’illumination du gaz et des poussières interstellaires par le rayonnement ultraviolet intense des jeunes étoiles massives, situées à proximité. La présence de telles étoiles explique aussi l’intérêt que suscite cette région parmi les astronomes professionnels. Comme le nuage d’Orion est une des régions de formation d’étoiles les plus proches de nous, il est possible d’étudier en détails les mécanismes de naissance des étoiles massives, puis la manière dont elles vont complètement transformer leur lieu de naissance.


Emission du monoxyde de carbone dans le nuage moléculaire géant Orion B

Ces nuages, où naissent les étoiles, sont des systèmes d’une grande complexité. S’y mêlent les mouvements turbulents du gaz, de nombreux processus qui relient entre elles les différentes échelles du nuage, de l’échelle nanométrique des molécules à l’échelle du nuage dans son ensemble (des dizaines d’années-lumières). Il s’y déroule aussi une évolution chimique menant progressivement à des molécules de plus en plus complexes (méthanol, glycol-aldehyde). Jérôme Pety commente : « Face à un système d’une telle complexité, soumis aux aléas de son environnement et de son histoire, une compréhension complète, causale et déterministe, n’est plus envisageable. C’est sous la forme de lois statistiques (c’est à dire qui s’appliquent en moyenne sur un grand nombre d’observations) qu’il faut chercher à comprendre l’évolution de tels nuages vers la formation de nouvelles étoiles et de leurs planètes. Le projet ORION-B dispose justement de l’énorme quantité de données nécessaires pour identifier ces lois statistiques. Son objectif est donc de construire cette nouvelle vision statistique de l’évolution du milieu interstellaire et de la formation des étoiles. Avec l’aide de statisticiens, il faut trouver comment extraire les lois de la masse des données observées. Cela passe en particulier par les algorithmes d’apprentissage machine (le moteur derrière la révolution actuelle de l’intelligence artificielle) qui s’adaptent aux données qu’on leur fournit jusqu’à en extraire les comportements réguliers.”

Les premières analyses des données ORION-B en 2017 et 2018 avaient permis de faire ressortir les liens qualitatifs entre les raies émises par les molécules du nuages (ce qu’on observe) et les conditions physiques du milieu qui les émet (quantité de matière présente, densité du gaz, quantité de rayons UV reçue par le nuage,…). Ces résultats avaient déjà été remarqués par la communauté astronomique comme l’atteste un point de vue publié dans la revue Nature (Wiseman & Sewilo, Nature, 2017, 546, p.37-39). Pour aller au-delà et obtenir des relations quantitatives entre observations et quantités physiques, l’équipe s’est associée avec quatre groupes de statisticiens en France (Grenoble, Lille, Marseille, Nantes), et ce sont les premiers résultats de ces collaborations qui paraissent aujourd’hui, dans une série de trois articles.

Le premier de ces travaux s’attaque à un problème récurrent. Le constituant principal des nuages moléculaires, à savoir l’hydrogène moléculaire, est invisible aux très basses températures (-250°C) du milieu interstellaire. On ne peut donc étudier ces nuages qu’à l’aide de traceurs minoritaires comme la poussière (qui émet en infrarouge) ou d’autres molécules présentes à l’état de traces (qui émettent des ondes radio). Le traceur le plus utilisé est le monoxyde de carbone, dont la concentration moyenne est environ une molécule pour 10 000 molécules d’hydrogène. Lorsqu’il est utilisé seul, il n’offre qu’une estimation très imprécise de la quantité de gaz. L’idée de le combiner à d’autres espèces chimiques observables a souvent été explorée mais la complexité des relations physico-chimiques en jeu rend la tâche très difficile.  Le chercheur bordelais Pierre Gratier a attaqué ce problème par un axe nouveau. Pierre Gratier raconte : “Nous avons montré qu’un algorithme d’apprentissage machine (les “forêts aléatoires”) pouvait repérer, révéler, et donc nous aider à comprendre la relation qui lie les différentes molécules observables à la quantité totale de gaz. Il est ainsi possible de construire un estimateur fiable et précis de la quantité d’hydrogène à partir de l’émission d’un ensemble réduit (entre 5 et 10) de traceurs différents.”

Au-delà des observations, les modèles deviennent aujourd’hui aussi massifs et complexes qu’il devient impossible d’y remarquer “à l’oeil” les régularités intéressantes. Les modélisateurs travaillent inlassablement à compléter les simulations sur ordinateur, en rassemblant les uns après les autres, les nombreux processus physiques et chimiques élémentaires qui gouvernent ces nuages. Face à la complexité qui émerge en combinant toutes ces lois élémentaires, il faut explorer systématiquement toute la gamme de scénarios possibles (différentes densités et températures du nuage, des champs UV provenant d’étoiles plus ou moins proches, etc.). Les modélisateurs amassent ainsi d’innombrables résultats de modèles, pour lesquelles extraire les relations entre les différents paramètres du scénario étudié et les quantités observables devient inextricable à la main. Emeric Bron, chercheur à l’observatoire de Paris, a montré comment une approche d’apprentissage machine permet de traiter de façon automatique cette immense quantité de modèles pour répondre à une énigme posée aux modélisateurs depuis trois décennies : parmi toutes les raies moléculaires qu’on peut essayer d’observer, lesquelles vont nous donner le plus d’information sur un des paramètres qui décrivent l’état réel du gaz qui émet ces raies. Emeric Bron s’est intéressé en particulier à la fraction d’électrons libres présents dans le gaz (ou fraction d’ionisation). Emeric Bron précise : “L’existence d’une faible fraction d’électrons et d’ions dans le gaz est en effet crucial pour l’évolution du milieu. D’une part, le gaz devient alors sensible à la présence du champ magnétique global du nuage, qui va pouvoir canaliser ses mouvements au cours de l’effondrement gravitationnel qui forme les étoiles. D’autre part, les ions permettent des réactions chimiques beaucoup plus rapides, grâce à une attraction électromagnétique à plus grande distance avec les autres réactifs. Ils permettent donc d’initier  la chimie interstellaire jusqu’au molécules organiques complexes. Nos résultats indiquent aux observateurs quelles raies moléculaires sont sensibles à la fraction d’électrons. Cela permettra aux astronomes de comprendre quantitativement comment la chimie du milieu conduit à des molécules organiques complexes ou comment le champ magnétique contrôle l’effondrement gravitationnel pour donner des étoiles.

Les observations radiomillimetriques réalisées avec le telescope de 30m de l’IRAM révèlent le gas froid du milieu interstellaire du nuage OrionB. 

Enfin, la confrontation des modèles aux données observées se heurte à un défi supplémentaire : les observations ne sont pas parfaites. Même s’il est considéré comme proche, le nuage d’Orion B reste situé à très grande distance, et l’émission radio reçue est peu intense. Lorsqu’on essaie d’interpréter ces données à l’aide de modèles physiques, le bruit qu’elles contiennent risque de brouiller les conclusions qu’on en tire. Dans une troisième étude, le statisticien marseillais Antoine Roueff quantifie précisément la manière dont les observations peuvent ou non permettre de répondre de façon fiable aux questions que les astronomes se posent, ainsi que la durée d’observation minimum (le bruit diminue lorsqu’on observe plus longtemps) pour y parvenir. Antoine Roueff indique « En appliquant cette méthode à l’observation du monoxyde de carbone, il est possible de séparer l’information physique des artefacts causés par le bruit. Cela permet de jeter un éclairage nouveau sur les résultats obtenus dans le premier article de cette série, en commençant à comprendre la physique qui explique comment des molécules minoritaires peuvent être utilisées de manière fiable pour estimer la quantité totale d’hydrogène.”

Pour aller plus loin

Contacts

Science:
●      Emeric Bron (emeric.bron@observatoiredeparis.psl.eu) ;
●      Maryvonne Gerin (maryvonne.gerin@observatoiredeparis.psl.eu) ;
●      Pierre Gratier (pierre.gratier@u-bordeaux.fr)
●      Franck Le Petit (franck.lepetit@observatoiredeparis.psl.eu) ;
●      Jérôme Pety (pety@iram.fr);
●      Antoine Roueff (antoine.roueff@fresnel.fr).

Press:
● Karine Zacher

Site web du projet ORION-B: https://www.iram.fr/~pety/ORION-B

Réferences

●      Quantitative inference of the H2 column densities from 3 mm molecular emission: A case study towards Orion B, Pierre Gratier, Jérôme Pety, Emeric Bron, Antoine Roueff, Jan H. Orkisz, Maryvonne Gerin, Victor de Souza Magalhaes, Mathilde Gaudel, Maxime Vono, Sébastien Bardeau, Jocelyn Chanussot, Pierre Chainais, Javier R. Goicoechea, Viviana V. Guzmán, Annie Hughes, Jouni Kainulainen, David Languignon, Jacques Le Bourlot, Franck Le Petit, François Levrier, Harvey Liszt, Nicolas Peretto, Evelyne Roueff, Albrecht Sievers,Accepted for publication in A&A, 2020, arXiv August 2020

●      Tracers of the ionization fraction in dense and translucent gas: I. Automated exploitation of massive astrochemical model grids, Bron, Emeric; Roueff, Evelyne; Gerin, Maryvonne; Pety, Jérôme; Gratier, Pierre; Le Petit, Franck; Guzman, Viviana; Orkisz, Jan H.; de Souza Magalhaes, Victor; Gaudel, Mathilde; Vono, Maxime; Bardeau, Sébastien; Chainais, Pierre; Goicoechea, Javier R.; Hughes, Annie; Kainulainen, Jouni; Languignon, David; Le Bourlot, Jacques; Levrier, François; Liszt, Harvey Öberg, Karin; Peretto, Nicolas; Roueff, Antoine; Sievers, Albrecht, Accepted for publication in A&A, 2020, arXiv July 2020

●      C18O, 13CO, and 12CO abundances and excitation temperatures in the Orion B molecular cloud: An analysis of the precision achievable when modeling spectral line within the Local Thermodynamic Equilibrium approximation, Roueff, Antoine; Gerin, Maryvonne; Gratier, Pierre; Levrier, Francois; Pety, Jerome; Gaudel, Mathilde; Goicoechea, Javier R.; Orkisz, Jan H.; de Souza Magalhaes, Victor; Vono, Maxime; Bardeau, Sebastien; Bron, Emeric; Chanussot, Jocelyn; Chainais, Pierre; Guzman, Viviana V.; Hughes, Annie; Kainulainen, Jouni; Languignon, David; Le Bourlot, Jacques; Le Petit, Franck Liszt, Harvey S.; Marchal, Antoine; Miville-Deschenes, Marc-Antoine; Peretto, Nicolas; Roueff, Evelyne; Sievers, Albrecht, Accepted for publication in A&A, 2020, arXiv May 2020