Organisation/Company: Université Paris-Saclay
Research Field: Technology
Researcher Profile: Recognised Researcher (R2), Leading Researcher (R4), First Stage Researcher (R1), Established Researcher (R3)
Country: France
Application Deadline: 14 Jan 2025 - 22:00 (UTC)
Type of Contract: Temporary
Job Status: Full-time
Is the job funded through the EU Research Framework Programme? Not funded by a EU programme
Is the Job related to staff position within a Research Infrastructure? No
Offer Description
L'époque de la réionisation (EoR), au cours de laquelle les premières étoiles et galaxies sont apparues et ont progressivement ionisé les atomes environnants, représente un trou d'environ un milliard d'années dans notre histoire de l'Univers. Pour comprendre cette période, et donc la formation des premiers objets astrophysiques lumineux, une voie prometteuse est l'observation du signal de la raie spectrale de l'hydrogène neutre à 21cm. De nombreux projets sont en cours pour y parvenir, tels que le radio-interféromètre français NenuFAR et le gigantesque Square Kilometre Array (SKA), actuellement en construction dans le désert australien, opérationnel d'ici la fin de cette thèse (2029). L'apprentissage automatique va être d'une grande aide pour analyser les pétaoctets de données produits quotidiennement par le SKA et pour en extraire les propriétés des premières galaxies et de l'Univers jeune. Ce projet de thèse explorera de nouvelles méthodes d'inférence basées sur l'apprentissage automatique en utilisant une base de données existante de simulations numériques du signal : la base de données LoReLi (Meriot & Semelin 2023).
Le SKA produira des cartes du signal à 21 cm, une image directe de l'état d'ionisation du milieu intergalactique dans laquelle nous pourrons identifier les bulles ionisées formées par les premières galaxies en leur centre. Pour réduire le bruit d'observation et accélérer les calculs, des statistiques de synthèse sont couramment utilisées pour analyser les données à 21 cm, telles que le spectre de puissance ou la variance de chaque carte. Dans ce projet, nous proposons d'exploiter l'intégralité des informations contenues dans les cartes plutôt que de nous limiter aux statistiques de synthèse. En tirant parti de la puissance de simulation des réseaux de neurones, nous construirons un cadre d'inférence capable de mesurer les propriétés astrophysiques des galaxies et de reconstruire la distribution de la matière dans l'Univers à partir d'une carte de température de brillance à 21 cm.
Cette approche comporte des défis : i) Un défi computationnel, car l'inférence ne repose plus sur l'échantillonnage d'une dizaine de paramètres, mais de milliers (un par pixel de la carte) et ii) Un défi statistique, car il n'y a pas de signal, donc pas d'information, dans les régions ionisées du ciel. Pour surmonter ces obstacles, le projet examine le potentiel de l'échantillonnage de type Hamiltonian Monte-Carlo, déjà appliqué avec succès aux relevés de galaxies (Jasche+2010), combiné à des priors informés, une marginalisation approximative (Millea & Seljak 2022), et une analyse conjointe de données complémentaires (Zhou & Mao 2023).
L'étudiant.e entraînera des réseaux de neurones sur LoReLi pour reproduire des cartes à 21 cm en fonction des paramètres astrophysiques et d'une distribution de matière. Il/elle utilisera ensuite cet émulateur pour générer des modèles, les comparer à une carte fictive à 21 cm via une vraisemblance gaussienne et en déduire les mesures des paramètres du modèle. Cependant, une telle analyse repose sur l'hypothèse que les pixels de la carte sont tous indépendants, alors qu'ils ne le sont pas : Un pixel ionisé est plus susceptible d'être à l'intérieur d'une bulle ionisée, entouré d'autres pixels ionisés, plutôt que d'être isolé parmi des pixels neutres. Nous utiliserons donc des estimateurs de densité neuronale et l'ensemble de données LoReLi pour prédire la corrélation entre les pixels. En raison de la haute dimensionnalité du problème (environ 1000), l'étudiant travaillera à combiner la corrélation prédite sur de petites zones de la carte en une covariance de carte complète. Nous comparerons ensuite les résultats obtenus avec des méthodes de vraisemblance « explicite » et « implicite », ainsi qu'avec une dérivation analytique (approximative) de la matrice de covariance, afin d'évaluer correctement les incertitudes associées à nos reconstructions basées sur l'IA.
Début de la thèse : 01/10/2025
Funding category: Programme COFUND DeMythif.AI
#J-18808-Ljbffr