Illustration thèse confinancée
Thèse Sihan Xie (2023 - 2026)

DeepSelectGene : Apprentissage profond à partir de données de génotypes et application à la sélection génomique

Thèse Sihan Xie (GABI, 2023-2026). Les méthodes de Deep learning (DL) commencent à être utilisées comme modèle de prédiction des phénotypes à partir des génotypes dans le cas de maladies chez l’homme et de caractères de production en sélection génomique animale. Ces modèles nécessitent un apprentissage avec de nombreuses données, qui ne sont pas toujours disponibles. Le projet de cette thèse consistera à contourner cette limite.

  • Thèse cofinancée
  • Date de démarrage : décembre 2023
  • Unité d'accueil : GABI
  • Centre INRAE : Jouy en Josas
  • Université :  Université Paris-Saclay
  • École doctorale :  Ecole Doctorale ABIES
  • Discipline / Spécialité : Sélection génomique, Intelligence artificielle, Apprentissage profond
  • Directeur de thèse : Eric BARREY, (UMR GABI, INRAE)
  • Encadrant(es) : Blaise HANCZAR (IBISC, Université d’Evry Val d’Essonne), Julien Chiquet (MIA Paris-Saclay, INRAE)
  • Financement : Métaprogramme DIGIT-BIO
  • Axes du métaprogramme : Axe 2 (Prédiction des phénotypes et réponses aux changements de champs de contraintes) 

Résumé :

Les modèles d’apprentissage nécessitent un apprentissage avec de nombreuses données (couples génotypes > phénotypes) ce qui n’est pas toujours possible dans certaines espèces, génotypées pour quelques milliers d’animaux. Le projet de cette thèse consistera à contourner cette limite en utilisant successivement deux méthodes DL : une première méthode DL dite générative, les « generative adversarial neural networks » (ou GAN), permettront de simuler des données de génotypes à partir d’un apprentissage sur des données réelles peu nombreuses et mais de qualité représentative. Ainsi, on augmentera artificiellement la taille de la base de données nécessaire au bon apprentissage d’un second modèle DL de prédiction du phénotype d’après un génotype (50- 800 K SNP). Ce second modèle DL, adoptant une structure plus simple en vue de prédictions, devra être optimiser d’après nos premières études exploratoires sur le sujet lors du projet GenIALearn sur la sélection génomique bovine (MP DIGIT-BIO 2022-2024).


Pour résumer, ce travail de thèse proposera une méthode de simulation originale de données de génotypes utiles pour :

 i) améliorer les connaissances sur le déterminisme génétique de construction des phénotypes ;

ii) créer des données supplémentaires quasi-réelles nécessaires à l’apprentissage du modèle DL de prédiction.

Ainsi, ce modèle DL de prédiction des phénotypes pourra être appliqué à partir de quelques milliers de données génotype-phénotypes seulement et se perfectionnera ensuite avec l’enrichissement progressif de la base de données. Il s’agit d’un sujet de modélisation génomique très interdisciplinaire génétique / génomique / statistique / data science, dont le front de science se situe au niveau des applications de l’IA à la génomique, qui ne manqueront pas de se développer.

Contact :

Voir aussi

Le projet exploratoire GenIALearn : Application du machine learning et deep learning pour perfectionner la sélection génomique animale