DeepSelectGene : Apprentissage profond à partir de données de génotypes et application à la sélection génomique

Thèse Sihan Xie (GABI, 2023-2026). Les méthodes de Deep learning (DL) commencent à être utilisées comme modèle de prédiction des phénotypes à partir des génotypes dans le cas de maladies chez l’homme et de caractères de production en sélection génomique animale. Ces modèles nécessitent un apprentissage avec de nombreuses données, qui ne sont pas toujours disponibles. Le projet de cette thèse consistera à contourner cette limite.

Thèse financée par DIGIT-BIO
Date de démarrage : décembre 2023
Unité d'accueil : GABI
Centre INRAE : Jouy en Josas
Université : Université Paris-Saclay
École doctorale : Ecole Doctorale ABIES
Discipline / Spécialité : Sélection génomique, Intelligence artificielle, Apprentissage profond
Directeur de thèse : Eric BARREY, (UMR GABI, INRAE)
Encadrant(es) : Blaise HANCZAR (IBISC, Université d’Evry Val d’Essonne), Julien Chiquet (MIA Paris-Saclay, INRAE)
Financement : Métaprogramme DIGIT-BIO
Axes du métaprogramme : Axe 2 (Prédiction des phénotypes et réponses aux changements de champs de contraintes)

Résumé :

Les modèles d’apprentissage nécessitent un apprentissage avec de nombreuses données (couples génotypes > phénotypes) ce qui n’est pas toujours possible dans certaines espèces, génotypées pour quelques milliers d’animaux. Le projet de cette thèse consistera à contourner cette limite en utilisant successivement deux méthodes DL : une première méthode DL dite générative, les « generative adversarial neural networks » (ou GAN), permettront de simuler des données de génotypes à partir d’un apprentissage sur des données réelles peu nombreuses et mais de qualité représentative. Ainsi, on augmentera artificiellement la taille de la base de données nécessaire au bon apprentissage d’un second modèle DL de prédiction du phénotype d’après un génotype (50- 800 K SNP). Ce second modèle DL, adoptant une structure plus simple en vue de prédictions, devra être optimiser d’après nos premières études exploratoires sur le sujet lors du projet GenIALearn sur la sélection génomique bovine (MP DIGIT-BIO 2022-2024).

Pour résumer, ce travail de thèse proposera une méthode de simulation originale de données de génotypes utiles pour :

i) améliorer les connaissances sur le déterminisme génétique de construction des phénotypes ;

ii) créer des données supplémentaires quasi-réelles nécessaires à l’apprentissage du modèle DL de prédiction.

Ainsi, ce modèle DL de prédiction des phénotypes pourra être appliqué à partir de quelques milliers de données génotype-phénotypes seulement et se perfectionnera ensuite avec l’enrichissement progressif de la base de données. Il s’agit d’un sujet de modélisation génomique très interdisciplinaire génétique / génomique / statistique / data science, dont le front de science se situe au niveau des applications de l’IA à la génomique, qui ne manqueront pas de se développer.

Contact :

Sihan Xie
Linkedin

Voir aussi

Le projet exploratoire GenIALearn : Application du machine learning et deep learning pour perfectionner la sélection génomique animale

Date de modification : 03 juin 2025 | Date de création : 12 décembre 2023 | Rédaction : Marjorie Domergue

Nom du cookie	Finalité	Durée de conservation
Cookies de sessions CAS et PHP	Identifiants de connexion, sécurisation de session	Session
Tarteaucitron	Sauvegarde vos choix en matière de consentement des cookies	12 mois

Nom du cookie

Finalité

Durée de conservation

Cookies de sessions CAS et PHP

Identifiants de connexion, sécurisation de session

Session

Tarteaucitron

Sauvegarde vos choix en matière de consentement des cookies

12 mois

Nom du cookie	Finalité	Durée de conservation
atid	Tracer le parcours du visiteur afin d’établir les statistiques de visites.	13 mois
atuserid	Stocker l'ID anonyme du visiteur qui se lance dès la première visite du site	13 mois
atidvisitor	Recenser les numsites (identifiants unique d'un site) vus par le visiteur et stockage des identifiants du visiteur.	13 mois

Nom du cookie

Finalité

Durée de conservation

atid

Tracer le parcours du visiteur afin d’établir les statistiques de visites.

13 mois

atuserid

Stocker l'ID anonyme du visiteur qui se lance dès la première visite du site

13 mois

atidvisitor

Recenser les numsites (identifiants unique d'un site) vus par le visiteur et stockage des identifiants du visiteur.

13 mois