Projet exploratoire GenIALearn (2021 - 2023)

Application du machine learning et deep learning pour perfectionner la sélection génomique animale

Le développement de la sélection génomique - et des autres analyses « omiques » telles que la métagénomique, transcriptomique, métabolomique et protéomique - permet aujourd’hui de caractériser les animaux grâce à des milliers de mesures. Ces données massives sont intégrées dans des modèles, afin de prédire des caractères de production avec la plus grande précision possible.

Contexte et enjeux

Les modèles les plus couramment utilisés en prédiction génomique (modèle génétique additif type GBLUP)  sont très efficaces pour prédire la valeur génétique des animaux sur quelques caractères génétiquement corrélés.  En revanche, ce type de modèle ne permet pas d’intégrer un très grand nombre de mesures hétérogènes, ni de prédire beaucoup de caractères en sortie sans connaitre leurs corrélations génétiques. De plus, ce modèle reste limité pour tenir compte des nombreuses interactions non-linéaires qui interviennent entre les régions du génome ou des facteurs environnementaux. 

Afin de lever ces verrous, nous proposons d’utiliser les méthodes d’apprentissage statistique (Machine Learning) et d’apprentissage profond issues de l’IA, pour à la fois traiter les informations génétiques additives mais également les informations génétiques non-linéaires présentes dans les données massives de génotypage.

Objectifs

Le projet GenIALearn propose d’évaluer les performances des méthodes d’apprentissage statistique et profond pour la prédiction conjointe de multiples caractères complexes, par l’intégration de données massives de génotypage. Deux grandes familles de méthodes seront comparées entre-elles et à la méthode de référence le GBLUP : 

  • D’une part, les méthodes d’apprentissage ensemblistes (random forests, gradient boosting), couplées à une étape d’apprentissage de représentation des données d’entrées, afin de proposer des niveaux de prédiction de référence
  • D’autre part, les réseaux de neurones avec différentes architectures, couplés à une étape d’apprentissage profond sur des bases de données massives, permettront de concevoir et de comparer des modèles prédictifs pour la sélection génomique animale.

 

Contacts :

Eric Barrey, UMR GABI

Didier Boichard, UMR GABI

Acteurs du projet

Unités INRAE impliquées

Département Génétique Animale

Expertise

UMR GABI

Phénotypage fin de caractères complexes ; multi-omiques

(génotypage, transcriptomique, métagénomique, métabolomique) ; prédictions multi-caractères complexes.

Département MathNum

MIA - Paris

modélisation ; apprentissage statistique , machine learning ; données de grande, dimension et hétérogènes; application aux, sciences du vivants

Partenaires extérieurs

Université Paris-Saclay

Expertise

IBISC

Méthodes de construction de réseaux de neurones et deep learning ; Applications à l’analyse transcriptomique et images

Publications

Deep Learning and GBLUP Integration: An Approach that Identifies Nonlinear Genetic Relationships Between Traits. Fatima Shokor, Pascal Croiseau, Hugo Gangloff, Romain Saintilan, Thierry Tribout, Tristan Mary-Huard, Beatriz C.D. Cuyabano bioRxiv 2024.03.23.585208; doi: https://doi.org/10.1101/2024.03.23.585208

Communications  

  • Eric Barrey, Blaise Hanczar, Julien Chiquet, Didier Boichard, Jocelyn de Goër de Herve, et al.. Benchmarking predictive models: evaluating parametric, ensemble, and deep learning approaches for animal phenotype prediction from genotypes.. AI and biology Symposium, EMBO EMBL, Heidelberg, Mar 2024, HEIDELBERG, Germany. ⟨hal-04510253⟩
  • Eric Barrey, Pierre Fumeron, Anne Ricard, Blaise Hankzar, Eric Barrey 1, Pierre Fumeron 1, Anne Ricard 1, 2, Blaise Hankzar 3  (1 Université Paris-Saclay, AgroParisTech, INRAE, GABI UMR1313, Jouy-en-Josas, France. 2 IFCE, Recherche et Innovation, 61310 Exmes, France. 3 IBISC, UEVE, Université Paris-Saclay, France). Deep Learning Application for Predicting Endurance Horse Racing Performance via High-Density Genotyping, 14th International Havemeyer Foundation Horse Genome Workshop, May 12-15, 2024, Caen, France, Abstracts book 25   https://horse-genome.workshop.inrae.fr/content/download/723/7227?version=2 
  • F Shokor, P Croiseau, R Saintilan, T Mary-Huard, H Gangloff, et al.. Exploring Non-Linear Genetic Relationships Between Correlated Traits. 74th Annual Meeting of the European Association for Animal Production, INRAE, Aug 2023, Lyon, France. ⟨hal-04247381