OBAMA © Pexels Sarai Zuno
Projet exploratoire OBAMA (2024-2025)

L’intelligence artificielle au service de la sélection génétique des animaux d’élevage

La sélection génétique animale a connu une véritable révolution depuis quelques années, grâce à l’avènement de la génomique, qui a permis sélectionner plus facilement certains phénotypes essentiels aux programmes de sélection. Cependant, relier des variations génétiques détectées à des caractères phénotypiques d’intérêt reste toujours compliqué. Le projet interdisciplinaire OBAMA propose de combiner l’IA et la génomique pour mieux comprendre l’influence des facteurs génétiques sur les phénotypes chez le porc.

Contexte et enjeux

Depuis quelques années, la sélection génétique animale a connu une véritable révolution grâce à l’avènement de la génomique, qui permet de séquencer les génomes et donc de sélectionner certains traits de caractère essentiels aux programmes de sélection : les phénotypes.

Les études d'association pangénomiques – qui analysent de nombreuses variations génétiques chez de nombreux individus afin d’étudier leur corrélation avec des traits phénotypiques – ont permis d’identifier des milliers de variants associés à des caractères agronomiques complexes. 

Cependant, la majorité de ces variants ont été découverts dans des régions génomiques non codantes, empêchant la compréhension du mécanisme biologique sous-jacent. Pour mieux comprendre le rôle de ces variants non codants, une approche prometteuse repose sur la prédiction des processus moléculaires basés sur la séquence d'ADN à l’aide de méthodes d’apprentissage profond. Cependant, l'apprentissage classique supervisé nécessite des jeux de données de séquences d'ADN très volumineux, associées à des données fonctionnelles pour l'entraînement. Or la quantité de données dont on dispose est fortement limitée par la taille finie du génome humain.

Pour lever ce verrou, les approches d’augmentation des données par orthologie permettraient d’enrichir considérablement les jeux de données d’entraînement, et ainsi améliorer la capacité prédictive des modèles.

Objectifs

Le projet OBAMA propose une nouvelle approche d’augmentation de données, jusqu’à maintenant développée pour l’analyse d’images, mais encore jamais utilisée pour l’analyse de séquences ADN. Cette approche a l’avantage de permettre l’utilisation de l’apprentissage supervisé classique pour lequel la majorité des modèles ont été développés, tout en exploitant des données non annotées provenant des nombreux génomes de mammifères séquencés en quantité bien supérieure aux données annotées (x 50 – x 100), permettant l’apprentissage de modèle bien plus robuste.

En se basant sur des données de porc, le projet répondra à un double objectif :

  • Développer de nouvelles approches d’apprentissage profond plus précises en dépassant le cadre supervisé classique (restreint aux données humaines) grâce à l’exploitation des grandes quantités de données issues du séquençage de génomes de mammifères et à l’augmentation de données par orthologie,
  • Valider expérimentalement la prédiction de l’impact phénotypique des variants obtenus par ces modèles pour un trait d’intérêt.

Ce projet permettra d’identifier et de valider le variant (ou les variants) causal(aux) impliqué(s) dans un phénotype quantitatif d’intérêt chez le porc.

A terme le projet permettra de valider une nouvelle stratégie d’identification de variants causaux de caractères complexes chez le porc, et potentiellement d’autres animaux d’élevage.

Contact - Coordination :

Acteurs du projet

Unités INRAE impliquées

DépartementUnitésExpertises
MathNumMIA-TDeep learning en génomique, Deep learning en transcriptomique
GAGenPhySEGénétique et génomique

Partenaires extérieurs

InstitutExpertises
CNRS (LISN)Deep learning pour la génétique
CNRS (LCQB)Deep learning en génomique