L’intelligence artificielle au service de la sélection génétique des animaux d’élevage

La sélection génétique animale a connu une véritable révolution depuis quelques années, grâce à l’avènement de la génomique, qui a permis sélectionner plus facilement certains phénotypes essentiels aux programmes de sélection. Cependant, relier des variations génétiques détectées à des caractères phénotypiques d’intérêt reste toujours compliqué. Le projet interdisciplinaire OBAMA propose de combiner l’IA et la génomique pour mieux comprendre l’influence des facteurs génétiques sur les phénotypes chez le porc.

Contexte et enjeux

Depuis quelques années, la sélection génétique animale a connu une véritable révolution grâce à l’avènement de la génomique, qui permet de séquencer les génomes et donc de sélectionner certains traits de caractère essentiels aux programmes de sélection : les phénotypes.

Les études d'association pangénomiques – qui analysent de nombreuses variations génétiques chez de nombreux individus afin d’étudier leur corrélation avec des traits phénotypiques – ont permis d’identifier des milliers de variants associés à des caractères agronomiques complexes.

Cependant, la majorité de ces variants ont été découverts dans des régions génomiques non codantes, empêchant la compréhension du mécanisme biologique sous-jacent. Pour mieux comprendre le rôle de ces variants non codants, une approche prometteuse repose sur la prédiction des processus moléculaires basés sur la séquence d'ADN à l’aide de méthodes d’apprentissage profond. Cependant, l'apprentissage classique supervisé nécessite des jeux de données de séquences d'ADN très volumineux, associées à des données fonctionnelles pour l'entraînement. Or la quantité de données dont on dispose est fortement limitée par la taille finie du génome humain.

Pour lever ce verrou, les approches d’augmentation des données par orthologie permettraient d’enrichir considérablement les jeux de données d’entraînement, et ainsi améliorer la capacité prédictive des modèles.

Objectifs

Le projet OBAMA propose une nouvelle approche d’augmentation de données, jusqu’à maintenant développée pour l’analyse d’images, mais encore jamais utilisée pour l’analyse de séquences ADN. Cette approche a l’avantage de permettre l’utilisation de l’apprentissage supervisé classique pour lequel la majorité des modèles ont été développés, tout en exploitant des données non annotées provenant des nombreux génomes de mammifères séquencés en quantité bien supérieure aux données annotées (x 50 – x 100), permettant l’apprentissage de modèle bien plus robuste.

En se basant sur des données de porc, le projet répondra à un double objectif :

Développer de nouvelles approches d’apprentissage profond plus précises en dépassant le cadre supervisé classique (restreint aux données humaines) grâce à l’exploitation des grandes quantités de données issues du séquençage de génomes de mammifères et à l’augmentation de données par orthologie,
Valider expérimentalement la prédiction de l’impact phénotypique des variants obtenus par ces modèles pour un trait d’intérêt.

Ce projet permettra d’identifier et de valider le variant (ou les variants) causal(aux) impliqué(s) dans un phénotype quantitatif d’intérêt chez le porc.

A terme le projet permettra de valider une nouvelle stratégie d’identification de variants causaux de caractères complexes chez le porc, et potentiellement d’autres animaux d’élevage.

Contact - Coordination :

Raphael Mourad (MIA-T)
Brouard Céline (MIA-T)
Julie Demars (GenPhyse)

Acteurs du projet

Unités INRAE impliquées

Département	Unités	Expertises
MathNum	MIA-T	Deep learning en génomique, Deep learning en transcriptomique
GA	GenPhySE	Génétique et génomique

Partenaires extérieurs

Institut	Expertises
CNRS (LISN)	Deep learning pour la génétique
CNRS (LCQB)	Deep learning en génomique

Publications

Han Phan, Céline Brouard, Raphaël Mourad, Semi-supervised learning with pseudo-labeling compares favorably with large language models for regulatory sequence prediction, Briefings in Bioinformatics, Volume 25, Issue 6, November 2024, bbae560, https://doi.org/10.1093/bib/bbae560

Voir aussi

Voir le poster présenté au séminaire DIGIT-BIO (décembre 2024)

Date de modification : 26 juin 2026 | Date de création : 10 juin 2024 | Rédaction : Marjorie Domergue

Nom du cookie	Finalité	Durée de conservation
Cookies de sessions CAS et PHP	Identifiants de connexion, sécurisation de session	Session
Tarteaucitron	Sauvegarde vos choix en matière de consentement des cookies	12 mois

Nom du cookie

Finalité

Durée de conservation

Cookies de sessions CAS et PHP

Identifiants de connexion, sécurisation de session

Session

Tarteaucitron

Sauvegarde vos choix en matière de consentement des cookies

12 mois

Nom du cookie	Finalité	Durée de conservation
atid	Tracer le parcours du visiteur afin d’établir les statistiques de visites.	13 mois
atuserid	Stocker l'ID anonyme du visiteur qui se lance dès la première visite du site	13 mois
atidvisitor	Recenser les numsites (identifiants unique d'un site) vus par le visiteur et stockage des identifiants du visiteur.	13 mois

Nom du cookie

Finalité

Durée de conservation

atid

Tracer le parcours du visiteur afin d’établir les statistiques de visites.

13 mois

atuserid

Stocker l'ID anonyme du visiteur qui se lance dès la première visite du site

13 mois

atidvisitor

Recenser les numsites (identifiants unique d'un site) vus par le visiteur et stockage des identifiants du visiteur.

13 mois