Contextualisation des données métabolomiques végétales par Graphes de connaissances enrichis via le Big Data, l'IA et l'ingénierie du Web Sémantique

Le projet SEED étend le Metabolomic Semantic Data Lake, une e-infrastructure combinant Web sémantique et technologies Big Data pour traiter à grande échelle la littérature scientifique en métabolomique. Initialement développée autour des liens entre métabolisme et santé humaine, cette infrastructure est désormais adaptée au domaine du métabolisme végétal. SEED y apporte une exploitation plus fine de l'intelligence artificielle pour annoter automatiquement les publications à partir d'ontologies. Le projet élargit également les sources de littérature intégrées et s'appuie sur quatre cas d'étude pour valider et illustrer les associations découvertes entre métabolites, biomarqueurs et plantes.

Contexte et enjeux

La littérature scientifique regorge d’informations sur le rôle central de certains métabolites dans de nombreux aspects des produits végétaux, notamment la résistance aux maladies, les interactions avec l’environnement et les propriétés organoleptiques. Ces connaissances sont indispensables pour appréhender les mécanismes qui déterminent les caractéristiques des plantes, leur capacité d’adaptation aux différents stress et conditions environnementales, ainsi que leur aptitude aux procédés de transformation.

Pourtant, malgré l’abondance des connaissances disponibles, leur réutilisation efficace dans les projets de recherche reste un défi majeur. Cette difficulté s’explique par l’hétérogénéité des approches expérimentales employées pour l’étude des métabolites, la forte variabilité naturelle des produits végétaux, mais aussi, par l’insuffisance de l’annotation et de la structuration des données dans le domaine végétal. Contrairement au secteur biomédical, où la standardisation et l’indexation des connaissances sont plus avancées, le domaine végétal souffre encore d’une fragmentation importante de l’information, limitant l’intégration et l’exploitation des données existantes.

Ces constats soulignent la nécessité de développer des méthodes standardisées et des outils innovants pour organiser, annoter et structurer l’ensemble des connaissances issues de la littérature scientifique. La création de bases de connaissances des données scientifiques publiées, structurées et interopérables faciliterait la veille scientifique, l’identification de biomarqueurs moléculaires et la compréhension approfondie du métabolisme des plantes et de leurs propriétés.

Dans ce contexte, le projet SEED vise à développer une e-infrastructure innovante, le « Metabolomic Semantic Data Lake », dédiée à la production et à la consolidation de graphes de connaissances. Cette plateforme vise à contextualiser les données expérimentales issues des plateformes de métabolomique en s’appuyant sur les technologies du Big Data, de l’intelligence artificielle et du Web sémantique pour réaliser une analyse synthétique et automatisée de la littérature scientifique.

Elle intègre également des méthodes d’annotation automatique, pour pallier au manque d’annotations par mots-clés dans certains domaines spécialisés. Parmi les réalisations majeures figure le graphe de connaissances : FORVM Plants, qui qui croise données expérimentales et corpus scientifique pour identifier et analyser de biomarqueurs métaboliques chez les plantes.

Objectifs

Le projet SEED vise à consolider le graphe de connaissances FORVM Plants, et prévoit d’applique cet outil à trois cas d’étude portant sur le métabolome de plantes, ainsi qu’à un quatrième cas d’étude axé sur la réactivité de polyphénols de plantes au cours des transformations alimentaires.

Le projet se déroule en deux grandes phases :

La première phase consiste à renforcer la production d’annotations avec des ontologies du projet Planteome et l’ontologie TransformON, notamment par la création d’un jeu de données destiné à affiner un modèle d’encodage pour la tâche de similarité sémantique. Cette phase prévoit également l’intégration du socle documentaire de la bibliothèque scientifique numérique nationale ISTEX, afin d’augmenter la taille et la diversité du corpus analysé.
Dans un second temps, le projet s’attachera à répondre aux questions biologiques soulevées dans les quatre cas d’étude à l’aide du graphe FORVM Plants.

Ce projet s’appuie sur les résultats produits par la thèse de M.DELMAS co-financée par DIGIT-BIO sur le sujet Construire, exploiter et étendre un graphe de connaissances pour l’étude des liens entre métabolisme et santé. Ces résultats sont actuellement exploités dans la thèse de M.MATHE labélisée DIGIT-BIO.

La preuve de concept du graphe FORVM Plants est en passe de devenir un ressource clé pour le développement de nouveaux standards dans le cadre du programme européen ELIXIR (coordinateur Franck GIACOMONI IR - UNH/AlimH) “Next level of reproducible, comparable and integrable Metabolomics” (2025-2027) visant à renforcer des solutions de traitements de données métabolomiques via un modèle sémantique standardisé pour favoriser des solutions innovantes en santé et biologie des systèmes.

Contact - Coordination :

Olivier FILANGI (IGEPP)

Acteurs du projet

Unités INRAE impliquées

Département	Unités	Expertises
BAP	IGEPP	Informatique, Big Data, Web Sémantique, Réponse des brassicacées aux contraintes abiotiques
BAP	BFP	Métabolisme et physiologie des fruits et leur impact sur la croissance, la production de biomasse et la qualité nutritionnelle.
Transform	BIA	Web Sémantique, Modélisation de la connaissance , Ontologies Phytochimiste, métabolomique des produits végétaux transformés

Partenaires extérieurs

Institut	Expertises
CNRS (LRSV)	Métabolomique non ciblé, phytochimie, analyses multivariées

Date de modification : 29 juin 2026 | Date de création : 05 juin 2026 | Rédaction : Marjorie Domergue

Nom du cookie	Finalité	Durée de conservation
Cookies de sessions CAS et PHP	Identifiants de connexion, sécurisation de session	Session
Tarteaucitron	Sauvegarde vos choix en matière de consentement des cookies	12 mois

Nom du cookie	Finalité	Durée de conservation
atid	Tracer le parcours du visiteur afin d’établir les statistiques de visites.	13 mois
atuserid	Stocker l'ID anonyme du visiteur qui se lance dès la première visite du site	13 mois
atidvisitor	Recenser les numsites (identifiants unique d'un site) vus par le visiteur et stockage des identifiants du visiteur.	13 mois