@Olivier FILANGI
Projet exploratoire SEED (2026-2027)

Contextualisation des données métabolomiques végétales par Graphes de connaissances enrichis via le Big Data, l'IA et l'ingénierie du Web Sémantique

Le projet SEED étend le Metabolomic Semantic Data Lake, une e-infrastructure combinant Web sémantique et technologies Big Data pour traiter à grande échelle la littérature scientifique en métabolomique. Initialement développée autour des liens entre métabolisme et santé humaine, cette infrastructure est désormais adaptée au domaine du métabolisme végétal. SEED y apporte une exploitation plus fine de l'intelligence artificielle pour annoter automatiquement les publications à partir d'ontologies. Le projet élargit également les sources de littérature intégrées et s'appuie sur quatre cas d'étude pour valider et illustrer les associations découvertes entre métabolites, biomarqueurs et plantes.

Contexte et enjeux

La littérature scientifique regorge d’informations sur le rôle central de certains métabolites dans de nombreux aspects des produits végétaux, notamment la résistance aux maladies, les interactions avec l’environnement et les propriétés organoleptiques. Ces connaissances sont indispensables pour appréhender les mécanismes qui déterminent les caractéristiques des plantes, leur capacité d’adaptation aux différents stress et conditions environnementales, ainsi que leur aptitude aux procédés de transformation.

Pourtant, malgré l’abondance des connaissances disponibles, leur réutilisation efficace dans les projets de recherche reste un défi majeur. Cette difficulté s’explique par l’hétérogénéité des approches expérimentales employées pour l’étude des métabolites, la forte variabilité naturelle des produits végétaux, mais aussi, par l’insuffisance de l’annotation et de la structuration des données dans le domaine végétal. Contrairement au secteur biomédical, où la standardisation et l’indexation des connaissances sont plus avancées, le domaine végétal souffre encore d’une fragmentation importante de l’information, limitant l’intégration et l’exploitation des données existantes.

Ces constats soulignent la nécessité de développer des méthodes standardisées et des outils innovants pour organiser, annoter et structurer l’ensemble des connaissances issues de la littérature scientifique. La création de bases de connaissances des données scientifiques publiées, structurées et interopérables faciliterait la veille scientifique, l’identification de biomarqueurs moléculaires et la compréhension approfondie du métabolisme des plantes et de leurs propriétés.

Dans ce contexte, le projet SEED vise à développer une e-infrastructure innovante, le « Metabolomic Semantic Data Lake », dédiée à la production et à la consolidation de graphes de connaissances. Cette plateforme vise à contextualiser les données expérimentales issues des plateformes de métabolomique en s’appuyant sur les technologies du Big Data, de l’intelligence artificielle et du Web sémantique pour réaliser une analyse synthétique et automatisée de la littérature scientifique.

Elle intègre également des méthodes d’annotation automatique, pour pallier au manque d’annotations par mots-clés dans certains domaines spécialisés. Parmi les réalisations majeures figure le graphe de connaissances : FORVM Plants, qui qui croise données expérimentales et corpus scientifique pour identifier et analyser de biomarqueurs métaboliques chez les plantes.

Objectifs

Le projet SEED vise à consolider le graphe de connaissances FORVM Plants, et prévoit d’applique cet outil à trois cas d’étude portant sur le métabolome de plantes, ainsi qu’à un quatrième cas d’étude axé sur la réactivité de polyphénols de plantes au cours des transformations alimentaires.

Le projet se déroule en deux grandes phases :

  1. La première phase consiste à renforcer la production d’annotations avec des ontologies du projet Planteome et l’ontologie TransformON, notamment par la création d’un jeu de données destiné à affiner un modèle d’encodage pour la tâche de similarité sémantique. Cette phase prévoit également l’intégration du socle documentaire de la bibliothèque scientifique numérique nationale ISTEX, afin d’augmenter la taille et la diversité du corpus analysé.
  2. Dans un second temps, le projet s’attachera à répondre aux questions biologiques soulevées dans les quatre cas d’étude à l’aide du graphe FORVM Plants.

Ce projet s’appuie sur les résultats produits par la thèse de M.DELMAS co-financée par DIGIT-BIO sur le sujet Construire, exploiter et étendre un graphe de connaissances pour l’étude des liens entre métabolisme et santé. Ces résultats sont actuellement exploités dans la thèse de M.MATHE labélisée DIGIT-BIO.

La preuve de concept du graphe FORVM Plants est en passe de devenir un ressource clé pour le développement de nouveaux standards dans le cadre du programme européen ELIXIR (coordinateur Franck GIACOMONI IR - UNH/AlimH) “Next level of reproducible, comparable and integrable Metabolomics” (2025-2027) visant à renforcer des solutions de traitements de données métabolomiques via un modèle sémantique standardisé pour favoriser des solutions innovantes en santé et biologie des systèmes.

Contact - Coordination :

Acteurs du projet

Unités INRAE impliquées

DépartementUnitésExpertises
BAPIGEPPInformatique, Big Data, Web Sémantique, Réponse des brassicacées aux contraintes abiotiques
BFPMétabolisme et physiologie des fruits et leur impact sur la croissance, la production de biomasse et la qualité nutritionnelle.
TransformBIAWeb Sémantique, Modélisation de la connaissance , Ontologies
Phytochimiste, métabolomique des produits végétaux transformés

Partenaires extérieurs

InstitutExpertises
CNRS (LRSV)Métabolomique non ciblé, phytochimie, analyses multivariées