Illustration thèse confinancée
Thèse d'Ekaterina Tomilina (2022 - 2025)

Inférence de réseaux de régulation multi-omiques via la copule Gaussienne

Thèse d'Ekaterina Tomilina (MaIAGE, soutenue en 2025). La biologie des systèmes est basée sur l’analyse de données complexes, de grande dimension et de natures très diverses. Un enjeu majeur est de comprendre les liens d’interactions et de régulation entre les différents types de données omiques mesurées. Cette thèse propose une modélisation conjointe de données multi-omiques en s'appuyant sur la théorie des copules.

  • Thèse cofinancée
  • Dates : 2022-2025
  • Unité d'accueil : UR 1404 MaIAGE (Mathématiques et Informatique Appliquées du Génome à l'Environnement)
  • Centre INRAE : Jouy-en-Josas
  • Université : Université Paris Saclay
  • École doctorale : Ecole Doctorale EDMH
  • Discipline / Spécialité : Mathématiques aux interfaces
  • Directeurs de thèse : Gildas MAZO (INRAE, MaIAGE), Florence JAFFREZIC (INRAE, GABI), Andrea Rau (INRAE, GABI)
  • Financement : Métaprogramme DIGIT-BIO / École Doctorale EDMH
  • Axe du métaprogramme : axe 1 (Décryptage multi-échelle des fonctions du vivant : régulations et intégration)

Résumé

L'étude des réseaux de régulation multi-omiques constitue un des challenges majeurs actuellement en biologie. Le terme "multi-omiques" désigne les différents niveaux  -omiques de l’organisme (protéomique, génomique, métabolomique...). Chacun de ces niveaux possède un rôle différent au niveau moléculaire, et leur action conjointe régit les réactions biologiques de l’organisme. La compréhension des mécanismes sous-jacents à ces réseaux permettrait par exemple de progresser dans la lutte contre les maladies telles que le cancer. 

Un premier obstacle majeur est l'hétérogénéité des données (continues, discrètes, mixtes...). En effet, les méthodes d'inférence de réseaux classiques sont souvent limitées à un seul type de données. Un deuxième obstacle majeur est la grande dimension, qui se traduit par un nombre de variables supérieur au nombre d'observations. Celle-ci soulève la question de la sélection de variables contribuant aux interactions du réseau biologique. 

Dans cette thèse, nous proposons l'utilisation d'un modèle à copule Gaussienne pour représenter les données multi-omiques. Celui-ci modélise les dépendances entre les variables observées via une structure Gaussienne latente, paramétrée par une matrice de corrélation qui encode naturellement un réseau. Les propriétés de ce modèle ainsi que de nombreuses méthodes d'inférence des coefficients de corrélation sont connues dans le cas de variables observées continues. Ainsi, nous nous concentrons majoritairement sur l'adaptation du modèle au cas où des variables discrètes sont également présentes. Dans le cas de variables continues, plusieurs méthodes d'estimation des coefficients de corrélation de la copule sont connues. Cette tâche est moins évidente en présence de variables discrètes, et requiert souvent des hypothèses sur la nature des distributions marginales. Nous proposons une méthode d'estimation basée sur le maximum de vraisemblance. Afin d'éviter un coût computationnel élevé, nous considérons une approche par paires. Enfin, nous nous affranchissons de toute hypothèse sur les marginales en nous plaçant dans un cadre semi-paramétrique. Nous étudions également les propriétés d'indépendance du modèle et montrons que les corrélations latentes encodent les dépendances entre les groupes de variables observées. De plus, nous fournissons une interprétation des valeurs extrêmes des coefficients de corrélation, connue précédent dans un cadre exclusivement continu, en présence de variables binaires. Dans un troisième temps, nous proposons d'étudier la structure de corrélations conditionnelles latentes, tout en réalisant une sélection de variables afin de pallier le problème de la grande dimension. Grâce à la structure Gaussienne, il suffit d'inverser la matrice de corrélation. Pour ce faire, nous appliquons une méthode connue d'inversion pénalisée à notre estimateur semi-paramétrique du maximum de vraisemblance par paires. Enfin, nous illustrons notre méthode sur un jeu de données multi-omiques INRAE concernant la fertilité des taureaux à l'aide de notre package R développé dans le cadre de cette thèse.

Contact

Ekaterina Tomilina

 

 

Publications

 

Articles et pré-publications

  • Ekaterina Tomilina, Gildas Mazo, Florence Jaffrézic. A semi-parametric Gaussian copula model for heterogeneous network inference: an application to multi-omics data. 2024. ⟨hal-04847648⟩
  • Ekaterina Tomilina, Florence Jaffrézic, Gildas Mazo. Gaussian copula correlation network analysis with application to multi-omics data. 2025. ⟨hal-04847648v3
  • Ekaterina Tomilina, Gildas Mazo, Florence Jaffrézic. Multi-omics network inference with a Gaussian copula model. 2025. ⟨hal-05173829⟩

 

Communications (conférences, congrès)

  • Ekaterina Tomilina, Gildas Mazo, Florence Jaffrézic. Méthodes à copules pour l'inférence de réseaux de régulation multi-omiques. Colloque Jeunes Probabilistes et Statisticiens, groupe Modélisation Aléatoire et Statistique de la Société de Mathématiques Appliquées et Industrielles, Oct 2023, Saint Pierre d'Oléron, France. ⟨hal-04308489⟩
  • Ekaterina Tomilina, Gildas Mazo, Florence Jaffrezic. Gaussian copula estimation for heterogeneous data. European Meeting of Statisticians, Jul 2023, Warsaw (POLAND), Poland. . ⟨hal-04308470⟩
  • Ekaterina Tomilina, Gildas Mazo, Florence Jaffrezic. Copula-based models for multi-omic network inference. Compstat 2024, Aug 2024, Giessen, Germany. ⟨hal-04683480⟩
  • Ekaterina Tomilina, Gildas Mazo, Florence Jaffrezic. Copula-based models for multi-omics network inference. Journée des Statistiques 2024, Société Française de Statistique, May 2024, Bordeaux, France. ⟨hal-04598167⟩

Logiciels

Voir aussi

  • Naviguer dans un océan d’informations hétérogènes... Ekaterina Tomilina, doctorante co-financée par DIGIT-BIO, était en finale du concours 2023 ‘Ma Thèse en 180 Secondes’ à l’Université Paris-Saclay : voir la vidéo
  • Projet exploratoire DINAMICSEtude de la plasticité des réseaux biologiques hétérogènes par les modèles à copules