Soutenance de thèse de Elva María NOVOA DEL TORO

Ecole Doctorale
Sciences de la Vie et de la Santé
Spécialité
Biologie-Santé - Spécialité Bioinformatique et Génomique
établissement
Aix-Marseille Université
Mots Clés
Algorithme génétique multi-objectif,Modules actifs,Réseaux biologiques multiplexes,,
Keywords
Multi-Objective Genetic Algorithm,Active Modules,Multiplex Biological Networks,,
Titre de thèse
Un algorithme génétique multi-objectif pour trouver des modules actifs dans les réseaux biologiques multiplexes
A multi-objective genetic algorithm to find active modules in multiplex biological networks
Date
Jeudi 14 Mai 2020 à 14:00
Adresse
Faculty of Medical Sciences, Timone sector. 27 Boulevard Jean Moulin, 13385, Marseille.
Thesis room no. 2
Jury
Directeur de these Mme Anaïs BAUDOT Aix Marseille Univ, INSERM, MMG, Marseille Medical Genetics, Marseille, France
Rapporteur Mme Laurence CALZONE Institut Curie
Examinateur Mme Rossella TUPLER Dipartimento di Scienze Biomediche, Metaboliche e Neuroscienze, Università di Modena e Reggio Emilia
Rapporteur M. Claude PASQUIER Université Côte d'Azur, CNRS, I3S
Examinateur M. Jacques VAN HELDEN Lab. Theory and Approaches to Genome Complexity (TAGC), Aix-Marseille Université (AMU), Marseille, France
Examinateur M. Nicolas LEVY Marseille Medical Genetics

Résumé de la thèse

L'un des plus grands défis auxquels la biologie est actuellement confrontée est la compréhension globale du fonctionnement des cellules. L'expression des gènes, en particulier, est régulée dans le temps, ainsi qu'entre les types de cellules et les conditions (par exemple, chez les patients souffrant de maladies génétiques par rapport à des témoins sains). Nous avons de nos jours accès à des technologies nous permettant de mesurer l'expression des gènes. Nous pouvons donc calculer les différences d'expression génique entre les patients et les témoins, et identifier ainsi les gènes dont l'expression est dérégulées. L'étape suivante de l'analyse consiste alors à essayer de trouver un enrichissement significatif d'une ou plusieurs fonctions cellulaires à partir de la liste des gènes dérégulés. Dans ce contexte, j'ai analysé les données d'expression transcriptomiques, y compris les micro ARNs et les ARN messagers, correspondant à des échantillons de patients ayant le syndrome de Hutchinson-Gilford et aux témoins sains, en effectuant des analyses d'expression différentielle et d'enrichissements. Ces analyses ont conduit à l'identification de micro-ARN et d'ARN messagers, ainsi que de processus biologiques, différentiellement exprimés chez les patients et candidats pour validation expérimentale. Nous savons qu'à l'intérieur des cellules, les gènes, les protéines et les molécules biologiques en général n'agissent pas isolément, mais plutôt interagissent pour accomplir les fonctions cellulaires. Actuellement, nous disposons de techniques ex-pé-ri-men-ta-les pour déchiffrer ces interactions à grande échelle. Les interactions biologiques sont généralement représentées comme des réseaux, dans lesquels les nœuds représentent des gènes/protéines/molécules, et les arêtes représentent des relations physiques et/ou fonctionnelles entre les mo-lé-cu-les correspondantes. Suivant le principe de la culpabilité-par-association (textit{guilt-by-association}), les protéines partageant les mêmes fonctions ont tendance à se trouver à proximité les unes des autres dans les réseaux biologiques. L'hypothèse principale que j'ai suivie lors de ma thèse est que des sous-réseaux de molécules en interactions et associées à une dérégulation globale de l'expression correspondent aux processus cellulaires affectés chez les patients. Ces sous-réseaux sont généralement appelés "modules actifs". J'ai donc intégré des données d'expression génique et des réseaux pour identifier de tels modules. L'identification des modules actifs est un problème NP-hard étudié activement par la communauté. J'ai développé MOGAMUN, un algorithme génétique multi-objectif qui recherche des modules actifs en optimisant à la fois l'expression différentielle et la densité des interactions dans les sous-réseaux. MOGAMUN a démontré ses bonnes performances par rapport aux approches de pointe sur des jeux de données simulés. Notablement, MOGAMUN est aussi, à notre connaissance, le premier algorithme d'identification de modules actifs capable de considérer les réseaux multiplexes, i.e. réseaux composés de différentes couches d'interactions biologiques. MOGAMUN est également fourni en tant que R-package qui peut être utilisé pour (mais non limité à) trouver les processus cellulaires affectés chez les patients atteints d'une maladie génétique, et nous l'avons appliqué pour identifier les processus cellulaires dérégulés dans la dystrophie facio-scapulo-humérale, le syndrome de Hutchinson-Gilford, plus communément appelé progéria, et le cancer du sein.

Thesis resume

One of the biggest challenges that biology currently faces is the comprehensive understanding of the functioning of cells. Gene expression, in particular, is regulated, varying between time, cell types and conditions (such as in patients suffering of genetic diseases as compared with healthy controls). Importantly, we have access to technologies allowing us to measure the gene expression. We can therefore calculate the differences in gene expression between patients and controls, thereby identifying deregulated genes. The next step of traditional analyses is to try to find significant enrichment of one or more cellular functions from the list of deregulated genes. I analyzed gene expression data, including micro RNA and messenger RNA transcriptomics data, corresponding to Hutchinson-Gilford Progeria Syndrome patients and healthy controls by performing differential expression and enrichment analyses. Our analyses led to the identification of candidate micro RNAs and messenger RNAs, as well as pathways and processes, significantly differentially expressed in HGPS patients as compared to controls. We know that, inside cells, genes, proteins, and biological molecules in general do not act isolated, but they rather interact to accomplish the cellular functions. Nowadays, we have experimental techniques to decipher these interactions on a large scale. Biological interactions are usually represented as networks in which the nodes represent genes/proteins/molecules, and the edges represent physical and/or functional relationships between the corresponding molecules. Importantly, following the guilt-by-association principle, functionally-related proteins tend to lie close to each other in biological networks. The main hypothesis I followed during my thesis is that subnetworks composed of highly interacting molecules that are associated to an overall expression deregulation correspond to affected cellular processes in patients. Such subnetworks are known as "active modules". I integrated gene expression data and networks to identify such active modules. The identification of active modules is an actively studied NP-hard problem. I developed MOGAMUN, a multi-objective genetic algorithm that seeks for active modules by optimizing both the differential expression and the density of interactions in the subnetworks. MOGAMUN demonstrated its good performance over state-of-the-art approaches on simulated datasets. Importantly, MOGAMUN is also, to our knowledge, the first active module identification algorithm able to consider multiplex networks, i.e. networks composed of different layers of biological interactions. MOGAMUN is also provided as an R-package that can be used to (but it is not limited to) find the affected cellular processes from disease-associated transcriptomics data. We applied MOGAMUN to identify deregulated cellular processes in facioscapulohumeral muscular dystrophy, Hutchinson-Gilford progeria syndrome, and breast cancer.