Soutenance de thèse de Paul DE BOISSIER
Ecole Doctorale
Sciences de la Vie et de la Santé
Spécialité
Biologie-Santé - Spécialité Bioinformatique et Génomique
établissement
Aix-Marseille Université
Mots Clés
évolution,Motifs protéiques,Bactéries,SLiMs,bioinformatique,pipeline
Keywords
SLiMs,pipeline,protein motifs,bioinformatics,bacteria,evolution
Titre de thèse
Évolution des motifs protéiques dans leur contexte structural : de la fouille des données disponibles à la prédiction de motifs spécifiques de phénotypes.
Evolution of protein motifs in their structural context : from mining motif resources available to the prediction of phenotype-specific motifs.
Date
Lundi 24 Octobre 2022
à 14:00
Adresse
Faculté des Sciences Aix Marseille Université
163 Avenue de Luminy
Case 901
13288 Marseille
Amphi 12
Jury
Directeur de these | Mme Bianca HABERMANN | AMU |
Rapporteur | Mme Elodie LAINE | Sorbonne Université |
Rapporteur | M. Michael HILLER | Goethe University |
Examinateur | M. Felix RICO | AMU |
Examinateur | Mme Anna ZHUKOVA | Institut Pasteur |
Examinateur | M. Alphée MICHELOT | IBDM / AMU |
Résumé de la thèse
Les Short Linear Motifs (SLiMs) sont des séquences protéiques fonctionnelles qui se suffisent à elles-mêmes. Elles sont principalement impliquées dans les intéractions protéines-protéines ou sont requises pour les modifications post-traductionnelles et sont donc impliquées dans de nombreuses fonctions cellulaires. Bien quils soient nécessaires, quenviron 3000 motifs ont été expérimentalement validés pour les milliards de protéines disponibles dans les bases de données publiques. Cela est dû au fait que les expériences sont difficiles et très coûteuses en temps et en argent. Cependant, avec de nouvelles techniques de spectroscopie de masse (phosphoprotéomiques et cross-linking (XL-MS)), nous avons de plus en plus de motifs disponibles.
La façon dont évolue les SLiMs est encore peu connue. Alors que certains SLiMs sont bien conservés, leur évolution peut être retracée alors que dautres semblent évoluer de novo. Souvent, les SLiMs peu conservés sont retrouvés dans les régions désordonnées. Ces régions subissent moins de pression évolutive et peuvent évoluer spontanément, offrant un potentiel immense de voir apparaître de nouvelles fonctions. Ces nouvelles fonctions peuvent, si sélectionnées, résulter en de nouveaux phénotypes, telles la prédation bactérienne.
Dans ce projet, jai développé un pipeline, appelé evo-MOTiF, qui permet de calculer les propriétés de conservation et de structure des SLiMs. En cherchant dans un premier temps les orthologues dune protéine d'intérêt qui sont ensuite alignés, les motifs sont retrouvés à travers lalignement multiple pour extraire un groupe taxonomique auquel appartient le motif.
En appliquant ce pipeline sur la base de données de SLiMs ELM, des données de phosphoprotéomiques et de XL-MS, jai pu extraire différentes corrélations entre les propriétés des SLiMs : les SLiMs trouvés dans les régions désordonnées tendent à être moins conservés.
Afin de rendre ces données accessibles, car aucune base de données ne propose ces informations structurales, jai développé la base de données SLiMs-ETNA, où lutilisateur pourra chercher les motifs de ces différents jeux de données, avec toutes les informations quils peuvent fournir, ainsi que les résultats devo-MOTiF et des représentations de ces motifs basées sur PDB.
Au travers dun travail collaboratif, jai aussi étudié lévolution du kill system dune bactérie prédatrice au travers du groupe des protéobactéries, démontrant que ce système semble partagé et conservé parmi les prédateurs alors quil diverge chez les non-prédateurs, où son rôle est complètement différent.
Pour aller plus loin, jai voulu savoir si cette divergence pouvait sexpliquer par la présence de motifs spécifiques des prédateurs. Dans cette optique, jai appliqué evo-MOTiF sur le kill system, prédisant ainsi des motifs (basés sur les données dELM) qui peuvent être impliqués dans ce phénotype. Une collaboration future pourrait être mise en place afin de vérifier leur réelle présence, ou au moins, de vérifier sils sont actifs dans leurs protéines correspondantes.
Thesis resume
Short linear motifs (SLiMs) are sequences in proteins that are self-sufficient
functional units. They are primarily involved in protein-protein interactions or are required for
protein modifications and thus directly involved a multitude of cellular functions. Yet, though
SLiMs are so fundamentally required for a protein to function properly, only ~ 3000 SLiMs have so far been characterized for the billions of proteins that are available in public databases. This is partly due to the fact that it is difficult, time-consuming and expensive to determine SLiMs experimentally. Yet, with novel techniques especially in mass spectrometry (for instance phosphoproteomics or cross-linking associated with mass spectroscopy (XL-MS)), we now have a much wider database of SLiMs available for studying SLiMs.
How SLiMs evolve is still an open question. While some SLiMs are well conserved and
their evolution can be traced, others seem quite divergent and evolve de novo. Often, poorly
conserved SLiMs lie in unstructured regions. Such regions typically underlie less evolutionary pressure and SLiMs could spontaneously evolve, providing an immense potential for evolving new protein functions. Such newly evolved functions could, if selected, result in newly acquired phenotypes, such as predatory behavior (by acquiring new binding or modification sites) of bacteria.
In this project, I developed a pipeline, called evo-MOTiF, which allows the calculation of the conservation and structural properties of SLiMs. By looking in a first step to the orthologs of this protein that are then aligned, the motifs are looked for through the multiple sequence alignment in order to extract the taxonomic group in which the motifs appear.
By applying this pipeline to the different datasets, from ELM (a database of SLiMs), phosphoproteomics and XL-MS results, I extracted the general tendencies and correlations between the different properties of SLiMs. SLiMs found in unstructured regions tend to be less conserved.
Then, in order to make these information accessible, because no SLiMs database is proposing these structural information, I developed the database SLiMs-ETNA, where any user will be able to find motifs from these different datasets with all information available from the different resources and the results of evo-MOTiF as well as a structural representation of the motifs extracted from PDBs.
In a collaborative work, I studied the evolution of the kill system of a predatory bacterium through the whole group of proteobacteria, highlighting that this system seems shared and well conserved among predators, whereas, it is diverging while found in non-predator bacteria, when its role differs.
To go further, I wanted to know if this divergence of role could have been caused by the presence of some predator-specific motifs. For that purpose, I applied evo-MOTiF on the kill system and have been able to predict motifs based on ELM data that may be involved in the kill system. A future collaborative work may take place in order to verify their presence, or at least, if they are active in the corresponding proteins.