Soutenance de thèse de Paul DE BOISSIER

Ecole Doctorale
Sciences de la Vie et de la Santé
Spécialité
Biologie-Santé - Spécialité Bioinformatique et Génomique
établissement
Aix-Marseille Université
Mots Clés
évolution,Motifs protéiques,Bactéries,SLiMs,bioinformatique,pipeline
Keywords
SLiMs,pipeline,protein motifs,bioinformatics,bacteria,evolution
Titre de thèse
Évolution des motifs protéiques dans leur contexte structural : de la fouille des données disponibles à la prédiction de motifs spécifiques de phénotypes.
Evolution of protein motifs in their structural context : from mining motif resources available to the prediction of phenotype-specific motifs.
Date
Monday 24 October 2022 à 14:00
Adresse
Faculté des Sciences Aix Marseille Université 163 Avenue de Luminy Case 901 13288 Marseille
Amphi 12
Jury
Directeur de these Mme Bianca HABERMANN AMU
Rapporteur Mme Elodie LAINE Sorbonne Université
Rapporteur M. Michael HILLER Goethe University
Examinateur M. Felix RICO AMU
Examinateur Mme Anna ZHUKOVA Institut Pasteur
Examinateur M. Alphée MICHELOT IBDM / AMU

Résumé de la thèse

Les Short Linear Motifs (SLiMs) sont des séquences protéiques fonctionnelles qui se suffisent à elles-mêmes. Elles sont principalement impliquées dans les intéractions protéines-protéines ou sont requises pour les modifications post-traductionnelles et sont donc impliquées dans de nombreuses fonctions cellulaires. Bien qu’ils soient nécessaires, qu’environ 3000 motifs ont été expérimentalement validés pour les milliards de protéines disponibles dans les bases de données publiques. Cela est dû au fait que les expériences sont difficiles et très coûteuses en temps et en argent. Cependant, avec de nouvelles techniques de spectroscopie de masse (phosphoprotéomiques et cross-linking (XL-MS)), nous avons de plus en plus de motifs disponibles. La façon dont évolue les SLiMs est encore peu connue. Alors que certains SLiMs sont bien conservés, leur évolution peut être retracée alors que d’autres semblent évoluer de novo. Souvent, les SLiMs peu conservés sont retrouvés dans les régions désordonnées. Ces régions subissent moins de pression évolutive et peuvent évoluer spontanément, offrant un potentiel immense de voir apparaître de nouvelles fonctions. Ces nouvelles fonctions peuvent, si sélectionnées, résulter en de nouveaux phénotypes, telles la prédation bactérienne. Dans ce projet, j’ai développé un pipeline, appelé evo-MOTiF, qui permet de calculer les propriétés de conservation et de structure des SLiMs. En cherchant dans un premier temps les orthologues d’une protéine d'intérêt qui sont ensuite alignés, les motifs sont retrouvés à travers l’alignement multiple pour extraire un groupe taxonomique auquel appartient le motif. En appliquant ce pipeline sur la base de données de SLiMs ELM, des données de phosphoprotéomiques et de XL-MS, j’ai pu extraire différentes corrélations entre les propriétés des SLiMs : les SLiMs trouvés dans les régions désordonnées tendent à être moins conservés. Afin de rendre ces données accessibles, car aucune base de données ne propose ces informations structurales, j’ai développé la base de données SLiMs-ETNA, où l’utilisateur pourra chercher les motifs de ces différents jeux de données, avec toutes les informations qu’ils peuvent fournir, ainsi que les résultats d’evo-MOTiF et des représentations de ces motifs basées sur PDB. Au travers d’un travail collaboratif, j’ai aussi étudié l’évolution du kill system d’une bactérie prédatrice au travers du groupe des protéobactéries, démontrant que ce système semble partagé et conservé parmi les prédateurs alors qu’il diverge chez les non-prédateurs, où son rôle est complètement différent. Pour aller plus loin, j’ai voulu savoir si cette divergence pouvait s’expliquer par la présence de motifs spécifiques des prédateurs. Dans cette optique, j’ai appliqué evo-MOTiF sur le kill system, prédisant ainsi des motifs (basés sur les données d’ELM) qui peuvent être impliqués dans ce phénotype. Une collaboration future pourrait être mise en place afin de vérifier leur réelle présence, ou au moins, de vérifier s’ils sont actifs dans leurs protéines correspondantes.

Thesis resume

Short linear motifs (SLiMs) are sequences in proteins that are self-sufficient functional units. They are primarily involved in protein-protein interactions or are required for protein modifications and thus directly involved a multitude of cellular functions. Yet, though SLiMs are so fundamentally required for a protein to function properly, only ~ 3000 SLiMs have so far been characterized for the billions of proteins that are available in public databases. This is partly due to the fact that it is difficult, time-consuming and expensive to determine SLiMs experimentally. Yet, with novel techniques especially in mass spectrometry (for instance phosphoproteomics or cross-linking associated with mass spectroscopy (XL-MS)), we now have a much wider database of SLiMs available for studying SLiMs. How SLiMs evolve is still an open question. While some SLiMs are well conserved and their evolution can be traced, others seem quite divergent and evolve de novo. Often, poorly conserved SLiMs lie in unstructured regions. Such regions typically underlie less evolutionary pressure and SLiMs could spontaneously evolve, providing an immense potential for evolving new protein functions. Such newly evolved functions could, if selected, result in newly acquired phenotypes, such as predatory behavior (by acquiring new binding or modification sites) of bacteria. In this project, I developed a pipeline, called evo-MOTiF, which allows the calculation of the conservation and structural properties of SLiMs. By looking in a first step to the orthologs of this protein that are then aligned, the motifs are looked for through the multiple sequence alignment in order to extract the taxonomic group in which the motifs appear. By applying this pipeline to the different datasets, from ELM (a database of SLiMs), phosphoproteomics and XL-MS results, I extracted the general tendencies and correlations between the different properties of SLiMs. SLiMs found in unstructured regions tend to be less conserved. Then, in order to make these information accessible, because no SLiMs database is proposing these structural information, I developed the database SLiMs-ETNA, where any user will be able to find motifs from these different datasets with all information available from the different resources and the results of evo-MOTiF as well as a structural representation of the motifs extracted from PDBs. In a collaborative work, I studied the evolution of the kill system of a predatory bacterium through the whole group of proteobacteria, highlighting that this system seems shared and well conserved among predators, whereas, it is diverging while found in non-predator bacteria, when its role differs. To go further, I wanted to know if this divergence of role could have been caused by the presence of some predator-specific motifs. For that purpose, I applied evo-MOTiF on the kill system and have been able to predict motifs based on ELM data that may be involved in the kill system. A future collaborative work may take place in order to verify their presence, or at least, if they are active in the corresponding proteins.