Soutenance de thèse de REFKA BEN HAMOUDA
Ecole Doctorale
Sciences de la Vie et de la Santé
Spécialité
Biologie-Santé - Spécialité Bioinformatique et Génomique
établissement
Aix-Marseille Université
Mots Clés
Bio-informatique,Package R,Spectrometrie de masse,Empreintes proteiques,Arthropodes,Base de données
Keywords
Bio-informatic,R package,Mass Spectrometry,Protein MS profiles,Arthropods,DataBase
Titre de thèse
Développement d'un outil bioinformatique innovant pour l'analyse des spectres MS MALDI-TOF d'arthropodes
Development of an innovative bioinformatics tool for the analysis of MALDI-TOF MS spectra of arthropods
Date
Friday 29 November 2024
à 9:00
Adresse
19-21 Bd Jean Moulin, 13005 Marseille
amphithéâtre IHU
Jury
Directeur de these | M. Lionel ALMERAS | Unité de Parasitologie et Entomologie (U.P.E.) Institut de Recherche Biomédicale des Armées (I.R.B.A.) UMR RITMES Risques Infectieux Tropicaux et Microorganismes EmergentS, Aix Marseille Université, Institut Hospitalo-Universitaire Méditerranée Infection (IHU-MI) |
Examinateur | Mme Nadia CREIGNOU | Logique, interaction, raisonnement et inférence, complexité et applications (LYRICA) |
Rapporteur | M. Oussama SOUIAI | Institut Pasteur de Tunis |
Rapporteur | M. Christophe BRULEY | Laboratoire dEtude de la Dynamique des Protéomes (EDyP) / UA13 Inserm/CEA/UGA Biosciences et Bioingénierie pour la sante (BGE) CEA Grenoble |
Président | M. Anthony LEVASSEUR | Equipe 7 UMR D-258, Microbes, Evolution, Phylogénie et Infection (MEPHI) Aix-Marseille Université (AMU), Institut de Recherche pour le Développement (IRD) |
Examinateur | M. Ameur CHERIF | University of Manoub - Laboratoire de Biotechnologie et de Valorisation des Bio-Géo Ressources |
Résumé de la thèse
Au cours de la dernière décennie, le profilage MALDI-TOF MS est apparu comme une approche innovante et pertinente pour l'identification des arthropodes et la détection de certains traits de vie. Malgré le succès de cette nouvelle méthode d'analyse des arthropodes, son application dans le domaine de l'entomologie médicale reste confidentielle. Parmi les facteurs qui entravent l'utilisation généralisée de cette approche, on peut citer les restrictions des logiciels commerciaux dédiés à l'analyse des spectres MS, qui ne permettent pas d'étendre de nouvelles fonctionnalités, et l'absence de base de données de spectres de référence des arthropodes. Pour surmonter ces limitations, le présent projet visait à créer un outil bioinformatique plus rapide, fiable, évolutif et innovant pour identifier plusieurs traits de vie des moustiques en utilisant la stratégie de MALDI-TOF profiling. Les objectifs spécifiques étaient de i) développer un logiciel en accès libre dédié à lanalyse de spectres MS complexes, ii) créer une base de données de spectres organisés pour une identification rapide des espèces darthropodes, de leur préférences trophiques, de leur statut dinfection et de leur sensibilité aux insecticides, et iii) valider loutil à laide déchantillons darthropodes dorigines multiples. Loutil bioinformatique a été organisé en étapes successives, permettant un développement et des tests indépendants avant inclusion dans la version finale. Cet outil a été construit à laide de lenvironnement de programmation R, appelant des packages spécifiques pour le traitement des spectres, avec une interface implémentée via R shiny. Loutil est disponible sur Microsoft Windows, accessible à laide du lien suivant sur GitHub (https://github.com/Almeras-Lionel/MSProfileR). Pour pallier labsence de bases de données, une base de données de référence pour les spectres darthropodes a été développée en utilisant le système SQL (Structured Query Language) pour sa compatibilité avec R, facilitée par la bibliothèque RMySQL. Cette configuration offre de vastes possibilités de structuration et dorganisation de la base de données et propose de nombreuses fonctions dinterrogation de la base de données. La base de données a également été développée avec R Shiny, offrant une interface web conviviale pour ajouter/supprimer des données ou pour des requêtes filtrées. La base de données de référence contient actuellement un total de 1927 échantillons correspondant à 7451 spectres de 7 familles darthropodes et 102 espèces distinctes. Cependant, la liste est encore extensible, représentant une archive de données darthropodes validées dans le but daméliorer lidentification des espèces à laide dalgorithmes de mise en correspondance, lune des futures directions de ce projet. Enfin, MSProfileR a été validé à laide de deux jeux de données, comprenant exclusivement des spectres MS darthropodes. Ce logiciel open source avec une interface Shiny peut être utilisé par nimporte qui sans nécessiter de compétences en programmation. Le langage de programmation R permet des modifications, permettant lévolution continue de loutil et lextension de ses fonctionnalités. Collectivement, le développement du package MSProfileR sera décisif pour une adoption plus large de loutil de profilage MS au sein de la communauté scientifique, en particulier parmi les groupes de recherche en entomologie.
Thesis resume
In the past decade, MALDI-TOF MS profiling has emerged as an innovative and relevant approach for arthropod identification and the detection of certain life traits. Despite the success of this new method for analyzing arthropods, its application in the domain of medical entomology remains confidential. Some examples of factors hampering the widespread use of this approach include the restrictions of the commercial software dedicated to MS spectra analysis, which do not allow to expand new functionalities, and the absence of arthropod reference MS spectra database. To overcome these limitations, the present project aimed to create a faster, reliable, scalable and innovative bioinformatics tool for identifying multiple mosquito life traits using MALDI-TOF MS profiling strategy. The specific objectives were to i) develop an open-access software dedicated to the analysis of complex MS spectra, ii) create a universal entomological database of curated spectra for rapid identification of arthropod species, host preferences, infection status and susceptibility to insecticides using MS profiling, and iii) validate the concept using arthropod samples from multiple origins. The bioinformatics tool was organized in successive steps, allowing for independent development and testing before inclusion in the final version. This tool was built using the R programming environment, calling specific packages for spectra treatment, with an interface implemented through R shiny. It is available on Microsoft Windows as a web browser application, accessible by navigation to the packages link on GitHub via this link https://github.com/Almeras-Lionel/MSProfileR. Given the absence of databases, a reference database for spectra of arthropod was developed using SQL (Structured Query Language) for its compatibility with R, facilitated by the RMySQL library. This setup offers extensive opportunities for the structure and organization of the database and provides numerous functions for database query. The framework was also developed with R Shiny, offering a user-friendly web interface to add/delete data or for filtered queries. The reference database currently contains a total of 1927 samples corresponding to 7451 spectra from 7 arthropod families and 102 distinct species. However the list is still extensible, representing an archive of validated arthropod data with the goal of enhancing species identification using matching algorithmsone of the future directions of this project. Finally, the evaluation of MSProfileR using two datasets, including exclusively MS spectra from arthropods, confirmed its value. This open-source software with a Shiny interface can be used by anyone without requiring programming skills. The R programming language allows for modifications, enabling the tools continual evolution and the expansion of its functionalities. Collectively, the development of the MSProfileR package will be decisive for the broader adoption of the MS profiling tool within the scientific community, particularly among entomological research groups.