Soutenance de thèse de Philippe ORTET

Ecole Doctorale
Sciences de la Vie et de la Santé
Spécialité
Biologie-Santé - Spécialité Bioinformatique et Génomique
établissement
Aix-Marseille Université
Mots Clés
omics,base de données,analyses in silico,
Keywords
omics,databases,in silico analysis,
Titre de thèse
De l’annotation automatique des génomes à l’annotation experte pour la génomique environnementale
From automatic to expert genome annotation for environmental genomic
Date
Mardi 25 Septembre 2018 à 14:00
Adresse
CEA Cadarache 13108 Saint Paul Lez Durance Pour les extérieurs, merci de contacter Najat Comte au 04 42 25 27 53 pour les formalités d'entrée sur le centre
Centre CEA - Batiment 120
Jury
Directeur de these Thierry HEULIN CEA Cadarache
Rapporteur Claudine MEDIGUE UMR 8030 Génomique Métabolique du Genoscope
Rapporteur Céline BROCHIER-ARMANET UMR CNRS 5558 - LBBE
Examinateur Michel CLAVERIE IGS, UMR7256 CNRS-AMU
Examinateur Denis FAURE UMR9198 Institut de Biologie Intégrative de la Cellule (I2BC)
Examinateur Pascal SIMONET Lab. Ampere, UMR CNRS 5005

Résumé de la thèse

À l'époque du démarrage des travaux présentés dans ce document (2003) l’annotation d’un génome était une tâche longue et fastidieuse. Avec l’apparition des nouvelles technologies de séquençage, de nombreux outils ont été développés pour faciliter et accélérer ce processus. Pour les meilleurs, l’annotation d’un génome automatique peut prendre moins de 3 minutes, reportant l’activité chronophage sur l’annotation manuelle. Ainsi, de nombreux génomes sont déposés dans les banques de séquences tels quels sans annotation manuelle experte. Il est donc rapidement apparu nécessaire de fournir aux annotateurs la possibilité d’accéder à des bases de données consolidées et spécifiques de leur domaine d’expertise. Nous présentons dans ce document un outil modulaire d’annotation et de visualisation, GenoBrowser, que nous avons créé dans le cadre de nos travaux de recherche dans une équipe de microbiologie. Celui-ci nous permet d’intégrer simplement de nouvelles fonctionnalités liées aux données de Omics générées dans l’équipe. L’architecture de notre outil et la création d’une API (Application Programming Interface) spécifique nous ont permis de développer et de mettre à la disposition de la communauté scientifique deux bases de données (P2CS et P2TF) dédiées aux réseaux de régulation chez les bactéries, ainsi que le serveur web associé pour la prédiction de ces systèmes pour des génomes séquencés de novo. Ce travail a permis de développer, au sein d’une équipe de recherche, un ensemble d’outils d’aide à l’expertise pour la recherche en génomique environnementale. Il nous a permis de travailler sur la consolidation et la réutilisation de la quantité croissante de données de type Omics et de porter une nouvelle thématique de recherche pour aider les membres de l’équipe: labibliomics, étude de l’ensemble des publications scientifiques par des approches NLPs (Natural Langage Processing).

Thesis resume

At the time of the beginning of this work presented in this document (2003), genome annotation was a long and tedious task. With the advent of new sequencing technologies, many tools have been developed to facilitate and accelerate this process. At best, the annotation of an automatic genome can take less than 3 minutes, making manual annotation the more time consuming activity. Thus, many genomes are deposited into sequence banks without expert manual annotation. It quickly became clear that annotators needed to be provided with the possibility of accessing consolidated databases specific to their field of expertise. This paper presents a modular annotation and visualization tool, GenoBrowser, which we created as part of the research in our microbiology team. This allows us to easily integrate new functionalities related to Omics data generated in the team. The architecture of our tool and the creation of a specific API (Application Programming Interface) enabled us to develop and make available to the scientific community two databases (P2CS and P2TF) dedicated to regulation networks in bacteria, as well as the associated web server for prediction of these systems for genomes sequenced de novo. This work has led to the development of a set of tools within a research team to support expertise in environmental genomics research. It allowed us to work on the consolidation and reuse of the growing amount of Omics data and to carry out a new research theme to help team members: bibliomics, the study of all scientific publications using NLPs (Natural Language Processing) approaches.