Soutenance de thèse de Cam Linh NGUYEN

Ecole Doctorale
Sciences de la Vie et de la Santé
Spécialité
Biologie-Santé - Spécialité Bioinformatique et Génomique
établissement
Aix-Marseille Université
Mots Clés
LApprentissage Automatique,Oncologie de Précision,Pharmacogénomique,Bioinformatique,XDP,
Keywords
Machine learning,Precision Oncology,Pharmacogenomics,Bioinformatics,PDX,
Titre de thèse
Prédiction de la réponse aux traitements in vivo de tumeurs basée sur le profil moléculaire des tumeurs par apprentissage automatique
Prediction of tumour in vivo response to treatments using its molecular profiles via machine learning
Date
Mercredi 5 Juin 2019 à 14:00
Adresse
Centre de Recherche en Cancérologie de Marseille 27 boulevard Lei Roure 13009 Marseille
La bibliothèque du bâtiment Z
Jury
Directeur de these M. Pedro BALLESTER Centre de Recherche en Cancérologie de Marseille
Examinateur M. Christophe GINESTIER Centre de Recherche en Cancerologie de Marseille
Rapporteur Mme Thérèse COMMES Institut de Recherche en médecine regeneratrice, INSERM U1183
Rapporteur M. Jacques COLINGE Institut de Recherche en Cancérologie de Montpellier

Résumé de la thèse

Des progrès importants ont été réalisés au cours des 20 dernières années avec l’introduction de traitements médicamenteux à ciblage moléculaire pour l’Oncologie de Précision (OP). Les thérapies ciblées sont souvent dépourvues d'effet secondaire nocif et sont généralement accompagnées d'un marqueur monogénique (MG) qui prédit dans une certaine mesure quels patients répondront au médicament. Malheureusement, de nombreux médicaments ne comptent pas de tel marqueur, et le marqueur n'est généralement pas un prédicteur précis de la réponse aux médicaments. Il est donc impératif de prévoir quelles tumeurs répondront à un médicament donné pour améliorer la survie des patients. L’apprentissage automatique (AA) est une approche prometteuse pour l’OP. L’AA prédit la réponse au traitement en combinant plusieurs altérations géniques afin de fournir une prédiction optimale de la réponse au médicament. Dans cette thèse, les Xénogreffes Dérivées du Patient (XDP), a été analysé à travers les données de 1075 DP avec 40% de celles-ci profilées à trois niveaux moléculaires: les variants mononucléotidiques de l’exome entier, les modifications du nombre de copies et l’expression génique. Trois algorithmes arborescents ont été utilisées pour classifier les PDX sensibles et résistants pour chaque médicament et chaque type de cancer, dont 2 algorithmes d'arbre de décision (AD) (CART et C5.0) et l’algorithme de forêt aléatoire (FA). Une stratégie appelée Complexité Optimale des Modèles (COM) a été introduite pour améliorer les performances des modèles de FA. COM réduit fortement la dimensionnalité des données tout en conservant la plupart des informations importantes. La première partie de cette thèse se concentre sur la création de modèles d’AA dans le contexte d’un type de cancer spécifique, où les cellules tumorales des XDP utilisées pour l’entraînement et le test des modèles proviennent du même tissu. Les XDP prédites sont limitées au cancer du sein et au cancer colorectal parce que les autres types de cancer n'ayant pas suffisamment d'échantillons. La deuxième partie vise à construire des modèles d’AA dans le contexte de pancancer, où des XDP utilisées pour l’entraînement et le test des modèles proviennent de différents tissus. L'approche de pancancer permet de prédire la réponse des XDP de trois autres types de cancer, dont le cancer bronchique non à petites cellules, le mélanome cutané et l'adénocarcinome canalaire pancréatique. Dans les deux contextes d’un type de cancer spécifique et de pancancer, les modèles d’AA peuvent prédire la réponse des XDP à certains traitements avec une très grande précision dans ce contexte. Cependant, l'algorithme standard d’FA a produit des modèles nécessitant le profilage de milliers de gènes pour leur fonctionnement. Un nombre élevé de gènes est difficile à interpréter. La COM aide non seulement à améliorer les performances du modèle de FA, mais également à générer des listes de gènes beaucoup plus concises, utiles pour l'interprétation. D'autre part, les modèles d’AD fournissent des prévisions facilement interprétables, car elles permettent de créer un petit arbre lisible. Ils sont généralement faciles à comprendre, à expliquer et éventuellement à appliquer dans la pratique clinique. En outre, les modèles d’AA ont pu identifier une proportion plus élevée de XDP sensibles aux médicaments (rappel plus élevé) que les marqueurs MG correspondants. Beaucoup plus de patients pourraient bénéficier de l’OP en utilisant la méthodologie développée sur des données de pharmacogénomique clinique existantes. En tenant différentes approches, modèles et types de profils, le nombre de cas avec une performance prédictive a été augmenté. De plus, les modèles prédictifs générés par ces algorithmes d’AA retiennent des gènes qui se sont révélés être individuellement pertinents pour la progression du cancer et la réponse aux médicaments, prouvant que ces modèles sont biologiquement pertinents et applicables.

Thesis resume

The introduction of molecularly targeted drug treatments for Precision Oncology (PO) has made important advances in anticancer therapies over the last 20 years. Targeted drugs are often devoid of harmful side-effects and are usually accompanied by a single-gene (SG) marker that predicts to some extent which patients will respond to the drug. Unfortunately, many drugs do not count with such markers and, when they do, the marker is generally not a strong predictor of drug response. There is hence a pressing need to predict this aspect of human variations by determining which tumours will respond to a given drug to improve patient survival. Machine Learning (ML) is emerging as a particularly promising approach to PO. ML can predict treatment response by combining multiple gene alterations to provide an optimal prediction of drug response. In this thesis, the most advanced type of preclinical data, Patient-Derived Xenografts (PDXs) was analysed. In particular, a dataset comprising 1075 PDXs was employed, where 40% of these PDXs are molecularly-profiled at three levels: whole-exome single-nucleotide variants, copy-number alterations and gene expression. Three tree-based algorithms were used to generate models to discriminate between sensitive and resistant PDXs. The first two were Decision Tree (DT) algorithms, namely CART and C5.0. The third algorithm was Random Forest (RF). A strategy termed Optimal Model Complexity (OMC) was introduced to enhance the performance of RF models. OMC strongly reduces the dimensionality of the data while retaining most of its information content. The first part of this thesis focuses on building ML models in the cancer-specific setting, in which the PDXs used for training and testing the models harbouring the tumours from the same cancer type. The PDXs that can be predicted are limited to breast cancer and colorectal cancer, as the other cancer types did not have sufficient samples. The second part aims to build ML models in the pancancer setting, where PDXs are used for training and testing the models coming from different cancer types. The pancancer approach allows the prediction of PDX response from three more cancer types, including non-small cell lung cancer, cutaneous melanoma and pancreatic ductal adenocarcinoma. In both cancer-specific and pancancer settings, the results demonstrated that ML models can predict the response of PDXs to certain treatments with high accuracy in this context. Despite its performance, the standard RF algorithm produced models that require profiling thousands of genes for their operation. Such a high number of genes is hard to interpret too. Applying OMC not only improved the performance of RF models, but also generated much more concise lists of genes, which aids the interpretation of drug response variability across tumours. On the other hand, DT models provided highly interpretable predictions, as they resulted in transparent tree structures of small size. These are generally easy to interpret, explain and eventually apply in clinical practice. In addition, both ML models were able to identify a higher proportion of drug-sensitive PDXs (higher recall) than the corresponding SG markers. Many more patients thereby could benefit from PO by using the developed methodology on existing clinical pharmacogenomics data. Furthermore, by considering different approaches, models and profile types, the number of cancer type-treatment binomials that could be predicted increased substantially. Last but not least, the predictive models generated by these ML algorithms retrieved genes that have been previously found to be individually associated with cancer progression and drug response, proving that those models are biologically relevant and applicable.