Soutenance de thèse de Cam Linh NGUYEN

Ecole Doctorale

Sciences de la Vie et de la Santé

Spécialité

Biologie-Santé - Spécialité Bioinformatique et Génomique

établissement

Aix-Marseille Université

Mots Clés

LApprentissage Automatique,Oncologie de Précision,Pharmacogénomique,Bioinformatique,XDP,

Keywords

Machine learning,Precision Oncology,Pharmacogenomics,Bioinformatics,PDX,

Titre de thèse

Prédiction de la réponse aux traitements in vivo de tumeurs basée sur le profil moléculaire des tumeurs par apprentissage automatique

Prediction of tumour in vivo response to treatments using its molecular profiles via machine learning

Date

Mercredi 5 Juin 2019 à 14:00

Adresse

Centre de Recherche en Cancérologie de Marseille 27 boulevard Lei Roure 13009 Marseille

La bibliothèque du bâtiment Z

Jury

Directeur de these	M. Pedro BALLESTER	Centre de Recherche en Cancérologie de Marseille
Examinateur	M. Christophe GINESTIER	Centre de Recherche en Cancerologie de Marseille
Rapporteur	Mme Thérèse COMMES	Institut de Recherche en médecine regeneratrice, INSERM U1183
Rapporteur	M. Jacques COLINGE	Institut de Recherche en Cancérologie de Montpellier

Résumé de la thèse

Des progrès importants ont été réalisés au cours des 20 dernières années avec lintroduction de traitements médicamenteux à ciblage moléculaire pour lOncologie de Précision (OP). Les thérapies ciblées sont souvent dépourvues d'effet secondaire nocif et sont généralement accompagnées d'un marqueur monogénique (MG) qui prédit dans une certaine mesure quels patients répondront au médicament. Malheureusement, de nombreux médicaments ne comptent pas de tel marqueur, et le marqueur n'est généralement pas un prédicteur précis de la réponse aux médicaments. Il est donc impératif de prévoir quelles tumeurs répondront à un médicament donné pour améliorer la survie des patients. Lapprentissage automatique (AA) est une approche prometteuse pour lOP. LAA prédit la réponse au traitement en combinant plusieurs altérations géniques afin de fournir une prédiction optimale de la réponse au médicament. Dans cette thèse, les Xénogreffes Dérivées du Patient (XDP), a été analysé à travers les données de 1075 DP avec 40% de celles-ci profilées à trois niveaux moléculaires: les variants mononucléotidiques de lexome entier, les modifications du nombre de copies et lexpression génique. Trois algorithmes arborescents ont été utilisées pour classifier les PDX sensibles et résistants pour chaque médicament et chaque type de cancer, dont 2 algorithmes d'arbre de décision (AD) (CART et C5.0) et lalgorithme de forêt aléatoire (FA). Une stratégie appelée Complexité Optimale des Modèles (COM) a été introduite pour améliorer les performances des modèles de FA. COM réduit fortement la dimensionnalité des données tout en conservant la plupart des informations importantes. La première partie de cette thèse se concentre sur la création de modèles dAA dans le contexte dun type de cancer spécifique, où les cellules tumorales des XDP utilisées pour lentraînement et le test des modèles proviennent du même tissu. Les XDP prédites sont limitées au cancer du sein et au cancer colorectal parce que les autres types de cancer n'ayant pas suffisamment d'échantillons. La deuxième partie vise à construire des modèles dAA dans le contexte de pancancer, où des XDP utilisées pour lentraînement et le test des modèles proviennent de différents tissus. L'approche de pancancer permet de prédire la réponse des XDP de trois autres types de cancer, dont le cancer bronchique non à petites cellules, le mélanome cutané et l'adénocarcinome canalaire pancréatique. Dans les deux contextes dun type de cancer spécifique et de pancancer, les modèles dAA peuvent prédire la réponse des XDP à certains traitements avec une très grande précision dans ce contexte. Cependant, l'algorithme standard dFA a produit des modèles nécessitant le profilage de milliers de gènes pour leur fonctionnement. Un nombre élevé de gènes est difficile à interpréter. La COM aide non seulement à améliorer les performances du modèle de FA, mais également à générer des listes de gènes beaucoup plus concises, utiles pour l'interprétation. D'autre part, les modèles dAD fournissent des prévisions facilement interprétables, car elles permettent de créer un petit arbre lisible. Ils sont généralement faciles à comprendre, à expliquer et éventuellement à appliquer dans la pratique clinique. En outre, les modèles dAA ont pu identifier une proportion plus élevée de XDP sensibles aux médicaments (rappel plus élevé) que les marqueurs MG correspondants. Beaucoup plus de patients pourraient bénéficier de lOP en utilisant la méthodologie développée sur des données de pharmacogénomique clinique existantes. En tenant différentes approches, modèles et types de profils, le nombre de cas avec une performance prédictive a été augmenté. De plus, les modèles prédictifs générés par ces algorithmes dAA retiennent des gènes qui se sont révélés être individuellement pertinents pour la progression du cancer et la réponse aux médicaments, prouvant que ces modèles sont biologiquement pertinents et applicables.

Thesis resume

The introduction of molecularly targeted drug treatments for Precision Oncology (PO) has made important advances in anticancer therapies over the last 20 years. Targeted drugs are often devoid of harmful side-effects and are usually accompanied by a single-gene (SG) marker that predicts to some extent which patients will respond to the drug. Unfortunately, many drugs do not count with such markers and, when they do, the marker is generally not a strong predictor of drug response. There is hence a pressing need to predict this aspect of human variations by determining which tumours will respond to a given drug to improve patient survival. Machine Learning (ML) is emerging as a particularly promising approach to PO. ML can predict treatment response by combining multiple gene alterations to provide an optimal prediction of drug response. In this thesis, the most advanced type of preclinical data, Patient-Derived Xenografts (PDXs) was analysed. In particular, a dataset comprising 1075 PDXs was employed, where 40% of these PDXs are molecularly-profiled at three levels: whole-exome single-nucleotide variants, copy-number alterations and gene expression. Three tree-based algorithms were used to generate models to discriminate between sensitive and resistant PDXs. The first two were Decision Tree (DT) algorithms, namely CART and C5.0. The third algorithm was Random Forest (RF). A strategy termed Optimal Model Complexity (OMC) was introduced to enhance the performance of RF models. OMC strongly reduces the dimensionality of the data while retaining most of its information content. The first part of this thesis focuses on building ML models in the cancer-specific setting, in which the PDXs used for training and testing the models harbouring the tumours from the same cancer type. The PDXs that can be predicted are limited to breast cancer and colorectal cancer, as the other cancer types did not have sufficient samples. The second part aims to build ML models in the pancancer setting, where PDXs are used for training and testing the models coming from different cancer types. The pancancer approach allows the prediction of PDX response from three more cancer types, including non-small cell lung cancer, cutaneous melanoma and pancreatic ductal adenocarcinoma. In both cancer-specific and pancancer settings, the results demonstrated that ML models can predict the response of PDXs to certain treatments with high accuracy in this context. Despite its performance, the standard RF algorithm produced models that require profiling thousands of genes for their operation. Such a high number of genes is hard to interpret too. Applying OMC not only improved the performance of RF models, but also generated much more concise lists of genes, which aids the interpretation of drug response variability across tumours. On the other hand, DT models provided highly interpretable predictions, as they resulted in transparent tree structures of small size. These are generally easy to interpret, explain and eventually apply in clinical practice. In addition, both ML models were able to identify a higher proportion of drug-sensitive PDXs (higher recall) than the corresponding SG markers. Many more patients thereby could benefit from PO by using the developed methodology on existing clinical pharmacogenomics data. Furthermore, by considering different approaches, models and profile types, the number of cancer type-treatment binomials that could be predicted increased substantially. Last but not least, the predictive models generated by these ML algorithms retrieved genes that have been previously found to be individually associated with cancer progression and drug response, proving that those models are biologically relevant and applicable.

Formulaire de recherche

Résumé de la thèse

Thesis resume