Soutenance de thèse de Manon SCHOLIVET

Ecole Doctorale
Mathématiques et Informatique de Marseille
Spécialité
Informatique
établissement
Aix-Marseille Université
Mots Clés
multilingue,TAL,Apprentissage profond,zero-shot,
Keywords
Multilingual,NLP,Deep learning,zero-shot,
Titre de thèse
modèles multilingues pour le traitement automatique des langues : du few-shot au zero-shot learning
multilingual models for natural language processing : from few-shot to zero-shot learning
Date
Vendredi 15 Octobre 2021
Adresse
LIS UMR 7020 CNRS / AMU / UTLN Campus universitaire de Luminy 163 avenue de Luminy 13288 MARSEILLE cedex 09
Amphithéâtre 12
Jury
Directeur de these M. Alexis NASR Aix Marseille Université
Rapporteur M. Benoit CRABBé Université Paris Diderot
Examinateur M. Laurent BESACIER Université Grenoble Alpes
Examinateur Mme Myriam DE L'HONNEUX Uppsala University
Examinateur Mme Cécile CAPPONI Aix Marseille Université
Rapporteur Mme Anne-Laure LIGOZAT Laboratoire Interdisciplinaire des Sciences du Numérique
Examinateur M. Carlos RAMISCH Aix Marseille Université

Résumé de la thèse

L'annotation de données est un problème majeur dans toutes les tâches d'apprentissage automatique. Dans le domaine du TAL, ce problème est multiplié par le nombre de langues existantes. De nombreuses langues se retrouvent sans annotations, et sont alors mises à l'écart des systèmes de TAL. Une solution possible pour intégrer ces langues dans les systèmes est de tenter d'exploiter les langues disposant de nombreuses annotations, et tenter d'apprendre des informations sur ces langues bien dotées, et de transférer ce savoir vers les langues peu dotées. Pour cela, il est possible de se reposer sur des initiatives comme les Universal Dependencies, qui proposent un schéma d'annotation universel entre les langues. L'utilisation de plongements de mots multilingues et de traits typologiques issus de ressources comme le WALS sont des solutions permettant un partage de connaissances entre les langues. Ces pistes sont étudiées dans le cadre de cette thèse, à travers la prédiction de l'analyse syntaxique, de la morphologie et des parties du discours sur 41 langues au total. Nous montrons que l'impact du WALS peut être positif dans un cadre multilingue, mais que son utilité n'est pas systématique dans une configuration d'apprentissage zero-shot. D'autres représentations des langues peuvent être apprises sur les données, et donnent de meilleurs résultats que le WALS, mais ont l'inconvénient de ne pas fonctionner dans un cadre de zero-shot. Nous mettons également en évidence l'importance de la présence d'une langue proche lors de l'apprentissage des modèles, ainsi que les problèmes liés à l'utilisation d'un modèle de caractère pour les langues isolées.

Thesis resume

Data annotation is a major problem in all machine learning tasks. In the field of NLP, this problem is multiplied by the number of existing languages. Many languages do not have any annotations, and are therefore excluded from NLP systems. One possible solution to integrate these languages into the systems is to try to leverage the languages having many annotations, and to try to learn information about these resource-rich languages, and to transfer this knowledge to the low-resources languages. It is possible to rely on initiatives such as Universal Dependencies, which propose a universal annotation scheme between languages. The use of multilingual word embeddings and typological features from resources such as the WALS are solutions allowing knowledge sharing between languages. These tracks are studied in the framework of this thesis, through the prediction of parsing, morphology and parts of speech on 41 languages in total. We show that the impact of the WALS can be positive in a multilingual setting, but that its usefulness is not systematic in a zero-shot learning setting. Other language representations can be learned from the data, and perform better than the WALS, but have the downside of not working in a zero-shot setting. We also highlight the importance of the presence of a nearby language when learning patterns, as well as the problems associated with using a character pattern for isolated languages.