NOS ACTIVITÉS – Laboratoire International Associé

Montage de projets

Le LORIA, l’UIR et Carnegie Mellon University ont monté un projet dans le domaine de la cyber-sécurité qu’ils ont soumis…
Lire plus

Accueil de stagiaires

Plusieurs stagiaires ont permis aux membres du consortium de travailler ensemble sur les thématiques de recherche du LIA. Le financement…
Lire plus

Actions prévues pour les quatre prochaines années

1- Organisation de workshops (Une quinzaine de personnes une fois tous les deux ans).
2- Accueil de stagiaires (5 par an).
3- Accueil de stagiaires pour une courte durée (2 par an).
4- Accueil de Collègues (1 professeur par an).
5- Organisation d’écoles thématiques (Une tous les deux ans).
6- Participation à des conférences (2 par an).
7- Proposition d’une bourse de thèse (Financée par l’UIR).
8- Proposition d’une thèse en cotutelle (Financée en partie par le Loria).

Activités et actions envisagées pour la période 2019 – 2022

Identification de corpus comparables dans un contexte d’apprentissage neuronal multi-tâche
Construction de corpus de données dialectales du Maghreb et analyse du phénomène du code-switching
Analyse et prédiction des cyber-attaques
Optimisation du NoSQL à l’aide Machine Learning/Deep Learning
Les sciences des données pour l’amélioration de l’enseignement et de l’employabilité des jeunes
Intelligence artificielle pour la robotique
Identification de corpus comparables dans un contexte d’apprentissage neuronal multi-tâche

Les systèmes de traduction automatique sont construits à partir de corpus parallèle (CP). Un CP est un document de plusieurs millions de phrases dans lequel on trouve pour chaque phrase, dans une langue source, la phrase cible correspondante. Lorsqu’il s’agit de langues naturelles, généralement ces corpus sont disponibles, en revanche pour les langues peu dotées ce type de « matériau » n’existe pas. C’est le cas notamment des dialectes arabes qui n’ont pas de standard d’écriture, qui souffrent d’un manque de rigueur grammaticale, d’utilisation de l’Arabizi (de l’arabe écrit en script Latin), …

Ce que nous préconisons est l’utilisation de corpus comparables pour fabriquer des corpus parallèles. L’objectif étant par exemple de traduire le dialecte marocain en Français ou encore plus compliqué traduire un dialecte arabe vers un autre dialecte arabe.

Un corpus comparable est un corpus dans lequel deux documents coexistent correspondant au même sujet sans que l’un soit la traduction littérale de l’autre.

Nous proposons d’utiliser des réseaux de neurones profonds à base de LSTM (Long Short Term Memory) qui sont de type RNN (Réseaux de Neurones Récurrents) et ayant la capacité d’apprendre à associer des segments longs dans un document. Ils sont donc capables d’apprendre à associer un segment en dialecte avec un segment de la langue B.

Nous utiliserons les LSTM sur des corpus de Wikipedia (Arabe – Français) pour l’apprentissage. Ensuite on utilisera le modèle appris pour associer un corpus du dialecte marocain, extrait des réseaux sociaux, avec un texte en français. Cette association pourra se faire intra-corpus ou inter-corpus. On utilisera probablement une technique d’apprentissage multi-tâche (Multi-task learning in Deep Neural Network).

Construction de corpus de données dialectales du Maghreb et analyse du phénomène du code-switching

La motivation dans ce travail est d’étudier le phénomène du code-switching dans les trois pays du Maghreb et de mesurer à quel point il impacte les dialectes de chaque pays. Le code-switching est ce phénomène qui consiste à mélanger plusieurs dans une même phrase des segments écrits dans des langues différentes.

Ce phénomène n’est pas propre aux pays du Maghreb, mais à tous les pays où les individus parlent couramment plusieurs langues. Les travaux développés dans le cadre de ce projet nous permettrons de les étendre à d’autres langues concernés par le phénomène du changement de code. Ce problème est très courant dans la communication informelle (par exemple dans les réseaux sociaux). L’utilisation d’un mélange de langues, dans une conversation ou dans un écrit, représente un véritable défi scientifique pour la communauté travaillant sur le traitement automatique des langues (TAL).

En TAL, nous traitons une langue en utilisant toutes les ressources disponibles pour cette langue : corpus, analyseur morphologique, modèle de langage, modèle acoustique, etc. Lorsque nous avons plus d’une langue dans une même phrase, devrions-nous utiliser les ressources de toutes les langues concernées ? Devrions-nous traduire toutes les phrases écrites ou parlées dans des langues différentes dans une unique langue cible ? Et on se ramène ainsi à un traitement classique de type TAL. Lorsqu’il s’agit de données dialectales, les systèmes de traduction actuels utilisant des réseaux de neurones profonds de type RNN ou autres s’effondrent en termes de résultats à cause du manque de données. Ces questions et d’autres soulèvent des difficultés techniques pour tout traitement de type TAL.

Nous nous proposons donc dans les quatre années à venir à non seulement collecter un corpus large pour les données dialectales du Maghreb à partir des réseaux sociaux, mais aussi à analyser leurs particularités, à développer les ressources de type TAL et surtout à traiter ce problème difficile du code-switching.

Analyse et prédiction des cyber-attaques

La prédiction des cyber-attaques permettrait de se préparer au mieux aux futures attaques et de limiter leur impact. Cette prédiction est cependant un problème difficile. Des méthodes de prédiction basées sur l’analyse des séries chronologiques ont été proposées mais leur précision n’est en général acceptable que dans certains scénarios et seulement pour des petits horizons de prédiction. Notre but est de développer de nouvelles méthodes de prédiction grâce à une approche originale, mêlant intelligence artificielle, Big data et données d’entrée hétérogènes : données sociétales et données de vulnérabilités techniques. L’intégration de toutes ces données est justifiée par le fait que les motivations des attaquants soient multiples et variées. Par exemple, pendant les campagnes des dernières élections en France ou aux Etats-Unis, des attaques avérées se sont produites et ont particulièrement mis en évidence la dimension sociétale de certaines menaces. Les grands événements, sportifs ou politiques, sont effet souvent pris pour cible. L’impact des attaques peut aussi avoir une répercussion forte sur l’activité économique d’une entreprise ; surveiller des indicateurs géopolitiques, sociétaux ou encore économiques apporte un éclairage pertinent et une forte valeur ajoutée en matière de cyber-sécurité. En la matière, la difficulté majeure réside dans le nombre de sources à intégrer, sachant qu’elles sont chacune de nature différente : le défi consiste à mettre au point des modèles prédictifs en combinant des données techniques, telles que celles collectées par des sondes de sécurité par exemple, et des données non techniques, issues notamment des médias sociaux.

Des chercheurs du LORIA et du TICLab (UIR), membres du LIA DATANET, collaborent déjà sur cette thématique depuis décembre 2017 dans le cadre du projet ThreatPredict qui bénéficie du support financier de l’organisation du traité de l’Atlantique Nord (OTAN) – programme “Science for Peace and Security” (SPS). Destiné à durer 3 ans, ThreatPredict réunira jusqu’en décembre 2020, des chercheurs du LORIA, du TICLab et du CASOS (Center for Computational Analysis of Social and Organizational Systems) de l’Université de Carnegie Mellon aux Etats-Unis. Le projet est également soutenu par deux partenaires étatiques et un partenaire privé, à savoir le US Army Research Lab (Etats-Unis), l’Administration de la Défense Nationale – Direction Générale de la Sécurité des Systèmes d’Information (Maroc) et Thalès (France). Ils jouent le rôle d’utilisateurs finaux en apportant leur regard sur les résultats et orientations du projet.

Optimisation du NoSQL à l’aide Machine Learning/Deep Learning

Les bases de données et Machine Learning (ML) / Deep Learning (DL) sont deux domaines dans lesquels le Big Data et les sciences des données génèrent respectivement leurs techniques et leurs applications. Ils diffèrent par leurs objectifs et leurs outils et interagissent rarement en dehors de la chaîne de développement des applications, où les deux peuvent se manifester en tant que phases vitales. Cependant, le succès de nombreuses applications basées sur l’apprentissage automatique basé sur des données a incité les deux parties à étudier les opportunités que pourrait présenter l’intégration de ces deux technologies. Quelques articles de la littérature ont discuté des améliorations possibles des systèmes d’apprentissage en profondeur du point de vue des bases de données. À la lumière de ces nouvelles possibilités, la communauté des bases de données a discuté des moyens d’intégrer des techniques d’apprentissage automatiques dans la conception de systèmes de bases de données et d’applications.

Notre problème de recherche se situe à l’intersection de ces deux domaines. Le concept utilise les techniques ML / DL pour une optimisation de bout en bout du cycle de vie NoSQL, illustré dans la figure suivante :

Notre objectif est d’intégrer les techniques du ML / DL dans ces phases (ou du moins les plus pertinentes) afin de les optimiser. Un thésard sera recruté en janvier 2019 pour travailler sur cette thématique fort prometteuse. Cette thèse sera financée par l’UIR dans le cadre du LIA.

Les sciences des données pour l’amélioration de l’enseignement et de l’employabilité des jeunes

L’écart formation-marché de travail est un problème majeur dans plusieurs pays. Chaque année, plusieurs nouveaux diplômés peinent à trouver des emplois, ce qui causent plusieurs problèmes sociaux, politiques et économiques. Paradoxalement, plusieurs entreprises ont des difficultés à trouver les profils dont elles ont besoin, ce qui réduit la productivité et la compétitivité de ces entreprises.

De nos jours et grâce à la digitalisation, plusieurs données sont disponibles sur Internet à propos du marché du travail et de la formation universitaire. Des exemples de ces données incluent les offres de travail en ligne, les descriptions des cursus universitaires. L’analyse de ces données permettrait d’identifier les domaines et les raisons de l’écart formation-marché. Telle information permettrait aux universités d’adapter leur cursus et aux étudiants de mieux choisir les filières et les matières à suivre. Un autre exemple est les discussions à propos de l’employabilité dans les journaux et réseaux sociaux. L’analyse de ces données permettrait de comprendre les perceptions et les soucis de la population, ce qui permettrait d’anticiper et/ou réduire les crises socio-politiques. Comme ces données sont hétérogènes, semi-structurés et écrits en différentes langues, leur analyse requiert de développement de nouveaux algorithmes et méthodologies.

Des chercheurs du TICLab (UIR), membres du LIA DATANET travaillent sur cette thématique en collaboration avec Carnegie Mellon University aux Etats-Unis depuis janvier 2017 dans le cadre d’un projet fiancé par l’United States Agency for International Development (USAID). Le projet va durer 3 ans et finance 3 doctorants et une stagiaire. La doctorante Imane Khaouja a reçu une Google Africa Fellowship cette année pour ces travaux sur le sujet.

Intelligence artificielle pour la robotique

L’objectif général de cette partie est de concevoir de nouveaux algorithmes pour donner aux robots une faculté d’autonomie et d’optimisation de leur interaction avec leur environnement, en utilisant l’intelligence artificielle, la théorie de control, et le traitement de signal/image. Les robots apprennent à partir de données massives pour optimiser leurs comportements. Deux pistes ont été identifiées et font déjà l’objet de collaboration entre des équipes marocaines et françaises du LIA. La première piste porte sur l’optimisation de la trajectoire d’un ou plusieurs robots mobiles sous contraintes (de communication, de consommation d’énergie, etc.) en analysant les données récupérées par des capteurs. La deuxième piste porte sur le processing en temps réel des images récupéré par un robot en utilisant le Deep Learning, dans le but de comprendre la scène et réagir en conséquence. Un étudiant master Big Data de l’UIR a récemment effectué un stage d’été au sein du LORIA pour initier la collaboration sur cette thématique ; il a réalisé des activités de développement autour de l’Okulus Rift (système de réalité virtuelle) pour télé-opérer un robot iCub, et analyser des images récupérées grâce à Okulus, à l’aide de réseaux de neurones profonds.