Big Data et Fouille de données

Le premier thème concerne la fouille de données massives et complexes (données du Web, corpus linguistiques). Les équipes françaises et marocaines partagent la même connaissance des méthodes symboliques et statistiques. L’objectif global est d’améliorer d’une part les algorithmes de traitement dans le cas de données complexes, et d’autre part d’améliorer le calcul de données volumineuses sur des architectures parallèles et distribuées. Ce thème scientifique débouche sur trois applications :
L’étude du changement climatique et des catastrophes naturelles dans le cadre d’un observatoire méditerranéen auquel participent l’université Abdelmalek Essaadi de Tetouan et l’université d’Al Akhawayn d’Ifrane.
L’analyse des réseaux sociaux en se concentrant sur les dialectes arabes.
Gestion des recommandations des réseaux sociaux.
Dans le Big data, la masse de données est un aspect de la complexité de la tâche de fouille de données, mais le type et la diversité des données sont autant d’autres facteurs de complexité qu’il faut aussi savoir traiter. Une question fondamentale est de savoir s’il est possible d’extraire des éléments intéressants de ces masses de données, mais aussi de manipuler ces données par leur contenu : recherche et extraction d’informations, classification par exemple. La découverte de connaissances dans des masses de données (DCMD), s’appuie sur des méthodes numériques ou symboliques. Les premières sont surtout d’ordre statistique et probabiliste. Les secondes relèvent surtout de la recherche de motifs, de l’extraction de règles et de l’analyse formelle de concepts (AFC) qui permet de construire des treillis de concepts à partir de tables binaires.
Les principaux défis scientifiques liés au projet pour la fouille de données sont les suivants :
Combinaison symbolique-numérique pour la découverte de connaissances. Les méthodes symboliques de DCMD s’appliquent bien aux tableaux binaires mais doivent être adaptés aux données du monde réel. D’un autre côté, les méthodes numériques sont très efficaces sur des données numériques ou d’intervalles mais produisent des résultats en général difficiles à interpréter. Un premier objectif est de coupler les méthodes symboliques et numériques pour tirer le meilleur parti des deux types de méthodes et mettre en place une méthodologie et un environnement de DCMD symbolique-numérique.
La parallélisation des algorithmes de DCMD. C’est là une façon de faire face aux défis de la complexité et du volume des données. Des expérimentations sont en cours au LORIA sur la parallélisation des algorithmes symboliques de DCMD en s’appuyant sur le modèle MPI (« message passing interface’ ») et en l’appliquant sur des clusters de machines.
L’ouverture et l’adaptation des méthodes symboliques de DCMD à l’étendue du web des données. Ce dernier point fait en réalité appel aux deux points précédents et les combine, car il est nécessaire de traiter des données volumineuses et complexes et cela dans des temps raisonnables.
En général, le traitement des réseaux sociaux soulève plusieurs questions, mais la fouille du contenu de ces réseaux dans le monde Arabe pose encore plus de problèmes. En effet, en plus des problèmes classiques, nous avons à traiter une particularité qui est le fait que les usagers écrivent dans quasiment 3 langues dans une même publication : l’arabe standard, le dialecte du pays et parfois en français ou en anglais. Tout cela rend le traitement linguistique complexe, et les méthodes statistiques pas suffisamment performantes à cause du manque de données dû à l’hétérogénéité langagière des documents. Nous nous proposons de traiter cette problématique dans le LIA. Les équipes du Loria ont de l’expérience dans le traitement multilingue des réseaux sociaux et s’associeront aux équipes du consortium marocain pour le traitement et la fouille de données dans les réseaux marocains.
Dans certains cas, il est nécessaire de traiter les données complexes et massives, mais aussi décentralisées, comme par exemple la fouille de corpus de données hétérogènes (données des sciences de la vie, tweets, réseaux sociaux) et la production de connaissances associées, ainsi que dans les traitements collaboratifs. Pour mener à bien de tels traitements massifs, les partenaires ont étudié des techniques de traitements parallèles et distribués des masses de données. Il existe des environnements potentiels autorisant de tels traitements, avec par exemple MapReduce et son implantation Hadoop, mais aussi l’utilisation De Spark. Nous avons tiré parti des moyens de calculs intensifs, du « multi-threading » et des processeurs « multi-core » ou encore des cartes graphiques programmables GPU.