Big Data et Fouille de données

Le premier thème concerne la fouille de données massives et complexes (données du Web, corpus linguistiques). Les équipes françaises et marocaines partagent la même connaissance des méthodes symboliques et statistiques. L’objectif global est d’améliorer d’une part les algorithmes de traitement dans le cas de données complexes, et d’autre part d’améliorer le calcul de données volumineuses sur des architectures parallèles et distribuées. Ce thème scientifique débouche sur trois applications :
L’étude du changement climatique et des catastrophes naturelles dans le cadre d’un observatoire méditerranéen auquel participent l’université Abdelmalek Essaadi de Tetouan et l’université d’Al Akhawayn d’Ifrane.
L’analyse des réseaux sociaux en se concentrant sur les dialectes arabes.
Gestion des recommandations des réseaux sociaux.
Dans le Big data, la masse de données est un aspect de la complexité de la tâche de fouille de données, mais le type et la diversité des données sont autant d’autres facteurs de complexité qu’il faut aussi savoir traiter. Une question fondamentale est de savoir s’il est possible d’extraire des éléments intéressants de ces masses de données, mais aussi de manipuler ces données par leur contenu : recherche et extraction d’informations, classification par exemple. La découverte de connaissances dans des masses de données (DCMD), s’appuie sur des méthodes numériques ou symboliques. Les premières sont surtout d’ordre statistique et probabiliste. Les secondes relèvent surtout de la recherche de motifs, de l’extraction de règles et de l’analyse formelle de concepts (AFC) qui permet de construire des treillis de concepts à partir de tables binaires.
Les principaux défis scientifiques liés au projet pour la fouille de données sont les suivants :
Combinaison symbolique-numérique pour la découverte de connaissances. Les méthodes symboliques de DCMD s’appliquent bien aux tableaux binaires mais doivent être adaptés aux données du monde réel. D’un autre côté, les méthodes numériques sont très efficaces sur des données numériques ou d’intervalles mais produisent des résultats en général difficiles à interpréter. Un premier objectif est de coupler les méthodes symboliques et numériques pour tirer le meilleur parti des deux types de méthodes et mettre en place une méthodologie et un environnement de DCMD symbolique-numérique.
La parallélisation des algorithmes de DCMD. C’est là une façon de faire face aux défis de la complexité et du volume des données. Des expérimentations sont en cours au LORIA sur la parallélisation des algorithmes symboliques de DCMD en s’appuyant sur le modèle MPI (« message passing interface’ ») et en l’appliquant sur des clusters de machines.
L’ouverture et l’adaptation des méthodes symboliques de DCMD à l’étendue du web des données. Ce dernier point fait en réalité appel aux deux points précédents et les combine, car il est nécessaire de traiter des données volumineuses et complexes et cela dans des temps raisonnables.
En général, le traitement des réseaux sociaux soulève plusieurs questions, mais la fouille du contenu de ces réseaux dans le monde Arabe pose encore plus de problèmes. En effet, en plus des problèmes classiques, nous avons à traiter une particularité qui est le fait que les usagers écrivent dans quasiment 3 langues dans une même publication : l’arabe standard, le dialecte du pays et parfois en français ou en anglais. Tout cela rend le traitement linguistique complexe, et les méthodes statistiques pas suffisamment performantes à cause du manque de données dû à l’hétérogénéité langagière des documents. Nous nous proposons de traiter cette problématique dans le LIA. Les équipes du Loria ont de l’expérience dans le traitement multilingue des réseaux sociaux et s’associeront aux équipes du consortium marocain pour le traitement et la fouille de données dans les réseaux marocains.
Dans certains cas, il est nécessaire de traiter les données complexes et massives, mais aussi décentralisées, comme par exemple la fouille de corpus de données hétérogènes (données des sciences de la vie, tweets, réseaux sociaux) et la production de connaissances associées, ainsi que dans les traitements collaboratifs. Pour mener à bien de tels traitements massifs, les partenaires ont étudié des techniques de traitements parallèles et distribués des masses de données. Il existe des environnements potentiels autorisant de tels traitements, avec par exemple MapReduce et son implantation Hadoop, mais aussi l’utilisation De Spark. Nous avons tiré parti des moyens de calculs intensifs, du « multi-threading » et des processeurs « multi-core » ou encore des cartes graphiques programmables GPU.

Les réseaux à grande échelle

 

Le second thème concerne les réseaux à grande échelle et à gestion décentralisée. L’objectif global est l’optimisation des ressources en termes d’énergie et de coût de communication.

Pendant ces trois dernières années nous nous sommes intéressés aux défis scientifiques suivants :

– Modélisation stochastique et évaluation des performances.
– Contrôle, apprentissage et traitement décentralisés.
– Conception de protocoles MAC auto-adaptifs et routage optimal multicritères
– Une modélisation adéquate des réseaux permet de prédire leurs comportements, de les influencer et d’optimiser les ressources qui leur sont allouées. Par exemple, la modélisation de la diffusion d’information dans les réseaux sociaux permet l’identification des noeuds d’influence dans le réseau, le choix des diffuseurs initiaux d’un contenu afin de maximiser sa propagation, ou encore l’identification des liens à supprimer pour limiter la diffusion d’un contenu jugé nuisible. Comme deuxième exemple, on peut citer les réseaux de capteurs, qui se retrouvent au coeur de nombreuses applications couvrant des domaines aussi variés que la gestion d’énergie, l’environnement, la santé, l’intelligence ambiante, les transports, la sécurité, et l’agronomie.

La géométrie stochastique s’est avérée être un outil générique pour la modélisation probabiliste macroscopique des réseaux de télécommunications et des réseaux de capteurs sans-fil. Dans cette approche, la configuration d’un réseau est modélisée par une famille d’objets aléatoires (ensembles de points, graphes et pavages).

A l’UIR, nous avons utilisé cette approche pour modéliser les réseaux de communication futurs qui sont caractérisés par l’hétérogénéité, la coopération entre les utilisateurs, une certaine décentralisation, et l’accès dynamique des ressources reposant sur le principe de la radio cognitive.
Pendant ces trois dernières années, nous nous sommes concentrés sur l’utilisation de la géométrie stochastique pour modéliser et évaluer les réseaux grande échelle relatifs aux applications considérés dans ce projet. Nous avons par ailleurs, développé des modèles hybrides capturant les propriétés spatiales et temporelles du réseau.
Les changements de la topologie du réseau peuvent empêcher d’atteindre l’objectif global de coordination. Au CRAN avec nos collègues de l’UIR, nous avons orientés nos objectifs vers la préservation de la connectivité du graphe d’interconnexion. Nous avons développé au CRAN des techniques de commande prédictive décentralisées. Celles-ci s’appuient sur la théorie des ensembles et ont comme objectifs de trouver les commandes qui permettent aux états de rester dans certains invariants.
Le déploiement à large échelle des réseaux de capteurs sans fil exclut toute solution centralisée. Les algorithmes distribués et auto-adaptifs constituent la base de notre approche.

La plupart des protocoles MAC pour les réseaux de capteurs sans fil adopte le fonctionnement avec « duty-cycle ». Si ces protocoles sont plus ou moins efficaces en terme d’énergie, ils ne le sont pas tous en terme de la qualité de service de transmission de données, surtout lorsqu’il s’agit du trafic en rafale. Dans le cadre du projet ANR Quasimodo nous avons développé un nouveau protocole MAC (iQueue-MAC) qui offre la meilleure performance par rapport à celle de l’état de l’art.
Pendant ce projet, nous avons étendu ce travail pour prendre en compte aussi des noeuds de capteurs dotés de modules de récupération de l’énergie ambiante (energy harvesting).