Workshop on Big Data, IoT & Smart Cities

Le LIA DataNet (CNRS) et le TICLab de l’UIR ont organisé le premier «Workshop on Big Data, IoT & Smart Cities » (ITCities’18, www.itcities.org) le 2 juillet 2018 à l’UIR.
A l’ère de la révolution numérique, la ville intelligente est celle qui améliore la qualité de vie de ses citoyens tout en répondant aux objectifs du développement durable. Qu’il s’agisse de la pollution urbaine, de l’efficacité énergétique ou de la gestion des transports, les villes s’exposent à de nombreux risques et présentent de nouveaux challenges.

L’évènement a réuni plus de 120 chercheurs, universitaires, industriels et experts pour discuter, échanger, et présenter les dernières innovations, perspectives et enjeux de la ville intelligente et du Big Data. L’évènement a aussi permis aux étudiants et chercheurs du TICLab de mettre en avant leurs projets de recherche et d’échanger avec les participants.
Des conférenciers de renom sont intervenus tout au long de la journée sur des sujets relatifs au Big Data, IoT et les villes intelligentes.

Un panel sur «Quel modèle de villes intelligentes pour le Maroc ? » a suscité beaucoup d’échanges entre les intervenants et les participants.

Deux compétitions ont été également au programme :

La première, intitulée « ma thèse en 3 minutes », invitant les étudiants en thèse à présenter, de manière claire et concise, leurs travaux de recherche relatifs à la thématique du workshop. La seconde est une compétition de visualisation de données, « Data visualization », qui propose aux participants une base de données à traiter afin d’en extraire les principales caractéristiques. Deux sessions posters ont été organisées par les thésards du TICLab pour présenter leurs projets de recherche et leurs prototypes, et mettre en avant leurs contributions.

La journée s’est clôturée par la remise des prix aux gagnants des compétitions, qui sont : pour la compétition « ma thèse en 3 minutes », Ihsane Gryech de l’UIR (1er prix), et Soukaina Iherri de l’ENSEM (2ème prix) ; pour la compétition « Data Visualisation », Ayoud Rmidi de l’ENSIAS (1er prix), et l’équipe Hamza Ettaki – Ahmed Taha Moumen – Anas El Baghdadi de l’UIR (2ème prix).

Programme de la journée LIA DataNet Mardi 2 mai 2017

9h15 : Accueil

9h30-9h45 : Tour de table et ouverture du séminaire

Session 1: Social Network Data and informal languages (Chair K. Smaïli)

9h45-10h15 : Nada Sbihi, Ihsane Gryech and Mounir Ghogho (UIR)

Leveraging user intuition to predict item popularity in online social networks
We investigate the problem of early prediction of item popularity in online social networks. Prior work has shown that the time taken by each item to reach i adopters (i being a small number around 5) has a higher predictive power than other non-temporal features, such as those related to the characteristics of the adopters. Here, we challenge this finding by proposing a new feature, based on the users’ intuitions, which is shown to provide significantly better predictive power for the most popular items than the above-mentioned temporal feature. A GoodReads dataset is used to illustrate the merits of the proposed method

10h15-10h45 : K. Abidi and K. Smaïli (Loria)

CALYOU: A Comparable Spoken Algerian Corpus Harvested from YouTube
This presentation addresses the issue of comparability of comments extracted from Youtube. The comments concern spoken Algerian which could be either local Arabic, Modern Standard Arabic or French. This diversity of expression arises a huge number of problems concerning the data processing. Several methods of alignment will be proposed and tested. The method which permits to best align is Word2Vec-based approach that will be used iteratively. This recurrent call of Word2Vec allows to improve significantly the results of comparability. In fact, a dictionary-based approach leads to a Recall of 4, while our approach allows to get a Recall of 33 at rank 1. Thanks to this approach, we built from Youtube CALYOU, a Comparable Corpus of the spoken Algerian.

10h45-11h15 : A. Menacer, K. Smaïli, D. Jouvet, D. Fohr, O. Mella and D. Langlois (Loria)

Towards an Arabic speech recognition system for Algerian dialect
This presentation addresses the problem of Arabic dialect in speech recognition. The Arabic language is characterized by multiple variants, including Modern Standard Arabic (MSA) which is not the native form for Arab people. The mother tongue is the local Arabic named dialect in the following.
We investigate the issue of spoken language in Algeria, which differs significantly from MSA since it
is influenced by Arabic, French, Berber and Turkish. Therefore the acoustic and language models will differ from those used in MSA. Another issue with Algerian dialect is the lack of resources which leads to the underestimation of different models used in the Automatic Speech Recognition (ASR). We start by building a state-of-the-art MSA ASR. This MSA system is evaluated on MSA data and then is applied on spoken Algerian. The performance on MSA is pretty good (a WER of 14.02) but unfortunately on Algerian dialect the performance collapse. We discuss some ideas allowing to improve the results on the dialect and present some results.

11h15-11h30 : Pause

Session 2: Security and Mobile Communication (Chair: M. Ghogho)

11h30 – 12h00 : Abdelkader Lahmadi (Loria)

Security monitoring and analytics for Networked Systems
A large amount of monitoring data is generated by every component of networked systems and also gathered from threat intelligence sources (darkness, network telescopes and honeypots). Extracting useful patterns from these data for security monitoring and prediction is a challenging task. In this talk, we will present some techniques (Hidden Markov Models, Topological Data Analysis and processing mining) that we are using to aggregate and correlate network monitoring data for different domain applications (darknets, advanced persistent threats, industrial control systems) to build attack models and extract their respective patterns.

12h00-12h30 : Ghita Mezzour (UIR)

NATO-funded project ThreatPredict
Predicting attacks can help prevent these attacks or at least reduce their impact. However, the few papers on attack prediction make accurate predictions only hours in advance or cannot predict geo-politically motivated attacks. This project aims to predict different attack types days in advance. We will develop machine-learning algorithms that capture spatio-temporal dynamics of cyber-attacks and global social, geo-political and technical events. We will use various datasets including honeypot data, Symantec WINE field data, GDELT, Twitter, and vulnerability databases. In addition to warning about attacks, this project will improve our understanding of the effect of global events on cyber-security.

12h30 – 14h00 : Déjeuner

14h00 – 14h30 : J.Y. Marion (Loria)

A morphological approach to detect code similarities and to analyse x86 binaries
Binary code analysis is a complex process which can be performed nowadays only by skilled cybersecurity experts whose workload just keeps increasing. Uses cases include vulnerabilities detection, testing, clustering and classification, malware analysis, etc… We develop a tool named Gorille, which is based on the reconstruction of a high level semantics for the binary code. Control flow graphs provide a fair level of abstraction to deal with the binary codes they represent. After applying some graph rewriting rules to normalize these graphs, our software tackles the subgraph search problem in a way which is both efficient and convenient for that kind of graphs. This technique is described as morphological analysis as it recognizes the whole shape of the malware.
That being said, some pitfalls still need to be considered. First of all, the output can only get as good as the input data. And it is known that static disassembly cannot produce the perfect control flow graph since this problem is undecidable. As a matter of facts, malware heavily use obfuscation techniques such as opaque predicates to hide their payloads and confuse analyses. Dynamic analysis should then be used along with static disassembly to combine their strengths. Another dangerous pitfall feared by every expert is the so-called false positives rate: false alarms that make them waste indeed a precious time assessing the reality of the threat. Shared binary code is not always relevant as many software embed static standard libraries. Gorille’s solution to this issue lies in graph rewriting. By rewriting classic subgraphs into configuration-based special nodes, we even obtain a higher abstraction of the control flow graph.

14h30 – 15h00 : B. Honnit, A. Tamtaoui, M.N Saidi (INPT – INSEA)
Moving object detection and classification in video surveillance
Due to the increasing of criminality and terrorism, the world pays more attention to security systems by using several surveillance cameras and funding research on developing an intelligent system for moving object detection, tracking and recognition in video surveillance.
The aim of our work is to propose an approach to: detect the moving object, classify the detected object (human or vehicle) and to recognize the classified object.

Moving object detection is a major step for video analysis; however it is a challenging task for researchers, on account of the following reasons: complex background, camera motion, object size variation, poorly textured objects, illumination condition and shadow. During our research we were able to propose an hybrid approach for moving object detection. It is based on motion and edge detection technique and It makes use of the most three recent consecutive frames to detect moving area. The experimental results show the efficiency of our approach with an accuracy rate of 92.49%. In order to classify the detected objects, we used SVM after computing the shape descriptors (Fourrier and moment of Zernike) and the average rate of good classification was 98%.
Since the classification accuracy depends on the shape descriptor that in some case does not give relevant results; currently, we are working on simulating the classification by using the information fusion techniques. In our case we try to find a method to combine the different descriptors.
Recent studies have proved that the classification results is more efficient when using a deep learning algorithm based on the Convolutional Neural Network (CNN), so we are working on another work based on applying the CNN-based algorithm in the classification stage.

15h00 – 15h30 : V. Varma, D. Bonilla, S. Lasaulce, J. Daafouz, M. Ghogh (CRAN – UIR)

Trajectory planning for energy-efficient vehicles with communications constraints
A new problem of optimizing a wireless mobile terminal trajectory under a given communication constraint is introduced. The mobile or vehicle has to move from a given starting point to a target point while uploading/downloading a given amount of data; this contrasts with the classical mobile communications paradigm where the communication and motion aspects are assumed to be independent. To reach the two aforementioned objectives, the mobile has to move sufficiently close to the wireless base station, while accounting for the energy cost due to its motion. This setup is formalized here and leads us to determine non-trivial trajectories for the mobile. Remarkably, a counterpart of the Snell-Descartes law for the light propagation is exhibited for the optimal trajectory of the mobile when the latter crosses zones in which the available data rates are different. Finally, possible extensions to the multi-agent case are discussed.

15h30 – 15h45 : Pause café

16h00 – 17h00 : Discussions

Accueil de stagiaires

Plusieurs stagiaires ont permis aux membres du consortium de travailler ensemble sur les thématiques de recherche du LIA.

Le financement des stagiaires a été possible grâce au budget du LIA et le financement supplémentaire de certains laboratoires du consortium.

Nous donnons ci-dessous la liste de ces stages :

Nom du stagiaireEncadrantsEncadrantsPériode du stage
Hakim HafidiAzim Roussanaly (LORIA)
Nada Sbihi (UIR) Mounir Ghogho
(UIR)
Prédiction du comportement à partir de traces : application au choix des matières de la seconde session du baccalauréatJuillet-août 2017
Saad TahraouiAmedeo Napoli (LORIA)
Mounir Ghogho (UIR)
Nada Sbihi (UIR)
Contribution à l’étude d’un système de recommandation multidimensionnel pour le croisement des cultures en EuropeSeptembre-novembre 2017
Mehdi ZakroumAbdelkader Lahmadi (LORIA)
Mounir Ghogho (UIR)
Analyse exploratoire et prédictive des données collectées par le darknet déployé au LORIANovembre-décembre 2017
Novembre-décembre 2017Abdelkader LAHMADI (LORIA)
Ghita Mezzour (UIR)
Analyse exploratoire et prédictive des données collectées par le darknet déployé au LORIANovembre-décembre 2017
Ahmed Taha MoumenSerena Ivaldi (LORIA)
Nada Sbihi (UIR) Mounir Ghogho (UIR)
Interfacing Oculus Virtual Reality with YARP for tele-operationJuillet-août 2018
Haytam ZanidKamel Smaili (LORIA) Mounir Ghogho (UIR) Nada Sbihi (UIR)Utilisation de techniques de Deep Learning pour l'identification de corpus comparables dans un contexte d'apprentissage multi-tâcheJuillet-août 2018

Nous avons également accueilli des stagiaires sur des durées plus courtes (1 semaine à chaque fois) pour travailler sur le corpus PADIC (A Parallel Arabic DIalect Corpus) et pour développer un analyseur morphologique du marocain.

Le rôle des stagiaires de courte durée était de nous aider à enrichir le corpus parallèle PADIC. Ce corpus comporte 6 paires de langues parallèles : Modern Standard Arabic, dialecte algérois, dialecte annabi, dialecte tunisien, dialecte palestinien et le dialecte syrien.

Grâce au travail de M Haddouchi et Mme Laguesir, nous avons intégré le dialecte marocain et la traduction du corpus parallèle en Français. Par ailleurs, les stagiaires ne sont pas venues au même moment pour avoir une double vérification du dialecte marocain.

Quant à M Lalaoui, il a été invité pour réfléchir à la manière dont on pourra intégrer quelques règles linguistiques permettant de développer un analyseur morphologique pour le dialecte marocain.

Montage de projets

Le LORIA, l’UIR et Carnegie Mellon University ont monté un projet dans le domaine de la cyber-sécurité qu’ils ont soumis au programme Science for Peace and Security de l’OTAN (https://www.nato.int/science/). La proposition du projet, intitulée « ThreatPredict: From Global Social and Technical Big Data to Cyber Threat Forecast » a été soutenue par l’Administration de la Défense National marocaine, Le Laboratoire de l’Armée des Etats Unis. Le projet a été retenu pour financement avec une enveloppe de 302 600 EUR sur une période de 3 années. Le projet a démarré en janvier 2018. Cinq doctorants ont été recrutés pour travailler sur le projet.
D’autres projets ont été proposés, mais malheureusement ils n’ont pas été retenus c’est notamment le cas de :
Aide au diagnostic : Le projet proposé s’intitule : Développement d’un système intelligent d’aide au diagnostic et au traitement du cancer digestif. Les participants à ce projet sont :

       Ilham Berrada, Khalid El Himdi, Ismail Kassou et Houda Benbrahim, Mohammed Anass Majbar de l’UM5R
       Mounir Ghogho, Larbi Alaoui et Nada Sbihi de l’UIR
       Chedy Raissi du Loria

Projet Tobkal Franco-Marocain : Surveillance électronique pour les dialectes arabes du Maghreb. Les particpants à ce projet sont :
       K. Bouzoubaa de l’université Mohamed V
       K. Smaïli de l’université de Lorraine.

Ces projets seront proposés de nouveau si le renouvellement du LIA est accepté.

Big Data et Fouille de données

Le premier thème concerne la fouille de données massives et complexes (données du Web, corpus linguistiques). Les équipes françaises et marocaines partagent la même connaissance des méthodes symboliques et statistiques. L’objectif global est d’améliorer d’une part les algorithmes de traitement dans le cas de données complexes, et d’autre part d’améliorer le calcul de données volumineuses sur des architectures parallèles et distribuées. Ce thème scientifique débouche sur trois applications :
L’étude du changement climatique et des catastrophes naturelles dans le cadre d’un observatoire méditerranéen auquel participent l’université Abdelmalek Essaadi de Tetouan et l’université d’Al Akhawayn d’Ifrane.
L’analyse des réseaux sociaux en se concentrant sur les dialectes arabes.
Gestion des recommandations des réseaux sociaux.
Dans le Big data, la masse de données est un aspect de la complexité de la tâche de fouille de données, mais le type et la diversité des données sont autant d’autres facteurs de complexité qu’il faut aussi savoir traiter. Une question fondamentale est de savoir s’il est possible d’extraire des éléments intéressants de ces masses de données, mais aussi de manipuler ces données par leur contenu : recherche et extraction d’informations, classification par exemple. La découverte de connaissances dans des masses de données (DCMD), s’appuie sur des méthodes numériques ou symboliques. Les premières sont surtout d’ordre statistique et probabiliste. Les secondes relèvent surtout de la recherche de motifs, de l’extraction de règles et de l’analyse formelle de concepts (AFC) qui permet de construire des treillis de concepts à partir de tables binaires.
Les principaux défis scientifiques liés au projet pour la fouille de données sont les suivants :
Combinaison symbolique-numérique pour la découverte de connaissances. Les méthodes symboliques de DCMD s’appliquent bien aux tableaux binaires mais doivent être adaptés aux données du monde réel. D’un autre côté, les méthodes numériques sont très efficaces sur des données numériques ou d’intervalles mais produisent des résultats en général difficiles à interpréter. Un premier objectif est de coupler les méthodes symboliques et numériques pour tirer le meilleur parti des deux types de méthodes et mettre en place une méthodologie et un environnement de DCMD symbolique-numérique.
La parallélisation des algorithmes de DCMD. C’est là une façon de faire face aux défis de la complexité et du volume des données. Des expérimentations sont en cours au LORIA sur la parallélisation des algorithmes symboliques de DCMD en s’appuyant sur le modèle MPI (« message passing interface’ ») et en l’appliquant sur des clusters de machines.
L’ouverture et l’adaptation des méthodes symboliques de DCMD à l’étendue du web des données. Ce dernier point fait en réalité appel aux deux points précédents et les combine, car il est nécessaire de traiter des données volumineuses et complexes et cela dans des temps raisonnables.
En général, le traitement des réseaux sociaux soulève plusieurs questions, mais la fouille du contenu de ces réseaux dans le monde Arabe pose encore plus de problèmes. En effet, en plus des problèmes classiques, nous avons à traiter une particularité qui est le fait que les usagers écrivent dans quasiment 3 langues dans une même publication : l’arabe standard, le dialecte du pays et parfois en français ou en anglais. Tout cela rend le traitement linguistique complexe, et les méthodes statistiques pas suffisamment performantes à cause du manque de données dû à l’hétérogénéité langagière des documents. Nous nous proposons de traiter cette problématique dans le LIA. Les équipes du Loria ont de l’expérience dans le traitement multilingue des réseaux sociaux et s’associeront aux équipes du consortium marocain pour le traitement et la fouille de données dans les réseaux marocains.
Dans certains cas, il est nécessaire de traiter les données complexes et massives, mais aussi décentralisées, comme par exemple la fouille de corpus de données hétérogènes (données des sciences de la vie, tweets, réseaux sociaux) et la production de connaissances associées, ainsi que dans les traitements collaboratifs. Pour mener à bien de tels traitements massifs, les partenaires ont étudié des techniques de traitements parallèles et distribués des masses de données. Il existe des environnements potentiels autorisant de tels traitements, avec par exemple MapReduce et son implantation Hadoop, mais aussi l’utilisation De Spark. Nous avons tiré parti des moyens de calculs intensifs, du « multi-threading » et des processeurs « multi-core » ou encore des cartes graphiques programmables GPU.

Les réseaux à grande échelle

 

Le second thème concerne les réseaux à grande échelle et à gestion décentralisée. L’objectif global est l’optimisation des ressources en termes d’énergie et de coût de communication.

Pendant ces trois dernières années nous nous sommes intéressés aux défis scientifiques suivants :

– Modélisation stochastique et évaluation des performances.
– Contrôle, apprentissage et traitement décentralisés.
– Conception de protocoles MAC auto-adaptifs et routage optimal multicritères
– Une modélisation adéquate des réseaux permet de prédire leurs comportements, de les influencer et d’optimiser les ressources qui leur sont allouées. Par exemple, la modélisation de la diffusion d’information dans les réseaux sociaux permet l’identification des noeuds d’influence dans le réseau, le choix des diffuseurs initiaux d’un contenu afin de maximiser sa propagation, ou encore l’identification des liens à supprimer pour limiter la diffusion d’un contenu jugé nuisible. Comme deuxième exemple, on peut citer les réseaux de capteurs, qui se retrouvent au coeur de nombreuses applications couvrant des domaines aussi variés que la gestion d’énergie, l’environnement, la santé, l’intelligence ambiante, les transports, la sécurité, et l’agronomie.

La géométrie stochastique s’est avérée être un outil générique pour la modélisation probabiliste macroscopique des réseaux de télécommunications et des réseaux de capteurs sans-fil. Dans cette approche, la configuration d’un réseau est modélisée par une famille d’objets aléatoires (ensembles de points, graphes et pavages).

A l’UIR, nous avons utilisé cette approche pour modéliser les réseaux de communication futurs qui sont caractérisés par l’hétérogénéité, la coopération entre les utilisateurs, une certaine décentralisation, et l’accès dynamique des ressources reposant sur le principe de la radio cognitive.
Pendant ces trois dernières années, nous nous sommes concentrés sur l’utilisation de la géométrie stochastique pour modéliser et évaluer les réseaux grande échelle relatifs aux applications considérés dans ce projet. Nous avons par ailleurs, développé des modèles hybrides capturant les propriétés spatiales et temporelles du réseau.
Les changements de la topologie du réseau peuvent empêcher d’atteindre l’objectif global de coordination. Au CRAN avec nos collègues de l’UIR, nous avons orientés nos objectifs vers la préservation de la connectivité du graphe d’interconnexion. Nous avons développé au CRAN des techniques de commande prédictive décentralisées. Celles-ci s’appuient sur la théorie des ensembles et ont comme objectifs de trouver les commandes qui permettent aux états de rester dans certains invariants.
Le déploiement à large échelle des réseaux de capteurs sans fil exclut toute solution centralisée. Les algorithmes distribués et auto-adaptifs constituent la base de notre approche.

La plupart des protocoles MAC pour les réseaux de capteurs sans fil adopte le fonctionnement avec « duty-cycle ». Si ces protocoles sont plus ou moins efficaces en terme d’énergie, ils ne le sont pas tous en terme de la qualité de service de transmission de données, surtout lorsqu’il s’agit du trafic en rafale. Dans le cadre du projet ANR Quasimodo nous avons développé un nouveau protocole MAC (iQueue-MAC) qui offre la meilleure performance par rapport à celle de l’état de l’art.
Pendant ce projet, nous avons étendu ce travail pour prendre en compte aussi des noeuds de capteurs dotés de modules de récupération de l’énergie ambiante (energy harvesting).

Programme du Kick-off meeting LIA

Journée du 16 septembre 2015

8h45 : Accueil à l’UIR

9h00 – 9h30 : Ouverture du séminaire par les responsables des différentes institutions

        UL : Karl Tombre
        UIR : Noureddine Mouaddib/ Abdelaziz Benjouad
        CRAN : Didier Wolf
        LORIA : Jean-Yves Marion

1- Volet Recherche

9h30-12h00 : Axe Big data : Méthodes, corpus et applications.
9h30-9h50 : Analyzing big data from an international perspective (Ghita Mezzour, UIR)
9h50-10h10 : MDEO System for Environmental Big Data Aquisition and Processing (Chaker El Amrani, UAE)
10h10-10h30 : High performance computing for Big Data in the Cloud (Riduan Abid, AUI)

10h30-11h00 : Pause

11h00-11h30 : Signal et Santé (Didier Wolf, CRAN)
11h30-12h00 : Requêtes et fouille de données préférentielles : un tour d’horizon (Chedy Raissi, Loria)

12h00-14h00 : Déjeuner

14h00-17h00 : Les réseaux à grande échelle : Méthodes, corpus et applications
14h00-14h20 : Bio-inspired approaches for engineering adaptive systems (Mohamed Bakhouya, UIR)
14h20-14h40 : Empowering communication networks with big data analytics (Mounir Ghogho, UIR)
14h40-15h20 : Contrôle, Réseaux et énergie (Jamal Daafouz, CRAN)

15h20-15h50 : Pause

16h00-16h10 : Projet MoreSolar – Monitoring des fermes solaires (Mounir Ghogho, UIR)
16h10-16h20 : Projet CASA-NET – Efficacité énergétique dans le bâtiment (Mohamed Bakhouya, UIR)
16h20-16h30 : Projet GTR – Prédiction de trafic (Nada Sbihi, UIR)
16h30-17h00 : Modélisation et simulation des smart-grids avec l’outil MECSYCO (Vincent Chevrier, Loria)

Journée du 17 septembre 2015

9h00-10h20 : Traitement des informations du web.

9h00-9h40 : Opinion mining (Houda Benbrahim, ENSIAS)
9h40-10h00 : Traitement des données informelles : Application au traitement de quelques dialectes arabes (Kamel Smaïli, Loria)
10h00-10h20 : Subjectivité et manipulation : Quelques perspectives pour les systèmes de recommandation et le learning analytics (Geoffray Bonnin, Loria)

10h20-11h00 : Bilan des activités de recherche

11h00-11h30 : Pause

2- Volet pédagogique

11h30-12h30 : Actions pédagogiques communes
12h30 : Fin du kick-off