« Les nouveaux traitements des Big Data : Big Data & Prétraitement » - 2e volet de la série « Les innovations dans les Big Data »

 «Les nouveaux traitements des Big Data : Big Data & Prétraitement » est le deuxième volet de la série Les innovations dans les Big Data, comptes rendus de Clémence Mertz, élève-ingénieure (M1) à l’Efrei. Ils font suite aux 2 conférences internationales sur la recherche – Nostradamus et AECIA* organisées par AllianSTIC, laboratoire de recherche des écoles d’ingénieurs de l’Efrei et l’Esigetel.

Le focus opéré ici porte sur les travaux de recherche des Professeurs Chelly de l’université de Tunis et Snasel de l’université des technologies d’Ostrava, à savoir sur l’aspect mathématique du traitement des données. Lors de son intervention, Pr Zineb Chelly a proposé de s’intéresser à l’étape qui suit le stockage à savoir la sélection et le nettoyage, étape où est allégée la quantité de données de sorte à ne conserver que celles qui ont une importance, un intérêt.

Son idée repose sur l’utilisation conjointe de différentes théories mathématiques et notamment la théorie des ensembles approximatifs. Cette théorie s’utilise sur des tables de données où chaque entité possède des caractéristiques et une décision, liées à ses caractéristiques, prise ultérieurement. On procède ainsi à des groupements d’entités en fonction de leurs caractéristiques et on compare ces groupes à ceux que l’on peut créer en utilisant les décisions. On peut ainsi dégager les groupes non-communs qui composent la région positive, c’est l’aboutissement de la théorie des ensembles approximatifs.

On peut l’associer à d’autres théories pour en dégager les bénéfices comme la théorie des probabilités ou encore la théorie de Dempster-Shafer mais celle qu’a retenue le Professeur Chelly est l’association de la théorie des ensembles approximatifs avec celle des ensembles flous. On ajoute donc à l’étape précédente le processus dit « Quick Reduct » qui consiste en un procédé récursif d’analyse de degrés de dépendance entre les éléments, d’ajout des éléments qui ont la plus forte dépendance vis-à-vis d’un ensemble de sortie dans celui-ci et de calcul de la dépendance de cet ensemble implémenté, et ce, jusqu’à ce que ce degré atteigne 1, qui en probabilité signifie que les autres éléments (ceux qui ne sont pas dans l’ensemble final) n’apporteront rien de plus si on les conserve. C’est donc seulement cet ensemble qui sera conservé.

Cette façon de prétraiter les données a pour avantage de pouvoir :

  • empêcher la discrétisation des données (processus qui transforme des données continues en un relevé de données discret),
  • supporter des valeurs manquantes voire de les estimer ou
  • supporter des données qui représentent des valeurs réelles
  • utiliser le processus de sélection.

Ce tutoriel rejoint donc sur quelques points celui du Professeur Snasel portant sur l’optimisation mathématique.

Son axe de recherche consiste à trouver la meilleure solution à un problème où les objectifs sont multiples. Pour reprendre, l’exemple qu’il se plaît à citer, si l’on souhaite acheter une voiture, de nombreux paramètres entrent en compte (le prix, la puissance, le design, etc.) et l’acheteur peut être intéressé non pas seulement par un mais plusieurs de ces critères, il faut donc pouvoir trouver le bon compromis.

Il peut également y avoir plusieurs solutions : on peut vouloir une voiture à moins de 10 000 euros ou alors si le montant dépasse il faut au moins qu’elle contienne 100 chevaux. Ce problème est appelé « MOOP » ou, si les objectifs changent avec le temps, « DMOOP ».

Auparavant la résolution des MOOP était traitée avec des algorithmes génétiques, algorithmes qui simulent l’évolution génétique en procédant à des croisements de sélections de mutations et autres sur plusieurs données formant une population. Celle-ci évolue donc jusqu’à se rapprocher des solutions. Ce type d’algorithme est souvent utilisé pour les problèmes qui ne peuvent pas être résolus autrement. Cependant le conférencier met en doute la fiabilité et surtout la robustesse (stabilité/réactivité) de cette méthode du fait qu’un tracking des solutions est impossible sur un algorithme génétique.

Outre l’utilisation des fonctions de Benchmark, Pr Snasel propose l’utilisation d’un autre algorithme inspiré du vivant : l’optimisation par essaims particulaires qui simulent le déplacement d’un groupe d’oiseaux convergeant ainsi vers les meilleures solutions possibles. Chaque déplacement se fait en fonction d’une recherche locale de la meilleure solution jusqu’à ce que l’on arrive à celle qui l’est dans tout l’espace.

Pour rendre cet algorithme encore plus performant, sont ajoutés des coefficients d’accélération (nombres judicieusement choisis qui multipliés à la position précédente dans la fonction qui détermine la nouvelle permettent de « sauter des étapes » pour atteindre plus rapidement la solution finale).

Ces deux tutoriaux constituent donc une bonne ouverture sur le travail que peuvent fournir les mathématiciens dans l’amélioration des conditions d’analyses des Big data.

Lire le premier volet : « Big Data, collecte & stockage »

01/04/2016