Pages

Rechercher un article dans bouhajm

vendredi 25 janvier 2013

Datamining


Datamining, définition


Ensemble des techniques et de méthodes du domaine des statistiques, des mathématiques et de l'informatique permettant l'extraction, à partir d'un important volume de données brutes, de connaissances originales auparavant inconnues. Il s'agit de "fouilles" visant à découvrir "de l'information cachée" que les données renferment et que l'on découvre à la recherche d'associations, de tendances, de relations ou de régularités.

Le datamining, une technique adaptée à note époque


Le datamining est une discipline en vogue. Ce n'est cependant pas une mode ni une coquetterie. L'appel croissant et varié au datamining tient selon nous aux facteurs suivants :
La gestion des données est facilitée par la puissance accrue des ordinateurs
Les entreprises se sont accoutumées à manipuler des volumes toujours plus importants de données sous la contrainte des optimisations qu'elles doivent sans cesse accomplir pour leur survie.
Progressivement les entreprises prennent conscience qu'au delà de l'usage courant que chacun fait de ses données, celles-ci renferment également des notions invisibles à l'oeil nu.
Bien que délicates à mettre en oeuvre, les méthodes de datamining sont très efficaces pour la compréhension approfondie de l'information que recèle un ensemble de données.

Exemples d'applications métiers


Comme le suggère la définition, le datamining est une spécialité transverse : elle regroupe un ensemble de théories et d'algorithmes ouverts à tout domaine métier susceptible de drainer une masse de données. La liste suivante illustre des applications courantes du datamining, mais elle reste loin de l'exhaustivité :

CRM

Scoring client pour une gestion adapté du risque dans un établissement financier
Profiling client pour un service marketing d'une entreprise de distribution
Profiling produit pour améliorer le cross-selling dans la grande distribution

Industrie

Optimisation / fiabilisation d'une chaîne de montage
Système expert de résolution de panne par la description des symptômes
Prévision de pics de consommation d'un réseau (téléphone, énergie électrique...)

Traitement d'images

Reconnaissance de forme
Reconnaissance de signatures biométriques

Outils de collaboration

Classification dynamique et contextuelle de documents non structurés
Mise en relation de personnes par la création automatique de profil de centres d'intérêt

Description succincte d'un projet de datamining


Un projet d'analyse de données représente tout ou partie des 3 étapes :
obtention de données significatives
analyse
industrialisation de processus sur la base des résultats de l'analyse

La première étape consiste en la réalisation d'un système de collecte ou de fabrication de données lorsque celles-ci n'existent pas. Plus souvent il s'agit simplement d'élaborer quelques requêtes dans des bases de données, de concentrer et mettre en forme ces données.

La deuxième étape est celle qui met en jeu le coeur du datamining dans l'optique par exemple de déterminer des relations, de réaliser des prédictions, de faire émerger une ou plusieurs classifications...

Il reste enfin à exploiter ces découvertes par le développement de traitements informatiques qui automatisent la collecte de données en flux continu, qui appliquent les modèles déterminés à l'étape précédente et restituent les résultats opérationnels à un client informatique ou humain. Les traitements informatiques sont parfois chargés d'introduire une boucle réactive pour automatiser la mise à jour du modèle dans son évolution lente (évolution des catégories d'une classification, de paramètres d'un système prédictif...).

Ultra-Fluide couvre l'ensemble de ces étapes dans le cadre de travaux sur mesure. Ultra-Fluide assure également la formation soit pour amener des utilisateurs à maintenir un système opérationnel après sa mise en place, soit sur des questions théoriques soulevées par le datamining.
Ultra-Fluide ne souhaite pas en revanche prendre en charge le paramétrage de progiciels.

Quelques méthodes statistiques


Le champ théorique du datamining est riche, les techniques utilisées sont multiples, et les paramétrages possibles de ces techniques font apparaître une véritable explosion combinatoire. Contrairement à ce que certains éditeurs prétendent, il n'existe pas dans le cas général d'outil capable de guider le néophyte pour défricher la forêt des méthodologies, déjouer les pièges et conduire l'analyse en fonction du besoin et des données.
Ultra-Fluide utilise des logiciels open source qui implémentent les techniques up-to-date telles que notamment :
Etude des covariances
Régression multivariables
Clustering (maximum de vraisemblance, analyse discriminante, hiérarchique)
Réseaux de neurones
Algorithme génétique

Difficultés du datamining


Les questions soumises au datamining sont souvent complexes, corrélativement d'ailleurs à la valeur ajoutée que l'on attend des réponses, elles nécessitent un oeil expérimenté. Les outils nécessitent également une bonne dose de connaissances théoriques et un peu de courage pour s'approprier leurs documentations. Le contraire ne pourrait que relever du miracle : comment imaginer détecter sans effort des informations cachées, généralement noyées dans du bruit, qui défient l'instinct, et dont l'exactitude ne se révèle que globalement ?

Le datamining offre cependant une apparence trompeuse. En effet, quelle que soit la méthode, quiquonque manipule des données obtiendra toujours un résultat. C'est encourageant, et cela semble facile. Mais au delà d'une large variété de réponses raisonnables existent un nombre encore plus important de réponses fantaisistes (inadéquation entre les données, les objectifs, la méthode et les divers paramètres). Ces mirages sont monnaie courante, ils consistent simplement à faire apparaître des choses qui n'existent pas au lieu de choses qui sont cachées. Il est donc nécessaire d'élaguer ces mauvaises réponses pour choisir en bout de course, parmi les résultats raisonnables, ceux qui correspondent le mieux aux objectifs.
Si l'on ne retenait qu'une seule recommandation, ce serait celle de ne jamais s'arrêter au premier résultat. Il faut calculer, recalculer, comparer, interpréter, affiner...

Il existe un autre conseil de bon sens pour éviter les mirages : se fonder sur des résultats robustes. Ce n'est pas une pirouette, c'est un vrai conseil. Un résultat est valable, donc robuste, s'il est applicable à l'ensemble des ensembles de données autorisés par la classe de problèmes que l'on souhaite résoudre. Autrement dit si l'on travaille sur 100 données et que l'on obtient avec une méthode un résultat, alors on vérifie que l'application de la même méthode sur 100 autres données collectées selon le même processus produit un autre résultat raisonnablement proche du précédent.
En fait on procède souvent d'une manière légèrement différente : on dispose de 100 données du début à la fin, mais on torture longtemps 60 données seulement. Lorsque que l'on s'approche d'une solution plaisante on l'applique sans réfléchir au 40 autres données, ou à l'ensemble des 100. On peut alors obtenir une première idée de la robustesse de la solution.

Aucun commentaire:

Enregistrer un commentaire

ajouter votre commentaire: n'oubliez pas votre commentaire nous intéresse