Extraction de connaissances à partir de données (ECD)
L'Extraction de Connaissances à partir de Données (ECD), communément appelée DATA MINING, est un domaine aujourd'hui très en vogue, pour ne pas dire à la mode. On la définit comme "un processus non-trivial d ’identification de structures inconnues, valides et potentiellement exploitables dans les bases de données (Fayyad, 1996)". Cette définition est une des premières qui traite explicitement de l'ECD (Knowledge Discovery in Databases en anglais), par la suite plusieurs tentatives de re-définition sont apparues pour mieux préciser le domaine mais aucune ne s'est réellement imposée. En tous les cas, à la lecture des différents documents qui traitent de l'ECD, on peut se dire que, finalement, cela fait plus de 30 ans qu'on le pratique avec ce qu'on appelle l'analyse de données et les statistiques exploratoires. Et on n'aurait pas complètement tort.
En réalité, ce n'est pas aussi simple, l'ECD possède des particularités qui sont loin d'être négligeables :
(1) des techniques d'analyse qui ne sont pas dans la culture des statisticiens, en provenance de l'apprentissage automatique (Intelligence artificielle) et des bases de données ;
(2) l'extraction de connaissances est intégrée dans le schéma organisationnel de l'entreprise. Ainsi, les données ne sont plus issues d'enquêtes ou de sondages mais proviennent d'entrepôts construits sciemment pour une exploitation aux fins d'analyse, le DATAWAREHOUSE. D'une part, une réorganisation du flux de données au sein de l'entreprise devient nécessaire (l'enchaînement des bases de production, le Datawarehouse et les Datamarts); d'autre part, la capacité des méthodes statistiques à traiter de gros volumes devient un élément clé ;
(3) enfin, dernier élément important, le traitement des données sort de plus en plus des sentiers battus en traitant, non plus seulement des fichiers plats "individus x variables", mais également des données sous forme non structurée, le texte, depuis un bon moment déjà, mais aussi les images et la vidéo. Cette orientation attribue une place primordiale à l'appréhension et la préparation des données.
En réalité, ce n'est pas aussi simple, l'ECD possède des particularités qui sont loin d'être négligeables :
(1) des techniques d'analyse qui ne sont pas dans la culture des statisticiens, en provenance de l'apprentissage automatique (Intelligence artificielle) et des bases de données ;
(2) l'extraction de connaissances est intégrée dans le schéma organisationnel de l'entreprise. Ainsi, les données ne sont plus issues d'enquêtes ou de sondages mais proviennent d'entrepôts construits sciemment pour une exploitation aux fins d'analyse, le DATAWAREHOUSE. D'une part, une réorganisation du flux de données au sein de l'entreprise devient nécessaire (l'enchaînement des bases de production, le Datawarehouse et les Datamarts); d'autre part, la capacité des méthodes statistiques à traiter de gros volumes devient un élément clé ;
(3) enfin, dernier élément important, le traitement des données sort de plus en plus des sentiers battus en traitant, non plus seulement des fichiers plats "individus x variables", mais également des données sous forme non structurée, le texte, depuis un bon moment déjà, mais aussi les images et la vidéo. Cette orientation attribue une place primordiale à l'appréhension et la préparation des données.
ECD et DATA MINING
Plus qu'un domaine ou une théorie fumeuse, l'ECD est avant tout un cadre précisant la démarche à suivre pour exploiter les données, quelles que soient leur formes, en vue d'en extraire de la connaissance. On distingue cinq étapes :
(1) accès aux données, stockées sous une forme structurée (base de données, fichiers tabulaires) ou non-structurée (texte, image, etc.);
(2) la préparation des données, en vue du traitement;
(3) l'utilisation de techniques de fouille de données, issues de la statistique ou de l'apprentissage automatique;
(4) évaluer et valider les connaissances extraites;
(5) déploiement des connaissances en vue d'une utilisation effective.
A l'origine, dans les publications anglo-saxones, la fouille de données (étape n°3) correspondait à l'étape du DATA MINING proprement dite (littéralement "forer les données"), elle ne constituait donc qu'un maillon de la chaîne de traitements. A l'usage, avec la démocratisation du domaine et sa consonance simplifiée aidant, les acteurs du domaine ont de plus en plus utilisé cette appellation pour désigner tout le processus d'extraction de connaissances. Aujourd'hui, l'estampille DATA MINING est suffisamment reconnue pour que l'on sache à peu près à quoi s'en tenir lorsqu'elle est évoquée.
(1) accès aux données, stockées sous une forme structurée (base de données, fichiers tabulaires) ou non-structurée (texte, image, etc.);
(2) la préparation des données, en vue du traitement;
(3) l'utilisation de techniques de fouille de données, issues de la statistique ou de l'apprentissage automatique;
(4) évaluer et valider les connaissances extraites;
(5) déploiement des connaissances en vue d'une utilisation effective.
A l'origine, dans les publications anglo-saxones, la fouille de données (étape n°3) correspondait à l'étape du DATA MINING proprement dite (littéralement "forer les données"), elle ne constituait donc qu'un maillon de la chaîne de traitements. A l'usage, avec la démocratisation du domaine et sa consonance simplifiée aidant, les acteurs du domaine ont de plus en plus utilisé cette appellation pour désigner tout le processus d'extraction de connaissances. Aujourd'hui, l'estampille DATA MINING est suffisamment reconnue pour que l'on sache à peu près à quoi s'en tenir lorsqu'elle est évoquée.
source: http://eric.univ-lyon2.fr
Aucun commentaire:
Enregistrer un commentaire
ajouter votre commentaire: n'oubliez pas votre commentaire nous intéresse