Pages

Rechercher un article dans bouhajm

vendredi 25 janvier 2013

Définition de la notion de datawarehouse (entrepôt de données)

Définition de la notion de datawarehouse (entrepôt de données)

Consolidant l'information jugée stratégique pour l'entreprise dans une même base de données, l'entrepôt de données est généralement utilisé par les applications décisionnelles pour construire les indicateurs et tableaux de bord de suivi de l'activité.

A quoi correspond un entrepôt de données ? En quoi est-ce différent d'une base de données ?
Un datawarehouse (ou entrepôt de données) est un serveur informatique dans laquelle est centralisé un volume important de données consolidées à partir des différentes sources de renseignements d'une entreprise (notamment les bases de données internes). L'organisation des données est conçue pour que les personnes intéressées aient accès rapidement et sous forme synthétique à l'information stratégique dont elles ont besoin pour la prise de décision.

Si un entrepôt de données utilise le principe des bases de données relationnelles, il s'en distingue par de nombreux points. Tout d'abord, il n'applique pas un modèle relationnel précis, car les tables n'ont pas toujours une structure commune. Les entrepôts de données servent justement à croiser des informations a priori non liées directement (exemple : rattacher les informations des systèmes de production avec celles du support client pour en tirer des requêtes qui font sens).

Quels sont les critères d'un entrepôt de données performant ?
Parvenir à fournir des informations clés aux décideurs si possible "à la volée". Cela implique non seulement d'avoir extrait ces informations, de s'être assuré qu'elles soient valides et fraîches, mais aussi que les requêtes qui en découlent s'exécutent rapidement. Afin d'établir des statistiques d'évolution, ou de construire des plans, les entrepôts de données conservent généralement un historique des données. Ajouté à cela la diversité des sources, cela provoque des bases de taille colossale, de quelques centaines de gigaoctets à plusieurs dizaines de teraoctets.

Un gros travail s'avère donc nécessaire pour optimiser la base de données, notamment en travaillant sur les index, la gestion des doublons, les procédures d'extractions et de transformation des données mais aussi sur la création de petits îlots optimisés, appelés datamarts.

Qu'est ce que les datamarts et le datamining ?
Le datamart est une extraction d'une partie d'un entrepôt de données pour répondre à une application dédiée (ex : le règlement de contentieux chez une banque). Pour ne pas multiplier l'espace de stockage réservé à l'entrepôt de données, la création de datamarts est souvent limitée. Cependant, elle permet de gagner parfois en efficacité sur le temps d'exécution des requêtes SQL.

Les datamarts sont aussi souvent utilisés lorsqu'une entreprise ne peut plus multiplier les optimisations sur son entrepôt de données sans pénaliser d'autres applications. Elle crée alors un nouvel environnement dédié à cette nouvelle application dont elle peut gérer librement les index. Le datamining regroupe toutes les solutions à même de piocher dans des données éparses pour en tirer des informations d'aide à la décision.

Pourquoi rattache-t-on les ETL des entrepôts de données ?
Une solution ETL (pour Extract-Transform-Load) correspond à la phase amont d'un entrepôt de données, celle qui consiste à collecter l'information. Un ETL extrait les données, les transforme et les charge dans la base finale. Cela nécessite des connecteurs particuliers car l'information dans l'entreprise est souvent disséminée entre les gros systèmes de type mainframe, l'intranet d'entreprise, les fichiers plats ou encore les documents papiers.

La transformation implique également de nouveaux enjeux, notamment celle de la normalisation des noms de champs, la suppression de doublons inutiles (certains étant conservés pour l'historique ou pour d'autres statistiques) et l'harmonisation du type de la donnée (taille, format...). Il existe de nombreux ETL sur le marché mais certaines entreprises préfèrent créer leur propre outil maison.

A quoi servent les outils décisionnels et pourquoi parle-t-on parfois de cube OLAP ?
Une fois l'information structurée, reste à mettre en place les rapports formatés (ou reporting) présentant ces informations. C'est le rôle des logiciels décisionnels qui se chargent aussi bien du datamining que de la présentation de ces données. Les cubes OLAP correspondent à une technique d'analyse particulière organisant les données sous forme de dimensions. 

Dans le cas des entrepôts de données, OLAP offre aux décideurs plusieurs vues différentes sur une même information. Là encore, les calculs se montrent complexes et donc parfois lourds selon le nombre de dimensions différentes choisi. Le multidimensionnel est au coeur même des entrepôts de données. Il est soit présent directement au sein des bases de données (ces bases sont alors appelées bases de données multidimensionnelles et non plus relationnelles), soit au sein d'outils décisionnels qui émulent alors la technique d'analyse OLAP. 

source: http://www.journaldunet.com
Accueil

Aucun commentaire:

Enregistrer un commentaire

ajouter votre commentaire: n'oubliez pas votre commentaire nous intéresse