Pages

Rechercher un article dans bouhajm

vendredi 25 janvier 2013

L’analyse multidimensionnelle ou OLAP


L’analyse multidimensionnelle est l’un des modes d’analyse les plus courants dans le décisionnel.
Essayons d’en donner les grands principes.
On dispose de jeux d’informations élémentaires, généralement en grands volumes, chaque ligne d’information étant un évènement caractérisée par :

  • Un identifiant unique
  • Des attributs qualifiant l’information
  • Des grandeurs portant une information quantitative
Pour être concrets, prenons l’exemple suivant, très classique, même s’il est très simplifié.
Considérons l’entité élémentaire qui est la ligne de facture. C’est souvent une entité clé dans une entreprise, l’information la plus fine dont on dispose par rapport aux processus de vente.
La ligne de facture appartient à une facture et porte sur la vente d’un produit, dans une quantité donnée, pour un prix donné à un client donné.
Elle porte en elle différents attributs : une indication de produit, une quantité, un prix unitaire, un prix total.
Au travers de la facture à laquelle la ligne appartient, on dispose d’autres informations : une référence de client, une date (année,
mois, jour).
Sur le client lui-même, on possède d’autres informations : pays, région, type de client, secteur de métier, etc.… Par ailleurs, le client est peut-être affecté à un collaborateur du commerce.
Nous nous arrêterons ici pour cet exemple, mais l’on voit bien que l’on peut pousser très loin cette collecte d’information gravitant 
autour de l’entité la plus élémentaire qu’est la ligne de facture.
L’analyse multidimensionnelle ou OLAP
Une première étape est donc la réunion de toutes les informations nécessaires à nos analyses. Ici, les informations sont par exemple :
  • Date (année, mois, jour)
  • Produit
  • Famille de produits
  • Client
  • Pays du client
  • Commercial
  • Quantité
  • CA
Les premières informations constituent les axes d’analyse potentiels, les deux dernières constituent les grandeurs.
Dans l’analyse multidimensionnelle, la modélisation relationnelle de départ n’est pas la plus pertinente, ni la plus efficace. On préfère généralement dénormaliser la base, c’est à dire travailler sur une table unique dans laquelle ont été rassemblées toutes les informations utiles.
Dans notre cas, on obtient :
Date
Produit
Segment
Famille
Client
Pays
Ccal
Quantité
CA
31/03/2007
12030991
Tondeuse
Jardinage
Castorama
France
Lepaul
50
50 000
31/03/2007
14030952
Perceuse
Outillage
Castorama
France
Lepaul
120
11 000
30/04/2007
12030993
Tondeuse
Jardinage
LeroyMerlin
Italie
Legrand
250
230 000
Etc.…
On remarque bien sûr qu’il y a énormément de redondance dans ce tableau, mais finalement il est plus utile ici de gérer de l’information redondante mais simple, et l’on ne s’occupe pas des problèmes de cohérence et d’intégrité qui sont du domaine des systèmes d’information.
L’étape suivante consiste à faire un premier niveau d’agrégation, c’est à dire à réunir certaines lignes.Dans notre cas, on peut faire par exemple l’hypothèse que les données ne seront pas utilisées au niveau de la référence produit, mais uniquement par segment. Dans ce cas, on réunira toutes les lignes identiques pour la clé (date, segment, famille, client, pays, commercial), et l’on cumulera les grandeurs quantité et CA.
La dernière étape est celle de l’analyse multidimensionnelle proprement dite, qui consiste à sélectionner des axes d’analyse.
Parmi ces axes, on peut distinguer
  • Des axes à valeurs discrètes, ou discontinues, c’est à dire qui portent un nombre fini de valeurs, par exemple un code postal, un segment CSP.
  • Des axes à valeurs continues, typiquement une date, un prix.
  • On peut les ramener à un nombre discret de valeurs en définissant des tranches : tranches de prix, tranches d’âges.
On distingue également :
  • Des grandeurs cumulables, par exemple un montant, un nombre d’items.
  • Des grandeurs non cumulables, par exemple l’âge ou la date.
Les grandeurs cumulables sont celles qu’il est pertinent d’agréger, c’est à dire dont on peut calculer la somme, (ou la moyenne, ou d’autres fonctions mathématiques), pour un sous-ensemble de lignes, par exemple pour chaque thématique.
L’analyse-multidimensionnel_2
L’analyse multidimensionnelle consiste donc à :
  • Définir les axes d’analyse que l’on utilisera, et l’ordre dans lesquels on les utilise. Par exemple : par région, puis par année, puis par vendeur, puis par gamme de produits. On n’utilisera pas toujours tous les axes possibles.
  • Définir la ou les grandeurs qui sont étudiées, et éventuellement la fonction qu’on applique à ces grandeurs.
Chaque hiérarchisation des axes d’analyse correspond à une question que l’on se pose.
Par exemple une analyse par année, par vendeur vise à représenter l’évolution du chiffre d’affaires, puis à comparer les vendeurs chaque année écoulée. Une analyse par vendeur, par année vise avant tout à comparer les vendeurs (…).
source: http://decisionnel-open-source.smile.fr

Aucun commentaire:

Enregistrer un commentaire

ajouter votre commentaire: n'oubliez pas votre commentaire nous intéresse