L’analyse multidimensionnelle est l’un des modes d’analyse les plus courants dans le décisionnel.
Essayons d’en donner les grands principes.
On dispose de jeux d’informations élémentaires, généralement en grands volumes, chaque ligne d’information étant un évènement caractérisée par :
Essayons d’en donner les grands principes.
On dispose de jeux d’informations élémentaires, généralement en grands volumes, chaque ligne d’information étant un évènement caractérisée par :
- Un identifiant unique
- Des attributs qualifiant l’information
- Des grandeurs portant une information quantitative
Pour être concrets, prenons l’exemple suivant, très classique, même s’il est très simplifié.
Considérons l’entité élémentaire qui est la ligne de facture. C’est souvent une entité clé dans une entreprise, l’information la plus fine dont on dispose par rapport aux processus de vente.
La ligne de facture appartient à une facture et porte sur la vente d’un produit, dans une quantité donnée, pour un prix donné à un client donné.
Elle porte en elle différents attributs : une indication de produit, une quantité, un prix unitaire, un prix total.
Au travers de la facture à laquelle la ligne appartient, on dispose d’autres informations : une référence de client, une date (année,
mois, jour).
Sur le client lui-même, on possède d’autres informations : pays, région, type de client, secteur de métier, etc.… Par ailleurs, le client est peut-être affecté à un collaborateur du commerce.
Nous nous arrêterons ici pour cet exemple, mais l’on voit bien que l’on peut pousser très loin cette collecte d’information gravitant
autour de l’entité la plus élémentaire qu’est la ligne de facture.
Considérons l’entité élémentaire qui est la ligne de facture. C’est souvent une entité clé dans une entreprise, l’information la plus fine dont on dispose par rapport aux processus de vente.
La ligne de facture appartient à une facture et porte sur la vente d’un produit, dans une quantité donnée, pour un prix donné à un client donné.
Elle porte en elle différents attributs : une indication de produit, une quantité, un prix unitaire, un prix total.
Au travers de la facture à laquelle la ligne appartient, on dispose d’autres informations : une référence de client, une date (année,
mois, jour).
Sur le client lui-même, on possède d’autres informations : pays, région, type de client, secteur de métier, etc.… Par ailleurs, le client est peut-être affecté à un collaborateur du commerce.
Nous nous arrêterons ici pour cet exemple, mais l’on voit bien que l’on peut pousser très loin cette collecte d’information gravitant
autour de l’entité la plus élémentaire qu’est la ligne de facture.
Une première étape est donc la réunion de toutes les informations nécessaires à nos analyses. Ici, les informations sont par exemple :
- Date (année, mois, jour)
- Produit
- Famille de produits
- Client
- Pays du client
- Commercial
- Quantité
- CA
Les premières informations constituent les axes d’analyse potentiels, les deux dernières constituent les grandeurs.
Dans l’analyse multidimensionnelle, la modélisation relationnelle de départ n’est pas la plus pertinente, ni la plus efficace. On préfère généralement dénormaliser la base, c’est à dire travailler sur une table unique dans laquelle ont été rassemblées toutes les informations utiles.
Dans l’analyse multidimensionnelle, la modélisation relationnelle de départ n’est pas la plus pertinente, ni la plus efficace. On préfère généralement dénormaliser la base, c’est à dire travailler sur une table unique dans laquelle ont été rassemblées toutes les informations utiles.
Dans notre cas, on obtient :
Date
|
Produit
|
Segment
|
Famille
|
Client
|
Pays
|
Ccal
|
Quantité
|
CA
|
31/03/2007
|
12030991
|
Tondeuse
|
Jardinage
|
Castorama
|
France
|
Lepaul
|
50
|
50 000
|
31/03/2007
|
14030952
|
Perceuse
|
Outillage
|
Castorama
|
France
|
Lepaul
|
120
|
11 000
|
30/04/2007
|
12030993
|
Tondeuse
|
Jardinage
|
LeroyMerlin
|
Italie
|
Legrand
|
250
|
230 000
|
Etc.…
|
On remarque bien sûr qu’il y a énormément de redondance dans ce tableau, mais finalement il est plus utile ici de gérer de l’information redondante mais simple, et l’on ne s’occupe pas des problèmes de cohérence et d’intégrité qui sont du domaine des systèmes d’information.
L’étape suivante consiste à faire un premier niveau d’agrégation, c’est à dire à réunir certaines lignes.Dans notre cas, on peut faire par exemple l’hypothèse que les données ne seront pas utilisées au niveau de la référence produit, mais uniquement par segment. Dans ce cas, on réunira toutes les lignes identiques pour la clé (date, segment, famille, client, pays, commercial), et l’on cumulera les grandeurs quantité et CA.
L’étape suivante consiste à faire un premier niveau d’agrégation, c’est à dire à réunir certaines lignes.Dans notre cas, on peut faire par exemple l’hypothèse que les données ne seront pas utilisées au niveau de la référence produit, mais uniquement par segment. Dans ce cas, on réunira toutes les lignes identiques pour la clé (date, segment, famille, client, pays, commercial), et l’on cumulera les grandeurs quantité et CA.
La dernière étape est celle de l’analyse multidimensionnelle proprement dite, qui consiste à sélectionner des axes d’analyse.
Parmi ces axes, on peut distinguer
Parmi ces axes, on peut distinguer
- Des axes à valeurs discrètes, ou discontinues, c’est à dire qui portent un nombre fini de valeurs, par exemple un code postal, un segment CSP.
- Des axes à valeurs continues, typiquement une date, un prix.
- On peut les ramener à un nombre discret de valeurs en définissant des tranches : tranches de prix, tranches d’âges.
On distingue également :
- Des grandeurs cumulables, par exemple un montant, un nombre d’items.
- Des grandeurs non cumulables, par exemple l’âge ou la date.
Les grandeurs cumulables sont celles qu’il est pertinent d’agréger, c’est à dire dont on peut calculer la somme, (ou la moyenne, ou d’autres fonctions mathématiques), pour un sous-ensemble de lignes, par exemple pour chaque thématique.
L’analyse multidimensionnelle consiste donc à :
- Définir les axes d’analyse que l’on utilisera, et l’ordre dans lesquels on les utilise. Par exemple : par région, puis par année, puis par vendeur, puis par gamme de produits. On n’utilisera pas toujours tous les axes possibles.
- Définir la ou les grandeurs qui sont étudiées, et éventuellement la fonction qu’on applique à ces grandeurs.
Chaque hiérarchisation des axes d’analyse correspond à une question que l’on se pose.
Par exemple une analyse par année, par vendeur vise à représenter l’évolution du chiffre d’affaires, puis à comparer les vendeurs chaque année écoulée. Une analyse par vendeur, par année vise avant tout à comparer les vendeurs (…).
Par exemple une analyse par année, par vendeur vise à représenter l’évolution du chiffre d’affaires, puis à comparer les vendeurs chaque année écoulée. Une analyse par vendeur, par année vise avant tout à comparer les vendeurs (…).
source: http://decisionnel-open-source.smile.fr
Aucun commentaire:
Enregistrer un commentaire
ajouter votre commentaire: n'oubliez pas votre commentaire nous intéresse