Composition d’un data warehouse

On appelle, de façon générale, bases de production toutes les sources (qu’il s’agisse de données de production, d’informations internes ou d’informations externes quel que soit leur mode de stockage) dont il va falloir extraire des données en vue d’alimenter le datawarehouse. On trouvera:

  • les données commerciales
  • les données du système comptable
  • les données sur le personnel
  • les informations sur la concurrence
  • les informations externes produites par divers organismes nationaux ou internationaux
  • La base de données est le constituant principal du data warehouse puisque c’est dans celle-ci que l’on va stocker les informations extraites des bases de production.
    C’est au sein du SGBD (système de gestion de bases de données) qu’est stocké le dictionnaire du datawarehouse où sont stockées les métadonnées, c’est-à-dire « les données sur les données stockées dans le SGBD » décrivant la manière dont sont constituées les informations stockées.

    Le data warehouse est supporté par une base de données relationnelle, multidimensionnelle ou objet, même si celles-ci sont assez rares ou utilisés dans des contextes assez particuliers.
    La base de données relationnelle présente une organisation de l’information s’appuyant sur des relations existant entre des tables. Ainsi, si la table des clients est en relation avec la table des factures de l’entreprise, alors on pourra établir la liste des factures par client.

    Les SGBD multidimensionnelles

    Les bases de données multidimensionnelles sont utilisées de manière très spécifique pour certaines applications d’aide à la décision. Par rapport à l’utilisation d’une base de données relationnelle, les bases de données multidimensionnelles présentent des avantages incontestables :

  • À volume d’information identique, l’espace physique occupé est moindre ;
  • Sur certaines requêtes potentiellement longues et complexes dans un modèle relationnel, les performances peuvent se trouver améliorées de manière très spectaculaire (un rapport de 1 à 1 000 est courant) ;
  • Du point de vue utilisateur, la maniabilité et la compacité du modèle offrent une excellente ergonomie.
  • Data mart

    Un data mart est un magasin de données. Il s’agit d’une solution départementale d’entrepôt de données (data warehouse) supportant une partie des données et fonctions de l’entreprise (produit, département, activité, etc.). C’est un sous-ensemble du data warehouse qui ne contient que les données d’un métier de l’entreprise alors que le data warehouse contient toutes les données décisionnelles de l’entreprise pour tous les métiers.

    Data mart ou Data warehouse

    Ces deux anglicismes, entrés tels quels dans le langage informatique, ne sont ni plus ni moins que deux manières de désigner l’organisation du système de données d’une entreprise, le lieu où se tient son « intelligence ». Destinés à regrouper l’ensemble des contenus nécessaires à une application d’analyse décisionnelle, les entrepôts de données se partagent donc en deux grandes catégories :

  • Les data warehouses : ils sont conçus pour centraliser des informations toutes sources confondues en vue de fournir une vision globale de l’état d’une entreprise.
  • Les datamarts : ils se spécialisent dans un domaine « métier » particulier, comme la gestion de la relation client ou la gestion de la chaîne logistique par exemple.
  • Les data warehouses et datamarts utilisent tous deux la même technologie (celle des bases de données). Chaque solution présentée ici peut donc en fonction de son implémentation (structure, requêtes, etc.) devenir une base de l’un ou de l’autre.