Vous êtes iciBusiness Intelligence > L'entrepôt de données et les Data Marts

L'entrepôt de données et les Data Marts


organiser
L'Offre DAMACOSY
DAMACOSY vous accompagne
  • sur la phase de conception :
    • schéma directeur du Système d'Information Décisionnel, lotissement des projets
    • le choix des logiciels
    • cahier des charges : Quelles sont les données à remonter dans le data warehouse / data mart ? Quels sont les contrôles et les règles de gestion à effectuer ? Quelles sont les données à historiser et sur selon quel mode ? ...
    • la conception des modèles de données : Comment organiser les données pour permettre la mise en œuvre de la restitution ?
  • sur la phase de réalisation :
    • des Data Warehouse et/ou Data Mart
    • et des traitements associés (ETL pour les flux d'alimentation, reporting, ...).

 

Deux grands types de bases de données décisionnelles sont présentes :

  • Le "Data Warehouse" ou "Entrepôt de données"
  • Les "Data Marts" ou "magasin de données", plus petits que l'entrepôt de données dont ils sont dérivés, les data marts sont généralement spécialisés sur une thématique :
    • Le reporting des campagnes marketing
    • Connaissance clients
    • le contrôle de gestion
    • ...

Ces deux types de bases de données correspondent à des besoins différents :

  • Le Data Warehouse (DW) collecte les données des systèmes opérationnelles et, via les traitements de l'ETL, va contrôler, transformer et historiser les données. Cependant le data warehouse et l'ETL ne peuvent pas remédier à la mauvaise qualité des données : Ils peuvent juste la détecter et remonter des alertes. La correction nécessite généralement d'intervenir sur les systèmes sources et donc opérationnels. Un problème souvent rencontré lors des phases de conception d'un DW est de vouloir y mettre un trop grand nombre de données ("on s'en servira bien un jour"). La limite des données à intégrer est donnée tant par les objectifs à servir que par les capacités de l'entreprise à assurer les contrôles et la qualité des données intégrées. Une donnée non contrôlée et de mauvaise qualité, au mieux sert à rien, au pire elle induit de mauvaises décisions.
  • Le Data Mart (DM) est généralement spécialisé sur un thème et donc correspond à un sous-ensemble des données du DW. De plus le niveau d'agrégation du DM pourra être plus important que le DW :
    • le DW stocke les données de détail, par exemple les lignes de ticket (Date, N° ticket, N° de l'article, Prix unitaire, Nombre d'unité vendues)
    • tandis que le data mart mettra à disposition des informations agrégées du type (par magasin, par semaine, par code article, le Chiffre d'affaire, le Nombre d'unités vendues).

Ces deux types de bases de données utilisent des modélisations différentes des données :

  • Le data warehouse correspond à une modélisation classique des données (on dira qu'il s'approche d'une modélisation respectant les formes normales de Merise)
  • le data mart (s'il est destiné à supporter le reporting ou des analyses multi-dimensionnelles) utilise une modélisation dimensionnelle reposant sur des des tables de dimension (magasin, vendeur, région, produits, temps, ...)  et des tables de faits stockant des indicateurs numériques calculés pour chaque valeurs des dimensions sélectionnées (le Chiffre d'affaire et le Nombre d'unités vendues par magasin, par semaine, par code article).

Les Technologies de bases de données

Les éditeurs des bases de données relationnelles classiques sont bien présents sur le marché du décisionnel.

Cependant, pour répondre aux besoins spécifiques du décisionnel (à savoir des requêtes pouvant mettre en jeux de gros volumes de données), des solutions spécifiques ont été conçues :

  • des bases de données exploitant de multiples processeurs (par exemple Teradata)
  • des bases de données utilisant le stockage dit en "colonnes" (par exemple Sybase IQ, Infobright)

La nature des données à stocker évolue aussi : de données numériques ou textuelles, on voit de plus en plus le besoin de stocker des données complexes telles que des documents, des informations spatiales (géographiques), ... . Là aussi de nouvelles bases de données sont en train de voir le jour.

Le choix de la bonne technologie n'est donc pas simple : il s'agit de trouver un compromis entre les temps de réponses, la complexité de la mise en œuvre, le savoir faire en interne pour l'exploitation, l'intégration dans l'existant du système d'information, le budget, ... et bien d'autres contraintes.

Comme pour les autres thèmes (ETL et Analyse et Restitution des données), des solutions open-source existent et proposent des performances qui dépassent parfois les solutions propriétaires.

L'offre de DAMACOSY est donc de vous accompagner dans le choix de la solution optimale et sa mise en œuvre.