Vous êtes iciBusiness Intelligence > Data Mining

Data Mining


analyser
L'Offre DAMACOSY

DAMACOSY vous propose un accompagnement certes sur les outils mais surtout sur la mise en forme de vos besoins pour construire une démarche progressive qui vous permettra d'exploiter au mieux vos données et de construire une réelle connaissance de votre activité et de vos clients.

Notre accompagnement vous permettra d'injecter au sein de vos systèmes de production, les informations obtenues par le Data Mining et ainsi de construire le cercle vertueux entre les systèmes opérationnels et le système d'information décisionnel.

 

L'expression "Data Mining" peut recevoir de multiples traductions, chacune mettant en avant une caractéristique de ce domaine passionnant et riche :

  • L'analyse des données ou statistiques : On calcule des tendances, des "moyennes" sur un volume important de données
  • Le forage des données : On creuse par ci, par là et on essaye de comprendre les grandes caractéristiques liant les données
  • La fouille des données : La démarche du Data Mining nécessite souvent des aller-retours et des remises en cause. Dans tous les cas, l'échange avec les représentants du métier est nécessaire
  • Extraction de la connaissance : L'objectif est en effet de construire de la connaissance, de l'information en identifiant des relations à partir de données brutes (en anglais Knwoledge Discovery).

Du point de vue méthodologie, le Data Mining est la mise en œuvre de techniques issues des statistiques sur des volumes importants de données. On est loin des années 1970 où le statisticien travaillait avec un tableau de données de quelques milliers de lignes. Maintenant ce sont des millions et même des dizaines de millions de lignes qui sont analysées pour en déduire le comportement d'achat des consommateurs.

Certes, les outils informatiques d'analyse tout comme les moyens de stockage ont bien évolué, d'où l'intérêt de ce domaine d'activité qui change sans cesse tant sur le plan des outils que sur le plan des besoins.

Concernant les outils, le data-miner va employer des algorithmes de statistique (régression logistique, arbres de décision, des analyses exploratoires de type ACP ou ACM) mais aussi des méthodes apparues dans des domaines connexes tels que l'intelligence artificielle, les sciences cognitive, l'optimisation de modèles mathématiques (réseaux neuronaux, cartes de Kohonen, SVM, ...).

Parmi les nouveaux besoins nécessitant des techniques particulières, on trouve le text-mining et le web-mining.

Exemples de besoins métiers

Les traitements et surtout la démarche Data Mining va permettre de fouiller et d'analyser les données brutes afin de répondre à des besoins très opérationnels. Parmi ceux-ci, citons :

  • La segmentation de vos clients qui consiste à créer des segments (= groupes) de clients ayant des caractéristiques en communs (comportements d'achat, profils socio-démographiques, ...). L'identification et la caractérisation de ces segments vous permettront :
    • d'optimiser vos actions commerciales et marketing vers les clients les plus rentables.
    • de mieux cibler vos actions de fidélisation
    • de disposer des informations nécessaires à la conception de nouvelles offres et marketing
    •  De nombreuses méthodes de segmentation existent ; l'une des plus simple, la segmentation RFM vous permet d'identifier rapidement les principales caractéristiques de vos clients en les analysant sur trois variables (à adapter selon le métier) :
      • Récence du dernier achat
      • Fréquence des achats
      • Montant des achats
  • Le scoring qui attribue un score (= une note) à vos clients (ou prospects) :
    • un score mesurant l'appétence à certains produits ou services
    • un score mesurant le risque que le client vous quitte (on parle de score d'attrition ou churn dans le secteur des télécommunications)
    • un score d'octroi pour un crédit

La démarche et les pré-requis à un bon déroulement d'une étude Data Mining

Une étude de Data Mining suit 6 étapes avec généralement des allers-retours entre certaines d'entre elles.

1 - La définition du besoin métier

La première étape est de définir précisément le besoin métier, c'est à dire les questions auxquelles l'analyse Data Mining doit apporter des réponses.

Le data miner présente une ébauche de sa démarche et des étapes de l'étude.

2 - La préparation des données

Sur la très grande majorité des études réalisées, on constate que ce n'est pas l'étude elle même qui prend le plus de temps, mais l'obtention de données de qualité, bien renseignées, documentées. Notons que la qualité des données a un impact sur les données qui seront conservées et donc au final il est possible qu'il soit nécessaire de redéfinir le besoin métier

  • Des données nettoyées, contrôlées et cohérentes
  • MDM (Master Data Management) : Disposer des définitions métier sur les données ainsi que des règles de gestion (on doit connaitre la règle de calcul de l'indicateur Chiffre d'Affaire pour l'interpréter correctement dans le process Data Mining)
  • Disposer de logiciels et de moyens de calcul performants : il est notamment important que le logiciels propose plusieurs méthodes d'analyse afin de permettre d'appliquer une démarche progressive d'analyse. Une étude Data Mining nécessite de nombreux échanges avec les responsables fonctionnels afin de trouver le "bon chemin" dans les relations entre les données

3 - L'étude statistique

4 - La validation du modèle

5 - La mise en production

Enfin, une fois que l'analyse a trouvé le bon modèle de segmentation ou de scoring, il est important que ce modèle puisse être mis en production, ce qui suppose un compromis sur 3 points :

  • la qualité statistique du modèle
  • la complexité de mise en production
  • sa facilité d'utilisation et d'interprétation par les utilisateurs métier.

6 - L'évaluation de la qualité du modèle

Recueil des résultats en production et évaluation de la qualité du modèle pour éventuellement le corriger. Notons qu'il est important, dès l'étape 1, d'identifier les indicateurs qui seront utilisés pour mesurer la qualité du modèle.

On retourne à l'étape 1 pour un nouveau cycle.

 

Cette démarche est très classique et mise en œuvre par la plupart des statisticiens. Il y a bien des éditeurs qui tentent de faire croire qu'ils possèdent l'outil magique qui trouve tout seul le modèle optimal qui vous apportera des gains incroyables. Mais non, ce n'est pas si simple.

Cette démarche a été formalisée (et nommée CRISP-DM) : vous trouverez des informations à ce sujet à l'adresse http://www.crisp-dm.org/Process/index.htm

Les logiciels

On retrouve ces différentes techniques dans des logiciels :

  • propriétaires et commerciaux tels que SPSS et Clémentine d'IBM, Alice et Amadea d'Isoft, SAS
  • open-source et gratuits : Weka, Yale, R.

Le choix de l'outil sera effectué en fonction du besoin, des traitements à effectuer, de la volumétrie des données.

Les sources de données

L'entreprise dispose d'un gisement de données qui est très largement sous utilisé.

De plus, il peut aussi être utile d'acquérir des données externes venant enrichir les données de l'entreprise :

  • données INSEE
  • données des mégabases
  • de géocoder les adresses pour des études de géomarketing (dans ce cas la qualité de l'adresse est importante, d'où les traitements de RNVP de l'adresse que DAMACOSY propose.

 

Étiquettes