Exploration de données vs entreposage de données
L'exploration de données et l'entreposage de données sont à la fois des techniques très puissantes et populaires pour analyser les données. Les utilisateurs qui sont enclins à statistiques utilisent l'exploration de données. Ils utilisent des modèles statistiques pour rechercher des modèles cachés dans les données. Les mineurs de données sont intéressés à trouver des relations utiles entre différents éléments de données, ce qui est finalement rentable pour les entreprises. Mais en revanche, les experts en données qui peuvent analyser les dimensions de l'entreprise ont directement tendance à utiliser les entrepôts de données.
L'exploration de données est également connue sous le nom de Discovery des Données (KDD). Comme mentionné ci-dessus, il s'agit d'un domaine de l'informatique, qui traite de l'extraction d'informations précédemment inconnues et intéressantes à partir de données brutes. En raison de la croissance exponentielle des données, en particulier dans des domaines tels que les entreprises, l'exploration de données est devenue un outil très important pour convertir cette grande richesse de données en intelligence, car l'extraction manuelle des modèles est devenue apparemment impossible au cours des dernières décennies. Par exemple, il est actuellement utilisé pour diverses applications telles que l'analyse des réseaux sociaux, la détection de fraude et le marketing. L'exploration de données traite généralement des quatre tâches suivantes: clustering, classification, régression et association. Le clustering identifie des groupes similaires à partir de données non structurées. La classification est des règles d'apprentissage qui peuvent être appliquées à de nouvelles données et incluront généralement les étapes suivantes: Prétraitement des données, conception de la modélisation, de l'apprentissage / de la sélection des fonctionnalités et de l'évaluation / validation. La régression consiste à trouver des fonctions avec une erreur minimale pour modéliser les données. Et l'association recherche des relations entre les variables. L'exploration de données est généralement utilisée pour répondre à des questions comme quels sont les principaux produits qui pourraient aider à obtenir un bénéfice élevé l'année prochaine à Wal-Mart?
Comme mentionné ci-dessus, l'entreposage de données est également utilisé pour analyser les données, mais par différents ensembles d'utilisateurs et un objectif légèrement différent à l'esprit. Par exemple, en ce qui concerne le secteur de la vente au détail, les utilisateurs d'entreposage de données sont davantage préoccupés par les types d'achats populaires parmi les clients, de sorte que les résultats de l'analyse peuvent aider le client en améliorant l'expérience client. Mais les mineurs de données conjecturent d'abord une hypothèse telle que les clients achètent un certain type de produit et analysent les données pour tester l'hypothèse. L'entreposage de données pourrait être effectué par un grand détaillant qui stocke initialement ses magasins avec les mêmes tailles de produits pour découvrir plus tard que les magasins de New York vendent des stocks de plus petits plus rapides que dans les magasins de Chicago. Ainsi, en examinant ce résultat, le détaillant peut stocker le magasin de New York avec des tailles plus petites par rapport aux magasins de Chicago.
Ainsi, comme vous pouvez le voir clairement, ces deux types d'analyse semblent être de la même nature à l'œil nu. Les deux se préoccupent de l'augmentation des bénéfices en fonction des données historiques. Mais bien sûr, il y a des différences clés. En termes simples, l'exploration de données et l'entreposage de données sont dédiés à la fourniture de différents types d'analyse, mais certainement pour différents types d'utilisateurs. En d'autres termes, l'exploration de données recherche des corrélations, des motifs pour soutenir une hypothèse statistique. Mais, l'entreposage de données répond à une question relativement plus large et elle tranche et les désirs à partir de là pour reconnaître les modes d'amélioration à l'avenir.