KDD VS Data Mining
KDD (Knowledge Discovery in Databases) est un domaine de l'informatique, qui comprend les outils et les théories pour aider les humains à extraire des informations utiles et auparavant inconnues (I.e. connaissance) à partir de grandes collections de données numérisées. KDD se compose de plusieurs étapes, et l'exploration de données est l'une d'entre elles. L'exploration de données est l'application d'un algorithme spécifique afin d'extraire des modèles à partir de données. Néanmoins, le KDD et l'exploration de données sont utilisés de manière interchangeable.
Qu'est-ce que KDD?
Comme mentionné ci-dessus, KDD est un domaine de l'informatique, qui traite de l'extraction d'informations précédemment inconnues et intéressantes à partir de données brutes. KDD est l'ensemble du processus pour essayer de donner un sens aux données en développant des méthodes ou des techniques appropriées. Ce processus traite de la cartographie des données de bas niveau dans d'autres formes, ce sont plus compacts, abstraits et utiles. Ceci est réalisé en créant de courts rapports, en modélisant le processus de génération de données et de développement de modèles prédictifs qui peuvent prédire les cas futurs. En raison de la croissance exponentielle des données, en particulier dans des domaines comme les entreprises, KDD est devenu un processus très important pour convertir cette grande richesse de données en intelligence commerciale, car l'extraction manuelle des modèles est devenue apparemment impossible au cours des dernières décennies. Par exemple, il est actuellement utilisé pour diverses applications telles que l'analyse des réseaux sociaux, la détection de fraude, la science, l'investissement, la fabrication, les télécommunications, le nettoyage des données, les sports, la recherche d'informations et en grande partie pour le marketing. KDD est généralement utilisé pour répondre à des questions comme quels sont les principaux produits qui pourraient aider à obtenir un bénéfice élevé l'année prochaine à Wal-Mart?. Ce processus a plusieurs étapes. Il commence par développer une compréhension du domaine d'application et de l'objectif, puis de la création d'un ensemble de données cible. Ceci est suivi par le nettoyage, le prétraitement, la réduction et la projection des données. La prochaine étape consiste à utiliser l'exploration de données (expliquée ci-dessous) pour identifier le modèle. Enfin, les connaissances découvertes sont consolidées en visualisant et / ou en interprétant.
Qu'est-ce que l'exploration de données?
Comme mentionné ci-dessus, l'exploration de données n'est qu'une étape dans le processus KDD global. Il existe deux principaux objectifs d'exploration de données tels que définis par l'objectif de l'application, et ils sont à savoir la vérification ou la découverte. La vérification vérifie l'hypothèse de l'utilisateur sur les données, tandis que la découverte trouve automatiquement des modèles intéressants. Il existe quatre tâches principales d'exploration de données: le clustering, la classification, la régression et l'association (résumé). Le clustering identifie des groupes similaires à partir de données non structurées. La classification est des règles d'apprentissage qui peuvent être appliquées à de nouvelles données. La régression consiste à trouver des fonctions avec une erreur minimale pour modéliser les données. Et l'association recherche des relations entre les variables. Ensuite, l'algorithme d'exploration de données spécifique doit être sélectionné. Selon l'objectif, différents algorithmes comme la régression linéaire, la régression logistique, les arbres de décision et les Bayes naïfs peuvent être sélectionnés. Alors les modèles d'intérêt dans une ou plusieurs formes de représentation sont recherchées. Enfin, les modèles sont évalués soit en utilisant une précision prédictive ou une compréhension.
Quelle est la différence entre KDD et l'exploration de données?
Bien que les deux termes KDD et l'exploration de données soient fortement utilisés de manière interchangeable, ils se réfèrent à deux concepts connexes mais légèrement différents. KDD est le processus global d'extraction des connaissances des données tandis que l'exploration de données est une étape dans le processus KDD, qui traite de l'identification des modèles dans les données. En d'autres termes, l'exploration de données n'est que l'application d'un algorithme spécifique basé sur l'objectif global du processus KDD.