Clustering hiérarchique vs partitionnel
Le clustering est une technique d'apprentissage automatique pour analyser les données et se diviser en groupes de données similaires. Ces groupes ou ensembles de données similaires sont appelés grappes. L'analyse des cluster examine les algorithmes de clustering qui peuvent identifier automatiquement les clusters. Hiérarchique et partitionnelle sont deux classes de ce type d'algorithmes de clustering. Les algorithmes de clustering hiérarchiques divisent les données dans une hiérarchie de grappes. Les algorithmes de parition divisent l'ensemble de données en partitions mutuellement disjointes.
Qu'est-ce que le regroupement hiérarchique?
Les algorithmes de clustering hiérarchiques répètent le cycle de fusion des grappes plus petites en plus grandes ou divisant des grappes plus grandes en plus petites. Quoi qu'il en soit, il produit une hiérarchie de grappes appelée dendogramme. La stratégie de clustering agglomérative utilise l'approche ascendante de la fusion de clusters dans des grappes plus grandes, tandis que la stratégie de clustering divisante utilise l'approche descendante de la division à des plus petites. En règle générale, l'approche gourmand est utilisée pour décider quels grappes plus grandes / plus petites sont utilisées pour fusionner / diviser. La distance euclidienne, la distance de Manhattan et la similitude du cosinus sont quelques-unes des mesures les plus couramment utilisées de similitude pour les données numériques. Pour les données non nucères, des métriques telles que la distance de Hamming sont utilisées. Il est important de noter que les observations réelles (instances) ne sont pas nécessaires pour le regroupement hiérarchique, car seule la matrice des distances est suffisante. Le dendogramme est une représentation visuelle des grappes, qui affiche très clairement la hiérarchie. L'utilisateur peut obtenir un regroupement différent en fonction du niveau auquel le dendogramme est coupé.
Qu'est-ce que le regroupement partitionnel?
Les algorithmes de regroupement partitionnel génèrent diverses partitions, puis les évaluent par un critère. Ils sont également appelés non hiérarchiques car chaque instance est placée exactement dans l'un des k grappes mutuellement exclusives. Étant donné qu'un seul ensemble de clusters est la sortie d'un algorithme de clustering partitionnel typique, l'utilisateur doit saisir le nombre souhaité de clusters (généralement appelé K). L'un des algorithmes de regroupement partitionnel les plus couramment utilisés est l'algorithme de clustering K-Means. L'utilisateur doit fournir le nombre de clusters (k) avant de commencer et l'algorithme initie d'abord les centres (ou centroïdes) des k partitions. En un mot, l'algorithme de clustering K-Means attribue ensuite les membres en fonction des centres actuels et réestime les centres en fonction des membres actuels. Ces deux étapes sont répétées jusqu'à ce qu'une certaine fonction d'objectif de similitude intra-cluster et une fonction d'objectif de dissimilarité intercluster soient optimisées. Par conséquent, l'initialisation raisonnable des centres est un facteur très important pour obtenir des résultats de qualité des algorithmes de regroupement partitionnel.
Quelle est la différence entre le regroupement hiérarchique et partitionnel?
Le clustering hiérarchique et partitionnel a des différences clés dans le temps d'exécution, les hypothèses, les paramètres d'entrée et les grappes résultantes. En règle générale, le regroupement partitionnel est plus rapide que le clustering hiérarchique. Le regroupement hiérarchique ne nécessite qu'une mesure de similitude, tandis que le regroupement partitionnel nécessite des hypothèses plus fortes telles que le nombre de clusters et les centres initiaux. Le clustering hiérarchique ne nécessite aucun paramètre d'entrée, tandis que les algorithmes de clustering partitionnels nécessitent le nombre de clusters pour commencer à fonctionner. Le clustering hiérarchique renvoie une division beaucoup plus significative et subjective des clusters, mais le clustering partitionnel entraîne exactement des clusters k. Les algorithmes de clustering hiérarchiques sont plus adaptés aux données catégorielles tant qu'une mesure de similitude peut être définie en conséquence.