Zagadnienie doboru liczby klas w klasyfikacji spektralnej

Abstract
W artykule przetestowano przydatność pięciu indeksów oceny jakości klasyfikacji (zmienność wewnątrzklasowa, indeks Daviesa-Bouldina, indeks Calińskiego i Harabasza, indeks Hartigana, indeks Krzanowskiego i Lai) w zagadnieniu doboru liczby klas w klasyfikacji spektralnej uwzględniającej cztery typy odległości (kwadrat odległości euklidesowej, odległość euklidesowa, odległość miejska, odległość GDM1). W eksperymentach wykorzystano klasyczne dane metryczne o znanej strukturze klas obiektów wygenerowane z wykorzystaniem z funkcji cluster.Gen pakietu clusterSim oraz nieklasyczne zbiory danych utworzone z wykorzystaniem funkcji pakietu mlbench (mlbench.spirals), geozoo (dini.surface) oraz zbiorów własnych worms i circles. Dla modeli w każdym eksperymencie wygenerowano 40 zbiorów danych, przeprowadzono klasyfikację spektralną z zastosowaniem odpowiedniego indeksu i otrzymane rezultaty klasyfikacji porównano ze znaną strukturą klas za pomocą skorygowanego indeksu Randa.

The paper tested the usefulness of five indices assessing the quality of classification (within-group dispersion, Davies-Bouldin index, Caliński & Harabasz index, Hartigan index, Krzanowski & Lai index) in the issue of selection of the number of clusters in the spectral clustering takes into account four types of distance (squared Euclidean distance, Euclidean distance, manhattan distance, GDM1 distance). The article evaluates twenty clustering procedures (four spectral clustering methods and five indices) based on two types of simulated data (classic and non-classic). Each clustering result was compared with the known cluster structure applying corrected Rand index.
Description
Keywords
Citation
Belongs to collection