Diferența dintre gruparea ierarhică și cea parțială

Clasificarea ierarhică vs. partiționarea

Clustering-ul este o tehnică de învățare a mașinilor pentru analizarea datelor și împărțirea în grupuri de date similare. Aceste grupuri sau seturi de date similare sunt cunoscute sub denumirea de clustere. Analiza clusterului analizează algoritmii de grupare care pot identifica automat clusterele. Ierarhică și partițională sunt două astfel de clase de algoritmi de grupare. Metodele ierarhice de grupare descompun datele într-o ierarhie de clustere. Algoritmii pariționali împart setul de date în partiții disjuncte reciproc.

Ce este gruparea ierarhică?

Modelele de grupare ierarhică repetă ciclul de îmbinare a clusterelor mai mici cu cele mai mari sau de împărțirea clusterelor mai mari la cele mai mici. În orice caz, produce o ierarhie de clustere numită dendogramă. Strategia clusterizată aglomerată folosește abordarea de jos în sus a clusterelor în grupuri mai mari, în timp ce strategia de grupare divizată folosește abordarea de sus în jos a divizării la cele mai mici. În mod obișnuit, abordarea lacomă este folosită pentru a decide care clustere mai mari / mai mici sunt utilizate pentru fuziune / împărțire. Distanța eucidiană, distanța Manhattan și similitudinea cosinusului sunt unele dintre cele mai frecvent utilizate metrici de similaritate pentru datele numerice. Pentru date non-numerice, se utilizează valori precum distanța Hamming. Este important de menționat că observațiile (instanțele) nu sunt necesare pentru gruparea ierarhică, deoarece numai matricea distanțelor este suficientă. Dendograma este o reprezentare vizuală a clusterelor, care afișează foarte clar ierarhia. Utilizatorul poate obține grupări diferite în funcție de nivelul la care este tăiat dendograma.

Ce este gruparea parțială?

Algoritmii de grupare parțială generează diferite partiții și apoi le evaluează printr-un anumit criteriu. Acestea sunt, de asemenea, denumite nonhierarchice, deoarece fiecare instanță este plasată într-unul dintre clusterele exclusiv k. Deoarece un singur set de clustere reprezintă rezultatul unui algoritm tipic de grupare parțială, utilizatorul trebuie să introducă numărul dorit de clustere (de obicei numit k). Unul dintre algoritmii de grupare parțială folosiți cel mai frecvent este algoritmul de grupare k-mean. Utilizatorul trebuie să furnizeze numărul de clustere (k) înainte de a începe și algoritmul inițiază mai întâi centrele (sau centroizii) partițiilor k. Pe scurt, algoritmul de grupare k-înseamnă apoi atribuie membrii bazați pe centrele actuale și centrele de reevaluare bazate pe membrii actuali. Acești doi pași se repetă până când se optimizează o anumită funcție de obiectivitate a similarității între cluster și funcția obiectivului disimilaritate inter-cluster. Prin urmare, inițierea sensibilă a centrelor este un factor foarte important în obținerea rezultatelor de calitate din algoritmii de grupare parțială.

Care este diferența dintre gruparea ierarhică și partiționarea??

Combinările ierarhice și parțiale au diferențe majore în timpul de funcționare, ipotezele, parametrii de intrare și clusterele rezultate. În mod obișnuit, gruparea parțială este mai rapidă decât gruparea ierarhică. Schemele ierarhice necesită doar o măsură de similitudine, în timp ce gruparea parțială necesită ipoteze mai puternice, cum ar fi numărul de clustere și centrele inițiale. Gruparea ierarhică nu necesită parametri de intrare, în timp ce algoritmii de grupare parțială necesită ca numărul clusterelor să înceapă să fie difuzat. Combinările ierarhice returnează o diviziune mult mai semnificativă și subiectivă a clusterelor, dar gruparea parțială rezultă în clustere exact k. Modelele de grupare ierarhică sunt mai potrivite pentru datele categorice, atâta timp cât o măsură de similaritate poate fi definită în consecință.