Co znamená K-clustering?

Data mining s k-prostředky algoritmus

Klastrovací algoritmus k- znamená prostředky pro dolování dat a strojový učební nástroj, který slouží k seskupování pozorování do skupin souvisejících pozorování bez předchozí znalosti těchto vztahů. Vzorkováním se algoritmus pokusí ukázat, do které kategorie nebo clusteru patří data, přičemž počet clusterů je definován hodnotou k.

Algoritmus k- znamená jeden z nejjednodušších technik klastrování a je běžně používán v medicínském zobrazování, biometrii a souvisejících oborech. Výhodou k- znamená clustering je to, že spíše o vašich datech (pomocí jeho neupravené formy) spíše než jste museli poučit algoritmus o datech na začátku (pomocí kontrolovaného tvaru algoritmu).

To je někdy označováno jako Lloydův algoritmus, zvláště v kruzích počítačových věd, protože standardní algoritmus byl nejprve navržen Stuart Lloyd v roce 1957. Termín "k-prostředky" byl vytvořen v roce 1967 James McQueen.

Jak funguje k-prostředek Algoritmus

Algoritmus k- prostředků je evoluční algoritmus, který získává své jméno z jeho způsobu fungování. Algoritmus shlukuje pozorování do k skupin, kde k je poskytováno jako vstupní parametr. Pak přiřadí každému pozorování clusterem na základě pozorování blízké středu clusteru. Střední hodnota clusteru je pak přepočítána a proces začíná znovu. Zde funguje algoritmus:

  1. Algoritmus libovolně vybírá body k jako počáteční centra clusteru (prostředky).
  2. Každý bod datové sady je přiřazen uzavřenému clusteru na základě euklidovské vzdálenosti mezi každým bodem a každým středem clusteru.
  3. Každé centrum clusteru je přepočteno jako průměr bodů v tomto clusteru.
  4. Kroky 2 a 3 opakujte, dokud se clustery nepřiblíží. Konvergence může být definována odlišně v závislosti na implementaci, ale normálně znamená, že ani při změnách kroků 2 a 3 se žádné změny nezmění, nebo že změny nedělají podstatný rozdíl v definici klastrů.

Výběr počtu klastrů

Jedním z hlavních nevýhod pro k- znamená shlukování je skutečnost, že musíte zadat počet klastrů jako vstup do algoritmu. Jak je navrženo, algoritmus není schopen určit vhodný počet clusterů a závisí na tom, že uživatel ji předem identifikuje.

Například pokud byste měli skupinu lidí, kteří mají být shlukováni na základě binární pohlavní identity jako muži nebo ženy, zavoláním algoritmu k - means pomocí vstupu k = 3 by lidé donutili do tří klastrů, když pouze dva, nebo vstup k = 2, by zajistil přirozenější fit.

Podobně, pokud by skupina jednotlivců byla snadno seskupena na základě domácího stavu a nazýváte algoritmus k - prostředku se vstupem k = 20, výsledky by mohly být příliš zobecněné, aby byly účinné.

Z tohoto důvodu je často vhodné experimentovat s různými hodnotami k pro určení hodnoty, která nejlépe vyhovuje vašim datům. Můžete také chtít prozkoumat použití jiných algoritmů dolování dat ve vašem hledání strojově-naučených znalostí.