Klasifikace v dolování dat

Klasifikace je technikou dolování dat, která přiřazuje kategorie ke sběru dat, aby pomohla při přesnějších predikcích a analýzách. Také nazývaný někdy nazvaný Rozhodovací strom , je klasifikace jednou z několika metod, která je účinná při analýze velkých datových souborů.

Proč klasifikace?

Velmi rozsáhlé databáze se stávají normou v dnešním světě "velkých dat". Představte si databázi s více terabajty dat - terabajt je bilion bajtů dat.

Samotný Facebook zkracuje 600 terabajtů nových dat každý den (od roku 2014, kdy naposledy uvedl tyto specifikace). Primárním úkolem velkých dat je, jak to udělat smysl.

Úplný objem není jediným problémem: velké údaje mají tendenci být různorodé, nestrukturované a rychle se měnící. Zvažte audio a video data, příspěvky v sociálních médiích, 3D data nebo geoprostorová data. Tento druh dat není snadno kategorizován ani organizován.

Pro splnění této výzvy byla vyvinuta řada automatických metod pro získávání užitečných informací, mezi nimi klasifikace .

Jak funguje klasifikace

Při nebezpečí, že se dostaneme příliš daleko do tech-mluvit, pojďme diskutovat o tom, jak funguje klasifikace. Cílem je vytvořit soubor klasifikačních pravidel, která budou odpovídat na otázku, rozhodovat nebo předpovídat chování. Začněte s tím, že je vytvořena sada výcvikových dat, která obsahuje určitý soubor atributů, stejně jako pravděpodobný výsledek.

Úkolem algoritmu klasifikace je zjistit, jak tento atribut dosáhne svého závěru.

Scénář : Možná, že se společnost zabývající se platebními kartami pokouší zjistit, které vyhlídky by měly obdržet nabídku kreditní karty.

Může se jednat o sadu výcvikových údajů:

Výcvikové údaje
název Stáří Rod Roční příjem Nabídka platební karty
John Doe 25 M 39 500 dolarů Ne
Jane Doe 56 F 125 000 dolarů Ano

Sloupce "prediktor" Věk , pohlaví a roční příjem určují hodnotu nabídky " Kreditní atribut". V tréninku je známý atribut prediktoru. Klasifikační algoritmus se pak pokusí zjistit, jak byla hodnota atributu prediktora dosažena: jaké vztahy existují mezi přediktory a rozhodnutím? Vypracuje soubor pravidel předpovědí, obvykle příkaz IF / THEN, například:

IF (věk> 18 let nebo věk <75) A roční příjem> 40 000 THEN Nabídka platební karty = ano

Je zřejmé, že je to jednoduchý příklad a algoritmus by potřeboval mnohem větší vzorkování dat než ty dva zde zobrazené záznamy. Pravidla predikce jsou pravděpodobně mnohem složitější, včetně podřízených pravidel pro zachycení detailů atributů.

Dále je algoritmu dána "sada předpovědí" dat, která má být analyzována, ale v této sadě chybí atribut (nebo rozhodnutí) predikce:

Prediktor Data
název Stáří Rod Roční příjem Nabídka platební karty
Jack Frost 42 M 88 000 dolarů
Mary Murrayová 16 F $ 0

Tato data o prediktoru pomáhají odhadovat přesnost pravidel předpovídání a pravidla se pak vylepšují, dokud vývojář nepovažuje předpovědi za efektivní a užitečné.

Každodenní příklady klasifikace

Klasifikace a další techniky dolování dat jsou za naši každodenní zkušenost jako spotřebitelé.

Předpovědi počasí mohou použít klasifikaci, aby bylo možné ohlásit, zda bude den deštivý, slunečný nebo zamračený. Lékařská profese by mohla analyzovat zdravotní stav, aby mohla předpovědět zdravotní výsledky. Typ klasifikační metody, Naive Bayesian, využívá podmíněnou pravděpodobnost pro kategorizaci nevyžádaných e-mailů. Od zjišťování podvodů až po nabídky produktů je klasifikace každodenně za zákulisí analýzy dat a vytváření předpovědí.