Regresní analýza vztahů mezi proměnnými
Regrese je technika dolování dat používaná k předpovědi rozsahu číselných hodnot (nazývaných také kontinuální hodnoty ), daných konkrétním datovým souborem. Například regrese může být použita k předpovědi nákladů na produkt nebo službu vzhledem k jiným proměnným.
Regrese se používá v různých průmyslových odvětvích pro plánování podnikání a marketingu, finanční prognózy, modelování životního prostředí a analýzu trendů.
Regrese Vs. Klasifikace
Regrese a klasifikace jsou techniky dolování dat používané k vyřešení podobných problémů, ale jsou často zmatené. Oba se používají v předpovědi analýzy, ale regrese se používá k předpovědi číselné nebo kontinuální hodnoty, zatímco klasifikace přiřazuje data do diskrétních kategorií.
Například regrese by se použila k předpovídání hodnoty domu na základě jeho polohy, čtverečních stop, ceny při posledním prodeji, ceny podobných domů a dalších faktorů. Klasifikace by byla v pořádku, pokud byste místo toho chtěli uspořádat domovy do kategorií, jako je např. Volnost, velikost šarže nebo kriminalita.
Druhy regresních technik
Nejjednodušší a nejstarší forma regrese je lineární regrese používaná k odhadu vztahu mezi dvěma proměnnými. Tato technika používá matematický vzorec přímky (y = mx + b). Jednoduše řečeno, to jednoduše znamená, že vzhledem k grafu s Y a osou X je vztah mezi X a Y přímkou s malými odlehlostmi. Například bychom mohli předpokládat, že vzhledem k nárůstu počtu obyvatel se výroba potravin zvýší ve stejné míře - to vyžaduje silný, lineární vztah mezi oběma čísly. Chcete-li si to představit, zvažte graf, ve kterém osa Y sleduje nárůst počtu obyvatel a osa X sleduje produkci potravin. Vzhledem k tomu, že hodnota Y se zvyšuje, hodnota X se zvýší stejným poměrem, takže vztah mezi nimi bude přímý.
Pokročilé techniky, jako je vícenásobná regrese, předpovídají vztah mezi více proměnnými - například existuje korelace mezi příjmem, vzděláním a kde se rozhodne žít? Přidání více proměnných výrazně zvyšuje složitost předpovědi. Existuje několik typů vícenásobných regresních technik včetně standardních, hierarchických, setwise a krokových, každá s vlastní aplikací.
V tomto okamžiku je důležité pochopit, co se snažíme předvídat (závislá nebo předpokládaná proměnná) a data, která používáme k předpovědi (nezávislé nebo prediktorové proměnné). V našem příkladu chceme předpovědět umístění, kde se rozhodne žít ( předpokládaná proměnná) daný příjem a vzdělání (oba přediktorské proměnné).
- Standardní více regrese bere v úvahu všechny proměnné prediktorů současně. Například 1) jaký je vztah mezi příjmem a vzděláním (prediktory) a volbou sousedství (předpokládané); a 2) do jaké míry přispívá každý jednotlivý přediktor k tomuto vztahu?
- Postupné vícenásobné regrese odpovídají zcela odlišné otázce. Postupný regresní algoritmus analyzuje, které přediktory jsou nejlépe použity k předpovědi výběru sousedství - což znamená, že postupný model hodnotí pořadí významu proměnných prediktorů a poté vybere příslušnou podmnožinu. Tento typ regresního problému používá "kroky" k vytvoření regresní rovnice. Vzhledem k tomuto typu regrese nemusí být všechny prediktory dokonce zobrazeny v konečné regresní rovnici.
- Hierarchická regrese , podobně jako postupně, je postupný proces, ale přediktorové proměnné jsou zadány do modelu ve předem definovaném pořadí, tj. Algoritmus neobsahuje vestavěnou množinu rovnic pro určení pořadí, ve kterém zadejte přediktory. To se nejčastěji používá, když jednotlivec, který vytváří regresní rovnici, má odborné znalosti oboru.
- Setwise regrese je také podobná postupné, ale analyzuje množiny proměnných spíše než jednotlivé proměnné.