Definování regresního statistického modelu

Regresní analýza vztahů mezi proměnnými

Regrese je technika dolování dat používaná k předpovědi rozsahu číselných hodnot (nazývaných také kontinuální hodnoty ), daných konkrétním datovým souborem. Například regrese může být použita k předpovědi nákladů na produkt nebo službu vzhledem k jiným proměnným.

Regrese se používá v různých průmyslových odvětvích pro plánování podnikání a marketingu, finanční prognózy, modelování životního prostředí a analýzu trendů.

Regrese Vs. Klasifikace

Regrese a klasifikace jsou techniky dolování dat používané k vyřešení podobných problémů, ale jsou často zmatené. Oba se používají v předpovědi analýzy, ale regrese se používá k předpovědi číselné nebo kontinuální hodnoty, zatímco klasifikace přiřazuje data do diskrétních kategorií.

Například regrese by se použila k předpovídání hodnoty domu na základě jeho polohy, čtverečních stop, ceny při posledním prodeji, ceny podobných domů a dalších faktorů. Klasifikace by byla v pořádku, pokud byste místo toho chtěli uspořádat domovy do kategorií, jako je např. Volnost, velikost šarže nebo kriminalita.

Druhy regresních technik

Nejjednodušší a nejstarší forma regrese je lineární regrese používaná k odhadu vztahu mezi dvěma proměnnými. Tato technika používá matematický vzorec přímky (y = mx + b). Jednoduše řečeno, to jednoduše znamená, že vzhledem k grafu s Y a osou X je vztah mezi X a Y přímkou ​​s malými odlehlostmi. Například bychom mohli předpokládat, že vzhledem k nárůstu počtu obyvatel se výroba potravin zvýší ve stejné míře - to vyžaduje silný, lineární vztah mezi oběma čísly. Chcete-li si to představit, zvažte graf, ve kterém osa Y sleduje nárůst počtu obyvatel a osa X sleduje produkci potravin. Vzhledem k tomu, že hodnota Y se zvyšuje, hodnota X se zvýší stejným poměrem, takže vztah mezi nimi bude přímý.

Pokročilé techniky, jako je vícenásobná regrese, předpovídají vztah mezi více proměnnými - například existuje korelace mezi příjmem, vzděláním a kde se rozhodne žít? Přidání více proměnných výrazně zvyšuje složitost předpovědi. Existuje několik typů vícenásobných regresních technik včetně standardních, hierarchických, setwise a krokových, každá s vlastní aplikací.

V tomto okamžiku je důležité pochopit, co se snažíme předvídat (závislá nebo předpokládaná proměnná) a data, která používáme k předpovědi (nezávislé nebo prediktorové proměnné). V našem příkladu chceme předpovědět umístění, kde se rozhodne žít ( předpokládaná proměnná) daný příjem a vzdělání (oba přediktorské proměnné).