Regresszióanalízis - a statisztikai módszer vizsgálja a függőség a véletlen változó által

A statisztikai regressziós analízis modellező tanulmány értékelésére használják a változók közötti kapcsolatban. Ez a matematikai módszer magában foglal több más módszerek modellezésére és elemzésére többváltozós, amikor a hangsúly a kapcsolat a függő változó, és egy vagy több független. Pontosabban regressziós elemzés segít megérteni, hogy a jellemző értéke a függő változó, ha a független változók változik, míg a többi független változó rögzítve van.

Mi a lineáris elemzés

Minden esetben a cél pontszámot függvénye a független változók az úgynevezett regressziós függvény. A regressziós analízis is érdekes, jellegzetes változások, mint a függő változó, a regressziós függvény, amely leírható egy valószínűségi eloszlás.

Feladatok regresszió analízis

A statisztikai módszer a kutatás széles körben használják, hogy előre, ha annak használata jelentős előnyökkel jár, de ez néha vezethet hamis kapcsolat illúzió, vagy így ajánlott használni pontosan ebben a kérdésben, hiszen például a korreláció nem jelent ok-okozati összefüggés.

Ez kifejlesztett számos módszer kivitelezésére egy regressziós elemzést, például a lineáris regresszió és a legkisebb négyzetek, amelyek parametrikus. Ezek lényege, hogy a regressziós függvény meghatározása a véges számú ismeretlen paraméterek, amelyek az adatokból becslés alapján. Nonparametrikus regressziós függvény lehetővé teszi, hogy feküdjön egy bizonyos függvények halmazát lehet végtelen dimenziós.

Ennek statisztikai módszer tanulmányozására, regressziós elemzés a gyakorlatban alakjától függ generáló folyamat, és hogyan kapcsolódik a regressziós megközelítés. Mivel az igazi formáját eljárás adatai, áramfejlesztő, mint általában, egy ismeretlen szám, regresszió analízis gyakran attól függ, hogy bizonyos mértékig feltételezések a folyamatot. Ezek a feltételezések néha ellenőrizhető, ha van elég adat. Regressziós modellek gyakran hasznos, ha a feltételezések mérsékelten sérülnek, bár nem működik maximális hatékonysággal.

Szűkebb értelemben regresszió is kifejezetten a becslés folytonos válasz változók, ellentétben a diszkrét választ használt változók a címkézés. A folyamatos kimeneti változó is nevezik mutató regressziós, hogy megkülönböztessék a kapcsolódó problémák.

Mi a lineáris elemzés

A „regresszió” Francis Galton találta a XIX leírni egy biológiai jelenség. A lényeg az volt, hogy a növekedés a leszármazottai az ősök a növekedés általában visszafejlődnek le a normál átlag. Mert Galton regresszió már csak ez a biológiai értelme, de később a munka folytatódott Udni Yoley és Karlom Pirsonom és visszavont, hogy minél több általános statisztikai összefüggésben. A munkát a Yule és Pearson együttes eloszlása ​​a magyarázó változók és a válasz minősül Gauss. Ezt a javaslatot elutasította Fisher a munkálatok 1922-ben és 1925. Fisher azt javasolta, hogy a feltételes eloszlása ​​a válasz változó Gauss, de az együttes eloszlás nem kell. Ezzel kapcsolatban feltételezés Fischer közelebb szövegéből 1821 Gauss. 1970 előtt néha vett akár 24 órát is, hogy az eredmények a regresszió analízis.

Mi a lineáris elemzés

Módszerek regressziós elemzés továbbra is aktív kutatási terület. Az utóbbi évtizedekben, új módszert dolgoztak ki a megbízható regresszió; regressziós korrelált válaszokat; regressziós technika befogadására különböző hiányzó adatok; nonparametric regresszió; Bayes regressziós módszerekkel; regresszió, amelyben a változók prediktív mérési hiba; Regresszió a legtöbb előrejelzője, mint megfigyelések és az oksági következtetés a regresszió.

regressziós modellek

Összes regressziós elemzés tartalmazza a következő változókat:

  • Az ismeretlen paraméterek jelölve béta, ami lehet egy skalár vagy vektor.
  • Független változók, X.
  • A függő változó, Y.

A különböző területeken a tudomány, ahol a használata regressziós elemzést végeztünk, a különböző használt kifejezések helyett függő és független változók, de minden esetben a regressziós modell tárgya az X és Y funkció β.

A közelítés általában készült formájában E (Y | X) = f (x, β). Végrehajtásához regressziós elemzést kell meghatározni formájában az f függvény. Ritkábban, ez alapján a tudás közötti kapcsolat Y és X, ami nem adatokra támaszkodnak. Amennyiben ez a tudás nem áll rendelkezésre, válasszuk ki a rugalmas és kényelmes forma F.

A függő változó Y

Tegyük fel most, hogy a vektor ismeretlen paramétereket β hosszúsági k. Ahhoz, hogy végre regresszió analízis, a felhasználónak meg kell adjon tájékoztatást a függő változó Y:

  • Ha N adatpontok az űrlap (Y, X), ahol N
  • Ha vannak pontosan N = K, és az F függvény lineáris, az egyenlet Y = F (X, β) meg lehet oldani, hogy pontosan és nem hozzávetőlegesek. Ez csökkenti a megoldása egy sor egyenletek N-N-ismeretlennel (az elemek P), amelynek van egy egyedülálló megoldás, ameddig X jelentése lineárisan független. Ha F egy nemlineáris, a megoldás nem létezik, vagy lehet, hogy sok megoldásokat.
  • A leggyakoribb helyzet ott, ahol N> pont az adatokat. Ebben az esetben elegendő információ az adatok értékeléséhez az egyedi érték β, amely a legjobban illeszkedik az adatokra, és a regressziós modell, ahol az alkalmazás adatait lehet tekinteni, mint egy túlhatározott rendszer β.

Az utóbbi esetben a regresszió eszközöket biztosít:

  • A megoldások keresése az ismeretlen paramétereket β, amelyet, például, hogy minimálisra csökkentsék a távolságot a mért és a számított értéke Y.
  • Bizonyos feltételek mellett a statisztikai regressziós analízissel fölös információt nyújt statisztikai információt az ismeretlen paramétereket p és becsült értékek a függő változó Y.

A szükséges számú független mérés

Tekintsük a regressziós modell, amely három, ismeretlen paramétereket: β0. β1 és β2. Tegyük fel, hogy a kísérletvezető végez 10 mérést egy és ugyanazon érték a független változó vektor X. Ebben az esetben, regressziós elemzés nem ad egy egyedülálló értékek. A legjobb, ami történhet, hogy megbecsüljük a átlaga és szórása a függő változó Y. Hasonló módon mérjük két különböző értékei X kaphat elegendő adat a regresszió két ismeretlen, de nem három vagy több ismeretlen.

Mi a lineáris elemzés

Ha a méréseket kísérletvezető végre három különböző értéket a független változó X vektort, a regressziós analízis nyújt egy egyedülálló a pontszámok a három ismeretlen paramétereket β.

Abban az esetben, általános lineáris regressziós állítás egyenértékű azzal a fenti követelmény, hogy a mátrix X T X reverzibilis.

statisztikai feltevések

Ha a mérések száma N nagyobb, mint ahány ismeretlen paramétereket k és hiba eí méréseket. ez általában kiterjed majd fölös szereplő információk a méréseket, és használják a statisztikai előrejelzéseket az ismeretlen paramétereket. Ez a többlet információt az úgynevezett szabadsági foka a regresszió.

feltevéseket

Klasszikus feltételezések regressziós elemzés a következők:

  • A minta reprezentatív következtetés predikciós.
  • A hiba egy véletlen változó, az átlagos értéke nulla, amelynek feltétele a magyarázó változók.
  • A független változók mérése hiba nélkül.
  • A független változók (prediktorai) lineárisan független, azaz nem lehet kifejezni bármilyen prediktor lineáris kombinációjával a többiek.
  • Hibák korrelálatlanok, vagyis a kovariancia mátrix diagonális hibákat, és minden nem nulla eleme van a hiba variancia.
  • Hibavariancia állandó megfigyelésekből (homoszkedaszticitás). Ha nem, akkor a súlyozott legkisebb négyzetek vagy más módszerekkel.

Ezek elégséges feltételei legkisebb négyzetek becslési rendelkezik a szükséges tulajdonságokkal, különösen feltételezések jelenti, hogy a paraméter becslések torzítatlan, következetes és hatékony, különösen, ha azok regisztrálva az osztály a lineáris becslések. Fontos megjegyezni, hogy bizonyítékokat ritkán kielégíteni. Vagyis a módszert alkalmazzuk, akkor is, ha az a feltételezés nem helyes. Változik a feltételezések néha használni, mint egy intézkedés mutatja, hogy ez a modell hasznos. Sok ilyen feltételezések lehet enyhíteni a fejlettebb technikák. Reports statisztikai elemzés jellemzően elemzését vizsgálati mintán a módszertan és használati mintaoltalmi.

Ezen túlmenően, a változók bizonyos esetekben utalnak mért ponton helyszíneken. Lehetnek térbeli trendek és térbeli autokorreláció a változók, amelyek sértik a statisztikai feltételezéseket. Földrajzi súlyozott regresszió - az egyetlen módszer, hogy köze van az adatokat.

Lineáris regresszió analízis

A lineáris regresszió jellemző, hogy a függő változó, amely nem Yi. Ez jelenti a lineáris paraméterek kombinációja. Például, egy egyszerű lineáris regressziós modellezést n-pontokat alkalmazunk, az egyik független változó, xi. és két paraméter, β0 és β1.

Mi a lineáris elemzés

A többszörös lineáris regresszió, több független változó vagy függvény.

Amikor egy véletlen minta a népesség a paraméterei lehetővé teszik, hogy olyan mintát kapjunk egy lineáris regressziós modellben.

Ebben a vonatkozásban, a legnépszerűbb a legkisebb négyzetek módszerével. Ezzel kapott értékelési kritériumok, amelyek minimalizálják a négyzetesen összegzett maradékok összege. Ez a fajta minimalizálási (karakterisztika lineáris regresszió) Ennek a funkciónak vezet egy sor normál egyenletek, és egy sor lineáris egyenletek paramétereket, amelyeket megoldani becslést kaphatunk a paraméterek.

A további feltételezés, hogy a lakosság normális eloszlású hiba, a kutató használhatja ezeket a becsléseket standard hibák létrehozását megbízhatósági határokat és vizsgálati hipotézisek paramétereit.

Nemlineáris regresszió analízis

Egy példa, ahol a függvény nem lineáris tekintetében paraméterek, azt jelzi, hogy a négyzetösszeg minimalizálni kell egy iteratív eljárás. Lehetővé teszi, hogy egy csomó komplikáció, amely meghatározza a különbség a lineáris és nem lineáris legkisebb négyzetek módszerével. Következésképpen, az eredmények a regresszió a nemlineáris eljárás néha kiszámíthatatlan.

Mi a lineáris elemzés

Kiszámítása teljesítmény és mintanagyság

Itt is, mint általában, de nincsenek rögzített módszerek kapcsolatos esetek száma, mint a független változók száma a modellben. Az első szabály javasolták Jó és Hardin és úgy néz ki, mint az N = T ^ n, ahol N a minta mérete, n - a független változók száma, és t a megfigyelések száma eléréséhez szükséges a kívánt pontosságot, ha a modell csak egy független változó. Például, egy kutató épít lineáris regressziós modell alkalmazásával adatkészlet tartalmazza 1000 beteg (N). Ha a nyomozó úgy dönt, hogy ötször kell megfigyelések, hogy pontosan a vonal (m), a maximális számú független változó, amely a modell is támogatja a 4.

más módszerek

Annak ellenére, hogy a paramétereket a regressziós modell általában becslések a legkisebb négyzetek módszere, vannak más módszerek, amelyek sokkal ritkábban. Például, a következő módszerek:

  • Bayes technikák (például, Bayes lineáris regressziós módszer).
  • Érdeklődjön regresszió olyan helyzetekben, ahol a visszaesés érdeke hibák a megfelelőbb.
  • A legalacsonyabb abszolút eltérés, hogy sokkal stabilabb jelenlétében kibocsátás, ami a kvantilis regresszióval.
  • Nonparametrikus regresszió, amely megköveteli a nagy számú megfigyelések és számítások.
  • A távoktatás mutatókat, amelyek tanulmányozták a keresést egy értelmes mutató távolság a megadott bemeneti térben.

Mi a lineáris elemzés

szoftver

Minden nagyobb statisztikai szoftvercsomag segítségével végezzük a legkisebb négyzetek regressziós analízissel. Egyszerű lineáris regresszió és a többszörös regressziós analízis alkalmazható egyes alkalmazások, táblázatok, valamint néhány számológépek. Bár sok statisztikai szoftvercsomag végezhet a különböző típusú, nem paraméteres és robusztus regresszió, ezek a módszerek kevésbé szabványosított; Különböző szoftvercsomagok a különböző módszereket. Specialized regressziós szoftver került alkalmazásra fejlesztették ki olyan területeken, mint a végzett felmérés és a képalkotó.