Regressziós egyenlet. Többszörös regressziós egyenlet
Páros lineáris regresszió az egyik változó és egy másik változó átlaga közötti kapcsolat. Leggyakrabban a modellt $y=ax+b+e$ formában írják le, ahol $x$ egy faktorváltozó, $y$ az eredő (függő), $e$ egy véletlen komponens (maradék, eltérés).
NÁL NÉL tanulási feladatok a matematikai statisztikában általában a következőket használják algoritmus hogy megtaláljuk a regressziós egyenletet.
- Modellválasztás (egyenlet). A modell gyakran előre meghatározott (találd lineáris regresszió) vagy grafikus módszert alkalmazunk a kiválasztáshoz: egy szórásdiagramot építünk, és ennek alakját elemezzük.
- A regressziós egyenlet együtthatóinak (paramétereinek) kiszámítása. Ez gyakran a legkisebb négyzetek módszerével történik.
- A korrelációs együttható és a modellparaméterek jelentőségének ellenőrzése (konfidenciaintervallumok is építhetők rájuk), a modell minőségének felmérése Fisher-kritérium segítségével.
- Maradékanalízis, regressziós standard hiba számítás, modell előrejelzés (opcionális).
Az alábbiakban találunk megoldást a páros regresszióra (adatsoron vagy korrelációs táblán, különféle kiegészítő feladatokkal), valamint pár feladatot a korrelációs együttható meghatározására és vizsgálatára.
Tetszett? Könyvjelző
Online példamegoldások: Lineáris regresszió
Egyszerű kiválasztás
1. példa Negyedévente 20 üzletben vannak adatok az egy munkásra jutó átlagos termelésről Y (ezer rubel) és X forgalomról (ezer rubel). A megadott adatok alapján szükséges:
1) határozza meg az egy dolgozóra jutó átlagos kibocsátás függését (korrelációs együtthatóját) a forgalomtól,
2) ennek a függőségnek a közvetlen regressziójának egyenletének elkészítése.
2. példaÖt azonos létszámú, azonos típusú cég bérének és munkaerő-forgalmának kölcsönös hatásának elemzésére az X havi fizetés mértékét és az Y év során kilépő munkavállalók számát mértük:
X 100 150 200 250 300
Y 60 35 20 20 15
Keresse meg Y lineáris regresszióját X-re, mintakorrelációs együtthatót.
3. példa Find Selective numerikus jellemzőkés minta lineáris regressziós egyenlet: $y_x=ax+b$. Építsünk regressziós egyenest, és rajzoljunk $(x,y)$ pontokat a síkon lévő táblázatból. Számítsa ki a maradék szórást! Ellenőrizze a lineáris regressziós modell megfelelőségét a determinációs együtthatóval.
4. példa Számítsa ki a regressziós egyenlet együtthatóit! Határozza meg a mandzsúriai kőris fa sűrűsége és szilárdsága közötti mintakorrelációs együtthatót!
A probléma megoldásához korrelációs mezőt kell felépíteni, a függőség típusát a mező típusával meghatározni, írni általános forma Y regressziós egyenlet X-en, határozza meg a regressziós egyenlet együtthatóit és számítsa ki a korrelációs együtthatókat a két megadott érték között.
5. példa Egy autókölcsönző céget érdekel az X autók futásteljesítménye és az Y havi karbantartási költsége közötti kapcsolat. A kapcsolat jellegének meghatározásához 15 autót választottak ki. Készítsen grafikont a kiindulási adatokról, és határozza meg az attól való függőség jellegét. Számítsa ki a mintavételi sebességet lineáris korreláció Pearson, ellenőrizze a jelentőségét 0,05-nél. Készítsen regressziós egyenletet, és adja meg az eredmények értelmezését.
korrelációs táblázat
6. példa Keressen egy minta közvetlen regressziós Y egyenletet X-en egy korrelációs táblázat alapján
7. példa A 2. táblázat az Y (r.u.) fogyasztás X (r.u.) jövedelemtől való függésének adatait mutatja egyes háztartások esetében.
1. Feltételezve, hogy X és Y között lineáris kapcsolat van, keresse meg a lineáris regressziós együtthatók pontbecsléseit.
2. Határozza meg a $s$ szórást és a $R^2$ determinációs együtthatót!
3. Feltételezve a regressziós modell véletlenszerű komponensének normalitását, tesztelje azt a hipotézist, hogy Y és X között nincs lineáris kapcsolat!
4. Mennyi egy háztartás várható fogyasztása $x_n=7$ arb jövedelemmel. egységek? megtalálja megbízhatósági intervallum az előrejelzéshez.
Adja meg a kapott eredmények értelmezését! A szignifikanciaszintet minden esetben 0,05-nek tekintjük.
8. példa 100 új típusú tarifa kiosztása az összes ismert cellás kommunikációhoz mobil rendszerek X (pénzegység) és az azokból származó bevétel Y (pénzegységek) a táblázatban látható:
Szükséges:
1) Számítsa ki a csoportátlagokat és készítsen empirikus regressziós egyeneseket;
2) Feltételezve, hogy az X és Y változók között lineáris korreláció van:
A) keresse meg a regressziós egyenesek egyenleteit, építse fel grafikonjait ugyanazon a rajzon empirikus regressziós egyenesekkel, és adja meg a kapott egyenletek közgazdasági értelmezését;
B) számítsa ki a korrelációs együtthatót, értékelje szignifikanciaszintjét 0,05-ös szignifikanciaszinten, és vonjon le következtetést az X és Y változók közötti kapcsolat szorosságára és irányára vonatkozóan;
C) a megfelelő regressziós egyenlet segítségével becsülje meg a mobilrendszerekből származó átlagos bevételt 20 új típusú tarifával.
Néha ez megtörténik: a feladat szinte aritmetikailag megoldható, és mindenféle Lebesgue-integrál és Bessel-függvény jut először eszünkbe. Tehát elkezdi a neurális hálózat betanítását, majd hozzáad még néhány rejtett réteget, kísérletez a neuronok számával, az aktiválási funkciókkal, majd emlékszik az SVM-re és a Random Forestre, és kezdje elölről. Ennek ellenére a szórakoztató statisztikai tanulási módszerek bősége ellenére a lineáris regresszió továbbra is az egyik legnépszerűbb eszköz. Ennek pedig megvannak az előfeltételei, nem utolsósorban az intuitívság a modell értelmezésében.
Néhány képlet
A legegyszerűbb esetben a lineáris modell a következőképpen ábrázolható:Y i = a 0 + a 1 x i + ε i
ahol a 0 az y i függő változó várható értéke, ha az x i változó nulla; a 1 az y i függő változó várható változása, ha x i eggyel változik (ezt az együtthatót úgy választjuk meg, hogy a ½Σ(y i -ŷ i) 2 érték minimális legyen - ez az úgynevezett "eltérési függvény") ; ε i - véletlenszerű hiba.
Ebben az esetben az a 1 és a 0 együtthatók Pearson-féle korrelációs együtthatóval fejezhetők ki, szórásokés az x és y változók átlagértékei:
 1 = cor(y, x)σ y /σ x
 0 = ȳ - â 1 x̄
Diagnosztikai és modellhibák
Ahhoz, hogy a modell helyes legyen, teljesíteni kell a Gauss-Markov feltételeket, pl. a hibáknak homoszkedasztikusnak kell lenniük nulla átlaggal. Az e i = y i - ŷ i reziduumok diagramja segít meghatározni, hogy mennyire megfelelő a felépített modell (e i ε i becslésének tekinthető).Nézzük meg a reziduumok grafikonját egyszerű lineáris y 1 ~ x függés esetén (a továbbiakban minden példa a nyelvben található R):
Rejtett szöveg
halmaz.mag(1) n<- 100
x <- runif(n)
y1 <- x + rnorm(n, sd=.1)
fit1 <- lm(y1 ~ x)
par(mfrow=c(1, 2))
plot(x, y1, pch=21, col="black", bg="lightblue", cex=.9)
abline(fit1)
plot(x, resid(fit1), pch=21, col="black", bg="lightblue", cex=.9)
abline(h=0)
A maradékok többé-kevésbé egyenletesen oszlanak el a vízszintes tengely körül, ami azt jelzi, hogy "a véletlenszerű tag értékei között nincs szisztematikus kapcsolat bármely két megfigyelésben". És most vizsgáljuk meg ugyanazt a grafikont, de egy lineáris modellre építettük, amely valójában nem lineáris:
Rejtett szöveg
y2<- log(x) + rnorm(n, sd=.1)
fit2 <- lm(y2 ~ x)
plot(x, y2, pch=21, col="black", bg="lightblue", cex=.9)
abline(fit2)
plot(x, resid(fit2), pch=21, col="black", bg="lightblue", cex=.9)
abline(h=0)
Az y 2 ~ x grafikon alapján úgy tűnik, hogy lineáris kapcsolat feltételezhető, de a reziduumoknak van mintázata, ami azt jelenti, hogy itt nem fog működni a tiszta lineáris regresszió. És itt van, mit jelent a heteroszkedaszticitás:
Rejtett szöveg
y3<- x + rnorm(n, sd=.001*x)
fit3 <- lm(y3 ~ x)
plot(x, y3, pch=21, col="black", bg="lightblue", cex=.9)
abline(fit3)
plot(x, resid(fit3), pch=21, col="black", bg="lightblue", cex=.9)
abline(h=0)
Az ilyen „felfújt” maradékokkal rendelkező lineáris modell nem megfelelő. Néha hasznos az is, hogy a maradékok kvantiliseit összevetjük azokkal a kvantisekkel, amelyek akkor várhatók, ha a maradékok normális eloszlásúak:
Rejtett szöveg
qqnorm(resid(fit1)) qqline(resid(fit1)) qqnorm(resid(fit2)) qqline(resid(ill2)
A második grafikonon jól látható, hogy a reziduumok normalitásának feltételezése elvethető (ami ismét a modell hibásságát jelzi). És vannak ilyen helyzetek:
Rejtett szöveg
x4<- c(9, x)
y4 <- c(3, x + rnorm(n, sd=.1))
fit4 <- lm(y4 ~ x4)
par(mfrow=c(1, 1))
plot(x4, y4, pch=21, col="black", bg="lightblue", cex=.9)
abline(fit4)
Ez az úgynevezett "outlier", amely nagymértékben torzíthatja az eredményeket, és téves következtetésekhez vezethet. Az R-nek van egy eszköze ennek észlelésére - a szabványosított dfbetas és hat értékek segítségével:
> kerek(dfbetas(fit4), 3) (elmetszés) x4 1 15,987 -26,342 2 -0,131 0,062 3 -0,049 0,017 4 0,083 0,000 5 0,023 0,000 5 0,023 0,000 5 0,023 0,000 5 0,023 0,000 5 0,023 0,000 5 0,023 0,037 5 0,023 0,037 1,5 .50 .8 .5 .8
> round(hatvalues(fit4), 3) 1 2 3 4 5 6 7 8 9 10... 0,810 0,012 0,011 0,010 0,013 0,014 0,013 0,014 0,010 0,010...
Mint látható, az x4 vektor első tagja sokkal nagyobb befolyást gyakorol a regressziós modell paramétereire, mint a többi, így kiugró.
Modellválasztás többszörös regresszióban
Természetesen többszörös regresszió esetén felmerül a kérdés: minden változót figyelembe kell venni? Egyrészt úgy tűnik, hogy megéri, mert. bármely változó hasznos információt hordozhat. Emellett a változók számának növelésével növeljük az R 2 -t (mellesleg emiatt ez a mérték nem tekinthető megbízhatónak a modell minőségének megítélésében). Másrészt érdemes szem előtt tartani az olyan dolgokat, mint az AIC és a BIC, amelyek büntetést rónak ki a modell bonyolultságára. Az információs kritérium abszolút értékének önmagában nincs értelme, ezért ezeket az értékeket több modellnél össze kell hasonlítanunk: esetünkben eltérő számú változóval. Az információs kritérium minimális értékével rendelkező modell lesz a legjobb (bár van min vitatkozni).Tekintsük a MASS-könyvtár UScrime adatkészletét:
könyvtár(MASS) adatok(UScrime) stepAIC(lm(y~., data=UScrime))
A legalacsonyabb AIC-értékkel rendelkező modell a következő paraméterekkel rendelkezik:
Hívás: lm(képlet = y ~ M + Ed + Po1 + M.F + U1 + U2 + Ineq + Prob, adat = US Crime) Együtthatók: (elfogó) M Ed Po1 M.F U1 U2 Ineq Prob -6426,101 9,332 18,012 10,235 -6235 -10,235 . 6.133-3796.032
Így az optimális modell, figyelembe véve az AIC-t, a következő lesz:
fit_aic<- lm(y ~ M + Ed + Po1 + M.F + U1 + U2 + Ineq + Prob, data=UScrime) summary(fit_aic)
... Együtthatók: Estimate Std. Hiba t érték pr (> | t |) (elfogás) -6426.101 1194.611 -5.379 4.04e -06 *** m 9.332 3,350 2,786 0,00828 ** ed 18.012 5.275 3,414 0,00153 ** PO1 10.265 6.618 2,552 M.F 2,234 1,360 1.642.642. 6,087 3,339 -1,823 0,07622 . U2 18,735 7,248 2,585 0,01371 * Ineq 6,133 1,396 4,394 8,63e-05 *** Prob -3796,032 1490,646 -2,547 0,01505 * Signif. kódok: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 ' 1
Ha alaposan megnézzük, kiderül, hogy az M.F és U1 változók meglehetősen magas p-értékkel rendelkeznek, ami mintegy sejteti számunkra, hogy ezek a változók nem olyan fontosak. De a p-érték meglehetősen kétértelmű mérőszám, amikor egy adott változó fontosságát értékeljük egy statisztikai modellben. Ezt a tényt egy példa illusztrálja:
adat<- read.table("http://www4.stat.ncsu.edu/~stefanski/NSF_Supported/Hidden_Images/orly_owl_files/orly_owl_Lin_9p_5_flat.txt") fit <- lm(V1~. -1, data=data) summary(fit)$coef
Estimate Std. Error t value Pr(>|t|) V2 1.1912939 0.1401286 8.501431 3.325404e-17 V3 0.9354776 0.1271192 7.359057 2.568432e-13 V4 0.9311644 0.1240912 7.503873 8.816818e-14 V5 1.1644978 0.1385375 8.405652 7.370156e-17 V6 1.0613459 0.1317248 8.057300 1.242584e-15 V7 1,0092041 0,1287784 7,836752 7,021785E-15 V8 0,9307010 0,1219609 7,631143 3,391212E-14 V9 0
minden változó p-értéke gyakorlatilag nulla, és feltételezhető, hogy minden változó fontos ehhez a lineáris modellhez. De valójában, ha alaposan megnézi a maradványokat, valami ilyesmi derül ki:
Rejtett szöveg
plot(predict(fit), resid(fit), pch=".")
És mégis, egy alternatív megközelítés a varianciaanalízisen alapul, amelyben a p-értékek kulcsszerepet játszanak. Hasonlítsuk össze az M.F változó nélküli modellt a csak AIC figyelembevételével épített modellel:
fit_aic0<- update(fit_aic, ~ . - M.F) anova(fit_aic0, fit_aic)
Az 1. modell varianciatáblázatának elemzése: y ~ M + Ed + Po1 + U1 + U2 + Ineq + Prob 2. modell: y ~ M + Ed + Po1 + M.F + U1 + U2 + Ineq + Prob Res.Df RSS Df Sq összege F Pr(>F) 1 39 1556227 2 38 1453068 1 103159 2,6978 0,1087
A 0,1087-es P-értéket figyelembe véve, α=0,05 szignifikanciaszint mellett megállapíthatjuk, hogy nincs statisztikailag szignifikáns bizonyíték az alternatív hipotézis mellett, azaz. a modell javára egy további változóval M.F.
A regressziós egyenes a jelenségek közötti kapcsolat grafikus tükrözése. Egyszerűen készíthet regressziós egyenest az Excelben.
Ehhez szüksége van:
1. Nyissa meg az Excel programot
2. Hozzon létre oszlopokat adatokkal. Példánkban regressziós egyenest, vagyis kapcsolatot építünk fel az agresszivitás és az önbizalomhiány között az első osztályosok körében. A kísérletben 30 gyermek vett részt, az adatokat az Excel táblázat tartalmazza:
1 oszlop - a tárgy száma
2 oszlop - agresszivitás pontokban
3 oszlop - az önbecsülés hiánya pontokban
3. Ezután ki kell jelölnie mindkét oszlopot (az oszlop neve nélkül), nyomja meg a tabulátort betét , választ pont , és a javasolt elrendezések közül válassza ki a legelsőt pont jelölőkkel .
4. Így kaptunk egy üres regressziós egyenest - az ún. szórásdiagram. A regressziós egyenesre lépéshez kattintson a kapott ábrára, kattintson a fülre konstruktőr, megtalálja a panelen diagram elrendezések és válassz M a ket9 , azt is mondja f(x)
5. Tehát van egy regressziós egyenesünk. A grafikonon az egyenlet és a korrelációs együttható négyzete is látható
6. Marad a gráf nevének, a tengelyek nevének hozzáadása. Ezenkívül, ha szükséges, eltávolíthatja a jelmagyarázatot, csökkentheti a vízszintes rácsvonalak számát (tab elrendezés , akkor rács ). A fő módosítások és beállítások a lapon találhatók Elrendezés
A regressziós egyenes MS Excelben épül fel. Most már hozzá lehet adni a mű szövegéhez.
x - prediktornak nevezzük - független vagy magyarázó változó.
Adott x mennyiség esetén Y az y változó értéke (úgynevezett függő, kimeneti vagy válaszváltozó), amely a becslési sorban található. Ez az az érték, amelyet y-ra várunk (átlagosan), ha ismerjük x értékét, és ezt nevezzük "y előrejelzett értékének" (5. ábra).
a - az értékelési vonal szabad tagja (átlépése); az Y értéke, ha x = 0.
b a becsült vonal meredeksége vagy gradiense; azt jelenti, hogy Y átlagosan mennyivel növekszik, ha x-et egy egységgel növeljük (5. ábra). A b együtthatót regressziós együtthatónak nevezzük.
Például: ha az emberi testhőmérséklet 1 ° C-kal emelkedik, a pulzusszám átlagosan 10 ütéssel percenként növekszik.
5. ábra: Az együtthatót mutató lineáris regressziós egyenes aés lejtőn b(értékének növelése Y növekedésével x egységenként)
Matematikailag a lineáris regressziós egyenlet megoldása az a és b paraméterek kiszámítására redukálódik oly módon, hogy a korrelációs mező kezdeti adatainak pontjai a lehető legközelebb a közvetlen regresszióhoz .
A "regresszió" szó statisztikai használata egy olyan jelenségből származik, amelyet Francis Galtonnak (1889) tulajdonított, az átlaghoz való regressziónak neveznek. Kimutatta, hogy míg a magas apáknak általában magas fiai vannak, a fiak átlagos magassága kisebb, mint a magas apáké. A fiúgyermekek átlagos magassága „visszafejlődött” vagy „megfordult” a populáció összes apjának átlagmagassága felé. Így átlagosan a magas apáknak alacsonyabbak (de még mindig magasak), az alacsony apáknak pedig magasabbak (de még mindig meglehetősen alacsonyak).
Átlagos regressziót látunk a szűrésben és a klinikai vizsgálatokban, ahol a betegek egy alcsoportját lehet kiválasztani a kezelésre, mert egy bizonyos változó, például a koleszterin szintje rendkívül magas (vagy alacsony). Ha ezt a mérést idővel megismételjük, a második leolvasás alcsoport-átlaga általában kisebb, mint az első érték, és a populáció életkorának és nemének megfelelő átlaga felé hajlik (azaz visszafejlődik), függetlenül attól, hogy milyen kezelésben részesülnek. . A magas koleszterinszinten alapuló klinikai vizsgálatba bevont betegeknél így valószínűleg a második látogatás alkalmával átlagosan csökken a koleszterinszint, még akkor is, ha ezalatt az időszak alatt nem kezelték őket.
Gyakran a regresszióanalízis módszerét alkalmazzák a fizikai fejlődés normatív skáláinak és standardjainak kidolgozására.
Az, hogy a regressziós egyenes mennyire illeszkedik az adatokhoz, az R együttható (általában százalékban kifejezve, determinációs együtthatónak) kiszámításával ítélhető meg, amely egyenlő a korrelációs együttható négyzetével (r 2). Az y szórásának az x-szel való kapcsolatával magyarázható hányadát vagy százalékát jelenti, azaz. a tulajdonság-eredmény variációjának aránya, amely egy független tulajdonság hatására alakult ki. 0 és 1, illetve 0 és 100% közötti értékeket vehet fel. A különbség (100% - R) az y-ban lévő variancia százalékos aránya, amely nem magyarázható ezzel a kölcsönhatással.
Példa
A magasság (cm-ben mérve) és a szisztolés vérnyomás (SBP, Hgmm-ben mérve) közötti összefüggés gyermekeknél. Elvégeztük páronkénti lineáris regressziós analízist az SBP-nek a magasság függvényében (6. ábra). Szignifikáns lineáris kapcsolat van a magasság és az SBP között.
6. ábra Kétdimenziós grafikon, amely a szisztolés vérnyomás és a testmagasság kapcsolatát mutatja. A képen a becsült regressziós egyenes, a szisztolés vérnyomás látható.
A becsült regressziós egyenes egyenlet a következő:
KERTÉS \u003d 46,28 + 0,48 x magasság.
Ebben a példában a metszéspont nem érdekes (a nulla növekedés egyértelműen kívül esik a tanulmányban megfigyelt tartományon). A lejtőt azonban értelmezhetjük; Az előrejelzések szerint ezeknél a gyermekeknél az SBP átlagosan 0,48 Hgmm-rel nő. egy centiméteres magasságnövekedéssel
Alkalmazhatunk regressziós egyenletet, hogy megjósoljuk azt az SBP-t, amelyet egy adott magasságú gyermeknél várnánk. Például egy 115 cm magas gyermek becsült SBP-je 46,28 + (0,48 x 115) = 101,48 Hgmm. Art. szerint egy 130 éves gyermek előrejelzett vérnyomása 46,28 + (0,48 x 130) = 108,68 Hgmm. Művészet.
A korrelációs együttható kiszámításakor azt találtuk, hogy ez egyenlő 0,55-tel, ami az átlagos erősség közvetlen korrelációját jelzi. Ebben az esetben a determinációs együttható r 2 = 0,55 2 = 0,3. Így elmondhatjuk, hogy a növekedésnek a gyermekek vérnyomásának szintjére gyakorolt hatásának aránya nem haladja meg a 30% -ot, a hatás 70% -a más tényezők arányára esik.
A lineáris (egyszerű) regresszió a függő változó és egyetlen független változó közötti kapcsolat figyelembevételére korlátozódik. Ha egynél több független változó van a kapcsolatban, akkor többszörös regresszióra kell térnünk. Az ilyen regresszió egyenlete így néz ki:
y = a + bx 1 + b 2 x 2 +.... + b n x n
Érdekelheti, hogy több független változó x 1, x 2, .., x n milyen hatással van az y válaszváltozóra. Ha úgy gondoljuk, hogy ezek az x-ek kölcsönösen függőek lehetnek, akkor nem szabad külön vizsgálnunk az egyik x értékének y-vel történő megváltoztatásának hatását, hanem egyidejűleg figyelembe kell venni az összes többi x értékét is.
Példa
Mivel szoros összefüggés van a gyermek magassága és testsúlya között, felmerülhet a kérdés, hogy a magasság és a szisztolés vérnyomás közötti összefüggés is megváltozik-e, ha a gyermek testsúlyát és nemét is figyelembe vesszük. A többszörös lineáris regresszió e több független változó együttes hatását vizsgálja y-ra.
A többszörös regressziós egyenlet ebben az esetben így néz ki:
KERT \u003d 79,44 - (0,03 x magasság) + (1,18 x súly) + (4,23 x nem) *
* - (nemhez, értékek 0 - fiú, 1 - lány)
Ennek az egyenletnek megfelelően egy 115 cm magas és 37 kg súlyú lány előrejelzett SBP-je:
KERT = 79,44 - (0,03 x 115) + (1,18 x 37) + (4,23 x 1) \u003d 123,88 Hgmm.
A logisztikus regresszió nagyon hasonlít a lineáris regresszióhoz; akkor használatos, ha van egy érdeklődésre számot tartó bináris kimenetel (azaz egy tünet jelenléte/hiánya vagy olyan alany, akinek betegsége van/nincs) és előrejelzők halmaza. A logisztikus regressziós egyenletből meg lehet határozni, hogy mely prediktorok befolyásolják az eredményt, és a páciens prediktorainak értékei alapján megbecsülhető annak valószínűsége, hogy egy adott kimenetelhez jut. Például: komplikációk merülnek fel vagy sem, a kezelés hatásos lesz vagy sem.
Kezdjen el létrehozni egy bináris változót, amely a két eredményt reprezentálja (pl. „betegsége van” = 1, „nincs betegsége” = 0). Ezt a két értéket azonban nem alkalmazhatjuk függő változóként a lineáris regressziós analízisben, mert a normalitási feltételezés sérül, és nem tudunk értelmezni olyan előre jelzett értékeket, amelyek nem nullák vagy egyek.
Valójában ehelyett annak a valószínűségét vesszük, hogy az alany a függő változó legközelebbi kategóriájába kerül (azaz "beteg"), és a matematikai nehézségek leküzdésére logisztikus transzformációt alkalmazunk a regressziós egyenletben - a természetes logaritmusban. a "betegség" valószínűségének (p) és a "nem betegség" valószínűségének (1-p) arányának.
A maximum likelihood módszernek nevezett integratív folyamat a szokásos regresszió helyett (mivel a lineáris regressziós eljárást nem tudjuk alkalmazni) a logisztikus regressziós egyenlet becslését hozza létre a mintaadatokból
logit(p) = a + bx 1 + b 2 x 2 +... + b n x n
logit (p) annak a valós valószínűségének becslése, hogy egy x 1 ... x n egyedi értékkészlettel rendelkező betegnek betegsége van;
a - a konstans értékelése (szabad tag, metszet);
b 1 , b 2 ,... ,b n — logisztikus regressziós együtthatók becslései.
1. Kérdések az óra témájához:
1. Adja meg a funkcionális és a korreláció definícióját!
2. Mondjon példákat közvetlen és fordított összefüggésekre!
3. Adja meg a jellemzők közötti gyenge, közepes és erős kapcsolatok korrelációs együtthatóinak méretét!
4. Milyen esetekben alkalmazzák a korrelációs együttható kiszámításához a rang módszert?
5. Milyen esetekben alkalmazzuk a Pearson-korrelációs együttható számítását?
6. Melyek a korrelációs együttható rangmódszerrel történő kiszámításának fő lépései?
7. Definiálja a „regresszió” fogalmát. Mi a regressziós módszer lényege?
8. Írja le egy egyszerű lineáris regressziós egyenlet képletét!
9. Határozza meg a regressziós együtthatót.
10. Milyen következtetést vonhatunk le, ha a testmagasság regressziós együtthatója 0,26 kg/cm?
11. Mire használható a regressziós egyenlet?
12. Mi a determinációs együttható?
13. Milyen esetekben használják a többszörös regressziós egyenletet?
14. Mire használják a logisztikus regresszió módszerét?
Az Orosz Föderáció Oktatási és Tudományos Minisztériuma
Szövetségi Oktatási Ügynökség
Állami szakmai felsőoktatási intézmény
Összoroszországi Pénzügyi és Gazdasági Levelező Intézet
Fióktelepe Tulában
Teszt
az "Ökonometria" tudományágban
Tula – 2010
2. feladat (a, b)
A könnyűipari vállalkozások esetében olyan információkat kaptunk, amelyek jellemzik a kibocsátás mennyiségének (Y, millió rubel) függését a tőkebefektetések mennyiségétől (X, millió rubel) táblázat. egy.
x | 33 | 17 | 23 | 17 | 36 | 25 | 39 | 20 | 13 | 12 |
Y | 43 | 27 | 32 | 29 | 45 | 35 | 47 | 32 | 22 | 24 |
Kívánt:
1. Határozza meg a lineáris regressziós egyenlet paramétereit, adja meg a regressziós együttható közgazdasági értelmezését!
2. Számítsa ki a maradékokat; keresse meg a maradék négyzetösszeget; becsüljük meg a maradékok szórását
; ábrázolja a maradékokat.3. Ellenőrizze az LSM előfeltételek teljesülését.
4. Ellenőrizze a regressziós egyenlet paramétereinek szignifikanciáját Student-féle t-próbával (α=0,05).
5. Számítsa ki a determinációs együtthatót, ellenőrizze a regressziós egyenlet szignifikanciáját Fisher F-próbával (α=0,05), keresse meg az átlagos relatív közelítési hibát! Adjon ítéletet a modell minőségéről.
6. Határozza meg az Y mutató átlagos értékét α=0,1 szignifikanciaszint mellett, ha az X faktor előrejelzett értéke a maximális érték 80%-a.
7. Grafikus bemutatása: tényleges és modell Y értékek, előrejelzési pontok.
8. Állítson össze nemlineáris regressziós egyenleteket:
hiperbolikus;
erő;
jelzésértékű.
Adja meg a megszerkesztett regressziós egyenletek grafikonját!
9. Ezekhez a modellekhez keresse meg a determinációs együtthatókat és az átlagos relatív közelítési hibákat! Hasonlítsa össze a modelleket ezen jellemzők alapján, és vonjon le következtetést.
1. A lineáris modell alakja:
A lineáris regressziós egyenlet paraméterei a képletek segítségével kereshetők meg
![](https://i0.wp.com/mirznanii.com/images/59/60/8136059.png)
A paraméterértékek kiszámítását a táblázat mutatja be. 2.
t | y | x | yx | |||||||
1 | 43 | 33 | 1419 | 1089 | 42,236 | 0,764 | 0,584 | 90,25 | 88,36 | 0,018 |
2 | 27 | 17 | 459 | 289 | 27,692 | -0,692 | 0,479 | 42,25 | 43,56 | 0,026 |
3 | 32 | 23 | 736 | 529 | 33,146 | -1,146 | 1,313 | 0,25 | 2,56 | 0,036 |
4 | 29 | 17 | 493 | 289 | 27,692 | 1,308 | 1,711 | 42,25 | 21,16 | 0,045 |
5 | 45 | 36 | 1620 | 1296 | 44,963 | 0,037 | 0,001 | 156,25 | 129,96 | 0,001 |
6 | 35 | 25 | 875 | 625 | 34,964 | 0,036 | 0,001 | 2,25 | 1,96 | 0,001 |
7 | 47 | 39 | 1833 | 1521 | 47,69 | -0,69 | 0,476 | 240,25 | 179,56 | 0,015 |
8 | 32 | 20 | 640 | 400 | 30,419 | 1,581 | 2,500 | 12,25 | 2,56 | 0,049 |
9 | 22 | 13 | 286 | 169 | 24,056 | -2,056 | 4,227 | 110,25 | 134,56 | 0,093 |
10 | 24 | 12 | 288 | 144 | 23,147 | 0,853 | 0,728 | 132,25 | 92,16 | 0,036 |
∑ | 336 | 235 | 8649 | 6351 | 12,020 | 828,5 | 696,4 | 0,32 | ||
Átl. | 33,6 | 23,5 | 864,9 | 635,1 |
Határozzuk meg a lineáris modell paramétereit
![](https://i2.wp.com/mirznanii.com/images/67/60/8136067.png)
A lineáris modellnek van formája
Regressziós együttható
azt mutatja, hogy Y kibocsátása átlagosan 0,909 millió rubelrel nő. az X tőkebefektetések volumenének 1 millió rubel növekedésével.2. Számítsa ki a maradékokat!
, maradék négyzetösszeg , a maradék szórást a következő képlet segítségével találjuk meg:![](https://i1.wp.com/mirznanii.com/images/73/60/8136073.png)
A számításokat a táblázat tartalmazza. 2.
![](https://i0.wp.com/mirznanii.com/images/74/60/8136074.png)
![](https://i2.wp.com/mirznanii.com/images/75/60/8136075.png)
Rizs. 1. ε maradékok grafikonja.
3. Ellenőrizzük az LSM előfeltételek teljesülését a Durbin-Watson kritérium alapján!
0,584 | |
2,120 | 0,479 |
0,206 | 1,313 |
6,022 | 1,711 |
1,615 | 0,001 |
0,000 | 0,001 |
0,527 | 0,476 |
5,157 | 2,500 |
13,228 | 4,227 |
2,462 | 0,728 |
31,337 | 12,020 |
![](https://i2.wp.com/mirznanii.com/images/78/60/8136078.png)
![](https://i1.wp.com/mirznanii.com/images/79/60/8136079.png)
d1=0,88; d2=1,32, ha α=0,05, n=10, k=1.
![](https://i0.wp.com/mirznanii.com/images/80/60/8136080.png)
Ez azt jelenti, hogy számos maradék nem korrelál.
4. Ellenőrizzük az egyenlet paramétereinek szignifikanciáját Student-féle t-próba alapján! (a=0,05).
![](https://i0.wp.com/mirznanii.com/images/81/60/8136081.png)
![](https://i0.wp.com/mirznanii.com/images/82/60/8136082.png)
Értékszámítás
táblázatban készült. 2. A következőket kapjuk:![](https://i0.wp.com/mirznanii.com/images/84/60/8136084.png)
![](https://i2.wp.com/mirznanii.com/images/85/60/8136085.png)
5. Keresse meg a korrelációs együtthatót a képlet segítségével!
![](https://i0.wp.com/mirznanii.com/images/86/60/8136086.png)
A számításokat a táblázat tartalmazza. 2.
![](https://i2.wp.com/mirznanii.com/images/88/60/8136088.png)
A determinációs együtthatót a képlet határozza meg