Regressziós egyenlet. Többszörös regressziós egyenlet

Páros lineáris regresszió az egyik változó és egy másik változó átlaga közötti kapcsolat. Leggyakrabban a modellt $y=ax+b+e$ formában írják le, ahol $x$ egy faktorváltozó, $y$ az eredő (függő), $e$ egy véletlen komponens (maradék, eltérés).

NÁL NÉL tanulási feladatok a matematikai statisztikában általában a következőket használják algoritmus hogy megtaláljuk a regressziós egyenletet.

Modellválasztás (egyenlet). A modell gyakran előre meghatározott (találd lineáris regresszió) vagy grafikus módszert alkalmazunk a kiválasztáshoz: egy szórásdiagramot építünk, és ennek alakját elemezzük.
A regressziós egyenlet együtthatóinak (paramétereinek) kiszámítása. Ez gyakran a legkisebb négyzetek módszerével történik.
A korrelációs együttható és a modellparaméterek jelentőségének ellenőrzése (konfidenciaintervallumok is építhetők rájuk), a modell minőségének felmérése Fisher-kritérium segítségével.
Maradékanalízis, regressziós standard hiba számítás, modell előrejelzés (opcionális).

Az alábbiakban találunk megoldást a páros regresszióra (adatsoron vagy korrelációs táblán, különféle kiegészítő feladatokkal), valamint pár feladatot a korrelációs együttható meghatározására és vizsgálatára.

Tetszett? Könyvjelző

Online példamegoldások: Lineáris regresszió

Egyszerű kiválasztás

1. példa Negyedévente 20 üzletben vannak adatok az egy munkásra jutó átlagos termelésről Y (ezer rubel) és X forgalomról (ezer rubel). A megadott adatok alapján szükséges:
1) határozza meg az egy dolgozóra jutó átlagos kibocsátás függését (korrelációs együtthatóját) a forgalomtól,
2) ennek a függőségnek a közvetlen regressziójának egyenletének elkészítése.

2. példaÖt azonos létszámú, azonos típusú cég bérének és munkaerő-forgalmának kölcsönös hatásának elemzésére az X havi fizetés mértékét és az Y év során kilépő munkavállalók számát mértük:
X 100 150 200 250 300
Y 60 35 20 20 15
Keresse meg Y lineáris regresszióját X-re, mintakorrelációs együtthatót.

3. példa Find Selective numerikus jellemzőkés minta lineáris regressziós egyenlet: $y_x=ax+b$. Építsünk regressziós egyenest, és rajzoljunk $(x,y)$ pontokat a síkon lévő táblázatból. Számítsa ki a maradék szórást! Ellenőrizze a lineáris regressziós modell megfelelőségét a determinációs együtthatóval.

4. példa Számítsa ki a regressziós egyenlet együtthatóit! Határozza meg a mandzsúriai kőris fa sűrűsége és szilárdsága közötti mintakorrelációs együtthatót!
A probléma megoldásához korrelációs mezőt kell felépíteni, a függőség típusát a mező típusával meghatározni, írni általános forma Y regressziós egyenlet X-en, határozza meg a regressziós egyenlet együtthatóit és számítsa ki a korrelációs együtthatókat a két megadott érték között.

5. példa Egy autókölcsönző céget érdekel az X autók futásteljesítménye és az Y havi karbantartási költsége közötti kapcsolat. A kapcsolat jellegének meghatározásához 15 autót választottak ki. Készítsen grafikont a kiindulási adatokról, és határozza meg az attól való függőség jellegét. Számítsa ki a mintavételi sebességet lineáris korreláció Pearson, ellenőrizze a jelentőségét 0,05-nél. Készítsen regressziós egyenletet, és adja meg az eredmények értelmezését.

korrelációs táblázat

6. példa Keressen egy minta közvetlen regressziós Y egyenletet X-en egy korrelációs táblázat alapján

7. példa A 2. táblázat az Y (r.u.) fogyasztás X (r.u.) jövedelemtől való függésének adatait mutatja egyes háztartások esetében.
1. Feltételezve, hogy X és Y között lineáris kapcsolat van, keresse meg a lineáris regressziós együtthatók pontbecsléseit.
2. Határozza meg a $s$ szórást és a $R^2$ determinációs együtthatót!
3. Feltételezve a regressziós modell véletlenszerű komponensének normalitását, tesztelje azt a hipotézist, hogy Y és X között nincs lineáris kapcsolat!
4. Mennyi egy háztartás várható fogyasztása $x_n=7$ arb jövedelemmel. egységek? megtalálja megbízhatósági intervallum az előrejelzéshez.
Adja meg a kapott eredmények értelmezését! A szignifikanciaszintet minden esetben 0,05-nek tekintjük.

8. példa 100 új típusú tarifa kiosztása az összes ismert cellás kommunikációhoz mobil rendszerek X (pénzegység) és az azokból származó bevétel Y (pénzegységek) a táblázatban látható:
Szükséges:
1) Számítsa ki a csoportátlagokat és készítsen empirikus regressziós egyeneseket;
2) Feltételezve, hogy az X és Y változók között lineáris korreláció van:
A) keresse meg a regressziós egyenesek egyenleteit, építse fel grafikonjait ugyanazon a rajzon empirikus regressziós egyenesekkel, és adja meg a kapott egyenletek közgazdasági értelmezését;
B) számítsa ki a korrelációs együtthatót, értékelje szignifikanciaszintjét 0,05-ös szignifikanciaszinten, és vonjon le következtetést az X és Y változók közötti kapcsolat szorosságára és irányára vonatkozóan;
C) a megfelelő regressziós egyenlet segítségével becsülje meg a mobilrendszerekből származó átlagos bevételt 20 új típusú tarifával.

Néha ez megtörténik: a feladat szinte aritmetikailag megoldható, és mindenféle Lebesgue-integrál és Bessel-függvény jut először eszünkbe. Tehát elkezdi a neurális hálózat betanítását, majd hozzáad még néhány rejtett réteget, kísérletez a neuronok számával, az aktiválási funkciókkal, majd emlékszik az SVM-re és a Random Forestre, és kezdje elölről. Ennek ellenére a szórakoztató statisztikai tanulási módszerek bősége ellenére a lineáris regresszió továbbra is az egyik legnépszerűbb eszköz. Ennek pedig megvannak az előfeltételei, nem utolsósorban az intuitívság a modell értelmezésében.

Néhány képlet

A legegyszerűbb esetben a lineáris modell a következőképpen ábrázolható:

Y i = a 0 + a 1 x i + ε i

ahol a 0 az y i függő változó várható értéke, ha az x i változó nulla; a 1 az y i függő változó várható változása, ha x i eggyel változik (ezt az együtthatót úgy választjuk meg, hogy a ½Σ(y i -ŷ i) 2 érték minimális legyen - ez az úgynevezett "eltérési függvény") ; ε i - véletlenszerű hiba.
Ebben az esetben az a 1 és a 0 együtthatók Pearson-féle korrelációs együtthatóval fejezhetők ki, szórásokés az x és y változók átlagértékei:

Â 1 = cor(y, x)σ y /σ x

Â 0 = ȳ - â 1 x̄

Diagnosztikai és modellhibák

Ahhoz, hogy a modell helyes legyen, teljesíteni kell a Gauss-Markov feltételeket, pl. a hibáknak homoszkedasztikusnak kell lenniük nulla átlaggal. Az e i = y i - ŷ i reziduumok diagramja segít meghatározni, hogy mennyire megfelelő a felépített modell (e i ε i becslésének tekinthető).
Nézzük meg a reziduumok grafikonját egyszerű lineáris y 1 ~ x függés esetén (a továbbiakban minden példa a nyelvben található R):

Rejtett szöveg

halmaz.mag(1) n<- 100 x <- runif(n) y1 <- x + rnorm(n, sd=.1) fit1 <- lm(y1 ~ x) par(mfrow=c(1, 2)) plot(x, y1, pch=21, col="black", bg="lightblue", cex=.9) abline(fit1) plot(x, resid(fit1), pch=21, col="black", bg="lightblue", cex=.9) abline(h=0)

A maradékok többé-kevésbé egyenletesen oszlanak el a vízszintes tengely körül, ami azt jelzi, hogy "a véletlenszerű tag értékei között nincs szisztematikus kapcsolat bármely két megfigyelésben". És most vizsgáljuk meg ugyanazt a grafikont, de egy lineáris modellre építettük, amely valójában nem lineáris:

Rejtett szöveg

y2<- log(x) + rnorm(n, sd=.1) fit2 <- lm(y2 ~ x) plot(x, y2, pch=21, col="black", bg="lightblue", cex=.9) abline(fit2) plot(x, resid(fit2), pch=21, col="black", bg="lightblue", cex=.9) abline(h=0)

Az y 2 ~ x grafikon alapján úgy tűnik, hogy lineáris kapcsolat feltételezhető, de a reziduumoknak van mintázata, ami azt jelenti, hogy itt nem fog működni a tiszta lineáris regresszió. És itt van, mit jelent a heteroszkedaszticitás:

Rejtett szöveg

y3<- x + rnorm(n, sd=.001*x) fit3 <- lm(y3 ~ x) plot(x, y3, pch=21, col="black", bg="lightblue", cex=.9) abline(fit3) plot(x, resid(fit3), pch=21, col="black", bg="lightblue", cex=.9) abline(h=0)

Az ilyen „felfújt” maradékokkal rendelkező lineáris modell nem megfelelő. Néha hasznos az is, hogy a maradékok kvantiliseit összevetjük azokkal a kvantisekkel, amelyek akkor várhatók, ha a maradékok normális eloszlásúak:

Rejtett szöveg

qqnorm(resid(fit1)) qqline(resid(fit1)) qqnorm(resid(fit2)) qqline(resid(ill2)

A második grafikonon jól látható, hogy a reziduumok normalitásának feltételezése elvethető (ami ismét a modell hibásságát jelzi). És vannak ilyen helyzetek:

Rejtett szöveg

x4<- c(9, x) y4 <- c(3, x + rnorm(n, sd=.1)) fit4 <- lm(y4 ~ x4) par(mfrow=c(1, 1)) plot(x4, y4, pch=21, col="black", bg="lightblue", cex=.9) abline(fit4)

Ez az úgynevezett "outlier", amely nagymértékben torzíthatja az eredményeket, és téves következtetésekhez vezethet. Az R-nek van egy eszköze ennek észlelésére - a szabványosított dfbetas és hat értékek segítségével:
> kerek(dfbetas(fit4), 3) (elmetszés) x4 1 15,987 -26,342 2 -0,131 0,062 3 -0,049 0,017 4 0,083 0,000 5 0,023 0,000 5 0,023 0,000 5 0,023 0,000 5 0,023 0,000 5 0,023 0,000 5 0,023 0,037 5 0,023 0,037 1,5 .50 .8 .5 .8
> round(hatvalues(fit4), 3) 1 2 3 4 5 6 7 8 9 10... 0,810 0,012 0,011 0,010 0,013 0,014 0,013 0,014 0,010 0,010...
Mint látható, az x4 vektor első tagja sokkal nagyobb befolyást gyakorol a regressziós modell paramétereire, mint a többi, így kiugró.

Modellválasztás többszörös regresszióban

Természetesen többszörös regresszió esetén felmerül a kérdés: minden változót figyelembe kell venni? Egyrészt úgy tűnik, hogy megéri, mert. bármely változó hasznos információt hordozhat. Emellett a változók számának növelésével növeljük az R 2 -t (mellesleg emiatt ez a mérték nem tekinthető megbízhatónak a modell minőségének megítélésében). Másrészt érdemes szem előtt tartani az olyan dolgokat, mint az AIC és a BIC, amelyek büntetést rónak ki a modell bonyolultságára. Az információs kritérium abszolút értékének önmagában nincs értelme, ezért ezeket az értékeket több modellnél össze kell hasonlítanunk: esetünkben eltérő számú változóval. Az információs kritérium minimális értékével rendelkező modell lesz a legjobb (bár van min vitatkozni).
Tekintsük a MASS-könyvtár UScrime adatkészletét:
könyvtár(MASS) adatok(UScrime) stepAIC(lm(y~., data=UScrime))
A legalacsonyabb AIC-értékkel rendelkező modell a következő paraméterekkel rendelkezik:
Hívás: lm(képlet = y ~ M + Ed + Po1 + M.F + U1 + U2 + Ineq + Prob, adat = US Crime) Együtthatók: (elfogó) M Ed Po1 M.F U1 U2 Ineq Prob -6426,101 9,332 18,012 10,235 -6235 -10,235 . 6.133-3796.032
Így az optimális modell, figyelembe véve az AIC-t, a következő lesz:
fit_aic<- lm(y ~ M + Ed + Po1 + M.F + U1 + U2 + Ineq + Prob, data=UScrime) summary(fit_aic)
... Együtthatók: Estimate Std. Hiba t érték pr (> | t |) (elfogás) -6426.101 1194.611 -5.379 4.04e -06 *** m 9.332 3,350 2,786 0,00828 ** ed 18.012 5.275 3,414 0,00153 ** PO1 10.265 6.618 2,552 M.F 2,234 1,360 1.642.642. 6,087 3,339 -1,823 0,07622 . U2 18,735 7,248 2,585 0,01371 * Ineq 6,133 1,396 4,394 8,63e-05 *** Prob -3796,032 1490,646 -2,547 0,01505 * Signif. kódok: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 ' 1
Ha alaposan megnézzük, kiderül, hogy az M.F és U1 változók meglehetősen magas p-értékkel rendelkeznek, ami mintegy sejteti számunkra, hogy ezek a változók nem olyan fontosak. De a p-érték meglehetősen kétértelmű mérőszám, amikor egy adott változó fontosságát értékeljük egy statisztikai modellben. Ezt a tényt egy példa illusztrálja:
adat<- read.table("http://www4.stat.ncsu.edu/~stefanski/NSF_Supported/Hidden_Images/orly_owl_files/orly_owl_Lin_9p_5_flat.txt") fit <- lm(V1~. -1, data=data) summary(fit)$coef
Estimate Std. Error t value Pr(>|t|) V2 1.1912939 0.1401286 8.501431 3.325404e-17 V3 0.9354776 0.1271192 7.359057 2.568432e-13 V4 0.9311644 0.1240912 7.503873 8.816818e-14 V5 1.1644978 0.1385375 8.405652 7.370156e-17 V6 1.0613459 0.1317248 8.057300 1.242584e-15 V7 1,0092041 0,1287784 7,836752 7,021785E-15 V8 0,9307010 0,1219609 7,631143 3,391212E-14 V9 0
minden változó p-értéke gyakorlatilag nulla, és feltételezhető, hogy minden változó fontos ehhez a lineáris modellhez. De valójában, ha alaposan megnézi a maradványokat, valami ilyesmi derül ki:

Rejtett szöveg

plot(predict(fit), resid(fit), pch=".")

És mégis, egy alternatív megközelítés a varianciaanalízisen alapul, amelyben a p-értékek kulcsszerepet játszanak. Hasonlítsuk össze az M.F változó nélküli modellt a csak AIC figyelembevételével épített modellel:
fit_aic0<- update(fit_aic, ~ . - M.F) anova(fit_aic0, fit_aic)
Az 1. modell varianciatáblázatának elemzése: y ~ M + Ed + Po1 + U1 + U2 + Ineq + Prob 2. modell: y ~ M + Ed + Po1 + M.F + U1 + U2 + Ineq + Prob Res.Df RSS Df Sq összege F Pr(>F) 1 39 1556227 2 38 1453068 1 103159 2,6978 0,1087
A 0,1087-es P-értéket figyelembe véve, α=0,05 szignifikanciaszint mellett megállapíthatjuk, hogy nincs statisztikailag szignifikáns bizonyíték az alternatív hipotézis mellett, azaz. a modell javára egy további változóval M.F.

A regressziós egyenes a jelenségek közötti kapcsolat grafikus tükrözése. Egyszerűen készíthet regressziós egyenest az Excelben.

Ehhez szüksége van:

1. Nyissa meg az Excel programot

2. Hozzon létre oszlopokat adatokkal. Példánkban regressziós egyenest, vagyis kapcsolatot építünk fel az agresszivitás és az önbizalomhiány között az első osztályosok körében. A kísérletben 30 gyermek vett részt, az adatokat az Excel táblázat tartalmazza:

1 oszlop - a tárgy száma

2 oszlop - agresszivitás pontokban

3 oszlop - az önbecsülés hiánya pontokban

3. Ezután ki kell jelölnie mindkét oszlopot (az oszlop neve nélkül), nyomja meg a tabulátort betét , választ pont , és a javasolt elrendezések közül válassza ki a legelsőt pont jelölőkkel .

4. Így kaptunk egy üres regressziós egyenest - az ún. szórásdiagram. A regressziós egyenesre lépéshez kattintson a kapott ábrára, kattintson a fülre konstruktőr, megtalálja a panelen diagram elrendezések és válassz M a ket9 , azt is mondja f(x)

5. Tehát van egy regressziós egyenesünk. A grafikonon az egyenlet és a korrelációs együttható négyzete is látható

6. Marad a gráf nevének, a tengelyek nevének hozzáadása. Ezenkívül, ha szükséges, eltávolíthatja a jelmagyarázatot, csökkentheti a vízszintes rácsvonalak számát (tab elrendezés , akkor rács ). A fő módosítások és beállítások a lapon találhatók Elrendezés

A regressziós egyenes MS Excelben épül fel. Most már hozzá lehet adni a mű szövegéhez.

x - prediktornak nevezzük - független vagy magyarázó változó.

Adott x mennyiség esetén Y az y változó értéke (úgynevezett függő, kimeneti vagy válaszváltozó), amely a becslési sorban található. Ez az az érték, amelyet y-ra várunk (átlagosan), ha ismerjük x értékét, és ezt nevezzük "y előrejelzett értékének" (5. ábra).

a - az értékelési vonal szabad tagja (átlépése); az Y értéke, ha x = 0.

b a becsült vonal meredeksége vagy gradiense; azt jelenti, hogy Y átlagosan mennyivel növekszik, ha x-et egy egységgel növeljük (5. ábra). A b együtthatót regressziós együtthatónak nevezzük.

Például: ha az emberi testhőmérséklet 1 ° C-kal emelkedik, a pulzusszám átlagosan 10 ütéssel percenként növekszik.

5. ábra: Az együtthatót mutató lineáris regressziós egyenes aés lejtőn b(értékének növelése Y növekedésével x egységenként)

Matematikailag a lineáris regressziós egyenlet megoldása az a és b paraméterek kiszámítására redukálódik oly módon, hogy a korrelációs mező kezdeti adatainak pontjai a lehető legközelebb a közvetlen regresszióhoz .

A "regresszió" szó statisztikai használata egy olyan jelenségből származik, amelyet Francis Galtonnak (1889) tulajdonított, az átlaghoz való regressziónak neveznek. Kimutatta, hogy míg a magas apáknak általában magas fiai vannak, a fiak átlagos magassága kisebb, mint a magas apáké. A fiúgyermekek átlagos magassága „visszafejlődött” vagy „megfordult” a populáció összes apjának átlagmagassága felé. Így átlagosan a magas apáknak alacsonyabbak (de még mindig magasak), az alacsony apáknak pedig magasabbak (de még mindig meglehetősen alacsonyak).

Átlagos regressziót látunk a szűrésben és a klinikai vizsgálatokban, ahol a betegek egy alcsoportját lehet kiválasztani a kezelésre, mert egy bizonyos változó, például a koleszterin szintje rendkívül magas (vagy alacsony). Ha ezt a mérést idővel megismételjük, a második leolvasás alcsoport-átlaga általában kisebb, mint az első érték, és a populáció életkorának és nemének megfelelő átlaga felé hajlik (azaz visszafejlődik), függetlenül attól, hogy milyen kezelésben részesülnek. . A magas koleszterinszinten alapuló klinikai vizsgálatba bevont betegeknél így valószínűleg a második látogatás alkalmával átlagosan csökken a koleszterinszint, még akkor is, ha ezalatt az időszak alatt nem kezelték őket.

Gyakran a regresszióanalízis módszerét alkalmazzák a fizikai fejlődés normatív skáláinak és standardjainak kidolgozására.

Az, hogy a regressziós egyenes mennyire illeszkedik az adatokhoz, az R együttható (általában százalékban kifejezve, determinációs együtthatónak) kiszámításával ítélhető meg, amely egyenlő a korrelációs együttható négyzetével (r 2). Az y szórásának az x-szel való kapcsolatával magyarázható hányadát vagy százalékát jelenti, azaz. a tulajdonság-eredmény variációjának aránya, amely egy független tulajdonság hatására alakult ki. 0 és 1, illetve 0 és 100% közötti értékeket vehet fel. A különbség (100% - R) az y-ban lévő variancia százalékos aránya, amely nem magyarázható ezzel a kölcsönhatással.

Példa

A magasság (cm-ben mérve) és a szisztolés vérnyomás (SBP, Hgmm-ben mérve) közötti összefüggés gyermekeknél. Elvégeztük páronkénti lineáris regressziós analízist az SBP-nek a magasság függvényében (6. ábra). Szignifikáns lineáris kapcsolat van a magasság és az SBP között.

6. ábra Kétdimenziós grafikon, amely a szisztolés vérnyomás és a testmagasság kapcsolatát mutatja. A képen a becsült regressziós egyenes, a szisztolés vérnyomás látható.

A becsült regressziós egyenes egyenlet a következő:

KERTÉS \u003d 46,28 + 0,48 x magasság.

Ebben a példában a metszéspont nem érdekes (a nulla növekedés egyértelműen kívül esik a tanulmányban megfigyelt tartományon). A lejtőt azonban értelmezhetjük; Az előrejelzések szerint ezeknél a gyermekeknél az SBP átlagosan 0,48 Hgmm-rel nő. egy centiméteres magasságnövekedéssel

Alkalmazhatunk regressziós egyenletet, hogy megjósoljuk azt az SBP-t, amelyet egy adott magasságú gyermeknél várnánk. Például egy 115 cm magas gyermek becsült SBP-je 46,28 + (0,48 x 115) = 101,48 Hgmm. Art. szerint egy 130 éves gyermek előrejelzett vérnyomása 46,28 + (0,48 x 130) = 108,68 Hgmm. Művészet.

A korrelációs együttható kiszámításakor azt találtuk, hogy ez egyenlő 0,55-tel, ami az átlagos erősség közvetlen korrelációját jelzi. Ebben az esetben a determinációs együttható r 2 = 0,55 2 = 0,3. Így elmondhatjuk, hogy a növekedésnek a gyermekek vérnyomásának szintjére gyakorolt hatásának aránya nem haladja meg a 30% -ot, a hatás 70% -a más tényezők arányára esik.

A lineáris (egyszerű) regresszió a függő változó és egyetlen független változó közötti kapcsolat figyelembevételére korlátozódik. Ha egynél több független változó van a kapcsolatban, akkor többszörös regresszióra kell térnünk. Az ilyen regresszió egyenlete így néz ki:

y = a + bx 1 + b 2 x 2 +.... + b n x n

Érdekelheti, hogy több független változó x 1, x 2, .., x n milyen hatással van az y válaszváltozóra. Ha úgy gondoljuk, hogy ezek az x-ek kölcsönösen függőek lehetnek, akkor nem szabad külön vizsgálnunk az egyik x értékének y-vel történő megváltoztatásának hatását, hanem egyidejűleg figyelembe kell venni az összes többi x értékét is.

Példa

Mivel szoros összefüggés van a gyermek magassága és testsúlya között, felmerülhet a kérdés, hogy a magasság és a szisztolés vérnyomás közötti összefüggés is megváltozik-e, ha a gyermek testsúlyát és nemét is figyelembe vesszük. A többszörös lineáris regresszió e több független változó együttes hatását vizsgálja y-ra.

A többszörös regressziós egyenlet ebben az esetben így néz ki:

KERT \u003d 79,44 - (0,03 x magasság) + (1,18 x súly) + (4,23 x nem) *

* - (nemhez, értékek 0 - fiú, 1 - lány)

Ennek az egyenletnek megfelelően egy 115 cm magas és 37 kg súlyú lány előrejelzett SBP-je:

KERT = 79,44 - (0,03 x 115) + (1,18 x 37) + (4,23 x 1) \u003d 123,88 Hgmm.

A logisztikus regresszió nagyon hasonlít a lineáris regresszióhoz; akkor használatos, ha van egy érdeklődésre számot tartó bináris kimenetel (azaz egy tünet jelenléte/hiánya vagy olyan alany, akinek betegsége van/nincs) és előrejelzők halmaza. A logisztikus regressziós egyenletből meg lehet határozni, hogy mely prediktorok befolyásolják az eredményt, és a páciens prediktorainak értékei alapján megbecsülhető annak valószínűsége, hogy egy adott kimenetelhez jut. Például: komplikációk merülnek fel vagy sem, a kezelés hatásos lesz vagy sem.

Kezdjen el létrehozni egy bináris változót, amely a két eredményt reprezentálja (pl. „betegsége van” = 1, „nincs betegsége” = 0). Ezt a két értéket azonban nem alkalmazhatjuk függő változóként a lineáris regressziós analízisben, mert a normalitási feltételezés sérül, és nem tudunk értelmezni olyan előre jelzett értékeket, amelyek nem nullák vagy egyek.

Valójában ehelyett annak a valószínűségét vesszük, hogy az alany a függő változó legközelebbi kategóriájába kerül (azaz "beteg"), és a matematikai nehézségek leküzdésére logisztikus transzformációt alkalmazunk a regressziós egyenletben - a természetes logaritmusban. a "betegség" valószínűségének (p) és a "nem betegség" valószínűségének (1-p) arányának.

A maximum likelihood módszernek nevezett integratív folyamat a szokásos regresszió helyett (mivel a lineáris regressziós eljárást nem tudjuk alkalmazni) a logisztikus regressziós egyenlet becslését hozza létre a mintaadatokból

logit(p) = a + bx 1 + b 2 x 2 +... + b n x n

logit (p) annak a valós valószínűségének becslése, hogy egy x 1 ... x n egyedi értékkészlettel rendelkező betegnek betegsége van;

a - a konstans értékelése (szabad tag, metszet);

b 1 , b 2 ,... ,b n — logisztikus regressziós együtthatók becslései.

1. Kérdések az óra témájához:

1. Adja meg a funkcionális és a korreláció definícióját!

2. Mondjon példákat közvetlen és fordított összefüggésekre!

3. Adja meg a jellemzők közötti gyenge, közepes és erős kapcsolatok korrelációs együtthatóinak méretét!

4. Milyen esetekben alkalmazzák a korrelációs együttható kiszámításához a rang módszert?

5. Milyen esetekben alkalmazzuk a Pearson-korrelációs együttható számítását?

6. Melyek a korrelációs együttható rangmódszerrel történő kiszámításának fő lépései?

7. Definiálja a „regresszió” fogalmát. Mi a regressziós módszer lényege?

8. Írja le egy egyszerű lineáris regressziós egyenlet képletét!

9. Határozza meg a regressziós együtthatót.

10. Milyen következtetést vonhatunk le, ha a testmagasság regressziós együtthatója 0,26 kg/cm?

11. Mire használható a regressziós egyenlet?

12. Mi a determinációs együttható?

13. Milyen esetekben használják a többszörös regressziós egyenletet?

14. Mire használják a logisztikus regresszió módszerét?

Az Orosz Föderáció Oktatási és Tudományos Minisztériuma

Szövetségi Oktatási Ügynökség

Állami szakmai felsőoktatási intézmény

Összoroszországi Pénzügyi és Gazdasági Levelező Intézet

Fióktelepe Tulában

Teszt

az "Ökonometria" tudományágban

Tula – 2010

2. feladat (a, b)

A könnyűipari vállalkozások esetében olyan információkat kaptunk, amelyek jellemzik a kibocsátás mennyiségének (Y, millió rubel) függését a tőkebefektetések mennyiségétől (X, millió rubel) táblázat. egy.

x	33	17	23	17	36	25	39	20	13	12
Y	43	27	32	29	45	35	47	32	22	24

Kívánt:

1. Határozza meg a lineáris regressziós egyenlet paramétereit, adja meg a regressziós együttható közgazdasági értelmezését!

2. Számítsa ki a maradékokat; keresse meg a maradék négyzetösszeget; becsüljük meg a maradékok szórását

; ábrázolja a maradékokat.

3. Ellenőrizze az LSM előfeltételek teljesülését.

4. Ellenőrizze a regressziós egyenlet paramétereinek szignifikanciáját Student-féle t-próbával (α=0,05).

5. Számítsa ki a determinációs együtthatót, ellenőrizze a regressziós egyenlet szignifikanciáját Fisher F-próbával (α=0,05), keresse meg az átlagos relatív közelítési hibát! Adjon ítéletet a modell minőségéről.

6. Határozza meg az Y mutató átlagos értékét α=0,1 szignifikanciaszint mellett, ha az X faktor előrejelzett értéke a maximális érték 80%-a.

7. Grafikus bemutatása: tényleges és modell Y értékek, előrejelzési pontok.

8. Állítson össze nemlineáris regressziós egyenleteket:

hiperbolikus;

erő;

jelzésértékű.

Adja meg a megszerkesztett regressziós egyenletek grafikonját!

9. Ezekhez a modellekhez keresse meg a determinációs együtthatókat és az átlagos relatív közelítési hibákat! Hasonlítsa össze a modelleket ezen jellemzők alapján, és vonjon le következtetést.

1. A lineáris modell alakja:

A lineáris regressziós egyenlet paraméterei a képletek segítségével kereshetők meg

A paraméterértékek kiszámítását a táblázat mutatja be. 2.

t	y	x	yx
1	43	33	1419	1089	42,236	0,764	0,584	90,25	88,36	0,018
2	27	17	459	289	27,692	-0,692	0,479	42,25	43,56	0,026
3	32	23	736	529	33,146	-1,146	1,313	0,25	2,56	0,036
4	29	17	493	289	27,692	1,308	1,711	42,25	21,16	0,045
5	45	36	1620	1296	44,963	0,037	0,001	156,25	129,96	0,001
6	35	25	875	625	34,964	0,036	0,001	2,25	1,96	0,001
7	47	39	1833	1521	47,69	-0,69	0,476	240,25	179,56	0,015
8	32	20	640	400	30,419	1,581	2,500	12,25	2,56	0,049
9	22	13	286	169	24,056	-2,056	4,227	110,25	134,56	0,093
10	24	12	288	144	23,147	0,853	0,728	132,25	92,16	0,036
∑	336	235	8649	6351	12,020	828,5	696,4	0,32
Átl.	33,6	23,5	864,9	635,1

Határozzuk meg a lineáris modell paramétereit

A lineáris modellnek van formája

Regressziós együttható

azt mutatja, hogy Y kibocsátása átlagosan 0,909 millió rubelrel nő. az X tőkebefektetések volumenének 1 millió rubel növekedésével.

2. Számítsa ki a maradékokat!

, maradék négyzetösszeg , a maradék szórást a következő képlet segítségével találjuk meg:

A számításokat a táblázat tartalmazza. 2.

Rizs. 1. ε maradékok grafikonja.

3. Ellenőrizzük az LSM előfeltételek teljesülését a Durbin-Watson kritérium alapján!


0,584
2,120	0,479
0,206	1,313
6,022	1,711
1,615	0,001
0,000	0,001
0,527	0,476
5,157	2,500
13,228	4,227
2,462	0,728
31,337	12,020

d1=0,88; d2=1,32, ha α=0,05, n=10, k=1.

Ez azt jelenti, hogy számos maradék nem korrelál.

4. Ellenőrizzük az egyenlet paramétereinek szignifikanciáját Student-féle t-próba alapján! (a=0,05).

v=8 esetén; α=0,05.

Értékszámítás

táblázatban készült. 2. A következőket kapjuk:

, akkor azt a következtetést vonhatjuk le, hogy az a és b regressziós együtthatók 0,95 valószínűséggel szignifikánsak.

5. Keresse meg a korrelációs együtthatót a képlet segítségével!

A számításokat a táblázat tartalmazza. 2.

. Hogy. az X beruházás volumene és az Y kibocsátás közötti kapcsolat szorosnak tekinthető, mert .

A determinációs együtthatót a képlet határozza meg