Kapcsolatok

Regressziós egyenlet. Többszörös regressziós egyenlet

Páros lineáris regresszió az egyik változó és egy másik változó átlaga közötti kapcsolat. Leggyakrabban a modellt $y=ax+b+e$ formában írják le, ahol $x$ egy faktorváltozó, $y$ az eredő (függő), $e$ egy véletlen komponens (maradék, eltérés).

NÁL NÉL tanulási feladatok a matematikai statisztikában általában a következőket használják algoritmus hogy megtaláljuk a regressziós egyenletet.

  1. Modellválasztás (egyenlet). A modell gyakran előre meghatározott (találd lineáris regresszió) vagy grafikus módszert alkalmazunk a kiválasztáshoz: egy szórásdiagramot építünk, és ennek alakját elemezzük.
  2. A regressziós egyenlet együtthatóinak (paramétereinek) kiszámítása. Ez gyakran a legkisebb négyzetek módszerével történik.
  3. A korrelációs együttható és a modellparaméterek jelentőségének ellenőrzése (konfidenciaintervallumok is építhetők rájuk), a modell minőségének felmérése Fisher-kritérium segítségével.
  4. Maradékanalízis, regressziós standard hiba számítás, modell előrejelzés (opcionális).

Az alábbiakban találunk megoldást a páros regresszióra (adatsoron vagy korrelációs táblán, különféle kiegészítő feladatokkal), valamint pár feladatot a korrelációs együttható meghatározására és vizsgálatára.


Tetszett? Könyvjelző

Online példamegoldások: Lineáris regresszió

Egyszerű kiválasztás

1. példa Negyedévente 20 üzletben vannak adatok az egy munkásra jutó átlagos termelésről Y (ezer rubel) és X forgalomról (ezer rubel). A megadott adatok alapján szükséges:
1) határozza meg az egy dolgozóra jutó átlagos kibocsátás függését (korrelációs együtthatóját) a forgalomtól,
2) ennek a függőségnek a közvetlen regressziójának egyenletének elkészítése.

2. példaÖt azonos létszámú, azonos típusú cég bérének és munkaerő-forgalmának kölcsönös hatásának elemzésére az X havi fizetés mértékét és az Y év során kilépő munkavállalók számát mértük:
X 100 150 200 250 300
Y 60 35 20 20 15
Keresse meg Y lineáris regresszióját X-re, mintakorrelációs együtthatót.

3. példa Find Selective numerikus jellemzőkés minta lineáris regressziós egyenlet: $y_x=ax+b$. Építsünk regressziós egyenest, és rajzoljunk $(x,y)$ pontokat a síkon lévő táblázatból. Számítsa ki a maradék szórást! Ellenőrizze a lineáris regressziós modell megfelelőségét a determinációs együtthatóval.

4. példa Számítsa ki a regressziós egyenlet együtthatóit! Határozza meg a mandzsúriai kőris fa sűrűsége és szilárdsága közötti mintakorrelációs együtthatót!
A probléma megoldásához korrelációs mezőt kell felépíteni, a függőség típusát a mező típusával meghatározni, írni általános forma Y regressziós egyenlet X-en, határozza meg a regressziós egyenlet együtthatóit és számítsa ki a korrelációs együtthatókat a két megadott érték között.

5. példa Egy autókölcsönző céget érdekel az X autók futásteljesítménye és az Y havi karbantartási költsége közötti kapcsolat. A kapcsolat jellegének meghatározásához 15 autót választottak ki. Készítsen grafikont a kiindulási adatokról, és határozza meg az attól való függőség jellegét. Számítsa ki a mintavételi sebességet lineáris korreláció Pearson, ellenőrizze a jelentőségét 0,05-nél. Készítsen regressziós egyenletet, és adja meg az eredmények értelmezését.

korrelációs táblázat

6. példa Keressen egy minta közvetlen regressziós Y egyenletet X-en egy korrelációs táblázat alapján

7. példa A 2. táblázat az Y (r.u.) fogyasztás X (r.u.) jövedelemtől való függésének adatait mutatja egyes háztartások esetében.
1. Feltételezve, hogy X és Y között lineáris kapcsolat van, keresse meg a lineáris regressziós együtthatók pontbecsléseit.
2. Határozza meg a $s$ szórást és a $R^2$ determinációs együtthatót!
3. Feltételezve a regressziós modell véletlenszerű komponensének normalitását, tesztelje azt a hipotézist, hogy Y és X között nincs lineáris kapcsolat!
4. Mennyi egy háztartás várható fogyasztása $x_n=7$ arb jövedelemmel. egységek? megtalálja megbízhatósági intervallum az előrejelzéshez.
Adja meg a kapott eredmények értelmezését! A szignifikanciaszintet minden esetben 0,05-nek tekintjük.

8. példa 100 új típusú tarifa kiosztása az összes ismert cellás kommunikációhoz mobil rendszerek X (pénzegység) és az azokból származó bevétel Y (pénzegységek) a táblázatban látható:
Szükséges:
1) Számítsa ki a csoportátlagokat és készítsen empirikus regressziós egyeneseket;
2) Feltételezve, hogy az X és Y változók között lineáris korreláció van:
A) keresse meg a regressziós egyenesek egyenleteit, építse fel grafikonjait ugyanazon a rajzon empirikus regressziós egyenesekkel, és adja meg a kapott egyenletek közgazdasági értelmezését;
B) számítsa ki a korrelációs együtthatót, értékelje szignifikanciaszintjét 0,05-ös szignifikanciaszinten, és vonjon le következtetést az X és Y változók közötti kapcsolat szorosságára és irányára vonatkozóan;
C) a megfelelő regressziós egyenlet segítségével becsülje meg a mobilrendszerekből származó átlagos bevételt 20 új típusú tarifával.

Néha ez megtörténik: a feladat szinte aritmetikailag megoldható, és mindenféle Lebesgue-integrál és Bessel-függvény jut először eszünkbe. Tehát elkezdi a neurális hálózat betanítását, majd hozzáad még néhány rejtett réteget, kísérletez a neuronok számával, az aktiválási funkciókkal, majd emlékszik az SVM-re és a Random Forestre, és kezdje elölről. Ennek ellenére a szórakoztató statisztikai tanulási módszerek bősége ellenére a lineáris regresszió továbbra is az egyik legnépszerűbb eszköz. Ennek pedig megvannak az előfeltételei, nem utolsósorban az intuitívság a modell értelmezésében.

Néhány képlet

A legegyszerűbb esetben a lineáris modell a következőképpen ábrázolható:

Y i = a 0 + a 1 x i + ε i

ahol a 0 az y i függő változó várható értéke, ha az x i változó nulla; a 1 az y i függő változó várható változása, ha x i eggyel változik (ezt az együtthatót úgy választjuk meg, hogy a ½Σ(y i -ŷ i) 2 érték minimális legyen - ez az úgynevezett "eltérési függvény") ; ε i - véletlenszerű hiba.
Ebben az esetben az a 1 és a 0 együtthatók Pearson-féle korrelációs együtthatóval fejezhetők ki, szórásokés az x és y változók átlagértékei:

 1 = cor(y, x)σ y /σ x

 0 = ȳ - â 1 x̄

Diagnosztikai és modellhibák

Ahhoz, hogy a modell helyes legyen, teljesíteni kell a Gauss-Markov feltételeket, pl. a hibáknak homoszkedasztikusnak kell lenniük nulla átlaggal. Az e i = y i - ŷ i reziduumok diagramja segít meghatározni, hogy mennyire megfelelő a felépített modell (e i ε i becslésének tekinthető).
Nézzük meg a reziduumok grafikonját egyszerű lineáris y 1 ~ x függés esetén (a továbbiakban minden példa a nyelvben található R):

Rejtett szöveg

halmaz.mag(1) n<- 100 x <- runif(n) y1 <- x + rnorm(n, sd=.1) fit1 <- lm(y1 ~ x) par(mfrow=c(1, 2)) plot(x, y1, pch=21, col="black", bg="lightblue", cex=.9) abline(fit1) plot(x, resid(fit1), pch=21, col="black", bg="lightblue", cex=.9) abline(h=0)



A maradékok többé-kevésbé egyenletesen oszlanak el a vízszintes tengely körül, ami azt jelzi, hogy "a véletlenszerű tag értékei között nincs szisztematikus kapcsolat bármely két megfigyelésben". És most vizsgáljuk meg ugyanazt a grafikont, de egy lineáris modellre építettük, amely valójában nem lineáris:

Rejtett szöveg

y2<- log(x) + rnorm(n, sd=.1) fit2 <- lm(y2 ~ x) plot(x, y2, pch=21, col="black", bg="lightblue", cex=.9) abline(fit2) plot(x, resid(fit2), pch=21, col="black", bg="lightblue", cex=.9) abline(h=0)



Az y 2 ~ x grafikon alapján úgy tűnik, hogy lineáris kapcsolat feltételezhető, de a reziduumoknak van mintázata, ami azt jelenti, hogy itt nem fog működni a tiszta lineáris regresszió. És itt van, mit jelent a heteroszkedaszticitás:

Rejtett szöveg

y3<- x + rnorm(n, sd=.001*x) fit3 <- lm(y3 ~ x) plot(x, y3, pch=21, col="black", bg="lightblue", cex=.9) abline(fit3) plot(x, resid(fit3), pch=21, col="black", bg="lightblue", cex=.9) abline(h=0)



Az ilyen „felfújt” maradékokkal rendelkező lineáris modell nem megfelelő. Néha hasznos az is, hogy a maradékok kvantiliseit összevetjük azokkal a kvantisekkel, amelyek akkor várhatók, ha a maradékok normális eloszlásúak:

Rejtett szöveg

qqnorm(resid(fit1)) qqline(resid(fit1)) qqnorm(resid(fit2)) qqline(resid(ill2)



A második grafikonon jól látható, hogy a reziduumok normalitásának feltételezése elvethető (ami ismét a modell hibásságát jelzi). És vannak ilyen helyzetek:

Rejtett szöveg

x4<- c(9, x) y4 <- c(3, x + rnorm(n, sd=.1)) fit4 <- lm(y4 ~ x4) par(mfrow=c(1, 1)) plot(x4, y4, pch=21, col="black", bg="lightblue", cex=.9) abline(fit4)



Ez az úgynevezett "outlier", amely nagymértékben torzíthatja az eredményeket, és téves következtetésekhez vezethet. Az R-nek van egy eszköze ennek észlelésére - a szabványosított dfbetas és hat értékek segítségével:
> kerek(dfbetas(fit4), 3) (elmetszés) x4 1 15,987 -26,342 2 -0,131 0,062 3 -0,049 0,017 4 0,083 0,000 5 0,023 0,000 5 0,023 0,000 5 0,023 0,000 5 0,023 0,000 5 0,023 0,000 5 0,023 0,037 5 0,023 0,037 1,5 .50 .8 .5 .8
> round(hatvalues(fit4), 3) 1 2 3 4 5 6 7 8 9 10... 0,810 0,012 0,011 0,010 0,013 0,014 0,013 0,014 0,010 0,010...
Mint látható, az x4 vektor első tagja sokkal nagyobb befolyást gyakorol a regressziós modell paramétereire, mint a többi, így kiugró.

Modellválasztás többszörös regresszióban

Természetesen többszörös regresszió esetén felmerül a kérdés: minden változót figyelembe kell venni? Egyrészt úgy tűnik, hogy megéri, mert. bármely változó hasznos információt hordozhat. Emellett a változók számának növelésével növeljük az R 2 -t (mellesleg emiatt ez a mérték nem tekinthető megbízhatónak a modell minőségének megítélésében). Másrészt érdemes szem előtt tartani az olyan dolgokat, mint az AIC és a BIC, amelyek büntetést rónak ki a modell bonyolultságára. Az információs kritérium abszolút értékének önmagában nincs értelme, ezért ezeket az értékeket több modellnél össze kell hasonlítanunk: esetünkben eltérő számú változóval. Az információs kritérium minimális értékével rendelkező modell lesz a legjobb (bár van min vitatkozni).
Tekintsük a MASS-könyvtár UScrime adatkészletét:
könyvtár(MASS) adatok(UScrime) stepAIC(lm(y~., data=UScrime))
A legalacsonyabb AIC-értékkel rendelkező modell a következő paraméterekkel rendelkezik:
Hívás: lm(képlet = y ~ M + Ed + Po1 + M.F + U1 + U2 + Ineq + Prob, adat = US Crime) Együtthatók: (elfogó) M Ed Po1 M.F U1 U2 Ineq Prob -6426,101 9,332 18,012 10,235 -6235 -10,235 . 6.133-3796.032
Így az optimális modell, figyelembe véve az AIC-t, a következő lesz:
fit_aic<- lm(y ~ M + Ed + Po1 + M.F + U1 + U2 + Ineq + Prob, data=UScrime) summary(fit_aic)
... Együtthatók: Estimate Std. Hiba t érték pr (> | t |) (elfogás) -6426.101 1194.611 -5.379 4.04e -06 *** m 9.332 3,350 2,786 0,00828 ** ed 18.012 5.275 3,414 0,00153 ** PO1 10.265 6.618 2,552 M.F 2,234 1,360 1.642.642. 6,087 3,339 -1,823 0,07622 . U2 18,735 7,248 2,585 0,01371 * Ineq 6,133 1,396 4,394 8,63e-05 *** Prob -3796,032 1490,646 -2,547 0,01505 * Signif. kódok: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 ' 1
Ha alaposan megnézzük, kiderül, hogy az M.F és U1 változók meglehetősen magas p-értékkel rendelkeznek, ami mintegy sejteti számunkra, hogy ezek a változók nem olyan fontosak. De a p-érték meglehetősen kétértelmű mérőszám, amikor egy adott változó fontosságát értékeljük egy statisztikai modellben. Ezt a tényt egy példa illusztrálja:
adat<- read.table("http://www4.stat.ncsu.edu/~stefanski/NSF_Supported/Hidden_Images/orly_owl_files/orly_owl_Lin_9p_5_flat.txt") fit <- lm(V1~. -1, data=data) summary(fit)$coef
Estimate Std. Error t value Pr(>|t|) V2 1.1912939 0.1401286 8.501431 3.325404e-17 V3 0.9354776 0.1271192 7.359057 2.568432e-13 V4 0.9311644 0.1240912 7.503873 8.816818e-14 V5 1.1644978 0.1385375 8.405652 7.370156e-17 V6 1.0613459 0.1317248 8.057300 1.242584e-15 V7 1,0092041 0,1287784 7,836752 7,021785E-15 V8 0,9307010 0,1219609 7,631143 3,391212E-14 V9 0
minden változó p-értéke gyakorlatilag nulla, és feltételezhető, hogy minden változó fontos ehhez a lineáris modellhez. De valójában, ha alaposan megnézi a maradványokat, valami ilyesmi derül ki:

Rejtett szöveg

plot(predict(fit), resid(fit), pch=".")



És mégis, egy alternatív megközelítés a varianciaanalízisen alapul, amelyben a p-értékek kulcsszerepet játszanak. Hasonlítsuk össze az M.F változó nélküli modellt a csak AIC figyelembevételével épített modellel:
fit_aic0<- update(fit_aic, ~ . - M.F) anova(fit_aic0, fit_aic)
Az 1. modell varianciatáblázatának elemzése: y ~ M + Ed + Po1 + U1 + U2 + Ineq + Prob 2. modell: y ~ M + Ed + Po1 + M.F + U1 + U2 + Ineq + Prob Res.Df RSS Df Sq összege F Pr(>F) 1 39 1556227 2 38 1453068 1 103159 2,6978 0,1087
A 0,1087-es P-értéket figyelembe véve, α=0,05 szignifikanciaszint mellett megállapíthatjuk, hogy nincs statisztikailag szignifikáns bizonyíték az alternatív hipotézis mellett, azaz. a modell javára egy további változóval M.F.

A regressziós egyenes a jelenségek közötti kapcsolat grafikus tükrözése. Egyszerűen készíthet regressziós egyenest az Excelben.

Ehhez szüksége van:

1. Nyissa meg az Excel programot

2. Hozzon létre oszlopokat adatokkal. Példánkban regressziós egyenest, vagyis kapcsolatot építünk fel az agresszivitás és az önbizalomhiány között az első osztályosok körében. A kísérletben 30 gyermek vett részt, az adatokat az Excel táblázat tartalmazza:

1 oszlop - a tárgy száma

2 oszlop - agresszivitás pontokban

3 oszlop - az önbecsülés hiánya pontokban

3. Ezután ki kell jelölnie mindkét oszlopot (az oszlop neve nélkül), nyomja meg a tabulátort betét , választ pont , és a javasolt elrendezések közül válassza ki a legelsőt pont jelölőkkel .

4. Így kaptunk egy üres regressziós egyenest - az ún. szórásdiagram. A regressziós egyenesre lépéshez kattintson a kapott ábrára, kattintson a fülre konstruktőr, megtalálja a panelen diagram elrendezések és válassz M a ket9 , azt is mondja f(x)

5. Tehát van egy regressziós egyenesünk. A grafikonon az egyenlet és a korrelációs együttható négyzete is látható

6. Marad a gráf nevének, a tengelyek nevének hozzáadása. Ezenkívül, ha szükséges, eltávolíthatja a jelmagyarázatot, csökkentheti a vízszintes rácsvonalak számát (tab elrendezés , akkor rács ). A fő módosítások és beállítások a lapon találhatók Elrendezés

A regressziós egyenes MS Excelben épül fel. Most már hozzá lehet adni a mű szövegéhez.

x - prediktornak nevezzük - független vagy magyarázó változó.

Adott x mennyiség esetén Y az y változó értéke (úgynevezett függő, kimeneti vagy válaszváltozó), amely a becslési sorban található. Ez az az érték, amelyet y-ra várunk (átlagosan), ha ismerjük x értékét, és ezt nevezzük "y előrejelzett értékének" (5. ábra).

a - az értékelési vonal szabad tagja (átlépése); az Y értéke, ha x = 0.

b a becsült vonal meredeksége vagy gradiense; azt jelenti, hogy Y átlagosan mennyivel növekszik, ha x-et egy egységgel növeljük (5. ábra). A b együtthatót regressziós együtthatónak nevezzük.

Például: ha az emberi testhőmérséklet 1 ° C-kal emelkedik, a pulzusszám átlagosan 10 ütéssel percenként növekszik.

5. ábra: Az együtthatót mutató lineáris regressziós egyenes aés lejtőn b(értékének növelése Y növekedésével x egységenként)

Matematikailag a lineáris regressziós egyenlet megoldása az a és b paraméterek kiszámítására redukálódik oly módon, hogy a korrelációs mező kezdeti adatainak pontjai a lehető legközelebb a közvetlen regresszióhoz .

A "regresszió" szó statisztikai használata egy olyan jelenségből származik, amelyet Francis Galtonnak (1889) tulajdonított, az átlaghoz való regressziónak neveznek. Kimutatta, hogy míg a magas apáknak általában magas fiai vannak, a fiak átlagos magassága kisebb, mint a magas apáké. A fiúgyermekek átlagos magassága „visszafejlődött” vagy „megfordult” a populáció összes apjának átlagmagassága felé. Így átlagosan a magas apáknak alacsonyabbak (de még mindig magasak), az alacsony apáknak pedig magasabbak (de még mindig meglehetősen alacsonyak).

Átlagos regressziót látunk a szűrésben és a klinikai vizsgálatokban, ahol a betegek egy alcsoportját lehet kiválasztani a kezelésre, mert egy bizonyos változó, például a koleszterin szintje rendkívül magas (vagy alacsony). Ha ezt a mérést idővel megismételjük, a második leolvasás alcsoport-átlaga általában kisebb, mint az első érték, és a populáció életkorának és nemének megfelelő átlaga felé hajlik (azaz visszafejlődik), függetlenül attól, hogy milyen kezelésben részesülnek. . A magas koleszterinszinten alapuló klinikai vizsgálatba bevont betegeknél így valószínűleg a második látogatás alkalmával átlagosan csökken a koleszterinszint, még akkor is, ha ezalatt az időszak alatt nem kezelték őket.

Gyakran a regresszióanalízis módszerét alkalmazzák a fizikai fejlődés normatív skáláinak és standardjainak kidolgozására.


Az, hogy a regressziós egyenes mennyire illeszkedik az adatokhoz, az R együttható (általában százalékban kifejezve, determinációs együtthatónak) kiszámításával ítélhető meg, amely egyenlő a korrelációs együttható négyzetével (r 2). Az y szórásának az x-szel való kapcsolatával magyarázható hányadát vagy százalékát jelenti, azaz. a tulajdonság-eredmény variációjának aránya, amely egy független tulajdonság hatására alakult ki. 0 és 1, illetve 0 és 100% közötti értékeket vehet fel. A különbség (100% - R) az y-ban lévő variancia százalékos aránya, amely nem magyarázható ezzel a kölcsönhatással.

Példa

A magasság (cm-ben mérve) és a szisztolés vérnyomás (SBP, Hgmm-ben mérve) közötti összefüggés gyermekeknél. Elvégeztük páronkénti lineáris regressziós analízist az SBP-nek a magasság függvényében (6. ábra). Szignifikáns lineáris kapcsolat van a magasság és az SBP között.

6. ábra Kétdimenziós grafikon, amely a szisztolés vérnyomás és a testmagasság kapcsolatát mutatja. A képen a becsült regressziós egyenes, a szisztolés vérnyomás látható.

A becsült regressziós egyenes egyenlet a következő:

KERTÉS \u003d 46,28 + 0,48 x magasság.

Ebben a példában a metszéspont nem érdekes (a nulla növekedés egyértelműen kívül esik a tanulmányban megfigyelt tartományon). A lejtőt azonban értelmezhetjük; Az előrejelzések szerint ezeknél a gyermekeknél az SBP átlagosan 0,48 Hgmm-rel nő. egy centiméteres magasságnövekedéssel

Alkalmazhatunk regressziós egyenletet, hogy megjósoljuk azt az SBP-t, amelyet egy adott magasságú gyermeknél várnánk. Például egy 115 cm magas gyermek becsült SBP-je 46,28 + (0,48 x 115) = 101,48 Hgmm. Art. szerint egy 130 éves gyermek előrejelzett vérnyomása 46,28 + (0,48 x 130) = 108,68 Hgmm. Művészet.

A korrelációs együttható kiszámításakor azt találtuk, hogy ez egyenlő 0,55-tel, ami az átlagos erősség közvetlen korrelációját jelzi. Ebben az esetben a determinációs együttható r 2 = 0,55 2 = 0,3. Így elmondhatjuk, hogy a növekedésnek a gyermekek vérnyomásának szintjére gyakorolt ​​​​hatásának aránya nem haladja meg a 30% -ot, a hatás 70% -a más tényezők arányára esik.

A lineáris (egyszerű) regresszió a függő változó és egyetlen független változó közötti kapcsolat figyelembevételére korlátozódik. Ha egynél több független változó van a kapcsolatban, akkor többszörös regresszióra kell térnünk. Az ilyen regresszió egyenlete így néz ki:

y = a + bx 1 + b 2 x 2 +.... + b n x n

Érdekelheti, hogy több független változó x 1, x 2, .., x n milyen hatással van az y válaszváltozóra. Ha úgy gondoljuk, hogy ezek az x-ek kölcsönösen függőek lehetnek, akkor nem szabad külön vizsgálnunk az egyik x értékének y-vel történő megváltoztatásának hatását, hanem egyidejűleg figyelembe kell venni az összes többi x értékét is.

Példa

Mivel szoros összefüggés van a gyermek magassága és testsúlya között, felmerülhet a kérdés, hogy a magasság és a szisztolés vérnyomás közötti összefüggés is megváltozik-e, ha a gyermek testsúlyát és nemét is figyelembe vesszük. A többszörös lineáris regresszió e több független változó együttes hatását vizsgálja y-ra.

A többszörös regressziós egyenlet ebben az esetben így néz ki:

KERT \u003d 79,44 - (0,03 x magasság) + (1,18 x súly) + (4,23 x nem) *

* - (nemhez, értékek 0 - fiú, 1 - lány)

Ennek az egyenletnek megfelelően egy 115 cm magas és 37 kg súlyú lány előrejelzett SBP-je:

KERT = 79,44 - (0,03 x 115) + (1,18 x 37) + (4,23 x 1) \u003d 123,88 Hgmm.

A logisztikus regresszió nagyon hasonlít a lineáris regresszióhoz; akkor használatos, ha van egy érdeklődésre számot tartó bináris kimenetel (azaz egy tünet jelenléte/hiánya vagy olyan alany, akinek betegsége van/nincs) és előrejelzők halmaza. A logisztikus regressziós egyenletből meg lehet határozni, hogy mely prediktorok befolyásolják az eredményt, és a páciens prediktorainak értékei alapján megbecsülhető annak valószínűsége, hogy egy adott kimenetelhez jut. Például: komplikációk merülnek fel vagy sem, a kezelés hatásos lesz vagy sem.

Kezdjen el létrehozni egy bináris változót, amely a két eredményt reprezentálja (pl. „betegsége van” = 1, „nincs betegsége” = 0). Ezt a két értéket azonban nem alkalmazhatjuk függő változóként a lineáris regressziós analízisben, mert a normalitási feltételezés sérül, és nem tudunk értelmezni olyan előre jelzett értékeket, amelyek nem nullák vagy egyek.

Valójában ehelyett annak a valószínűségét vesszük, hogy az alany a függő változó legközelebbi kategóriájába kerül (azaz "beteg"), és a matematikai nehézségek leküzdésére logisztikus transzformációt alkalmazunk a regressziós egyenletben - a természetes logaritmusban. a "betegség" valószínűségének (p) és a "nem betegség" valószínűségének (1-p) arányának.

A maximum likelihood módszernek nevezett integratív folyamat a szokásos regresszió helyett (mivel a lineáris regressziós eljárást nem tudjuk alkalmazni) a logisztikus regressziós egyenlet becslését hozza létre a mintaadatokból

logit(p) = a + bx 1 + b 2 x 2 +... + b n x n

logit (p) annak a valós valószínűségének becslése, hogy egy x 1 ... x n egyedi értékkészlettel rendelkező betegnek betegsége van;

a - a konstans értékelése (szabad tag, metszet);

b 1 , b 2 ,... ,b n — logisztikus regressziós együtthatók becslései.

1. Kérdések az óra témájához:

1. Adja meg a funkcionális és a korreláció definícióját!

2. Mondjon példákat közvetlen és fordított összefüggésekre!

3. Adja meg a jellemzők közötti gyenge, közepes és erős kapcsolatok korrelációs együtthatóinak méretét!

4. Milyen esetekben alkalmazzák a korrelációs együttható kiszámításához a rang módszert?

5. Milyen esetekben alkalmazzuk a Pearson-korrelációs együttható számítását?

6. Melyek a korrelációs együttható rangmódszerrel történő kiszámításának fő lépései?

7. Definiálja a „regresszió” fogalmát. Mi a regressziós módszer lényege?

8. Írja le egy egyszerű lineáris regressziós egyenlet képletét!

9. Határozza meg a regressziós együtthatót.

10. Milyen következtetést vonhatunk le, ha a testmagasság regressziós együtthatója 0,26 kg/cm?

11. Mire használható a regressziós egyenlet?

12. Mi a determinációs együttható?

13. Milyen esetekben használják a többszörös regressziós egyenletet?

14. Mire használják a logisztikus regresszió módszerét?

Az Orosz Föderáció Oktatási és Tudományos Minisztériuma

Szövetségi Oktatási Ügynökség

Állami szakmai felsőoktatási intézmény

Összoroszországi Pénzügyi és Gazdasági Levelező Intézet

Fióktelepe Tulában

Teszt

az "Ökonometria" tudományágban

Tula – 2010

2. feladat (a, b)

A könnyűipari vállalkozások esetében olyan információkat kaptunk, amelyek jellemzik a kibocsátás mennyiségének (Y, millió rubel) függését a tőkebefektetések mennyiségétől (X, millió rubel) táblázat. egy.

x 33 17 23 17 36 25 39 20 13 12
Y 43 27 32 29 45 35 47 32 22 24

Kívánt:

1. Határozza meg a lineáris regressziós egyenlet paramétereit, adja meg a regressziós együttható közgazdasági értelmezését!

2. Számítsa ki a maradékokat; keresse meg a maradék négyzetösszeget; becsüljük meg a maradékok szórását

; ábrázolja a maradékokat.

3. Ellenőrizze az LSM előfeltételek teljesülését.

4. Ellenőrizze a regressziós egyenlet paramétereinek szignifikanciáját Student-féle t-próbával (α=0,05).

5. Számítsa ki a determinációs együtthatót, ellenőrizze a regressziós egyenlet szignifikanciáját Fisher F-próbával (α=0,05), keresse meg az átlagos relatív közelítési hibát! Adjon ítéletet a modell minőségéről.

6. Határozza meg az Y mutató átlagos értékét α=0,1 szignifikanciaszint mellett, ha az X faktor előrejelzett értéke a maximális érték 80%-a.

7. Grafikus bemutatása: tényleges és modell Y értékek, előrejelzési pontok.

8. Állítson össze nemlineáris regressziós egyenleteket:

hiperbolikus;

erő;

jelzésértékű.

Adja meg a megszerkesztett regressziós egyenletek grafikonját!

9. Ezekhez a modellekhez keresse meg a determinációs együtthatókat és az átlagos relatív közelítési hibákat! Hasonlítsa össze a modelleket ezen jellemzők alapján, és vonjon le következtetést.

1. A lineáris modell alakja:

A lineáris regressziós egyenlet paraméterei a képletek segítségével kereshetők meg

A paraméterértékek kiszámítását a táblázat mutatja be. 2.

t y x yx
1 43 33 1419 1089 42,236 0,764 0,584 90,25 88,36 0,018
2 27 17 459 289 27,692 -0,692 0,479 42,25 43,56 0,026
3 32 23 736 529 33,146 -1,146 1,313 0,25 2,56 0,036
4 29 17 493 289 27,692 1,308 1,711 42,25 21,16 0,045
5 45 36 1620 1296 44,963 0,037 0,001 156,25 129,96 0,001
6 35 25 875 625 34,964 0,036 0,001 2,25 1,96 0,001
7 47 39 1833 1521 47,69 -0,69 0,476 240,25 179,56 0,015
8 32 20 640 400 30,419 1,581 2,500 12,25 2,56 0,049
9 22 13 286 169 24,056 -2,056 4,227 110,25 134,56 0,093
10 24 12 288 144 23,147 0,853 0,728 132,25 92,16 0,036
336 235 8649 6351 12,020 828,5 696,4 0,32
Átl. 33,6 23,5 864,9 635,1

Határozzuk meg a lineáris modell paramétereit

A lineáris modellnek van formája

Regressziós együttható

azt mutatja, hogy Y kibocsátása átlagosan 0,909 millió rubelrel nő. az X tőkebefektetések volumenének 1 millió rubel növekedésével.

2. Számítsa ki a maradékokat!

, maradék négyzetösszeg , a maradék szórást a következő képlet segítségével találjuk meg:

A számításokat a táblázat tartalmazza. 2.


Rizs. 1. ε maradékok grafikonja.

3. Ellenőrizzük az LSM előfeltételek teljesülését a Durbin-Watson kritérium alapján!

0,584
2,120 0,479
0,206 1,313
6,022 1,711
1,615 0,001
0,000 0,001
0,527 0,476
5,157 2,500
13,228 4,227
2,462 0,728
31,337 12,020

d1=0,88; d2=1,32, ha α=0,05, n=10, k=1.

,

Ez azt jelenti, hogy számos maradék nem korrelál.

4. Ellenőrizzük az egyenlet paramétereinek szignifikanciáját Student-féle t-próba alapján! (a=0,05).

v=8 esetén; α=0,05.

Értékszámítás

táblázatban készült. 2. A következőket kapjuk:
, akkor azt a következtetést vonhatjuk le, hogy az a és b regressziós együtthatók 0,95 valószínűséggel szignifikánsak.

5. Keresse meg a korrelációs együtthatót a képlet segítségével!

A számításokat a táblázat tartalmazza. 2.

. Hogy. az X beruházás volumene és az Y kibocsátás közötti kapcsolat szorosnak tekinthető, mert .

A determinációs együtthatót a képlet határozza meg

Tetszett a cikk? Oszd meg