Kontakty

Regresná rovnica. Viacnásobná regresná rovnica

Párová lineárna regresia je vzťah medzi jednou premennou a priemerom inej premennej. Najčastejšie sa model zapisuje ako $y=ax+b+e$, kde $x$ je faktorová premenná, $y$ je výslednica (závislá), $e$ je náhodná zložka (zvyšok, odchýlka).

AT učebné úlohy v matematickej štatistike sa bežne používa nasledovné algoritmu nájsť regresnú rovnicu.

  1. Výber modelu (rovnice). Často je model vopred určený (nájdi lineárna regresia) alebo sa na výber použije grafická metóda: zostaví sa bodový graf a analyzuje sa jeho tvar.
  2. Výpočet koeficientov (parametrov) regresnej rovnice. Často sa to robí metódou najmenších štvorcov.
  3. Kontrola významnosti korelačného koeficientu a parametrov modelu (možno pre ne zostaviť aj intervaly spoľahlivosti), posúdenie kvality modelu pomocou Fisherovho kritéria.
  4. Reziduálna analýza, regresný výpočet štandardnej chyby, predikcia modelu (voliteľné).

Nižšie nájdete riešenia pre párovú regresiu (na dátových radoch alebo korelačnej tabuľke, s rôznymi doplnkovými úlohami) a niekoľko úloh na určenie a skúmanie korelačného koeficientu.


Páčilo sa? Záložka

Príklady riešení online: Lineárna regresia

Jednoduchý výber

Príklad 1 Existujú údaje o priemernom výkone na pracovníka Y (tisíc rubľov) a obrate X (tisíc rubľov) v 20 obchodoch za štvrťrok. Na základe uvedených údajov sa vyžaduje:
1) určiť závislosť (korelačný koeficient) priemerného výkonu na pracovníka od obratu,
2) zostaviť rovnicu priamej regresie tejto závislosti.

Príklad 2 Aby bolo možné analyzovať vzájomný vplyv miezd a fluktuácie v piatich firmách rovnakého typu s rovnakým počtom zamestnancov, vykonali sa merania výšky mesačnej mzdy X a počtu pracovníkov, ktorí v roku Y odišli:
X 100 150 200 250 300
Y 60 35 20 20 15
Nájdite lineárnu regresiu Y na X, výberový korelačný koeficient.

Príklad 3 Nájsť selektívne číselné charakteristiky a vzorová rovnica lineárnej regresie $y_x=ax+b$. Zostavte regresnú priamku a nakreslite body $(x,y)$ z tabuľky v rovine. Vypočítajte zvyškový rozptyl. Primeranosť modelu lineárnej regresie skontrolujte koeficientom determinácie.

Príklad 4 Vypočítajte koeficienty regresnej rovnice. Určte korelačný koeficient vzorky medzi hustotou dreva jaseňa mandžuského a jeho pevnosťou.
Pri riešení problému je potrebné vybudovať korelačné pole, určiť typ závislosti podľa typu poľa, napísať všeobecná forma regresnej rovnice Y na X, určte koeficienty regresnej rovnice a vypočítajte korelačné koeficienty medzi dvoma danými hodnotami.

Príklad 5 Autopožičovňu zaujíma vzťah medzi počtom najazdených kilometrov áut X a nákladmi na mesačnú údržbu Y. Na určenie povahy tohto vzťahu bolo vybraných 15 áut. Zostavte graf počiatočných údajov a určte povahu závislosti na ňom. Vypočítajte vzorkovaciu frekvenciu lineárna korelácia Pearson, skontrolujte jeho význam na 0,05. Zostavte regresnú rovnicu a interpretujte výsledky.

korelačnej tabuľky

Príklad 6 Nájdite vzorovú rovnicu priamej regresie Y na X s korelačnou tabuľkou

Príklad 7 V tabuľke 2 sú uvedené údaje o závislosti spotreby Y (r.u.) od príjmu X (r.u.) pre niektoré domácnosti.
1. Za predpokladu, že medzi X a Y existuje lineárny vzťah, nájdite bodové odhady pre koeficienty lineárnej regresie.
2. Nájdite smerodajnú odchýlku $s$ a koeficient determinácie $R^2$.
3. Za predpokladu normality náhodnej zložky regresného modelu otestujte hypotézu, že medzi Y a X neexistuje lineárny vzťah.
4. Aká je očakávaná spotreba domácnosti s príjmom $x_n=7$ arb. Jednotky? Nájsť interval spoľahlivosti pre predpoveď.
Poskytnite interpretáciu získaných výsledkov. Hladina významnosti sa vo všetkých prípadoch považuje za rovnú 0,05.

Príklad 8 Distribúcia 100 nových typov taríf pre mobilnú komunikáciu všetkých známych mobilné systémy X (peňažné jednotky) a výnosy z nich Y (peňažné jednotky) sú uvedené v tabuľke:
Potrebné:
1) Vypočítajte priemery skupiny a vytvorte empirické regresné čiary;
2) Za predpokladu, že medzi premennými X a Y existuje lineárna korelácia:
A) nájsť rovnice regresných čiar, zostaviť ich grafy na rovnakom výkrese s empirickými regresnými čiarami a poskytnúť ekonomickú interpretáciu získaných rovníc;
B) vypočítať korelačný koeficient, zhodnotiť jeho významnosť na hladine významnosti 0,05 a vyvodiť záver o blízkosti a smerovaní vzťahu medzi premennými X a Y;
C) pomocou vhodnej regresnej rovnice odhadnite priemerný príjem z mobilných systémov s 20 novými typmi taríf.

Niekedy sa to stane: problém sa dá vyriešiť takmer aritmeticky a ako prvé prichádzajú na myseľ najrôznejšie Lebesgueove integrály a Besselove funkcie. Takže začnete trénovať neurónovú sieť, potom pridáte pár ďalších skrytých vrstiev, experimentujete s počtom neurónov, aktivačnými funkciami, potom si spomeniete na SVM a Random Forest a začnete odznova. Napriek množstvu zábavných štatistických metód učenia zostáva lineárna regresia jedným z najpopulárnejších nástrojov. A sú na to predpoklady, medzi ktoré patrí aj intuitívnosť pri interpretácii modelu.

Niektoré vzorce

V najjednoduchšom prípade môže byť lineárny model reprezentovaný takto:

Yi = a0 + a 1 x i + ε i

Kde a 0 je očakávanie závislej premennej y i, keď sa premenná x i rovná nule; a 1 je očakávaná zmena závislej premennej y i pri zmene x i o jedna (tento koeficient je zvolený tak, aby hodnota ½Σ(y i -ŷ i) 2 bola minimálna - ide o tzv. "funkciu diskrepancie") ; ε i - náhodná chyba.
V tomto prípade môžu byť koeficienty a 1 a a 0 vyjadrené ako Pearsonov korelačný koeficient, štandardné odchýlky a stredné hodnoty premenných x a y:

 1 = kor(y, x)σ y /σ x

 0 = ȳ - â 1 x̄

Chyby diagnostiky a modelu

Aby bol model správny, je potrebné splniť Gauss-Markovove podmienky, t.j. chyby musia byť homoskedastické s nulovým priemerom. Graf rezíduí e i = y i - ŷ i pomáha určiť, nakoľko adekvátny je skonštruovaný model (e i možno považovať za odhad ε i).
Pozrime sa na graf rezíduí v prípade jednoduchej lineárnej závislosti y 1 ~ x (ďalej sú všetky príklady uvedené v jazyku R):

Skrytý text

set.semeno(1) n<- 100 x <- runif(n) y1 <- x + rnorm(n, sd=.1) fit1 <- lm(y1 ~ x) par(mfrow=c(1, 2)) plot(x, y1, pch=21, col="black", bg="lightblue", cex=.9) abline(fit1) plot(x, resid(fit1), pch=21, col="black", bg="lightblue", cex=.9) abline(h=0)



Zvyšky sú viac-menej rovnomerne rozložené okolo horizontálnej osi, čo naznačuje „neexistenciu systematického vzťahu medzi hodnotami náhodného výrazu v akýchkoľvek dvoch pozorovaniach“. A teraz preskúmame rovnaký graf, ale vytvorený pre lineárny model, ktorý v skutočnosti nie je lineárny:

Skrytý text

y2<- log(x) + rnorm(n, sd=.1) fit2 <- lm(y2 ~ x) plot(x, y2, pch=21, col="black", bg="lightblue", cex=.9) abline(fit2) plot(x, resid(fit2), pch=21, col="black", bg="lightblue", cex=.9) abline(h=0)



Podľa grafu y 2 ~ x sa zdá, že možno predpokladať lineárny vzťah, ale rezíduá majú vzor, ​​čo znamená, že čistá lineárna regresia tu nebude fungovať. A tu je to, čo vlastne heteroskedasticita znamená:

Skrytý text

y3<- x + rnorm(n, sd=.001*x) fit3 <- lm(y3 ~ x) plot(x, y3, pch=21, col="black", bg="lightblue", cex=.9) abline(fit3) plot(x, resid(fit3), pch=21, col="black", bg="lightblue", cex=.9) abline(h=0)



Lineárny model s takýmito „nafúknutými“ zvyškami nie je správny. Niekedy je tiež užitočné vykresliť kvantily rezíduí oproti kvantilom, ktoré by sa dali očakávať, ak sú rezíduá normálne rozdelené:

Skrytý text

qqnorm(resid(fit1)) qqline(resid(fit1)) qqnorm(resid(fit2)) qqline(resid(fit2))



Druhý graf jasne ukazuje, že predpoklad normality rezíduí možno zamietnuť (čo opäť poukazuje na nesprávnosť modelu). A sú aj takéto situácie:

Skrytý text

x4<- c(9, x) y4 <- c(3, x + rnorm(n, sd=.1)) fit4 <- lm(y4 ~ x4) par(mfrow=c(1, 1)) plot(x4, y4, pch=21, col="black", bg="lightblue", cex=.9) abline(fit4)



Ide o takzvanú „odľahlú hodnotu“, ktorá môže značne skresliť výsledky a viesť k chybným záverom. R má prostriedky na to, aby to zistil - pomocou štandardizovaných hodnôt dfbetas a hat:
> okrúhle (dfbetas(fit4), 3) (Intercept) x4 1 15,987 -26,342 2 -0,131 0,062 3 -0,049 0,017 4 0,083 0,000 5 0,023 0,037 05 6 -0,8 0.5.....
> round(hatvalues(fit4), 3) 1 2 3 4 5 6 7 8 9 10... 0,810 0,012 0,011 0,010 0,013 0,014 0,013 0,014 0,010 0,010...
Ako je možné vidieť, prvý člen x4 vektora má oveľa väčší vplyv na parametre regresného modelu ako zvyšok, takže je odľahlý.

Výber modelu vo viacnásobnej regresii

Pri viacnásobnej regresii prirodzene vyvstáva otázka: mali by sa brať do úvahy všetky premenné? Na jednej strane by sa zdalo, že to stojí za to, lebo. akákoľvek premenná potenciálne nesie užitočné informácie. Navyše zvýšením počtu premenných zvyšujeme R 2 (mimochodom, z tohto dôvodu nemožno toto opatrenie považovať za spoľahlivé pri hodnotení kvality modelu). Na druhej strane stojí za to mať na pamäti veci ako AIC a BIC, ktoré ukladajú pokuty za zložitosť modelu. Absolútna hodnota informačného kritéria sama o sebe nedáva zmysel, preto musíme tieto hodnoty porovnať pre niekoľko modelov: v našom prípade s rôznym počtom premenných. Model s minimálnou hodnotou informačného kritéria bude najlepší (aj keď je o čom polemizovať).
Zvážte súbor údajov o zločine USA z knižnice MASS:
knižnica(MASS) údaje (zločin v USA) stepAIC(lm(y~., údaje=zločin v USA))
Model s najnižšou hodnotou AIC má nasledujúce parametre:
Výzva: lm(vzorec = y ~ M + Ed + Po1 + M.F + U1 + U2 + Ineq + Prob, dáta = UScrime) Koeficienty: (Zachytenie) M Ed Po1 M.F U1 U2 Ineq Prob -6426,101 9,332 18,012 10,27365 - 6.133-3796.032
Optimálny model, berúc do úvahy AIC, bude teda takýto:
fit_aic<- lm(y ~ M + Ed + Po1 + M.F + U1 + U2 + Ineq + Prob, data=UScrime) summary(fit_aic)
... Koeficienty: Odhad Std. Chyba T hodnota pr (> | t |) (intercept) -6426.101 1194.611 -5,379 4,04E -06 *** M 9.332 3,350 2,786 0,00828 ** ED 18.012 5,275 3,414 0,00153 ** - 6,087 3,339 -1,823 0,07622. U2 18,735 7,248 2,585 0,01371 * Ineq 6,133 1,396 4,394 8,63e-05 *** Prob -3796,032 1490,646 -2,547 * 0,01505 kódy: 0 ‘***’ 0,001 ‘**’ 0,01 ‘*’ 0,05 ‘.’ 0,1 ‘ ’ 1
Ak sa pozriete pozorne, ukáže sa, že premenné M.F a U1 majú pomerne vysokú p-hodnotu, čo nám naznačuje, že tieto premenné nie sú také dôležité. Ale p-hodnota je dosť nejednoznačná miera pri hodnotení dôležitosti konkrétnej premennej pre štatistický model. Túto skutočnosť ilustruje príklad:
údajov<- read.table("http://www4.stat.ncsu.edu/~stefanski/NSF_Supported/Hidden_Images/orly_owl_files/orly_owl_Lin_9p_5_flat.txt") fit <- lm(V1~. -1, data=data) summary(fit)$coef
Odhad Std. Error t value Pr(>|t|) V2 1.1912939 0.1401286 8.501431 3.325404e-17 V3 0.9354776 0.1271192 7.359057 2.568432e-13 V4 0.9311644 0.1240912 7.503873 8.816818e-14 V5 1.1644978 0.1385375 8.405652 7.370156e-17 V6 1.0613459 0.1317248 8.057300 1.242584e-15 V7 1,0092041 0,1287784 7,836752 7,021785E-15 V8 0,9307010 0,1219609 7,631143 3,391212E-14 V9 0
p-hodnoty pre každú premennú sú prakticky nulové a možno predpokladať, že všetky premenné sú pre tento lineárny model dôležité. Ale v skutočnosti, ak sa pozriete pozorne na zvyšky, ukáže sa niečo takéto:

Skrytý text

plot(predpovedať(prispôsobiť), zdržiavať(prispôsobiť), pch=".")



A predsa je alternatívny prístup založený na analýze rozptylu, v ktorej p-hodnoty hrajú kľúčovú úlohu. Porovnajme model bez premennej M.F s modelom zostaveným s prihliadnutím iba na AIC:
fit_aic0<- update(fit_aic, ~ . - M.F) anova(fit_aic0, fit_aic)
Analýza tabuľky rozptylu Model 1: y ~ M + Ed + Po1 + U1 + U2 + Ineq + Prob Model 2: y ~ M + Ed + Po1 + M.F + U1 + U2 + Ineq + Prob Res.Df RSS Df Súčet Sq F Pr(>F) 1 39 1556227 2 38 1453068 1 103159 2,6978 0,1087
Vzhľadom na P-hodnotu 0,1087 na hladine významnosti α=0,05 môžeme konštatovať, že neexistuje žiadny štatisticky významný dôkaz v prospech alternatívnej hypotézy, t.j. v prospech modelu s dodatočnou premennou M.F.

Regresná čiara je grafickým odrazom vzťahu medzi javmi. V Exceli môžete ľahko vytvoriť regresnú čiaru.

Na to potrebujete:

1. Otvorte program Excel

2. Vytvorte stĺpce s údajmi. V našom príklade vybudujeme regresnú líniu alebo vzťah medzi agresivitou a pochybnosťami o sebe u prvákov. Experimentu sa zúčastnilo 30 detí, údaje sú uvedené v tabuľke programu Excel:

1 stĺpec - číslo predmetu

2 stĺpec - agresivita v bodoch

3 stĺpec - nedostatok sebaúcty v bodoch

3. Potom je potrebné vybrať oba stĺpce (bez názvu stĺpca), stlačiť tabulátor vložiť , vyberte si bod a z navrhovaných rozložení vyberte úplne prvé bodka s fixkami .

4. Tak sme dostali blank pre regresnú priamku - tzv. bodový diagram. Ak chcete prejsť na regresnú čiaru, musíte kliknúť na výsledný obrázok a kliknúť na kartu konštruktér, nájsť na paneli rozloženia grafov a vyberte si M a ket9 , hovorí tiež f(x)

5. Máme teda regresnú priamku. V grafe je znázornená aj jeho rovnica a druhá mocnina korelačného koeficientu

6. Zostáva doplniť názov grafu, názov osí. Ak chcete, môžete tiež odstrániť legendu, znížiť počet vodorovných čiar mriežky (karta rozloženie , potom mriežka ). Hlavné zmeny a nastavenia sa vykonávajú na karte Rozloženie

Regresná čiara je vytvorená v MS Excel. Teraz ho možno doplniť do textu práce.

x - sa nazýva prediktor - nezávislá alebo vysvetľujúca premenná.

Pre danú veličinu x je Y hodnotou premennej y (nazývanej závislou, výstupnou alebo odozvovou premennou), ktorá leží na čiare odhadu. Toto je hodnota, ktorú očakávame pre y (v priemere), ak poznáme hodnotu x, a nazýva sa to „predpovedaná hodnota y“ (obrázok 5).

a - voľný člen (prekročenie) hodnotiacej línie; je hodnota Y, keď x = 0.

b je sklon alebo sklon odhadovanej čiary; predstavuje hodnotu, o ktorú sa Y v priemere zvýši, ak zväčšíme x o jednu jednotku (obrázok 5). Koeficient b sa nazýva regresný koeficient.

Napríklad: so zvýšením teploty ľudského tela o 1 ° C sa pulzová frekvencia zvýši v priemere o 10 úderov za minútu.

Obrázok 5. Lineárna regresná čiara zobrazujúca koeficient a a sklon b(zvýšiť hodnotu Y s rastúcim X za jednotku)

Matematicky sa riešenie lineárnej regresnej rovnice redukuje na výpočet parametrov a a b takým spôsobom, že body počiatočných údajov korelačného poľa čo najbližšie k priamej regresii .

Štatistické použitie slova „regresia“ pochádza z javu známeho ako regresia k priemeru, ktorý sa pripisuje Francisovi Galtonovi (1889). Ukázal, že zatiaľ čo vysokí otcovia majú tendenciu mať vysokých synov, priemerná výška synov je menšia ako u ich vysokých otcov. Priemerná výška synov „regresovala“ alebo „obrátila“ smerom k priemernej výške všetkých otcov v populácii. Vysokí otcovia majú teda v priemere nižších (ale stále vysokých) synov a nízki otcovia vyšších (ale stále skôr nízkych) synov.

Vidíme priemernú regresiu v skríningových a klinických štúdiách, kde môže byť vybraná podskupina pacientov na liečbu, pretože ich hladiny konkrétnej premennej, povedzme cholesterolu, sú extrémne vysoké (alebo nízke). Ak sa toto meranie v priebehu času opakuje, priemer podskupiny z druhého čítania je zvyčajne menší ako z prvého čítania, čo má tendenciu (t. j. regresiu) k priemeru zodpovedajúcemu veku a pohlavia v populácii, bez ohľadu na liečbu, ktorú môžu dostať. . U pacientov zaradených do klinickej štúdie na základe vysokej hladiny cholesterolu pri ich prvej návšteve je teda pravdepodobné, že pri druhej návšteve vykážu priemerný pokles hladín cholesterolu, aj keď počas tohto obdobia neboli liečení.

Metóda regresnej analýzy sa často používa na vytvorenie normatívnych škál a štandardov fyzického vývoja.


Ako dobre zodpovedá regresná čiara údajom, možno posúdiť výpočtom koeficientu R (zvyčajne vyjadreného v percentách a nazývaného koeficient determinácie), ktorý sa rovná druhej mocnine korelačného koeficientu (r 2). Predstavuje podiel alebo percento rozptylu y, ktorý možno vysvetliť vzťahom s x, t.j. podiel variácie črty-výsledku, ktorý sa vyvinul pod vplyvom nezávislej črty. Môže nadobúdať hodnoty v rozsahu od 0 do 1, respektíve od 0 do 100 %. Rozdiel (100 % - R) je percento rozptylu v y, ktoré nemožno vysvetliť touto interakciou.

Príklad

Vzťah medzi výškou (meranou v cm) a systolickým krvným tlakom (SBP, meraným v mmHg) u detí. Vykonali sme párovú lineárnu regresnú analýzu SBP verzus výška (obr. 6). Medzi výškou a SBP existuje významný lineárny vzťah.

Obrázok 6. Dvojrozmerný graf zobrazujúci vzťah medzi systolickým krvným tlakom a výškou. Zobrazená je odhadovaná regresná čiara, systolický krvný tlak.

Odhadovaná rovnica regresnej priamky je nasledovná:

ZÁHRADA \u003d 46,28 + 0,48 x výška.

V tomto príklade nie je zachytenie zaujímavé (nulové zvýšenie je jasne mimo rozsahu pozorovaného v štúdii). Môžeme však interpretovať sklon; U týchto detí sa predpokladá zvýšenie SBP v priemere o 0,48 mmHg. s nárastom výšky o jeden centimeter

Môžeme použiť regresnú rovnicu na predpovedanie SBP, ktoré by sme očakávali u dieťaťa v danej výške. Napríklad 115 cm vysoké dieťa má predpokladaný SBP 46,28 + (0,48 x 115) = 101,48 mm Hg. Art., dieťa s výškou 130 má predpokladaný SBP, 46,28 + (0,48 x 130) = 108,68 mm Hg. čl.

Pri výpočte korelačného koeficientu sa zistilo, že sa rovná 0,55, čo naznačuje priamu koreláciu priemernej pevnosti. V tomto prípade determinačný koeficient r 2 \u003d 0,55 2 \u003d 0,3. Môžeme teda povedať, že podiel vplyvu rastu na hladinu krvného tlaku u detí nepresahuje 30 %, respektíve 70 % vplyvu pripadá na podiel iných faktorov.

Lineárna (jednoduchá) regresia je obmedzená na zváženie vzťahu medzi závislou premennou a iba jednou nezávislou premennou. Ak je vo vzťahu viac ako jedna nezávislá premenná, potom sa musíme obrátiť na viacnásobnú regresiu. Rovnica pre takúto regresiu vyzerá takto:

y = a + bx 1 + b 2 x 2 +.... + b n x n

Niekoho môže zaujímať výsledok vplyvu viacerých nezávislých premenných x 1 , x 2 , .., x n na premennú odozvy y. Ak si myslíme, že tieto x môžu byť vzájomne závislé, potom sa nesmieme pozerať oddelene na vplyv zmeny hodnoty jedného x na y, ale musíme súčasne brať do úvahy hodnoty všetkých ostatných x.

Príklad

Keďže existuje silný vzťah medzi výškou a telesnou hmotnosťou dieťaťa, možno si kladieme otázku, či sa vzťah medzi výškou a systolickým krvným tlakom mení aj vtedy, keď sa berie do úvahy aj telesná hmotnosť a pohlavie dieťaťa. Viacnásobná lineárna regresia skúma kombinovaný účinok týchto viacerých nezávislých premenných na y.

Viacnásobná regresná rovnica v tomto prípade môže vyzerať takto:

ZÁHRADA \u003d 79,44 - (0,03 x výška) + (1,18 x váha) + (4,23 x pohlavie) *

* - (pre pohlavie, hodnoty 0 - chlapec, 1 - dievča)

Podľa tejto rovnice by dievča, ktoré je vysoké 115 cm a vážilo 37 kg, malo predpokladaný SBP:

ZÁHRADA \u003d 79,44 - (0,03 x 115) + (1,18 x 37) + (4,23 x 1) \u003d 123,88 mm Hg.

Logistická regresia je veľmi podobná lineárnej regresii; používa sa, keď existuje binárny výsledok záujmu (t. j. prítomnosť/neprítomnosť symptómu alebo subjekt, ktorý má/nemá chorobu) a súbor prediktorov. Z rovnice logistickej regresie je možné určiť, ktoré prediktory ovplyvňujú výsledok, a pomocou hodnôt pacientových prediktorov odhadnúť pravdepodobnosť, že bude mať konkrétny výsledok. Napríklad: komplikácie vzniknú alebo nie, liečba bude účinná alebo nie.

Začnite vytvárať binárnu premennú, ktorá bude reprezentovať dva výsledky (napr. „má chorobu“ = 1, „nemá chorobu“ = 0). Tieto dve hodnoty však nemôžeme použiť ako závislú premennú v lineárnej regresnej analýze, pretože je porušený predpoklad normality a nemôžeme interpretovať predpovedané hodnoty, ktoré nie sú nula alebo jedna.

V skutočnosti namiesto toho berieme pravdepodobnosť, že subjekt je zaradený do najbližšej kategórie (t. j. „má chorobu“) závislej premennej, a na prekonanie matematických ťažkostí použijeme logistickú transformáciu v regresnej rovnici - prirodzený logaritmus. pomeru pravdepodobnosti "ochorenia" (p) k pravdepodobnosti "žiadna choroba" (1-p).

Integračný proces nazývaný metóda maximálnej pravdepodobnosti, a nie obyčajná regresia (pretože nemôžeme použiť postup lineárnej regresie), vytvára odhad logistickej regresnej rovnice zo vzorových údajov.

logit(p) = a + bx 1 + b 2 x 2 +.... + b n x n

logit (p) je odhad hodnoty skutočnej pravdepodobnosti, že pacient s individuálnym súborom hodnôt pre x 1 ... x n má ochorenie;

a - vyhodnotenie konštanty (voľný člen, priesečník);

b 1 , b 2 ,... ,b n — odhady koeficientov logistickej regresie.

1. Otázky k téme lekcie:

1. Uveďte definíciu funkcionálu a korelácie.

2. Uveďte príklady priamej a spätnej korelácie.

3. Uveďte veľkosť korelačných koeficientov pre slabé, stredné a silné vzťahy medzi znakmi.

4. V akých prípadoch sa používa poradová metóda na výpočet korelačného koeficientu?

5. V akých prípadoch sa používa výpočet Pearsonovho korelačného koeficientu?

6. Aké sú hlavné kroky pri výpočte korelačného koeficientu rank metódou?

7. Definujte „regresiu“. Čo je podstatou regresnej metódy?

8. Opíšte vzorec pre jednoduchú lineárnu regresnú rovnicu.

9. Definujte regresný koeficient.

10. Aký záver možno vyvodiť, ak je regresný koeficient hmotnosti pre výšku 0,26 kg/cm?

11. Na čo sa používa vzorec regresnej rovnice?

12. Aký je koeficient determinácie?

13. V akých prípadoch sa používa viacnásobná regresná rovnica.

14. Na čo sa používa metóda logistickej regresie?

Ministerstvo školstva a vedy Ruskej federácie

Federálna agentúra pre vzdelávanie

Štátna vzdelávacia inštitúcia vyššieho odborného vzdelávania

Celoruský korešpondenčný inštitút financií a ekonomiky

Pobočka v Tule

Test

v odbore "ekonometria"

Tula - 2010

Úloha 2 (a, b)

Pre podniky ľahkého priemyslu boli získané informácie, ktoré charakterizujú závislosť objemu produkcie (Y, mil. rubľov) od objemu kapitálových investícií (X, mil. rubľov) Tabuľka. jeden.

X 33 17 23 17 36 25 39 20 13 12
Y 43 27 32 29 45 35 47 32 22 24

Požadovaný:

1. Nájdite parametre lineárnej regresnej rovnice, uveďte ekonomickú interpretáciu regresného koeficientu.

2. Vypočítajte rezíduá; nájsť zvyškový súčet štvorcov; odhadnúť rozptyl zvyškov

; zakreslite zvyšky.

3. Skontrolujte splnenie predpokladov LSM.

4. Skontrolujte významnosť parametrov regresnej rovnice pomocou Studentovho t-testu (α=0,05).

5. Vypočítajte koeficient determinácie, skontrolujte významnosť regresnej rovnice pomocou Fisherovho F-testu (α=0,05), nájdite priemernú relatívnu chybu aproximácie. Urobte si úsudok o kvalite modelu.

6. Predikujte priemernú hodnotu ukazovateľa Y na hladine významnosti α=0,1, ak predikovaná hodnota faktora X je 80 % jeho maximálnej hodnoty.

7. Prezentujte graficky: skutočné a modelové hodnoty Y, predpovedané body.

8. Zostavte nelineárne regresné rovnice:

hyperbolický;

moc;

orientačné.

Uveďte grafy zostrojených regresných rovníc.

9. Pre tieto modely nájdite koeficienty determinácie a priemerné relatívne chyby aproximácie. Porovnajte modely podľa týchto charakteristík a urobte záver.

1. Lineárny model má tvar:

Parametre lineárnej regresnej rovnice možno nájsť pomocou vzorcov

Výpočet hodnôt parametrov je uvedený v tabuľke. 2.

t r X yx
1 43 33 1419 1089 42,236 0,764 0,584 90,25 88,36 0,018
2 27 17 459 289 27,692 -0,692 0,479 42,25 43,56 0,026
3 32 23 736 529 33,146 -1,146 1,313 0,25 2,56 0,036
4 29 17 493 289 27,692 1,308 1,711 42,25 21,16 0,045
5 45 36 1620 1296 44,963 0,037 0,001 156,25 129,96 0,001
6 35 25 875 625 34,964 0,036 0,001 2,25 1,96 0,001
7 47 39 1833 1521 47,69 -0,69 0,476 240,25 179,56 0,015
8 32 20 640 400 30,419 1,581 2,500 12,25 2,56 0,049
9 22 13 286 169 24,056 -2,056 4,227 110,25 134,56 0,093
10 24 12 288 144 23,147 0,853 0,728 132,25 92,16 0,036
336 235 8649 6351 12,020 828,5 696,4 0,32
Priem. 33,6 23,5 864,9 635,1

Stanovme parametre lineárneho modelu

Lineárny model má tvar

Regresný koeficient

ukazuje, že produkcia Y sa zvyšuje v priemere o 0,909 milióna rubľov. so zvýšením objemu kapitálových investícií X o 1 milión rubľov.

2. Vypočítajte zvyšky

, zvyškový súčet štvorcov , zvyškový rozptyl nájdeme pomocou vzorca:

Výpočty sú uvedené v tabuľke. 2.


Ryža. 1. Graf rezíduí ε.

3. Skontrolujme splnenie predpokladov LSM na základe Durbin-Watsonovho kritéria.

0,584
2,120 0,479
0,206 1,313
6,022 1,711
1,615 0,001
0,000 0,001
0,527 0,476
5,157 2,500
13,228 4,227
2,462 0,728
31,337 12,020

d1 = 0,88; d2 = 1,32 pre a = 0,05, n = 10, k = 1.

,

To znamená, že množstvo zvyškov nie je korelované.

4. Overme si významnosť parametrov rovnice na základe Studentovho t-testu. (a=0,05).

pre v=8; a = 0,05.

Výpočet hodnoty

vyrobené v tabuľke. 2. Získame:
, potom môžeme konštatovať, že regresné koeficienty a a b sú významné s pravdepodobnosťou 0,95.

5. Nájdite korelačný koeficient pomocou vzorca

Výpočty sa vykonajú v tabuľke. 2.

. To. vzťah medzi objemom investície X a výkonom Y možno považovať za úzky, pretože .

Koeficient determinácie sa zistí podľa vzorca

Páčil sa vám článok? Zdieľaj to