Kontakty

Jednoduchá lineárna regresia. Základy lineárnej regresie

Prednáška 3.

Regresná analýza.

1) Numerické charakteristiky regresie

2) Lineárna regresia

3) Nelineárna regresia

4) Viacnásobná regresia

5) Na vykonanie použite MS EXCEL regresná analýza

Nástroj kontroly a hodnotenia - testové úlohy

1. Numerické charakteristiky regresie

Regresná analýza je štatistická metóda na štúdium vplyvu jednej alebo viacerých nezávislých premenných na závislú premennú. Nezávislé premenné sa tiež nazývajú regresory alebo prediktory a závislé premenné sa nazývajú kriteriálne premenné. Terminológia závislých a nezávislých premenných odráža iba matematickú závislosť premenných, a nie vzťahy príčiny a následku.

Ciele regresnej analýzy

  • Stanovenie miery určenia variácie kriteriálnej (závislej) premennej pomocou prediktorov (nezávislých premenných).
  • Predpovedanie hodnoty závislej premennej pomocou nezávislej premennej (premenných).
  • Stanovenie príspevku jednotlivých nezávislých premenných k variácii závisle premennej.

Regresná analýza sa nemôže použiť na určenie, či existuje vzťah medzi premennými, pretože prítomnosť takéhoto vzťahu je nevyhnutným predpokladom pre aplikáciu analýzy.

Ak chcete vykonať regresnú analýzu, musíte sa najprv oboznámiť so základnými pojmami štatistiky a teórie pravdepodobnosti.

Základné numerické charakteristiky diskrétnych a spojitých náhodných premenných: matematické očakávanie, rozptyl a smerodajná odchýlka.

Náhodné premenné sú rozdelené do dvoch typov:

  • · diskrétne, ktoré môžu nadobudnúť iba špecifické, vopred určené hodnoty (napríklad hodnoty čísel na hornom okraji hodu kocky alebo poradové hodnoty aktuálneho mesiaca);
  • nepretržité (najčastejšie - hodnoty niektorých fyzikálnych veličín: hmotnosti, vzdialenosti, teploty atď.), ktoré podľa prírodných zákonov môžu nadobudnúť akékoľvek hodnoty, aspoň v určitom rozmedzí.

Zákon distribúcie náhodná premenná- toto je korešpondencia medzi možnými hodnotami diskrétnej náhodnej premennej a jej pravdepodobnosťami, zvyčajne zapísaná v tabuľke:

Štatistická definícia pravdepodobnosti je vyjadrená pomocou relatívnej frekvencie náhodnej udalosti, to znamená, že sa zistí ako pomer počtu náhodných premenných k celkovému počtu náhodných premenných.

Matematické očakávanie diskrétnej náhodnej premennejX sa nazýva súčet súčinov hodnôt množstva X o pravdepodobnosti týchto hodnôt. Matematické očakávanie označujeme alebo M(X) .

n

= M(X) = X 1 p 1 + X 2 p 2 +… + x n p n = S x i p i

i=1

Disperzia náhodnej premennej vo vzťahu k jej matematickému očakávaniu sa určuje pomocou numerickej charakteristiky nazývanej disperzia. Jednoducho povedané, rozptyl je rozptyl náhodnej premennej okolo strednej hodnoty. Aby ste pochopili podstatu disperzie, zvážte príklad. Priemerná mzda celoštátne je asi 25 tisíc rubľov. Odkiaľ pochádza tento údaj? S najväčšou pravdepodobnosťou sa všetky platy spočítajú a vydelia počtom zamestnancov. V tomto prípade je veľmi veľký rozptyl (minimálna mzda je asi 4 000 rubľov a maximálna je asi 100 000 rubľov). Ak by bol plat všetkých rovnaký, potom by bol rozptyl nulový a neexistoval by rozptyl.

Disperzia diskrétnej náhodnej premennejX je matematické očakávanie druhej mocniny rozdielu náhodnej premennej a jej matematické očakávanie:

D = M [ ((X - M (X)) 2]

Použitím definície matematického očakávania na výpočet rozptylu získame vzorec:

D = S (xi - M (X))2pi

Rozptyl má rozmer druhej mocniny náhodnej premennej. V prípadoch, keď potrebujete mať číselná charakteristika rozptyl možných hodnôt v rovnakej dimenzii ako samotná náhodná premenná používa priemer smerodajná odchýlka.

Smerodajná odchýlka náhodná premenná sa nazýva druhá odmocnina jej rozptylu.

Štandardná odchýlka je miera rozptylu hodnôt náhodnej premennej okolo jej matematického očakávania.

Príklad.

Zákon rozdelenia náhodnej premennej X je daný nasledujúcou tabuľkou:

Nájdite jeho matematické očakávanie, rozptyl a smerodajnú odchýlku .

Používame vyššie uvedené vzorce:

M (X) = 1 0,1 + 2 0,4 + 4 0,4 ​​+ 5 0,1 = 3

D = (1-3) 2 0,1 + (2 - 3) 2 0,4 + (4 - 3) 2 0,4 + (5 - 3) 2 0,1 = 1,6

Príklad.

V peňažnej lotérii sa hrá 1 výhra 1 000 rubľov, 10 výhier po 100 rubľov a 100 výhier po 1 rubeľ s celkovým počtom tiketov 10 000 Vytvorte distribučný zákon pre náhodnú výhru X pre vlastníka jednej lotérie tiket a určiť matematické očakávanie, rozptyl a smerodajnú odchýlku náhodnej premennej .

X 1 = 1 000, X 2 = 100, X 3 = 1, X 4 = 0,

P1 = 1/10 000 = 0,0001, P2 = 10/10 000 = 0,001, P3 = 100/10 000 = 0,01, P4 = 1 - (P1 + P2 + P3) = 0,9889.

Výsledky si dáme do tabuľky:

Matematické očakávanie je súčet párových súčinov hodnoty náhodnej premennej a jej pravdepodobnosti. Pre túto úlohu je vhodné vypočítať ju pomocou vzorca

1000 · 0,0001 + 100 · 0,001 + 1 · 0,01 + 0 · 0,9889 = 0,21 rubľov.

Dostali sme skutočne „spravodlivú“ cenu lístka.

D = S (xi - M (X)) 2 p i = (1 000 - 0,21) 2 0,0001 + (100 - 0,21) 2 0,001 +

+ (1 - 0,21) 2 0,01 + (0 - 0,21) 2 0,9889 ≈ 109,97

Distribučná funkcia spojitých náhodných premenných

Hodnota, ktorá v dôsledku testu nadobudne jednu možnú hodnotu (ktorá nie je vopred známa), sa nazýva náhodná premenná. Ako bolo uvedené vyššie, náhodné premenné môžu byť diskrétne (nespojité) a spojité.

Diskrétna je náhodná premenná, ktorá sa od seba oddeľuje možné hodnoty s určitými pravdepodobnosťami, ktoré sa dajú očíslovať.

Spojitá je náhodná premenná, ktorá môže nadobudnúť všetky hodnoty z určitého konečného alebo nekonečného intervalu.

Do tohto bodu sme boli obmedzení len na jeden „typ“ náhodných premenných – diskrétne, t.j. naberanie konečných hodnôt.

Ale teória a prax štatistiky vyžadujú použitie konceptu spojitej náhodnej premennej - umožňujúcej akékoľvek číselné hodnoty z akéhokoľvek intervalu.

Je vhodné definovať distribučný zákon spojitej náhodnej premennej pomocou takzvanej funkcie hustoty pravdepodobnosti. f(x). Pravdepodobnosť P (a< X < b) того, что значение, принятое случайной величиной Х, попадет в промежуток (a; b), определяется равенством

P(a< X < b) = ∫ f(X) dx

Graf funkcie f (x) sa nazýva distribučná krivka. Geometricky sa pravdepodobnosť náhodnej premennej spadajúcej do intervalu (a; b) rovná ploche zodpovedajúceho krivočiareho lichobežníka ohraničeného distribučnou krivkou, osou Ox a priamkami x = a, x = b.

P(a £ X

Ak sa od komplexnej udalosti odpočíta konečná alebo spočítateľná množina, pravdepodobnosť výskytu novej udalosti zostane nezmenená.

Funkcia f(x) - numerická skalárna funkcia reálneho argumentu x sa nazýva hustota pravdepodobnosti a existuje v bode x, ak v tomto bode existuje limit:

Vlastnosti hustoty pravdepodobnosti:

  1. Hustota pravdepodobnosti je nezáporná funkcia, t.j. f(x) ≥ 0

(ak sú všetky hodnoty náhodnej premennej X obsiahnuté v intervale (a; b), potom posledná

rovnosť možno zapísať ako ∫ f (x) dx = 1).

Uvažujme teraz o funkcii F(x) = P(X< х). Эта функция называется функцией распределения вероятности случайной величины Х. Функция F(х) существует как для дискретных, так и для непрерывных случайных величин. Если f (x) - функция плотности распределения вероятности

spojitá náhodná veličina X, potom F (x) = ∫ f(x) dx = 1).

Z poslednej rovnosti vyplýva, že f (x) = F" (x)

Niekedy sa funkcia f(x) nazýva funkcia diferenciálneho rozdelenia pravdepodobnosti a funkcia F(x) sa nazýva funkcia kumulatívneho rozdelenia pravdepodobnosti.

Všimnime si najdôležitejšie vlastnosti funkcie rozdelenia pravdepodobnosti:

  1. F(x) je neklesajúca funkcia.
  2. F (- ∞) = 0.
  3. F (+ ∞) = 1.

Koncept distribučnej funkcie je ústredným prvkom teórie pravdepodobnosti. Pomocou tohto konceptu môžeme dať ďalšiu definíciu spojitej náhodnej premennej. Náhodná premenná sa nazýva spojitá, ak je jej kumulatívna distribučná funkcia F(x) spojitá.

Numerické charakteristiky spojitých náhodných veličín

Matematické očakávanie, rozptyl a ďalšie parametre ľubovoľných náhodných premenných sa takmer vždy počítajú pomocou vzorcov vyplývajúcich zo zákona o rozdelení.

Pre spojitú náhodnú premennú sa matematické očakávanie vypočíta pomocou vzorca:

M(X) = ∫ x f(X) dx

Rozptyl:

D (X) = ∫ ( X- M (X)) 2 f(X) dx alebo D(X) = ∫ X 2 f(X) dx - (M (X)) 2

2. Lineárna regresia

Nech sú zložky X a Y dvojrozmernej náhodnej premennej (X, Y) závislé. Budeme predpokladať, že jeden z nich môže byť približne reprezentovaný ako lineárna funkcia druhého, napr

Y ≈ g(Х) = α + βХ a parametre α a β určíme metódou najmenších štvorcov.

Definícia. Zavolá sa funkcia g(Х) = α + βХ najlepšie priblíženie Y v zmysle metódy najmenších štvorcov, ak matematické očakávanie M(Y - g(X)) 2 nadobúda najnižšiu možnú hodnotu; volá sa funkcia g(X). stredná štvorcová regresia Y až X.

Veta Lineárna stredná štvorcová regresia Y na X má tvar:

kde je korelačný koeficient X a Y.

Koeficienty rovníc.

Dá sa overiť, že pre tieto hodnoty funkcia F(α, β)

F(α, β ) = M(Y - a - βX)² má minimum, čo dokazuje vetu.

Definícia. Koeficient sa nazýva regresný koeficient Y na X, a priamka -- priama stredná štvorcová regresia Y na X.

Dosadením súradníc stacionárneho bodu do rovnosti môžeme nájsť minimálnu hodnotu funkcie F(α, β), rovnajúcu sa Táto veličina je tzv. zvyškový rozptyl Y vzhľadom na X a charakterizuje množstvo chýb povolených pri nahradení Y

g(X) = a+pX. Keď sa zvyškový rozptyl rovná 0, to znamená, že rovnosť nie je približná, ale presná. Preto sú Y a X spojené lineárnou funkčnou závislosťou. Podobne môžete získať priamu strednú štvorcovú regresiu X na Y:

a reziduálny rozptyl X relatívne k Y. Pri oboch priamych regresiách sa zhodujú. Porovnaním regresných rovníc Y na X a X na Y a riešením sústavy rovníc môžete nájsť priesečník regresných priamok - bod so súradnicami (m x, m y), tzv. stred spoločného rozdelenia hodnôt X a Y.

Budeme uvažovať o algoritme na zostavovanie regresných rovníc z učebnice V. E. Gmurmana „Teória pravdepodobnosti a matematická štatistika“ s.

1) Zostavte výpočtovú tabuľku, v ktorej budú zaznamenané počty prvkov vzorky, možnosti vzorkovania, ich štvorce a súčin.

2) Vypočítajte súčet pre všetky stĺpce okrem čísla.

3) Vypočítajte priemerné hodnoty pre každú hodnotu, rozptyl a štandardné odchýlky.

5) Otestujte hypotézu o existencii spojenia medzi X a Y.

6) Vytvorte rovnice pre obe regresné priamky a nakreslite grafy týchto rovníc.

Smernica priamej regresnej priamky Y na X je vzorový regresný koeficient

Koeficient b=

Získame požadovanú rovnicu pre regresnú priamku Y na X:

Y = 0,202 X + 1,024

Regresná rovnica pre X na Y je podobná:

Sklon priamej regresnej priamky Y na X je vzorový regresný koeficient pxy:

Koeficient b=

X = 4,119 U - 3,714

3. Nelineárna regresia

Ak medzi ekonomickými javmi existujú nelineárne vzťahy, potom sú vyjadrené pomocou zodpovedajúcich nelineárnych funkcií.

Existujú dve triedy nelineárnych regresií:

1. Regresie, ktoré sú nelineárne vzhľadom na vysvetľujúce premenné zahrnuté v analýze, ale lineárne vzhľadom na odhadované parametre, napríklad:

Polynómy rôznych stupňov

Rovnostranná hyperbola - ;

Semilogaritmická funkcia - .

2. Regresie, ktoré sú nelineárne z hľadiska odhadovaných parametrov, napríklad:

Moc - ;

Demonštratívne - ;

Exponenciálny - .

Regresie, ktoré sú nelineárne vzhľadom na zahrnuté premenné, sa dostanú do lineárnej formy jednoduchým nahradením premenných a ďalší odhad parametrov sa vykoná pomocou metódy najmenších štvorcov. Pozrime sa na niektoré funkcie.

Parabola druhého stupňa sa redukuje na lineárny tvar pomocou náhrady: . Výsledkom je dvojfaktorová rovnica, ktorej odhad parametrov metódou najmenších štvorcov vedie k sústave rovníc:

Parabola druhého stupňa sa zvyčajne používa v prípadoch, keď sa pre určitý interval hodnôt faktorov zmení povaha spojenia medzi posudzovanými charakteristikami: priame spojenie sa zmení na spätné alebo spätné na priame.

Rovnostrannou hyperbolou možno charakterizovať vzťah medzi špecifickými nákladmi na suroviny, materiál, palivo a objemom produkcie, časom obehu tovaru a výškou obratu. Jej klasickým príkladom je Phillipsova krivka, ktorá charakterizuje nelineárny vzťah medzi mierou nezamestnanosti X a percento rastu miezd r.

Hyperbola sa redukuje na lineárnu rovnicu jednoduchou substitúciou: . Na zostavenie systému lineárnych rovníc môžete použiť aj metódu najmenších štvorcov.

Podobným spôsobom sú závislosti redukované na lineárny tvar: , a iné.

Na opis Engelovej krivky (matematický popis vzťahu medzi podielom výdavkov na predmety dlhodobej spotreby a celkovými výdavkami (resp. príjmami)) sa používa rovnostranná hyperbola a semilogaritmická krivka. Rovnice, ktoré zahŕňajú, sa používajú pri štúdiách produktivity a náročnosti práce poľnohospodárskej výroby.

4. Viacnásobná regresia

Viacnásobná regresia je vzťahová rovnica s niekoľkými nezávislými premennými:

kde je závislá premenná (výsledný atribút);

Nezávislé premenné (faktory).

Na zostavenie viacnásobnej regresnej rovnice sa najčastejšie používajú tieto funkcie:

lineárny -

moc -

exponent -

hyperbola - .

Môžete použiť ďalšie funkcie, ktoré sa dajú zredukovať na lineárny tvar.

Na odhad parametrov viacnásobnej regresnej rovnice sa používa metóda najmenších štvorcov (OLS). Pre lineárne rovnice a nelineárne rovnice redukovateľné na lineárne je skonštruovaný nasledujúci systém normálnych rovníc, ktorých riešenie umožňuje získať odhady regresných parametrov:

Na jeho vyriešenie možno použiť metódu determinantov:

kde je determinant systému;

Osobitné kvalifikátory; ktoré sa získajú nahradením príslušného stĺpca matice systémových determinantov údajmi na ľavej strane systému.

Ďalším typom viacnásobnej regresnej rovnice je regresná rovnica na štandardizovanej škále OLS sa aplikuje na viacnásobnú regresnú rovnicu na štandardizovanej škále.

5. PoužitiePANIEXCELvykonať regresnú analýzu

Regresná analýza stanovuje formy závislosti medzi náhodnou premennou Y (závislá) a hodnotami jednej alebo viacerých premenných veličín (nezávislá), pričom hodnoty druhej sa považujú za presne špecifikované. Takáto závislosť je zvyčajne určená nejakým matematickým modelom (regresná rovnica) obsahujúca niekoľko neznámych parametrov. Pri regresnej analýze sa na základe vzorových údajov zisťujú odhady týchto parametrov, stanovujú sa štatistické chyby v odhadoch alebo hranice intervalov spoľahlivosti a kontroluje sa súlad (primeranosť) prijatého matematického modelu s experimentálnymi údajmi.

Pri lineárnej regresnej analýze sa predpokladá, že vzťah medzi náhodnými premennými je lineárny. V najjednoduchšom prípade v párovom lineárnom regresnom modeli existujú dve premenné X a Y. A je potrebné zostrojiť (preložiť) priamku pomocou n párov pozorovaní (X1, Y1), (X2, Y2), .. ., (Xn, Yn), nazývaná regresná priamka, ktorá "najlepšie" aproximuje pozorované hodnoty. Rovnica tejto priamky y=ax+b je regresná rovnica. Pomocou regresnej rovnice môžete predpovedať očakávanú hodnotu závislej premennej y zodpovedajúcej danej hodnote nezávislej premennej x. V prípade, že sa uvažuje o závislosti medzi jednou závislou premennou Y a viacerými nezávislými premennými X1, X2, ..., Xm, hovoríme o viacnásobnej lineárnej regresii.

V tomto prípade má regresná rovnica tvar

y = a 0 +a 1 x 1 +a 2 x 2 +...+a m x m,

kde a0, a1, a2, …, am sú regresné koeficienty, ktoré vyžadujú určenie.

Koeficienty regresnej rovnice sa určujú pomocou metódy najmenších štvorcov, čím sa dosiahne minimálny možný súčet štvorcových rozdielov medzi skutočnými hodnotami premennej Y a hodnotami vypočítanými z regresnej rovnice. Tak napríklad lineárnu regresnú rovnicu možno zostrojiť aj v prípade, že neexistuje lineárna korelácia.

Meradlom účinnosti regresného modelu je koeficient determinácie R2 (R-štvorec). Koeficient determinácie môže nadobudnúť hodnoty medzi 0 a 1, určuje mieru presnosti, s ktorou výsledná regresná rovnica opisuje (aproximuje) pôvodné údaje. Významnosť regresného modelu sa skúma aj pomocou F-testu (Fisher) a spoľahlivosť rozdielu medzi koeficientmi a0, a1, a2, ..., am a nula sa kontroluje pomocou Studentovho t-testu.

V Exceli sú experimentálne údaje aproximované lineárnou rovnicou až do 16. rádu:

y = a0+a1x1+a2x2+…+a16x16

Na získanie koeficientov lineárnej regresie možno použiť postup „Regresia“ z analytického balíka. Úplné informácie o rovnici lineárnej regresie poskytuje aj funkcia LINREGRESE. Okrem toho je možné použiť funkcie SLOPE a INTERCEPT na získanie parametrov regresnej rovnice a funkcie TREND a FORECAST možno použiť na získanie predpovedaných hodnôt Y v požadovaných bodoch (pre párovú regresiu).

Uvažujme podrobne o použití funkcie LINEST (známy_y, [známy_x], [konštantný], [štatistika]): známy_y - rozsah známych hodnôt závislého parametra Y. V párovej regresnej analýze môže mať ľubovoľný forma; v množnom čísle musí byť riadok alebo stĺpec; známy_x - rozsah známych hodnôt jedného alebo viacerých nezávislých parametrov. Musí mať rovnaký tvar ako rozsah Y (pre niekoľko parametrov - niekoľko stĺpcov alebo riadkov); konštanta je logický argument. Ak je na základe praktického významu problému regresnej analýzy potrebné, aby regresná čiara prechádzala počiatkom, to znamená, že voľný koeficient sa rovná 0, hodnota tohto argumentu by mala byť nastavená na 0 (alebo „ nepravda“). Ak je hodnota nastavená na 1 (alebo true) alebo vynechaná, potom sa voľný koeficient vypočíta obvyklým spôsobom; štatistika je logický argument. Ak je hodnota nastavená na 1 (alebo „pravda“), potom sa dodatočne vrátia regresná štatistika (pozri tabuľku), ktorá sa použije na vyhodnotenie účinnosti a významnosti modelu. Vo všeobecnosti pre párovú regresiu y=ax+b má výsledok aplikácie funkcie LINREGRESE tvar:

Tabuľka. Výstupný rozsah funkcie LINREGRESE pre párovú regresnú analýzu

V prípade viacnásobnej regresnej analýzy pre rovnicu y=a0+a1x1+a2x2+…+amxm, prvý riadok zobrazuje koeficienty am,…,a1,a0 a druhý riadok zobrazuje štandardné chyby týchto koeficientov. Riadky 3-5, s výnimkou prvých dvoch stĺpcov vyplnených regresnou štatistikou, vrátia hodnotu #N/A.

Funkciu LINREGRESE by ste mali zadať ako vzorec poľa, najskôr vyberte pole požadovanej veľkosti pre výsledok (m+1 stĺpcov a 5 riadkov, ak sa vyžaduje regresná štatistika) a dokončite zadávanie vzorca stlačením CTRL+SHIFT+ENTER .

Výsledok pre náš príklad:

Okrem toho má program zabudovanú funkciu - Analýza údajov na karte Údaje.

Môže sa tiež použiť na vykonanie regresnej analýzy:

Snímka ukazuje výsledok regresnej analýzy vykonanej pomocou analýzy dát.

ZÁVER VÝSLEDKOV

Regresná štatistika

Množné číslo R

R-štvorec

Normalizované R-štvorce

Štandardná chyba

Pozorovania

Analýza rozptylu

Význam F

Regresia

Odds

Štandardná chyba

t-štatistika

P-hodnota

Spodných 95 %

95 % najlepších

Spodných 95,0 %

Najlepších 95,0 %

Priesečník Y

Premenná X1

Regresné rovnice, na ktoré sme sa pozreli predtým, boli tiež zostavené v programe MS Excel. Ak ich chcete vykonať, najprv vytvorte bodový graf a potom v kontextovej ponuke vyberte položku - Pridať trendovú čiaru. V novom okne zaškrtnite políčko - Zobraziť rovnicu na diagrame a umiestnite do diagramu hodnotu aproximačnej spoľahlivosti (R^2).

Literatúra:

  1. Teória pravdepodobnosti a matematická štatistika. Gmurman V. E. Učebnica pre vysoké školy. - Ed. 10., vymazané. - M.: Vyššie. škola, 2010. - 479 s.
  2. Vyššia matematika v cvičeniach a úlohách. Učebnica pre vysoké školy / Danko P. E., Popov A. G., Kozhevnikova T. Ya., Danko S. P. Za 2 hodiny - Ed. 6., vymazané. - M.: Onyx Publishing House LLC: Mir and Education Publishing House LLC, 2007. - 416 s.
    1. 3. http://www.machinelearning.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8 %D1%8F - niektoré informácie o regresnej analýze

Hlavná črta regresnej analýzy: s jej pomocou môžete získať konkrétne informácie o tom, akú formu a povahu má vzťah medzi skúmanými premennými.

Postupnosť fáz regresnej analýzy

Pozrime sa stručne na fázy regresnej analýzy.

    Formulácia problému. V tomto štádiu sa vytvárajú predbežné hypotézy o závislosti skúmaných javov.

    Definícia závislých a nezávislých (vysvetľujúcich) premenných.

    Zber štatistických údajov. Údaje sa musia zbierať pre každú z premenných zahrnutých v regresnom modeli.

    Formulácia hypotézy o forme spojenia (jednoduchá alebo viacnásobná, lineárna alebo nelineárna).

    Definícia regresné funkcie (spočíva vo výpočte číselných hodnôt parametrov regresnej rovnice)

    Posúdenie presnosti regresnej analýzy.

    Interpretácia získaných výsledkov. Získané výsledky regresnej analýzy sú porovnané s predbežnými hypotézami. Posudzuje sa správnosť a dôveryhodnosť získaných výsledkov.

    Predpovedanie neznámych hodnôt závislej premennej.

Pomocou regresnej analýzy je možné vyriešiť problém prognózovania a klasifikácie. Predpokladané hodnoty sa vypočítajú nahradením hodnôt vysvetľujúcich premenných do regresnej rovnice. Klasifikačný problém je vyriešený týmto spôsobom: regresná čiara rozdeľuje celú množinu objektov do dvoch tried a tá časť množiny, kde je funkčná hodnota väčšia ako nula, patrí do jednej triedy a časť, kde je menšia ako nula. patrí do inej triedy.

Problémy regresnej analýzy

Pozrime sa na hlavné úlohy regresnej analýzy: stanovenie formy závislosti, určenie regresné funkcie, odhad neznámych hodnôt závislej premennej.

Stanovenie formy závislosti.

Povaha a forma vzťahu medzi premennými môžu tvoriť nasledujúce typy regresie:

    pozitívna lineárna regresia (vyjadrená rovnomerným rastom funkcie);

    pozitívna rovnomerne rastúca regresia;

    pozitívna rovnomerne rastúca regresia;

    negatívna lineárna regresia (vyjadrená ako rovnomerný pokles funkcie);

    negatívna rovnomerne zrýchlená klesajúca regresia;

    negatívna rovnomerne klesajúca regresia.

Popísané odrody sa však zvyčajne nenachádzajú v čistej forme, ale vo vzájomnej kombinácii. V tomto prípade hovoríme o kombinovaných formách regresie.

Definícia regresnej funkcie.

Druhá úloha spočíva v identifikácii vplyvu hlavných faktorov alebo príčin na závislú premennú, pričom ostatné veci sú rovnaké a s výhradou vylúčenia vplyvu náhodných prvkov na závislú premennú. Regresná funkcia je definovaný vo forme matematickej rovnice jedného alebo druhého typu.

Odhad neznámych hodnôt závislej premennej.

Riešenie tohto problému spočíva v riešení problému jedného z nasledujúcich typov:

    Odhad hodnôt závislej premennej v rámci uvažovaného intervalu počiatočných údajov, t.j. chýbajúce hodnoty; v tomto prípade je problém interpolácie vyriešený.

    Odhad budúcich hodnôt závislej premennej, t.j. nájdenie hodnôt mimo určeného intervalu zdrojových údajov; v tomto prípade je problém extrapolácie vyriešený.

Oba problémy sú riešené nahradením nájdených odhadov parametrov pre hodnoty nezávislých premenných do regresnej rovnice. Výsledkom riešenia rovnice je odhad hodnoty cieľovej (závislej) premennej.

Pozrime sa na niektoré predpoklady, o ktoré sa regresná analýza opiera.

Predpoklad linearity, t.j. predpokladá sa, že vzťah medzi uvažovanými premennými je lineárny. Takže v tomto príklade sme nakreslili bodový graf a boli sme schopní vidieť jasný lineárny vzťah. Ak na rozptylovom diagrame premenných vidíme jasnú absenciu lineárneho vzťahu, t.j. Ak existuje nelineárny vzťah, mali by sa použiť metódy nelineárnej analýzy.

Predpoklad normality zvyšky jedla. Predpokladá, že rozdelenie rozdielu medzi predpovedanými a pozorovanými hodnotami je normálne. Ak chcete vizuálne určiť povahu distribúcie, môžete použiť histogramy zvyšky jedla.

Pri použití regresnej analýzy je potrebné zvážiť jej hlavné obmedzenie. Spočíva v tom, že regresná analýza nám umožňuje odhaliť iba závislosti, a nie súvislosti, ktoré sú základom týchto závislostí.

Regresná analýza vám umožňuje odhadnúť silu vzťahu medzi premennými výpočtom odhadovanej hodnoty premennej na základe niekoľkých známych hodnôt.

Regresná rovnica.

Regresná rovnica vyzerá takto: Y=a+b*X

Pomocou tejto rovnice je premenná Y vyjadrená ako konštanta a a strmosť priamky (alebo strmosti) b, vynásobená hodnotou premennej X. Konštanta a sa tiež nazýva priesečník a strmosť je regresný koeficient alebo B-koeficient.

Vo väčšine prípadov (ak nie vždy) existuje určitý rozptyl pozorovaní vzhľadom na regresnú priamku.

Zvyšok je odchýlka jednotlivého bodu (pozorovania) od regresnej priamky (predpovedaná hodnota).

Ak chcete vyriešiť problém regresnej analýzy v MS Excel, vyberte z ponuky servis"Analytický balík" a nástroj regresnej analýzy. Nastavíme vstupné intervaly X a Y. Vstupný interval Y je rozsah závislých analyzovaných údajov, musí obsahovať jeden stĺpec. Vstupný interval X je rozsah nezávislých údajov, ktoré je potrebné analyzovať. Počet vstupných rozsahov by nemal presiahnuť 16.

Na výstupe procedúry vo výstupnom rozsahu získame správu uvedenú v tabuľka 8.3a-8,3v.

ZÁVER VÝSLEDKOV

Tabuľka 8.3a. Regresná štatistika

Regresná štatistika

Množné číslo R

R-štvorec

Normalizované R-štvorce

Štandardná chyba

Pozorovania

Najprv sa pozrime na hornú časť výpočtov uvedených v tabuľka 8.3a, - regresná štatistika.

Rozsah R-štvorec, nazývaná aj miera istoty, charakterizuje kvalitu výslednej regresnej priamky. Táto kvalita je vyjadrená mierou zhody medzi zdrojovými údajmi a regresným modelom (vypočítané údaje). Miera istoty je vždy v rámci intervalu.

Vo väčšine prípadov hodnota R-štvorec je medzi týmito hodnotami, nazýva sa extrémna, t.j. medzi nulou a jednotkou.

Ak je hodnota R-štvorec blízko k jednote, to znamená, že skonštruovaný model vysvetľuje takmer všetku variabilitu v zodpovedajúcich premenných. A naopak, význam R-štvorec, blízko nule, znamená zlú kvalitu skonštruovaného modelu.

V našom príklade je miera istoty 0,99673, čo naznačuje veľmi dobré prispôsobenie regresnej priamky pôvodným údajom.

množné číslo R - viacnásobný korelačný koeficient R - vyjadruje mieru závislosti nezávisle premenných (X) a závisle premennej (Y).

Množné číslo R rovná sa druhej odmocnine koeficientu určenia, toto množstvo nadobúda hodnoty v rozsahu od nuly do jednej.

V jednoduchej lineárnej regresnej analýze množné číslo R rovná Pearsonovmu korelačnému koeficientu. naozaj, množné číslo R v našom prípade sa rovná Pearsonovmu korelačnému koeficientu z predchádzajúceho príkladu (0,998364).

Tabuľka 8.3b. Regresné koeficienty

Odds

Štandardná chyba

t-štatistika

Priesečník Y

Premenná X1

* Poskytuje sa skrátená verzia výpočtov

Teraz zvážte strednú časť výpočtov uvedených v tabuľka 8.3b. Tu je uvedený regresný koeficient b (2,305454545) a posunutie pozdĺž osi y, t.j. konštanta a (2,694545455).

Na základe výpočtov môžeme napísať regresnú rovnicu takto:

Y= x*2,305454545 + 2,694545455

Smer vzťahu medzi premennými je určený na základe znamienok (záporných alebo pozitívnych) regresných koeficientov (koeficient b).

Ak je znamienko regresného koeficientu kladné, vzťah medzi závislou premennou a nezávislou premennou bude pozitívny. V našom prípade je znamienko regresného koeficientu kladné, teda aj vzťah je kladný.

Ak je znamienko regresného koeficientu záporné, vzťah medzi závislou premennou a nezávisle premennou je negatívny (inverzný).

IN tabuľka 8.3c. sú prezentované výstupné výsledky zvyšky jedla. Aby sa tieto výsledky objavili v prehľade, musíte pri spustení nástroja „Regresia“ aktivovať začiarkavacie políčko „Residuals“.

ODSTRANIE OSTATNÉHO

Tabuľka 8.3c. Zvyšky

Pozorovanie

Predpokladaný Y

Zvyšky

Štandardné zostatky

Pomocou tejto časti správy môžeme vidieť odchýlky každého bodu od zostrojenej regresnej priamky. Najvyššia absolútna hodnota zvyšok v našom prípade - 0,778, najmenšia - 0,043. Na lepšiu interpretáciu týchto údajov použijeme graf pôvodných údajov a zostrojenú regresnú priamku prezentovanú v ryža. 8.3. Ako vidíte, regresná čiara je celkom presne „prispôsobená“ hodnotám pôvodných údajov.

Treba vziať do úvahy, že uvažovaný príklad je dosť jednoduchý a nie vždy je možné kvalitatívne zostrojiť lineárnu regresnú priamku.

Ryža. 8.3. Zdrojové údaje a regresná čiara

Problém odhadovania neznámych budúcich hodnôt závislej premennej na základe známych hodnôt nezávislej premennej zostal nezohľadnený, t.j. problém s predpovedaním.

S regresnou rovnicou sa problém prognózy redukuje na vyriešenie rovnice Y= x*2,305454545+2,694545455 so známymi hodnotami x. Prezentované sú výsledky predikcie závislej premennej Y o šesť krokov dopredu v tabuľke 8.4.

Tabuľka 8.4. Výsledky prognózy premennej Y

Y (predpokladané)

Výsledkom použitia regresnej analýzy v programe Microsoft Excel je teda:

    zostavil regresnú rovnicu;

    stanovená forma závislosti a smer spojenia medzi premennými - pozitívna lineárna regresia, ktorá sa prejavuje rovnomerným rastom funkcie;

    určil smer vzťahu medzi premennými;

    posúdil kvalitu výslednej regresnej priamky;

    boli schopní vidieť odchýlky vypočítaných údajov od údajov pôvodného súboru;

    predpovedané budúce hodnoty závislej premennej.

Ak regresná funkcia definované, interpretované a odôvodnené a posúdenie presnosti regresnej analýzy spĺňa požiadavky, skonštruovaný model a predpovedané hodnoty možno považovať za dostatočne spoľahlivé.

Predpovedané hodnoty získané týmto spôsobom sú priemerné hodnoty, ktoré možno očakávať.

V tejto práci sme zhodnotili hlavné charakteristiky deskriptívna štatistika a medzi nimi také pojmy ako priemerná hodnota,medián,maximálne,minimálne a ďalšie charakteristiky variácie údajov.

Krátko sa diskutovalo aj o koncepte emisie. Uvažované charakteristiky sa týkajú takzvanej prieskumnej analýzy údajov, jej závery sa nemusia vzťahovať na všeobecnú populáciu, ale iba na vzorku údajov. Prieskumná analýza údajov sa používa na získanie primárnych záverov a vytvorenie hypotéz o populácii.

Diskutované boli aj základy korelačnej a regresnej analýzy, ich úlohy a možnosti praktického využitia.

Regresná analýza skúma závislosť určitej veličiny od inej veličiny alebo niekoľkých iných veličín. Regresná analýza sa používa najmä v strednodobom prognózovaní, ako aj pri dlhodobom prognózovaní. Strednodobé a dlhodobé obdobia umožňujú identifikovať zmeny v podnikateľskom prostredí a zohľadniť vplyv týchto zmien na sledovaný ukazovateľ.

Na vykonanie regresnej analýzy potrebujete:

    dostupnosť ročných údajov o študovaných ukazovateľoch,

    prítomnosť jednorazových predpovedí, t.j. také prognózy, ktoré nie sú korigované s príchodom nových údajov.

Regresná analýza sa zvyčajne vykonáva pre objekty, ktoré majú komplexnú, multifaktoriálnu povahu, ako je objem investícií, zisk, objemy predaja atď.

o normatívna metóda prognózovania sú určené spôsoby a termíny dosiahnutia možných stavov javu, braných ako cieľ. Ide o predpovedanie dosiahnutia želaných stavov javu na základe vopred stanovených noriem, ideálov, podnetov a cieľov. Táto predpoveď odpovedá na otázku: akými spôsobmi môžete dosiahnuť to, čo chcete? Pri programových alebo cieľových prognózach sa častejšie používa normatívna metóda. Využíva sa tak kvantitatívne vyjadrenie štandardu, ako aj určitá škála schopností hodnotiacej funkcie

V prípade použitia kvantitatívneho vyjadrenia, napríklad fyziologických a racionálnych noriem spotreby jednotlivých potravinárskych a nepotravinárskych výrobkov, vypracovaných odborníkmi pre rôzne skupiny obyvateľstva, je možné určiť úroveň spotreby týchto tovarov za rokov pred dosiahnutím stanovenej normy. Takéto výpočty sa nazývajú interpolácia. Interpolácia je metóda výpočtu ukazovateľov chýbajúcich v dynamickom rade javu na základe stanoveného vzťahu. Ak vezmeme skutočnú hodnotu ukazovateľa a hodnotu jeho noriem ako extrémnych členov dynamického radu, je možné určiť hodnoty hodnôt v rámci tohto radu. Preto sa interpolácia považuje za normatívnu metódu. Uvedený vzorec (4), použitý pri extrapolácii, možno použiť pri interpolácii, kde y už nebude charakterizovať skutočný údaj, ale štandardný ukazovateľ.

V prípade použitia škály (pole, spektra) v normatívnej metóde, schopnosti hodnotiacej funkcie, teda preferenčnej distribučnej funkcie, uvádzajú približne nasledujúcu gradáciu: nežiaduce - menej žiaduce - viac žiaduce - najžiadanejšie - optimálne ( štandard).

Metóda normatívneho prognózovania pomáha vypracovať odporúčania na zvýšenie úrovne objektivity, a tým aj účinnosti rozhodnutí.

Modelovanie, možno najkomplexnejšia metóda prognózovania. Matematické modelovanie znamená popis ekonomického javu prostredníctvom matematických vzorcov, rovníc a nerovníc. Matematický aparát musí presne odrážať pozadie predpovede, aj keď je dosť ťažké plne odrážať celú hĺbku a zložitosť predpovedaného objektu. Pojem „model“ je odvodený z latinského slova models, čo znamená „merať“. Preto by bolo správnejšie považovať modelovanie nie za metódu prognózovania, ale za metódu štúdia podobného javu pomocou modelu.

V širšom zmysle sú modely náhradami predmetu štúdia, ktoré sú mu podobné takým spôsobom, ktorý umožňuje získať nové poznatky o predmete. Model by sa mal považovať za matematický popis objektu. V tomto prípade je model definovaný ako jav (objekt, prostredie), ktorý je v určitej korešpondencii so skúmaným objektom a môže ho nahradiť v procese výskumu, prezentujúc informácie o objekte.

Pri užšom chápaní modelu sa považuje za objekt predikcie, jeho štúdium umožňuje získať informácie o možných stavoch objektu v budúcnosti a spôsoboch, ako tieto stavy dosiahnuť. V tomto prípade je cieľom prediktívneho modelu získať informácie nie o objekte vo všeobecnosti, ale len o jeho budúcich stavoch. Potom pri zostavovaní modelu môže byť nemožné priamo skontrolovať jeho súlad s objektom, pretože model predstavuje iba jeho budúci stav a samotný objekt môže v súčasnosti chýbať alebo mať inú existenciu.

Modely môžu byť materiálne alebo ideálne.

Ekonomika využíva ideálne modely. Najpokročilejším ideálnym modelom na kvantitatívny popis sociálno-ekonomického (ekonomického) javu je matematický model využívajúci čísla, vzorce, rovnice, algoritmy alebo grafické znázornenie. Pomocou ekonomických modelov určujú:

    závislosť medzi rôznymi ekonomickými ukazovateľmi;

    rôzne druhy obmedzení uvalených na ukazovatele;

    kritériá na optimalizáciu procesu.

Zmysluplný popis objektu môže byť prezentovaný vo forme jeho formalizovaného diagramu, ktorý naznačuje, aké parametre a počiatočné informácie je potrebné zhromaždiť, aby sa vypočítali požadované množstvá. Matematický model, na rozdiel od formalizovanej schémy, obsahuje špecifické numerické údaje, ktoré charakterizujú objekt, vývoj matematického modelu do značnej miery závisí od toho, ako prognostik porozumie podstate modelovaného procesu. Na základe svojich predstáv predkladá pracovnú hypotézu, pomocou ktorej sa vytvára analytický záznam modelu vo forme vzorcov, rovníc a nerovníc. Výsledkom riešenia sústavy rovníc sa získajú špecifické parametre funkcie, ktoré popisujú zmenu požadovaných premenných v čase.

Poradie a postupnosť prác ako prvok organizácie prognózy sa určuje v závislosti od použitej metódy prognózovania. Zvyčajne sa táto práca vykonáva v niekoľkých etapách.

Fáza 1 - prediktívna retrospekcia, t.j. stanovenie predpovedného objektu a pozadia predpovede. Práca v prvej fáze sa vykonáva v nasledujúcom poradí:

    vytvorenie popisu objektu v minulosti, ktorý zahŕňa predprognóznu analýzu objektu, posúdenie jeho parametrov, ich významu a vzájomných vzťahov,

    identifikácia a hodnotenie zdrojov informácií, postup a organizácia práce s nimi, zber a umiestňovanie retrospektívnych informácií;

    stanovenie cieľov výskumu.

Prognostici, ktorí vykonávajú úlohy retrospekcie prognózy, skúmajú históriu vývoja objektu a pozadie prognózy, aby získali ich systematický popis.

2. etapa - prediktívna diagnostika, počas ktorej sa skúma systematický popis objektu prognózy a pozadia prognózy s cieľom identifikovať trendy v ich vývoji a vybrať modely a metódy prognózy. Práca sa vykonáva v nasledujúcom poradí:

    vypracovanie modelu predpovedného objektu, vrátane formalizovaného popisu objektu, kontrola miery primeranosti modelu k objektu;

    výber prognostických metód (hlavných a pomocných), vývoj algoritmu a pracovných programov.

3. fáza - ochrana, t. j. proces rozsiahleho vývoja prognózy, zahŕňajúci: 1) výpočet predikovaných parametrov pre dané predstihové obdobie; 2) syntéza jednotlivých komponentov prognózy.

4. etapa - posúdenie predpovede vrátane jej overenia, t.j. určenie stupňa spoľahlivosti, presnosti a platnosti.

V priebehu prospekcie a hodnotenia sa na základe predchádzajúcich etáp rieši problematika prognózovania a jej hodnotenia.

Uvedené fázy sú približné a závisia od hlavnej metódy prognózovania.

Výsledky prognózy sa vypracujú vo forme certifikátu, správy alebo iného materiálu a predložia sa zákazníkovi.

V predpovedi je možné uviesť veľkosť odchýlky predpovede od skutočného stavu objektu, ktorá sa nazýva chyba predpovede, ktorá sa vypočíta podľa vzorca:

;
;
. (9.3)

Zdroje chýb v prognózovaní

Hlavnými zdrojmi môžu byť:

1. Jednoduchý prenos (extrapolácia) údajov z minulosti do budúcnosti (napr. spoločnosť nemá iné možnosti prognózy okrem 10% rastu tržieb).

2. Neschopnosť presne určiť pravdepodobnosť udalosti a jej dopad na skúmaný objekt.

3. Nepredvídané ťažkosti (rušivé udalosti) ovplyvňujúce realizáciu plánu, napríklad náhle odvolanie vedúceho obchodného oddelenia.

Vo všeobecnosti sa presnosť prognóz zvyšuje, keď sa hromadia skúsenosti s prognózami a zdokonaľujú sa jej metódy.

Pojmy korelácia a regresia spolu priamo súvisia. Existuje mnoho bežných výpočtových techník v korelačnej a regresnej analýze. Používajú sa na identifikáciu príčinno-dôsledkových vzťahov medzi javmi a procesmi. Ak však korelačná analýza nám umožňuje odhadnúť silu a smer stochastického spojenia, teda regresná analýza- tiež forma závislosti.

Regresia môže byť:

a) v závislosti od počtu javov (premenných):

Jednoduché (regresia medzi dvoma premennými);

Multiple (regresia medzi závislou premennou (y) a niekoľkými vysvetľujúcimi premennými (x1, x2...xn);

b) v závislosti od formy:

Lineárne (zobrazuje sa lineárnou funkciou a medzi skúmanými premennými existujú lineárne vzťahy);

Nelineárny (zobrazuje sa nelineárnou funkciou; vzťah medzi skúmanými premennými je nelineárny);

c) podľa povahy vzťahu medzi premennými zahrnutými do úvahy:

Pozitívne (zvýšenie hodnoty vysvetľujúcej premennej vedie k zvýšeniu hodnoty závislej premennej a naopak);

Negatívne (s rastúcou hodnotou vysvetľujúcej premennej klesá hodnota vysvetľovanej premennej);

d) podľa typu:

Priame (v tomto prípade má príčina priamy vplyv na účinok, t. j. závislé a vysvetľujúce premenné spolu priamo súvisia);

Nepriame (vysvetľujúca premenná má nepriamy vplyv prostredníctvom tretej alebo viacerých ďalších premenných na závislú premennú);

Falošná (nezmyselná regresia) – môže vzniknúť pri povrchnom a formálnom prístupe k skúmaným procesom a javom. Príkladom nezmyselného je regresia ustanovujúca súvislosť medzi poklesom množstva vypitého alkoholu u nás a poklesom predaja pracieho prášku.

Pri vykonávaní regresnej analýzy sa riešia tieto hlavné úlohy:

1. Určenie formy závislosti.

2. Definícia regresnej funkcie. Na tento účel sa používa matematická rovnica jedného alebo druhého typu, ktorá umožňuje po prvé stanoviť všeobecný trend zmeny závislej premennej a po druhé vypočítať vplyv vysvetľujúcej premennej (alebo niekoľkých premenných) na závislá premenná.

3. Odhad neznámych hodnôt závislej premennej. Výsledný matematický vzťah (regresná rovnica) umožňuje určiť hodnotu závislej premennej tak v rámci intervalu špecifikovaných hodnôt vysvetľujúcich premenných, ako aj mimo neho. V druhom prípade funguje regresná analýza ako užitočný nástroj pri predpovedaní zmien v sociálno-ekonomických procesoch a javoch (za predpokladu, že sa zachovajú existujúce trendy a vzťahy). Dĺžka časového obdobia, pre ktoré sa prognózy vykonávajú, sa zvyčajne volí tak, aby nepresahovala polovicu časového intervalu, počas ktorého sa vykonávali pozorovania počiatočných ukazovateľov. Je možné vykonať pasívnu predpoveď, ktorá rieši problém extrapolácie, aj aktívnu, uvažovať podľa známej schémy „ak..., tak“ a dosadiť rôzne hodnoty do jednej alebo viacerých vysvetľujúcich regresných premenných. .



Pre regresná konštrukciašpeciálna metóda tzv metóda najmenších štvorcov. Táto metóda má oproti iným metódam vyhladzovania výhody: relatívne jednoduché matematické určenie požadovaných parametrov a dobré teoretické zdôvodnenie z pravdepodobnostného hľadiska.

Pri výbere regresného modelu je jednou zo základných požiadaviek naň zabezpečenie čo najväčšej jednoduchosti, ktorá vám umožní získať riešenie s dostatočnou presnosťou. Preto, aby sme vytvorili štatistické vzťahy, najprv spravidla uvažujeme model z triedy lineárnych funkcií (ako najjednoduchšiu zo všetkých možných tried funkcií):

kde bi, b2...bj sú koeficienty, ktoré určujú vplyv nezávislých premenných xij na hodnotu yi; ai - voľný člen; ei - náhodná odchýlka, ktorá odráža vplyv nezapočítaných faktorov na závislú premennú; n - počet nezávislých premenných; N je počet pozorovaní a musí byť splnená podmienka (N . n+1).

Lineárny model dokáže opísať veľmi širokú triedu rôznych úloh. V praxi, najmä v sociálno-ekonomických systémoch, je však niekedy ťažké použiť lineárne modely z dôvodu veľkých aproximačných chýb. Preto sa často používajú nelineárne viacnásobné regresné funkcie, ktoré možno linearizovať. Patrí medzi ne napríklad produkčná funkcia (Cobb-Douglasova mocenská funkcia), ktorá našla uplatnenie v rôznych sociálno-ekonomických štúdiách. Vyzerá to ako:

kde b 0 je normalizačný faktor, b 1 ... b j sú neznáme koeficienty, e i je náhodná odchýlka.

Pomocou prirodzených logaritmov môžete túto rovnicu transformovať do lineárnej formy:

Výsledný model umožňuje použiť štandardné postupy lineárnej regresie opísané vyššie. Vytvorením modelov dvoch typov (aditívnych a multiplikatívnych) si môžete vybrať ten najlepší a vykonať ďalší výskum s menšími chybami aproximácie.

Existuje dobre vyvinutý systém výberu aproximačných funkcií - metóda skupinového účtovania argumentov(MGUA).

Správnosť zvoleného modelu možno posúdiť na základe výsledkov štúdia rezíduí, čo sú rozdiely medzi pozorovanými hodnotami y i a zodpovedajúcimi hodnotami y i predpovedanými pomocou regresnej rovnice. V tomto prípade na kontrolu vhodnosti modelu vypočítané priemerná chyba aproximácie:

Model sa považuje za primeraný, ak e nie je väčšie ako 15 %.

Osobitne zdôrazňujeme, že vo vzťahu k sociálno-ekonomickým systémom nie sú vždy splnené základné podmienky primeranosti klasického regresného modelu.

Bez toho, aby sme sa pozastavili nad všetkými príčinami vzniknutej nedostatočnosti, budeme len menovať multikolinearita- najťažší problém efektívneho uplatňovania postupov regresnej analýzy pri štúdiu štatistických závislostí. Pod multikolinearita rozumie sa, že medzi vysvetľujúcimi premennými existuje lineárny vzťah.

Tento jav:

a) skresľuje význam regresných koeficientov pri ich zmysluplnej interpretácii;

b) znižuje presnosť hodnotenia (zvyšuje sa rozptyl hodnotení);

c) zvyšuje citlivosť odhadov koeficientov na údaje vzorky (zväčšenie veľkosti vzorky môže odhady výrazne ovplyvniť).

Existujú rôzne techniky na zníženie multikolinearity. Najdostupnejším spôsobom je eliminovať jednu z dvoch premenných, ak korelačný koeficient medzi nimi prekročí hodnotu rovnajúcu sa absolútnej hodnote 0,8. O tom, ktoré z premenných sa ponechajú, sa rozhoduje na základe vecných úvah. Potom sa znovu vypočítajú regresné koeficienty.

Použitie krokového regresného algoritmu vám umožňuje postupne zahrnúť jednu nezávislú premennú do modelu a analyzovať význam regresných koeficientov a multikolinearitu premenných. Nakoniec v skúmanom vzťahu zostávajú len tie premenné, ktoré poskytujú potrebný význam regresných koeficientov a minimálny vplyv multikolinearity.

V predchádzajúcich príspevkoch sa analýza často zameriavala na jednu číselnú premennú, ako sú výnosy podielových fondov, časy načítania webových stránok alebo spotreba nealkoholických nápojov. V tejto a nasledujúcich poznámkach sa pozrieme na metódy predpovedania hodnôt číselnej premennej v závislosti od hodnôt jednej alebo viacerých ďalších číselných premenných.

Materiál bude ilustrovaný prierezovým príkladom. Predpovedanie objemu predaja v obchode s odevmi. Sieť diskontných predajní oblečenia Sunflowers sa už 25 rokov neustále rozširuje. Spoločnosť však v súčasnosti nemá systematický prístup k výberu nových predajní. Miesto, v ktorom má spoločnosť v úmysle otvoriť novú predajňu, sa určuje na základe subjektívnych úvah. Kritériom výberu sú výhodné podmienky prenájmu alebo predstava manažéra o ideálnom umiestnení predajne. Predstavte si, že ste vedúcim oddelenia špeciálnych projektov a plánovania. Dostali ste za úlohu vypracovať strategický plán otvárania nových predajní. Tento plán by mal obsahovať prognózu ročného predaja pre novootvorené predajne. Domnievate sa, že maloobchodný priestor priamo súvisí s príjmami a chcete to zohľadniť vo svojom rozhodovacom procese. Ako vytvoríte štatistický model na predpovedanie ročného predaja na základe veľkosti nového obchodu?

Regresná analýza sa zvyčajne používa na predpovedanie hodnôt premennej. Jeho cieľom je vyvinúť štatistický model, ktorý dokáže predpovedať hodnoty závislej premennej alebo odozvy z hodnôt aspoň jednej nezávislej alebo vysvetľujúcej premennej. V tejto poznámke sa pozrieme na jednoduchú lineárnu regresiu - štatistickú metódu, ktorá vám umožňuje predpovedať hodnoty závislej premennej Y nezávisle premennými hodnotami X. Nasledujúce poznámky budú popisovať viacnásobný regresný model určený na predpovedanie hodnôt nezávislej premennej Y na základe hodnôt niekoľkých závislých premenných ( X 1, X 2, …, X k).

Stiahnite si poznámku vo formáte alebo formáte, príklady vo formáte

Typy regresných modelov

Kde ρ 1 – autokorelačný koeficient; Ak ρ 1 = 0 (žiadna autokorelácia), D= 2; Ak ρ 1 ≈ 1 (pozitívna autokorelácia), D= 0; Ak ρ 1 = -1 (negatívna autokorelácia), D ≈ 4.

V praxi je použitie Durbin-Watsonovho kritéria založené na porovnávaní hodnoty D s kritickými teoretickými hodnotami d L A d U pre daný počet pozorovaní n, počet nezávislých premenných modelu k(pre jednoduchú lineárnu regresiu k= 1) a hladina významnosti α. Ak D< d L , hypotéza o nezávislosti náhodných odchýlok je zamietnutá (preto existuje pozitívna autokorelácia); Ak D>dU, hypotéza nie je zamietnutá (to znamená, že neexistuje autokorelácia); Ak d L< D < d U , neexistujú dostatočné dôvody na rozhodnutie. Keď vypočítaná hodnota D presahuje 2, potom s d L A d U Neporovnáva sa samotný koeficient D a výraz (4 – D).

Ak chcete vypočítať štatistiku Durbin-Watson v Exceli, obráťme sa na spodnú tabuľku na obr. 14 Odňatie rovnováhy. Čitateľ vo výraze (10) sa vypočíta pomocou funkcie =SUMMAR(pole1;pole2) a menovateľ =SUMMAR(pole) (obr. 16).

Ryža. 16. Vzorce na výpočet Durbin-Watsonovej štatistiky

V našom príklade D= 0,883. Hlavná otázka znie: akú hodnotu Durbinovej-Watsonovej štatistiky treba považovať za dostatočne malú na to, aby sme dospeli k záveru, že existuje pozitívna autokorelácia? Je potrebné korelovať hodnotu D s kritickými hodnotami ( d L A d U), v závislosti od počtu pozorovaní n a hladina významnosti α (obr. 17).

Ryža. 17. Kritické hodnoty štatistiky Durbin-Watson (fragment tabuľky)

V probléme objemu predaja v predajni dodávajúcej tovar domov teda existuje jedna nezávislá premenná ( k= 1), 15 pozorovaní ( n= 15) a hladina významnosti α = 0,05. teda d L= 1,08 a dU= 1,36. Pretože D = 0,883 < d L= 1,08, medzi rezíduami je pozitívna autokorelácia, nemožno použiť metódu najmenších štvorcov.

Testovanie hypotéz o sklone a korelačnom koeficiente

Vyššie uvedená regresia bola použitá výlučne na prognózovanie. Určiť regresné koeficienty a predpovedať hodnotu premennej Y pre danú premennú hodnotu X Bola použitá metóda najmenších štvorcov. Okrem toho sme skúmali strednú kvadratickú chybu odhadu a zmiešaný korelačný koeficient. Ak analýza rezíduí potvrdí, že nie sú porušené podmienky použiteľnosti metódy najmenších štvorcov a jednoduchý lineárny regresný model je na základe údajov vzorky adekvátny, možno tvrdiť, že medzi premennými v populácia.

Aplikáciat -kritériá pre sklon. Testovaním, či sa populačný sklon β 1 rovná nule, môžete určiť, či medzi premennými existuje štatisticky významný vzťah X A Y. Ak je táto hypotéza zamietnutá, možno tvrdiť, že medzi premennými X A Y existuje lineárny vzťah. Nulová a alternatívna hypotéza sú formulované nasledovne: H 0: β 1 = 0 (neexistuje lineárna závislosť), H1: β 1 ≠ 0 (existuje lineárna závislosť). A-priorstvo t-štatistika sa rovná rozdielu medzi sklonom vzorky a hypotetickou hodnotou sklonu populácie, vydelenému strednou kvadratickou chybou odhadu sklonu:

(11) t = (b 1 β 1 ) / Sb 1

Kde b 1 – sklon priamej regresie na vzorových údajoch, β1 – hypotetický sklon priamej populácie, a testovacie štatistiky tt-distribúcia s n – 2 stupne slobody.

Overme si, či existuje štatisticky významný vzťah medzi veľkosťou predajne a ročným obratom pri α = 0,05. t-kritérium sa pri použití zobrazí spolu s ďalšími parametrami Analytický balík(možnosť Regresia). Kompletné výsledky analytického balíka sú znázornené na obr. 4, fragment súvisiaci s t-štatistikou - na obr. 18.

Ryža. 18. Výsledky aplikácie t

Od počtu predajní n= 14 (pozri obr. 3), kritická hodnota t-štatistiku na hladine významnosti α = 0,05 možno nájsť pomocou vzorca: tL=STUDENT.ARV(0,025,12) = –2,1788, kde 0,025 je polovica hladiny významnosti a 12 = n – 2; t U=ŠTUDENT.OBR(0,975;12) = +2,1788.

Pretože t-štatistika = 10,64 > t U= 2,1788 (obr. 19), nulová hypotéza H 0 odmietol. Na druhej strane, R- hodnota za X= 10,6411, vypočítané podľa vzorca =1-STUDENT.DIST(D3,12,TRUE), sa približne rovná nule, takže hypotéza H 0 opäť zamietnuté. Skutočnosť, že R-hodnota takmer nula znamená, že ak by neexistoval skutočný lineárny vzťah medzi veľkosťou predajní a ročnými tržbami, bolo by prakticky nemožné ho odhaliť pomocou lineárnej regresie. Preto existuje štatisticky významný lineárny vzťah medzi priemerným ročným predajom predajne a veľkosťou predajne.

Ryža. 19. Testovanie hypotézy o sklone populácie na hladine významnosti 0,05 a 12 stupňov voľnosti

AplikáciaF -kritériá pre sklon. Alternatívnym prístupom k testovaniu hypotéz o sklone jednoduchej lineárnej regresie je použitie F-kritériá. Pripomeňme si to F-test sa používa na testovanie vzťahu medzi dvoma rozptylmi (podrobnejšie pozri). Pri testovaní hypotézy sklonu je mierou náhodných chýb rozptyl chýb (súčet štvorcových chýb delený počtom stupňov voľnosti), takže F-kritérium používa pomer rozptylu vysvetleného regresiou (t.j. hodnota SSR, delené počtom nezávislých premenných k), na odchýlku chyby ( MSE = S YX 2 ).

A-priorstvo F-štatistika sa rovná strednej štvorci regresie (MSR) vydelenej rozptylom chýb (MSE): F = MSR/ MSE, Kde MSR=SSR / k, MSE =SSE/(n– k – 1), k– počet nezávislých premenných v regresnom modeli. Testovacie štatistiky FF-distribúcia s k A n– k – 1 stupne slobody.

Pre danú hladinu významnosti α je rozhodovacie pravidlo formulované takto: ak F>FU, nulová hypotéza je zamietnutá; inak sa neodmieta. Výsledky prezentované vo forme súhrnnej tabuľky analýzy rozptylu sú znázornené na obr. 20.

Ryža. 20. Analýza variančnej tabuľky na testovanie hypotézy o štatistickej významnosti regresného koeficientu

Podobne t-kritérium F- pri použití sa kritérium zobrazí v tabuľke Analytický balík(možnosť Regresia). Kompletné výsledky práce Analytický balík sú znázornené na obr. 4, fragment súvisiaci s F-štatistika – na obr. 21.

Ryža. 21. Výsledky aplikácie F-kritériá získané pomocou balíka Excel Analysis Package

F-štatistika je 113,23 a R-hodnota blízka nule (bunka VýznamF). Ak je hladina významnosti α 0,05, určte kritickú hodnotu F-rozdelenia s jedným a 12 stupňami voľnosti možno získať pomocou vzorca F U=F.OBR(1-0,05;1;12) = 4,7472 (obr. 22). Pretože F = 113,23 > F U= 4,7472 a R- hodnota blízka 0< 0,05, нулевая гипотеза H 0 sa zamieta, t.j. Veľkosť predajne úzko súvisí s jej ročnými tržbami.

Ryža. 22. Testovanie hypotézy sklonu populácie na hladine významnosti 0,05 s jedným a 12 stupňami voľnosti

Interval spoľahlivosti obsahujúci sklon β 1 . Na testovanie hypotézy, že medzi premennými existuje lineárny vzťah, môžete zostrojiť interval spoľahlivosti obsahujúci sklon β 1 a overiť, že hypotetická hodnota β 1 ​​= 0 patrí do tohto intervalu. Stred intervalu spoľahlivosti obsahujúceho sklon β 1 je sklon vzorky b 1 , a jeho hranicami sú množstvá b 1 ±tn –2 Sb 1

Ako je znázornené na obr. 18, b 1 = +1,670, n = 14, Sb 1 = 0,157. t 12 =STUDENT.ARV(0,975;12) = 2,1788. teda b 1 ±tn –2 Sb 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342 alebo + 1,328 ≤ p1 ≤ +2,012. Existuje teda pravdepodobnosť 0,95, že sklon populácie leží medzi +1,328 a +2,012 (t.j. 1 328 000 až 2 012 000 USD). Keďže tieto hodnoty sú väčšie ako nula, existuje štatisticky významný lineárny vzťah medzi ročným predajom a plochou predajne. Ak by interval spoľahlivosti obsahoval nulu, medzi premennými by neexistoval žiadny vzťah. Okrem toho interval spoľahlivosti znamená, že každé zvýšenie predajnej plochy o 1 000 m2. ft. vedie k zvýšeniu priemerného objemu predaja medzi 1 328 000 a 2 012 000 USD.

Použitiet -kritériá pre korelačný koeficient. bol zavedený korelačný koeficient r, čo je miera vzťahu medzi dvoma číselnými premennými. Môže sa použiť na určenie, či existuje štatisticky významný vzťah medzi dvoma premennými. Korelačný koeficient medzi populáciami oboch premenných označme symbolom ρ. Nulová a alternatívna hypotéza sú formulované takto: H 0: ρ = 0 (žiadna korelácia), H 1: ρ ≠ 0 (existuje korelácia). Kontrola existencie korelácie:

Kde r = + , Ak b 1 > 0, r = – , Ak b 1 < 0. Тестовая статистика tt-distribúcia s n – 2 stupne slobody.

V probléme o sieti predajní Sunflowers r 2= 0,904, a b 1- +1,670 (pozri obr. 4). Pretože b 1> 0, korelačný koeficient medzi ročným obratom a veľkosťou predajne je r= +√0,904 = +0,951. Otestujme pomocou nulovej hypotézy, že medzi týmito premennými neexistuje žiadna korelácia t- štatistika:

Na hladine významnosti α = 0,05 by mala byť nulová hypotéza zamietnutá, pretože t= 10,64 > 2,1788. Dá sa teda tvrdiť, že medzi ročným obratom a veľkosťou predajne existuje štatisticky významný vzťah.

Pri diskusii o záveroch týkajúcich sa sklonu populácie sa intervaly spoľahlivosti a testy hypotéz používajú zameniteľne. Výpočet intervalu spoľahlivosti obsahujúceho korelačný koeficient sa však ukazuje ako zložitejší, pretože typ rozdelenia vzorky štatistických údajov r závisí od skutočného korelačného koeficientu.

Odhad matematického očakávania a predikcie jednotlivých hodnôt

Táto časť sa zaoberá metódami odhadu matematického očakávania odpovede Y a predpovede jednotlivých hodnôt Y pre dané hodnoty premennej X.

Zostrojenie intervalu spoľahlivosti. V príklade 2 (pozri časť vyššie Metóda najmenších štvorcov) regresná rovnica umožnila predpovedať hodnotu premennej Y X. Pri probléme výberu miesta pre maloobchod je priemerný ročný objem predaja v obchode s rozlohou 4 000 m2. stôp sa rovnalo 7,644 miliónom dolárov. Tento odhad matematického očakávania všeobecnej populácie je však bodový. Na odhadnutie matematického očakávania populácie bol navrhnutý koncept intervalu spoľahlivosti. Podobne môžeme predstaviť koncept interval spoľahlivosti pre matematické očakávanie odpovede pre danú premennú hodnotu X:

Kde , = b 0 + b 1 X i– predpokladaná hodnota je premenlivá Y pri X = X i, S YX– stredná kvadratická chyba, n- veľkosť vzorky, Xi- špecifikovaná hodnota premennej X, µ Y|X = Xi– matematické očakávanie premennej Y pri X = Xi, SSX =

Analýza vzorca (13) ukazuje, že šírka intervalu spoľahlivosti závisí od viacerých faktorov. Na danej hladine významnosti vedie zvýšenie amplitúdy fluktuácií okolo regresnej priamky, merané pomocou odmocniny strednej štvorcovej chyby, k zväčšeniu šírky intervalu. Na druhej strane, ako by sa dalo očakávať, nárast veľkosti vzorky je sprevádzaný zúžením intervalu. Okrem toho sa šírka intervalu mení v závislosti od hodnôt Xi. Ak je premenná hodnota Y predpovedané pre množstvá X blízko priemernej hodnoty interval spoľahlivosti sa ukáže byť užší ako pri predpovedaní odozvy pre hodnoty ďaleko od priemeru.

Povedzme, že pri výbere miesta predajne chceme skonštruovať 95% interval spoľahlivosti pre priemerné ročné tržby všetkých predajní, ktorých plocha je 4000 metrov štvorcových. nohy:

Preto je priemerný ročný objem predaja vo všetkých predajniach s rozlohou 4 000 m2. stôp, s 95% pravdepodobnosťou leží v rozmedzí od 6,971 do 8,317 milióna dolárov.

Vypočítajte interval spoľahlivosti pre predpokladanú hodnotu. Okrem intervalu spoľahlivosti pre matematické očakávanie odozvy pre danú hodnotu premennej X, je často potrebné poznať interval spoľahlivosti pre predpovedanú hodnotu. Hoci vzorec na výpočet takéhoto intervalu spoľahlivosti je veľmi podobný vzorcu (13), tento interval obsahuje skôr predpokladanú hodnotu než odhad parametra. Interval pre predpokladanú odpoveď YX = Xi pre konkrétnu premennú hodnotu Xi určený podľa vzorca:

Predpokladajme, že pri výbere miesta pre maloobchodnú predajňu chceme skonštruovať 95 % interval spoľahlivosti pre predpokladaný ročný objem predaja pre predajňu, ktorej plocha je 4 000 metrov štvorcových. nohy:

Preto predpokladaný ročný objem predaja pre obchod s rozlohou 4000 m2. stôp, s 95% pravdepodobnosťou leží v rozmedzí od 5,433 do 9,854 milióna dolárov, ako môžeme vidieť, interval spoľahlivosti pre predpovedanú hodnotu odozvy je oveľa širší ako interval spoľahlivosti pre jej matematické očakávania. Je to preto, že variabilita pri predpovedaní jednotlivých hodnôt je oveľa väčšia ako pri odhadovaní matematického očakávania.

Úskalia a etické problémy spojené s používaním regresie

Ťažkosti spojené s regresnou analýzou:

  • Ignorovanie podmienok použiteľnosti metódy najmenších štvorcov.
  • Chybné posúdenie podmienok použiteľnosti metódy najmenších štvorcov.
  • Nesprávny výber alternatívnych metód pri porušení podmienok použiteľnosti metódy najmenších štvorcov.
  • Aplikácia regresnej analýzy bez hlbších znalostí predmetu výskumu.
  • Extrapolácia regresie za rozsah vysvetľujúcej premennej.
  • Zámena medzi štatistickými a kauzálnymi vzťahmi.

Široké používanie tabuliek a štatistického softvéru odstránilo problémy s výpočtom, ktoré bránili použitiu regresnej analýzy. To však viedlo k tomu, že regresnú analýzu používali používatelia, ktorí nemali dostatočnú kvalifikáciu a znalosti. Ako môžu používatelia vedieť o alternatívnych metódach, ak mnohí z nich vôbec nemajú potuchy o podmienkach použiteľnosti metódy najmenších štvorcov a nevedia, ako skontrolovať ich implementáciu?

Výskumník by sa nemal nechať unášať chrumkavými číslami – výpočtom posunu, sklonu a zmiešaného korelačného koeficientu. Potrebuje hlbšie vedomosti. Ilustrujme si to na klasickom príklade prevzatom z učebníc. Anscombe ukázal, že všetky štyri súbory údajov zobrazené na obr. 23, majú rovnaké regresné parametre (obr. 24).

Ryža. 23. Štyri umelé súbory údajov

Ryža. 24. Regresná analýza štyroch súborov umelých údajov; hotovo s Analytický balík(kliknutím na obrázok sa obrázok zväčší)

Takže z pohľadu regresnej analýzy sú všetky tieto súbory údajov úplne identické. Ak by tam analýza skončila, prišli by sme o množstvo užitočných informácií. Dôkazom toho sú bodové grafy (obrázok 25) a zvyškové grafy (obrázok 26) vytvorené pre tieto súbory údajov.

Ryža. 25. Bodové grafy pre štyri súbory údajov

Bodové grafy a reziduálne grafy naznačujú, že tieto údaje sa navzájom líšia. Jediná množina rozložená pozdĺž priamky je množina A. Graf rezíduí vypočítaný zo množiny A nemá žiadny vzor. To sa nedá povedať o súboroch B, C a D. Bodový graf vynesený pre súbor B ukazuje výrazný kvadratický vzor. Tento záver potvrdzuje zvyškový graf, ktorý má parabolický tvar. Bodový graf a reziduálny graf ukazujú, že súbor údajov B ​​obsahuje odľahlú hodnotu. V tejto situácii je potrebné vylúčiť zo súboru údajov odľahlú hodnotu a zopakovať analýzu. Metóda detekcie a eliminácie odľahlých hodnôt v pozorovaniach sa nazýva analýza vplyvu. Po odstránení odľahlej hodnoty môže byť výsledok opätovného odhadu modelu úplne iný. Bodový graf vynesený z údajov zo súboru G ilustruje neobvyklú situáciu, v ktorej empirický model výrazne závisí od individuálnej reakcie ( X 8 = 19, Y 8 = 12,5). Takéto regresné modely musia byť vypočítané obzvlášť starostlivo. Takže rozptylové a reziduálne grafy sú základným nástrojom regresnej analýzy a mali by byť jej neoddeliteľnou súčasťou. Bez nich nie je regresná analýza dôveryhodná.

Ryža. 26. Grafy zvyškov pre štyri súbory údajov

Ako sa vyhnúť nástrahám regresnej analýzy:

  • Analýza možných vzťahov medzi premennými X A Y vždy začnite kreslením bodového grafu.
  • Pred interpretáciou výsledkov regresnej analýzy skontrolujte podmienky jej použiteľnosti.
  • Zostavte rezíduá oproti nezávislej premennej. To umožní určiť, ako dobre sa empirický model zhoduje s výsledkami pozorovania a odhaliť porušenie konštanty rozptylu.
  • Na testovanie predpokladu normálneho rozdelenia chýb použite histogramy, grafy stonky a listu, krabicové grafy a grafy normálneho rozdelenia.
  • Ak nie sú splnené podmienky použiteľnosti metódy najmenších štvorcov, použite alternatívne metódy (napríklad kvadratické alebo viacnásobné regresné modely).
  • Ak sú splnené podmienky použiteľnosti metódy najmenších štvorcov, je potrebné otestovať hypotézu o štatistickej významnosti regresných koeficientov a zostrojiť intervaly spoľahlivosti obsahujúce matematické očakávanie a predpovedanú hodnotu odozvy.
  • Vyhnite sa predpovedaniu hodnôt závislej premennej mimo rozsahu nezávislej premennej.
  • Majte na pamäti, že štatistické vzťahy nie sú vždy príčinou a následkom. Pamätajte, že korelácia medzi premennými neznamená, že medzi nimi existuje vzťah príčina-následok.

Zhrnutie. Ako je znázornené na blokovom diagrame (obrázok 27), poznámka popisuje jednoduchý lineárny regresný model, podmienky jeho použiteľnosti a spôsob testovania týchto podmienok. Zvážené t-kritérium pre testovanie štatistickej významnosti regresnej smernice. Na predpovedanie hodnôt závislej premennej bol použitý regresný model. Príklad sa považuje za súvisiaci s výberom miesta pre maloobchod, v ktorom sa skúma závislosť ročného objemu predaja od predajnej plochy. Získané informácie vám umožňujú presnejšie vybrať miesto pre predajňu a predpovedať jej ročný objem predaja. Nasledujúce poznámky budú pokračovať v diskusii o regresnej analýze a tiež sa budú zaoberať viacerými regresnými modelmi.

Ryža. 27. Schéma štruktúry poznámky

Používajú sa materiály z knihy Levin et al. – M.: Williams, 2004. – s. 792–872

Ak je závislá premenná kategorická, musí sa použiť logistická regresia.

Páčil sa vám článok? Zdieľaj to