Kontakty

Príklady riešenia problémov metódou najmenších štvorcov. Metóda najmenších štvorcov

Method Essence najmenších štvorcov je pri hľadaní parametrov trendového modelu, ktorý najlepšie vystihuje trend vývoja nejakého náhodného javu v čase alebo priestore (trend je čiara, ktorá charakterizuje trend tohto vývoja). Úlohou metódy najmenších štvorcov (OLS) je nájsť nielen nejaký trendový model, ale nájsť najlepší alebo optimálny model. Tento model bude optimálny, ak súčet štvorcových odchýlok medzi pozorovanými skutočnými hodnotami a zodpovedajúcimi vypočítanými trendovými hodnotami je minimálny (najmenší):

kde je štandardná odchýlka medzi pozorovanou skutočnou hodnotou

a zodpovedajúcu vypočítanú trendovú hodnotu,

skutočná (pozorovaná) hodnota skúmaného javu,

Odhadovaná hodnota trendového modelu,

Počet pozorovaní skúmaného javu.

MNC sa zriedka používa samostatne. Spravidla sa najčastejšie používa len ako nevyhnutná technika v korelačných štúdiách. Malo by sa pamätať na to, že informačná základňa MNC môže byť iba spoľahlivá štatistický rad a počet pozorovaní by nemal byť menší ako 4, inak môžu postupy vyhladzovania LSM stratiť svoj zdravý rozum.

Sada nástrojov OLS je zredukovaná na nasledujúce postupy:

Prvý postup. Ukazuje sa, či vôbec existuje tendencia meniť výsledný atribút, keď sa mení vybraný faktor-argument, alebo inými slovami, či existuje súvislosť medzi „ pri " a " X ».

Druhý postup. Určuje sa, ktorá línia (trajektória) najlepšie dokáže opísať alebo charakterizovať tento trend.

Tretí postup.

Príklad. Predpokladajme, že máme informácie o priemernej úrode slnečnice pre skúmanú farmu (tabuľka 9.1).

Tabuľka 9.1

Číslo pozorovania

Produktivita, c/ha

Keďže úroveň technológie výroby slnečnice sa u nás za posledných 10 rokov príliš nezmenila, znamená to, že kolísanie úrody v analyzovanom období s najväčšou pravdepodobnosťou veľmi záviselo od výkyvov počasia a klimatických podmienok. Je to pravda?

Prvý postup MNC. Testuje sa hypotéza o existencii trendu zmeny úrody slnečnice v závislosti od zmien počasia a klimatických podmienok za analyzovaných 10 rokov.

V tomto príklade pre " r » je vhodné vziať úrodu slnečnice a pre « X » je číslo sledovaného roka v analyzovanom období. Testovanie hypotézy o existencii akéhokoľvek vzťahu medzi „ X " a " r » možno vykonať dvoma spôsobmi: ručne a pomocou počítačových programov. Samozrejme, s počítačmi tento problém rieši sám. Aby sme však lepšie porozumeli súprave nástrojov OLS, odporúča sa otestovať hypotézu o existencii vzťahu medzi „ X " a " r » manuálne, keď máte po ruke iba pero a obyčajnú kalkulačku. V takýchto prípadoch je hypotéza o existencii trendu najlepšie overená vizuálne umiestnením grafického obrazu analyzovaného časového radu - korelačným poľom:

Korelačné pole v našom príklade sa nachádza okolo pomaly rastúcej čiary. To samo o sebe naznačuje existenciu určitého trendu v zmene úrody slnečnice. O prítomnosti akéhokoľvek trendu nemožno hovoriť len vtedy, keď korelačné pole vyzerá ako kruh, kruh, striktne vertikálny alebo striktne horizontálny oblak alebo pozostáva z náhodne rozptýlených bodov. Vo všetkých ostatných prípadoch je potrebné potvrdiť hypotézu o existencii vzťahu medzi „ X " a " r a pokračovať vo výskume.

Druhý postup MNC. Určuje sa, ktorá čiara (trajektória) najlepšie popíše alebo charakterizuje trend zmien úrod slnečnice za analyzované obdobie.

S dostupnosťou výpočtovej techniky dochádza k výberu optimálneho trendu automaticky. Pri "ručnom" spracovaní sa voľba optimálnej funkcie spravidla uskutočňuje vizuálnym spôsobom - umiestnením korelačného poľa. To znamená, že podľa typu grafu sa vyberie rovnica priamky, ktorá sa najlepšie hodí k empirickému trendu (k skutočnej trajektórii).

Ako viete, v prírode existuje obrovské množstvo funkčných závislostí, takže je mimoriadne ťažké vizuálne analyzovať aj malú časť z nich. Našťastie v reálnej ekonomickej praxi možno väčšinu vzťahov presne opísať buď parabolou, alebo hyperbolou, alebo priamkou. V tomto smere sa pri „manuálnej“ možnosti výberu najlepšej funkcie môžete obmedziť len na tieto tri modely.

Hyperbola:

Parabola druhého rádu: :

Je ľahké vidieť, že v našom príklade trend zmien úrody slnečnice za analyzovaných 10 rokov najlepšie charakterizuje priamka, takže regresná rovnica bude priamka.

Tretí postup. Vypočítajú sa parametre regresnej rovnice, ktorá charakterizuje túto čiaru, alebo inými slovami, určí sa analytický vzorec, ktorý popisuje najlepší trendový model.

Hľadanie hodnôt parametrov regresnej rovnice, v našom prípade parametrov a , je jadrom LSM. Tento proces sa redukuje na riešenie systému normálnych rovníc.

(9.2)

Tento systém rovníc je celkom jednoducho vyriešený Gaussovou metódou. Pripomeňme, že v dôsledku riešenia sa v našom príklade nájdu hodnoty parametrov a. Nájdená regresná rovnica teda bude mať nasledujúci tvar:

Funkciu aproximujeme polynómom 2. stupňa. Na tento účel vypočítame koeficienty normálneho systému rovníc:

, ,

Zostavme normálnu sústavu najmenších štvorcov, ktorá má tvar:

Riešenie systému je ľahké nájsť:, , .

Polynóm 2. stupňa sa teda nájde: .

Teoretický odkaz

Späť na stránku<Введение в вычислительную математику. Примеры>

Príklad 2. Nájdenie optimálneho stupňa polynómu.

Späť na stránku<Введение в вычислительную математику. Примеры>

Príklad 3. Odvodenie normálneho systému rovníc na nájdenie parametrov empirickej závislosti.

Odvoďme sústavu rovníc na určenie koeficientov a funkcií , ktorý vykonáva aproximáciu odmocniny danej funkcie vzhľadom na body. Zostavte funkciu a písať za ňu nevyhnutná podmienka extrém:

Potom bude mať normálny systém podobu:

Mám lineárny systém rovnice pre neznáme parametre a ktoré sa dajú ľahko vyriešiť.

Teoretický odkaz

Späť na stránku<Введение в вычислительную математику. Примеры>

Príklad.

Experimentálne údaje o hodnotách premenných X a pri sú uvedené v tabuľke.

Výsledkom ich zosúladenia je funkcia

Použitím metóda najmenších štvorcov, aproximovať tieto údaje s lineárnou závislosťou y=ax+b(nájdite možnosti a a b). Zistite, ktorý z dvoch riadkov je lepší (v zmysle metódy najmenších štvorcov) zarovnáva experimentálne údaje. Urobte si kresbu.

Podstata metódy najmenších štvorcov (LSM).

Problémom je nájsť lineárne koeficienty závislosti, pre ktoré je funkcia dvoch premenných a a bmá najmenšiu hodnotu. Teda vzhľadom na dáta a a b súčet štvorcových odchýlok experimentálnych údajov od nájdenej priamky bude najmenší. Toto je celý zmysel metódy najmenších štvorcov.

Riešenie príkladu sa teda redukuje na nájdenie extrému funkcie dvoch premenných.

Odvodenie vzorcov na hľadanie koeficientov.

Zostaví sa a vyrieši systém dvoch rovníc s dvoma neznámymi. Hľadanie parciálnych derivácií funkcií podľa premenných a a b, prirovnávame tieto deriváty k nule.

Výslednú sústavu rovníc riešime ľubovoľnou metódou (napr substitučná metóda alebo Cramerova metóda) a získajte vzorce na hľadanie koeficientov pomocou metódy najmenších štvorcov (LSM).

S údajmi a a b funkciu má najmenšiu hodnotu. Dôkaz o tejto skutočnosti je uvedený nižšie v texte na konci strany.

To je celá metóda najmenších štvorcov. Vzorec na nájdenie parametra a obsahuje súčty , , a parameter n je množstvo experimentálnych údajov. Hodnoty týchto súm sa odporúča vypočítať samostatne.

Koeficient b zistené po výpočte a.

Je čas pripomenúť si pôvodný príklad.

Riešenie.

V našom príklade n=5. Tabuľku vypĺňame pre pohodlie výpočtu súm, ktoré sú zahrnuté vo vzorcoch požadovaných koeficientov.

Hodnoty vo štvrtom riadku tabuľky sa získajú vynásobením hodnôt v 2. riadku hodnotami v 3. riadku pre každé číslo i.

Hodnoty v piatom riadku tabuľky sa získajú umocnením hodnôt v 2. riadku pre každé číslo i.

Hodnoty posledného stĺpca tabuľky sú súčty hodnôt v riadkoch.

Na zistenie koeficientov používame vzorce metódy najmenších štvorcov a a b. Nahradíme v nich zodpovedajúce hodnoty z posledného stĺpca tabuľky:

v dôsledku toho y = 0,165 x + 2,184 je požadovaná približná priamka.

Zostáva zistiť, ktorý z riadkov y = 0,165 x + 2,184 alebo lepšie aproximuje pôvodné údaje, t. j. urobiť odhad pomocou metódy najmenších štvorcov.

Odhad chyby metódy najmenších štvorcov.

Aby ste to dosiahli, musíte vypočítať súčty štvorcových odchýlok pôvodných údajov z týchto riadkov a , menšia hodnota zodpovedá riadku, ktorý sa lepšie približuje pôvodným údajom z hľadiska metódy najmenších štvorcov.

Od , potom riadok y = 0,165 x + 2,184 sa lepšie približuje pôvodným údajom.

Grafické znázornenie metódy najmenších štvorcov (LSM).

Na grafoch vyzerá všetko skvele. Červená čiara je nájdená čiara y = 0,165 x + 2,184, modrá čiara je , ružové bodky sú pôvodné údaje.

Na čo to je, na čo sú všetky tieto aproximácie?

Osobne používam na riešenie problémov vyhladzovania údajov, interpolácie a extrapolácie (v pôvodnom príklade by ste mohli byť požiadaní, aby ste našli hodnotu pozorovanej hodnoty r pri x=3 alebo kedy x=6 podľa metódy MNC). Ale o tom si povieme viac neskôr v inej časti stránky.

Začiatok stránky

Dôkaz.

Takže keď sa nájde a a b funkcia nadobúda najmenšiu hodnotu, je potrebné, aby v tomto bode bola matica kvadratického tvaru diferenciálu druhého rádu pre funkciu bol pozitívny jednoznačný. Ukážme to.

Rozdiel druhého rádu má tvar:

Teda

Preto má matica kvadratickej formy tvar

a hodnoty prvkov nezávisia od a a b.

Ukážme, že matica je pozitívne definitívna. To si vyžaduje, aby uhol maloletých bol pozitívny.

Uhlová moll prvého rádu . Nerovnosť je prísna, pretože body sa nezhodujú. To bude naznačené v nasledujúcom.

Uhlová minor druhého rádu

Dokážme to metóda matematickej indukcie.

Záver: nájdené hodnoty a a b korešpondovať najmenšia hodnota funkcie , preto sú požadované parametre pre metódu najmenších štvorcov.

Rozumel si niekedy?
Objednajte si riešenie

Začiatok stránky

Vypracovanie prognózy metódou najmenších štvorcov. Príklad riešenia problému

Extrapolácia - ide o metódu vedeckého výskumu, ktorá je založená na šírení minulých a súčasných trendov, zákonitostí, vzťahov k budúcemu vývoju objektu prognózovania. Extrapolačné metódy zahŕňajú metóda kĺzavého priemeru, metóda exponenciálneho vyhladzovania, metóda najmenších štvorcov.

Esencia metóda najmenších štvorcov spočíva v minimalizácii súčtu kvadratických odchýlok medzi pozorovanými a vypočítanými hodnotami. Vypočítané hodnoty sa nachádzajú podľa zvolenej rovnice - regresnej rovnice. Čím menšia je vzdialenosť medzi skutočnými hodnotami a vypočítanými, tým presnejšia je predpoveď na základe regresnej rovnice.

Ako základ pre výber krivky slúži teoretický rozbor podstaty skúmaného javu, ktorého zmenu zobrazuje časový rad. Niekedy sa berú do úvahy úvahy o povahe rastu úrovní série. Ak sa teda rast produkcie očakáva v aritmetickej progresii, potom sa vyhladenie vykoná v priamke. Ak sa ukáže, že rast je exponenciálny, vyhladenie by sa malo vykonať podľa exponenciálnej funkcie.

Pracovný vzorec metódy najmenších štvorcov : Yt+1 = a*X + b, kde t + 1 je prognózované obdobie; Уt+1 – predpokladaný ukazovateľ; a a b sú koeficienty; X - symbolčas.

Koeficienty a a b sa vypočítajú podľa nasledujúcich vzorcov:

kde Uf - skutočné hodnoty série dynamiky; n je počet úrovní v časovom rade;

Vyhladzovanie časových radov metódou najmenších štvorcov slúži na vyjadrenie zákonitostí vývoja skúmaného javu. V analytickom vyjadrení trendu sa čas považuje za nezávislú premennú a úrovne série pôsobia ako funkcia tejto nezávislej premennej.

Vývoj javu nezávisí od toho, koľko rokov uplynulo od východiskového bodu, ale od toho, aké faktory ovplyvnili jeho vývoj, akým smerom a s akou intenzitou. Z toho je zrejmé, že vývoj javu v čase sa javí ako výsledok pôsobenia týchto faktorov.

Správne nastavte typ krivky, typ analytickej závislosti od času je jedným z najviac náročné úlohy prediktívna analýza .

Výber typu funkcie, ktorá popisuje trend, ktorého parametre sú určené metódou najmenších štvorcov, je vo väčšine prípadov empirický, skonštruovaním množstva funkcií a ich vzájomným porovnaním pomocou hodnoty odmocniny. -štvorcová chyba vypočítaná podľa vzorca:

kde Uf - skutočné hodnoty série dynamiky; Ur – vypočítané (vyhladené) hodnoty časového radu; n je počet úrovní v časovom rade; p je počet parametrov definovaných vo vzorcoch popisujúcich trend (vývojový trend).

Nevýhody metódy najmenších štvorcov :

  • pri pokuse o opísanie skúmaného ekonomického javu pomocou matematickej rovnice bude predpoveď presná na krátky čas a regresná rovnica by sa mala prepočítať, keď budú k dispozícii nové informácie;
  • zložitosť výberu regresnej rovnice, ktorá je riešiteľná pomocou štandardných počítačových programov.

Príklad použitia metódy najmenších štvorcov na vytvorenie prognózy

Úloha . Existujú údaje charakterizujúce mieru nezamestnanosti v kraji, %

  • Zostavte prognózu miery nezamestnanosti v regióne na mesiace november, december, január pomocou metód: kĺzavý priemer, exponenciálne vyhladzovanie, najmenšie štvorce.
  • Vypočítajte chyby vo výsledných prognózach pomocou každej metódy.
  • Porovnajte získané výsledky, urobte závery.

Riešenie najmenších štvorcov

Pre riešenie zostavíme tabuľku, v ktorej urobíme potrebné výpočty:

ε = 28,63/10 = 2,86 % presnosť predpovede vysoká.

Záver : Porovnanie výsledkov získaných vo výpočtoch metóda kĺzavého priemeru , exponenciálne vyhladzovanie a metódou najmenších štvorcov, môžeme povedať, že priemerná relatívna chyba vo výpočtoch metódou exponenciálneho vyhladzovania spadá do 20-50%. To znamená, že presnosť predpovede je v tomto prípade iba uspokojivá.

V prvom a treťom prípade je presnosť predpovede vysoká, pretože priemerná relatívna chyba je menšia ako 10 %. Metóda kĺzavého priemeru však umožnila získať spoľahlivejšie výsledky (predpoveď na november - 1,52%, predpoveď na december - 1,53%, predpoveď na január - 1,49%), pretože priemerná relatívna chyba pri použití tejto metódy je najmenšia - 1 ,13 %.

Metóda najmenších štvorcov

Ďalšie súvisiace články:

Zoznam použitých zdrojov

  1. Vedecké a metodické odporúčania k problematike diagnostiky sociálnych rizík a predpovedania výziev, hrozieb a sociálnych dôsledkov. Ruská štátna sociálna univerzita. Moskva. 2010;
  2. Vladimírová L.P. Prognózovanie a plánovanie v trhových podmienkach: Proc. príspevok. M.: Vydavateľstvo "Dashkov and Co", 2001;
  3. Novikova N.V., Pozdeeva O.G. Prognóza národného hospodárstva: Učebná pomôcka. Jekaterinburg: Vydavateľstvo Ural. štát hospodárstva univerzita, 2007;
  4. Slutskin L.N. Kurz MBA v oblasti obchodného prognózovania. Moskva: Alpina Business Books, 2006.

Program MNE

Zadajte údaje

Údaje a aproximácia y = a + b x

i- číslo experimentálneho bodu;
x i- hodnota pevného parametra v bode i;
y i- hodnota meraného parametra v bode i;
ω i- meranie hmotnosti v bode i;
y i, calc.- rozdiel medzi nameranou hodnotou a hodnotou vypočítanou z regresie r v bode i;
S x i (x i)- odhad chyby x i pri meraní r v bode i.

Údaje a aproximácia y = k x

i x i y i ω i y i, calc. Δy i S x i (x i)

Kliknite na graf

Používateľská príručka pre online program MNC.

Do dátového poľa zadajte do každého samostatného riadku hodnoty x a y v jednom experimentálnom bode. Hodnoty musia byť oddelené medzerou (medzerou alebo tabulátorom).

Treťou hodnotou môže byť bodová váha „w“. Ak bodová váha nie je určená, potom sa rovná jednej. V drvivej väčšine prípadov sú váhy experimentálnych bodov neznáme alebo nie sú vypočítané; všetky experimentálne údaje sa považujú za ekvivalentné. Niekedy váhy v študovanom rozsahu hodnôt určite nie sú ekvivalentné a možno ich dokonca vypočítať teoreticky. Napríklad v spektrofotometrii sa hmotnosti dajú vypočítať pomocou jednoduchých vzorcov, hoci to v podstate každý zanedbáva, aby znížil náklady na prácu.

Údaje je možné vložiť cez schránku z tabuľky kancelárskeho balíka, ako je Excel z balíka Microsoft Office alebo Calc z Open Office. Pre toto v tabuľkový procesor zvýraznite rozsah údajov, ktoré sa majú skopírovať, skopírujte ich do schránky a vložte údaje do údajového poľa na tejto stránke.

Na výpočet metódou najmenších štvorcov sú potrebné aspoň dva body na určenie dvoch koeficientov „b“ – tangens uhla sklonu priamky a „a“ – hodnoty odrezanej priamkou na „y“. ` os.

Pre odhad chyby vypočítaných regresných koeficientov je potrebné nastaviť počet experimentálnych bodov na viac ako dva.

Metóda najmenších štvorcov (LSM).

Čím väčší je počet experimentálnych bodov, tým je štatistický odhad koeficientov presnejší (v dôsledku poklesu Studentovho koeficientu) a čím je odhad bližšie k odhadu všeobecnej vzorky.

Získavanie hodnôt v každom experimentálnom bode je často spojené so značnými nákladmi na pracovnú silu, preto sa často vykonáva kompromisný počet experimentov, ktorý poskytuje stráviteľný odhad a nevedie k nadmerným nákladom na pracovnú silu. Počet experimentálnych bodov pre lineárnu závislosť najmenších štvorcov s dvoma koeficientmi sa spravidla volí v rozsahu 5-7 bodov.

Stručná teória najmenších štvorcov pre lineárnu závislosť

Predpokladajme, že máme súbor experimentálnych údajov vo forme párov hodnôt [`y_i`, `x_i`], kde `i` je číslo jedného experimentálneho merania od 1 do `n`; `y_i` – hodnota nameranej hodnoty v bode `i`; `x_i` – hodnota parametra, ktorý sme nastavili v bode `i`.

Príkladom je fungovanie Ohmovho zákona. Zmenou napätia (potenciálneho rozdielu) medzi úsekmi elektrického obvodu meriame množstvo prúdu prechádzajúceho týmto úsekom. Fyzika nám dáva experimentálne zistenú závislosť:

"I=U/R",
kde `I` - sila prúdu; `R` - odpor; "U" - napätie.

V tomto prípade je „y_i“ nameraná hodnota prúdu a „x_i“ je hodnota napätia.

Ako ďalší príklad uvažujme absorpciu svetla roztokom látky v roztoku. Chémia nám dáva vzorec:

`A = εl C`,
kde "A" je optická hustota roztoku; "ε" - priepustnosť rozpustenej látky; `l` - dĺžka dráhy, keď svetlo prechádza kyvetou s roztokom; "C" je koncentrácia rozpustenej látky.

V tomto prípade je „y_i“ nameraná optická hustota „A“ a „x_i“ je koncentrácia látky, ktorú sme nastavili.

Budeme brať do úvahy prípad, keď je relatívna chyba v nastavení `x_i` oveľa menšia, relatívna chyba miery „y_i“. Budeme tiež predpokladať, že všetky namerané hodnoty `y_i` sú náhodné a normálne rozdelené, t.j. dodržiavať zákon normálneho rozdelenia.

V prípade lineárnej závislosti `y` od `x` môžeme napísať teoretickú závislosť:
„y = a + bx“.

OD geometrický bod z pohľadu koeficient "b" označuje dotyčnicu uhla sklonu priamky k osi "x" a koeficient "a" - hodnotu "y" v priesečníku priamky s ". os y (pre x = 0).

Nájdenie parametrov regresnej priamky.

V experimente nemôžu namerané hodnoty `y_i` ležať presne na teoretickej línii kvôli chybám merania, ktoré sú vždy vlastné skutočný život. Preto musí byť lineárna rovnica reprezentovaná systémom rovníc:
`y_i = a + b x_i + ε_i` (1),
kde „ε_i“ je neznáma chyba merania „y“ v „i“ experimente.

Závislosť (1) sa tiež nazýva regresia, t.j. závislosť dvoch veličín na sebe so štatistickou významnosťou.

Úlohou obnovenia závislosti je nájsť koeficienty `a` a `b` z experimentálnych bodov [`y_i`, `x_i`].

Na nájdenie koeficientov sa zvyčajne používa „a“ a „b“. metóda najmenších štvorcov(MNK). Ide o špeciálny prípad princípu maximálnej pravdepodobnosti.

Prepíšme (1) ako `ε_i = y_i - a - b x_i`.

Potom bude súčet štvorcových chýb
`Φ = súčet_(i=1)^(n) ε_i^2 = súčet_(i=1)^(n) (y_i - a - b x_i)^2`. (2)

Princípom metódy najmenších štvorcov je minimalizovať súčet (2) vzhľadom na parametre "a" a "b"..

Minimum sa dosiahne, keď sa parciálne derivácie súčtu (2) vzhľadom na koeficienty „a“ ​​a „b“ rovnajú nule:
`frac(čiastočné Φ)(čiastočné a) = frac(čiastočný súčet_(i=1)^(n) (y_i - a - b x_i)^2)(čiastočné a) = 0`
`frac(čiastočné Φ)(čiastočné b) = frac(čiastočný súčet_(i=1)^(n) (y_i - a - b x_i)^2)(čiastočné b) = 0`

Rozšírením derivácií dostaneme systém dvoch rovníc s dvoma neznámymi:
`sum_(i=1)^(n) (2a + 2bx_i - 2y_i) = sum_(i=1)^(n) (a + bx_i - y_i) = 0`
`sum_(i=1)^(n) (2bx_i^2 + 2ax_i - 2x_iy_i) = sum_(i=1)^(n) (bx_i^2 + ax_i - x_iy_i) = 0`

Otvoríme zátvorky a prenesieme sumy nezávislé od požadovaných koeficientov do druhej polovice, dostaneme systém lineárne rovnice:
`sum_(i=1)^(n) y_i = a n + b suma_(i=1)^(n) bx_i`
`sum_(i=1)^(n) x_iy_i = súčet_(i=1)^(n) x_i + b súčet_(i=1)^(n) x_i^2`

Pri riešení výsledného systému nájdeme vzorce pre koeficienty „a“ ​​a „b“:

`a = frac(sum_(i=1)^(n) y_i suma_(i=1)^(n) x_i^2 - suma_(i=1)^(n) x_i suma_(i=1)^(n ) x_iy_i) (n súčet_(i=1)^(n) x_i^2 — (súčet_(i=1)^(n) x_i)^2)“ (3.1)

`b = frac(n súčet_(i=1)^(n) x_iy_i - súčet_(i=1)^(n) x_i súčet_(i=1)^(n) y_i) (n súčet_(i=1)^ (n) x_i^2 - (sum_(i=1)^(n) x_i)^2)“ (3,2)

Tieto vzorce majú riešenia, keď `n > 1` (čiaru možno nakresliť pomocou najmenej 2 bodov) a keď determinant `D = n sum_(i=1)^(n) x_i^2 — (sum_(i= 1) )^(n) x_i)^2 != 0`, t.j. keď sú body x_i v experimente odlišné (t. j. keď čiara nie je vertikálna).

Odhad chýb v koeficientoch regresnej priamky

Pre presnejší odhad chyby pri výpočte koeficientov „a“ a „b“ je žiaduce veľké množstvo experimentálne body. Keď `n = 2`, nie je možné odhadnúť chybu koeficientov, pretože aproximačná čiara bude jednoznačne prechádzať cez dva body.

Chyba náhodná premenná"V" je definované zákon akumulácie chýb
`S_V^2 = súčet_(i=1)^p (frac(čiastočné f)(čiastočné z_i))^2 S_(z_i)^2`,
kde `p` je počet parametrov `z_i` s chybou `S_(z_i)`, ktoré ovplyvňujú chybu `S_V`;
`f` je funkcia závislosti `V` na `z_i`.

Napíšme zákon akumulácie chýb pre chybu koeficientov `a` a `b`
`S_a^2 = súčet_(i=1)^(n)(frac(čiastočné a)(čiastočné y_i))^2 S_(y_i)^2 + súčet_(i=1)^(n)(frac(čiastočné a) )(čiastočné x_i))^2 S_(x_i)^2 = S_y^2 súčet_(i=1)^(n)(frac(čiastočné a)(čiastočné y_i))^2 `,
`S_b^2 = súčet_(i=1)^(n)(frac(čiastočné b)(čiastočné y_i))^2 S_(y_i)^2 + súčet_(i=1)^(n)(frac(čiastočné b) )(čiastočné x_i))^2 S_(x_i)^2 = S_y^2 súčet_(i=1)^(n)(frac(čiastočné b)(čiastočné y_i))^2 `,
pretože `S_(x_i)^2 = 0` (predtým sme urobili výhradu, že chyba `x` je zanedbateľná).

`S_y^2 = S_(y_i)^2` – chyba (rozptyl, druhá mocnina štandardnej odchýlky) v dimenzii y za predpokladu, že chyba je jednotná pre všetky hodnoty y.

Dosadením vzorcov na výpočet `a` a `b` do výsledných výrazov dostaneme

`S_a^2 = S_y^2 frac(sum_(i=1)^(n) (sum_(i=1)^(n) x_i^2 - x_i sum_(i=1)^(n) x_i)^2 ) (D^2) = S_y^2 frac((n súčet_(i=1)^(n) x_i^2 - (súčet_(i=1)^(n) x_i)^2) súčet_(i=1) ^(n) x_i^2) (D^2) = S_y^2 frac(sum_(i=1)^(n) x_i^2) (D)` (4,1)

`S_b^2 = S_y^2 frac(sum_(i=1)^(n) (n x_i - suma_(i=1)^(n) x_i)^2) (D^2) = S_y^2 frac( n (n súčet_(i=1)^(n) x_i^2 - (súčet_(i=1)^(n) x_i)^2)) (D^2) = S_y^2 frac(n) (D) (4.2)

Vo väčšine skutočných experimentov sa hodnota „Sy“ nemeria. Na to je potrebné vykonať niekoľko paralelných meraní (experimentov) v jednom alebo viacerých bodoch plánu, čo zvyšuje čas (a prípadne náklady) experimentu. Preto sa zvyčajne predpokladá, že odchýlku `y` od regresnej priamky možno považovať za náhodnú. Odhad rozptylu „y“ sa v tomto prípade vypočíta podľa vzorca.

`S_y^2 = S_(y, zvyšok)^2 = frac(sum_(i=1)^n (y_i - a - b x_i)^2) (n-2)`.

Deliteľ `n-2` sa objavuje, pretože sme znížili počet stupňov voľnosti v dôsledku výpočtu dvoch koeficientov pre rovnakú vzorku experimentálnych údajov.

Tento odhad sa tiež nazýva reziduálny rozptyl vo vzťahu k regresnej priamke `S_(y, zvyšok)^2`.

Hodnotenie významnosti koeficientov sa vykonáva podľa kritéria študenta

`t_a = frac(|a|) (S_a)`, `t_b = frac(|b|) (S_b)`

Ak sú vypočítané kritériá `t_a`, `t_b` menšie ako kritériá tabuľky `t(P, n-2)`, potom sa predpokladá, že zodpovedajúci koeficient sa pri danej pravdepodobnosti `P` významne nelíši od nuly.

Ak chcete posúdiť kvalitu popisu lineárneho vzťahu, môžete porovnať `S_(y, zvyšok)^2` a `S_(bar y)` relatívne k priemeru pomocou Fisherovho kritéria.

`S_(bar y) = frac(sum_(i=1)^n (y_i - bar y)^2) (n-1) = frac(sum_(i=1)^n (y_i - (sum_(i=) 1)^n y_i) /n)^2) (n-1)` - výberový odhad rozptylu `y` vo vzťahu k priemeru.

Na vyhodnotenie účinnosti regresnej rovnice na opis závislosti sa vypočíta Fisherov koeficient
`F = S_(pruh y) / S_(y, zvyšok)^2`,
ktorý sa porovnáva s tabuľkovým Fisherovým koeficientom "F(p, n-1, n-2)".

Ak `F > F(P, n-1, n-2)`, rozdiel medzi popisom závislosti `y = f(x)` pomocou regresnej rovnice a popisom pomocou priemeru sa považuje za štatisticky významný s pravdepodobnosťou "P". Tie. regresia popisuje závislosť lepšie ako rozptyl `y` okolo priemeru.

Kliknite na graf
pridať hodnoty do tabuľky

Metóda najmenších štvorcov. Metóda najmenších štvorcov znamená určenie neznámych parametrov a, b, c, akceptovanej funkčnej závislosti

Metóda najmenších štvorcov znamená určenie neznámych parametrov a, b, c,… akceptovaná funkčná závislosť

y = f(x,a,b,c,...),

ktorý by poskytol minimum strednej štvorce (rozptyl) chyby

, (24)

kde x i , y i - množina dvojíc čísel získaných z experimentu.

Keďže podmienkou pre extrém funkcie viacerých premenných je podmienka, že jej parciálne derivácie sú rovné nule, potom parametre a, b, c,… sú určené zo sústavy rovníc:

; ; ; … (25)

Je potrebné mať na pamäti, že metóda najmenších štvorcov sa používa na výber parametrov za tvarom funkcie y = f(x) definované.

Ak z teoretických úvah nie je možné vyvodiť závery o tom, aký by mal byť empirický vzorec, potom sa treba riadiť vizuálnymi reprezentáciami, predovšetkým grafickým znázornením pozorovaných údajov.

V praxi sa najčastejšie obmedzuje na tieto typy funkcií:

1) lineárne ;

2) kvadratický a .

Metóda najmenších štvorcov

Metóda najmenších štvorcov ( MNK, OLS, Obyčajné najmenšie štvorce) - jedna zo základných metód regresnej analýzy na odhadovanie neznámych parametrov regresných modelov zo vzorových údajov. Metóda je založená na minimalizácii súčtu štvorcov regresných zvyškov.

Treba poznamenať, že samotnú metódu najmenších štvorcov možno nazvať metódou riešenia problému v akejkoľvek oblasti, ak riešenie pozostáva z alebo spĺňa určité kritérium na minimalizáciu súčtu druhých mocnín niektorých funkcií neznámych premenných. Preto možno metódu najmenších štvorcov použiť aj na približnú reprezentáciu (aproximáciu) danej funkcie inými (jednoduchšími) funkciami, pri hľadaní množiny veličín vyhovujúcich rovniciam alebo obmedzeniam, ktorých počet presahuje počet týchto veličín. , atď.

Podstata MNC

Nech nejaký (parametrický) model pravdepodobnostnej (regresnej) závislosti medzi (vysvetlenou) premennou r a mnoho faktorov (vysvetľujúce premenné) X

kde je vektor neznámych parametrov modelu

- Náhodná chyba modelu.

Nech sú aj vzorové pozorovania hodnôt uvedených premenných. Nech je číslo pozorovania (). Potom sú to hodnoty premenných v -tom pozorovaní. Potom o nastavené hodnoty parametrov b, je možné vypočítať teoretické (modelové) hodnoty vysvetľovanej premennej y:

Hodnota zvyškov závisí od hodnôt parametrov b.

Podstatou LSM (obyčajného, ​​klasického) je nájsť také parametre b, pre ktoré je súčet štvorcov rezíduí (angl. Zvyšný súčet štvorcov) bude minimálny:

Vo všeobecnom prípade možno tento problém vyriešiť numerickými metódami optimalizácie (minimalizácie). V tomto prípade sa hovorí o nelineárne najmenšie štvorce(NLS alebo NLLS - anglicky. Nelineárne najmenšie štvorce). V mnohých prípadoch je možné získať analytické riešenie. Na vyriešenie úlohy minimalizácie je potrebné nájsť stacionárne body funkcie tak, že ju derivujeme vzhľadom na neznáme parametre b, derivácie priradíme k nule a vyriešime výslednú sústavu rovníc:

Ak sú náhodné chyby modelu normálne rozdelené, majú rovnaký rozptyl a nie sú navzájom korelované, odhady parametrov najmenších štvorcov sú rovnaké ako odhady metódy maximálnej pravdepodobnosti (MLM).

LSM v prípade lineárneho modelu

Nech je regresná závislosť lineárna:

Nechaj r je stĺpcový vektor pozorovaní vysvetlenej premennej a je maticou pozorovaní faktorov (riadky matice sú vektory hodnôt faktorov v toto pozorovanie, po stĺpcoch - vektor hodnôt tento faktor vo všetkých pozorovaniach). Maticová reprezentácia lineárneho modelu má tvar:

Potom sa vektor odhadov vysvetľovanej premennej a vektor regresných zvyškov budú rovnať

podľa toho sa súčet druhých mocnín regresných zvyškov bude rovnať

Diferencovaním tejto funkcie vzhľadom na vektor parametra a prirovnaním derivácií k nule dostaneme systém rovníc (v maticovom tvare):

.

Riešenie tejto sústavy rovníc dáva všeobecný vzorec Odhady OLS pre lineárny model:

Na analytické účely sa ukazuje ako užitočné posledné znázornenie tohto vzorca. Ak údaje v regresnom modeli vycentrované, potom v tomto znázornení má prvá matica význam výberovej kovariančnej matice faktorov a druhá je vektorom kovariancií faktorov so závislou premennou. Ak je navyše údaj aj normalizované na SKO (teda v konečnom dôsledku štandardizované), potom prvá matica má význam výberová korelačná matica faktorov, druhý vektor - vektor výberových korelácií faktorov so závislou premennou.

Dôležitá vlastnosť odhadov LLS pre modely s konštantou- priamka zostrojenej regresie prechádza ťažiskom vzorových údajov, to znamená, že rovnosť je splnená:

Najmä v extrémnom prípade, keď jediným regresorom je konštanta, zistíme, že odhad OLS jedného parametra (samotnej konštanty) sa rovná strednej hodnote vysvetľovanej premennej. To znamená, že aritmetický priemer, známy svojimi dobrými vlastnosťami zo zákonov veľkých čísel, je tiež odhadom najmenších štvorcov - spĺňa kritérium pre minimálny súčet odchýlok na druhú od neho.

Príklad: jednoduchá (párová) regresia

V prípade parnej miestnosti lineárna regresia výpočtové vzorce sú zjednodušené (môžete to urobiť bez maticová algebra):

Vlastnosti odhadov OLS

V prvom rade si všimneme, že pre lineárne modely sú odhady najmenších štvorcov lineárne odhady, ako vyplýva z vyššie uvedeného vzorca. Pre nestranné odhady OLS je potrebné a postačujúce splniť najdôležitejšiu podmienku regresnej analýzy: matematické očakávanie náhodnej chyby podmienenej faktormi sa musí rovnať nule. Táto podmienka, najmä sa uspokojí, ak

  1. matematické očakávanie náhodných chýb je nulové a
  2. faktory a náhodné chyby sú nezávislé náhodné premenné.

Druhá podmienka – podmienka exogénnych faktorov – je zásadná. Ak táto vlastnosť nie je splnená, potom môžeme predpokladať, že takmer všetky odhady budú extrémne neuspokojivé: dokonca nebudú konzistentné (to znamená, že ani veľmi veľké množstvo údajov v tomto prípade neumožňuje získať kvalitatívne odhady). V klasickom prípade sa silnejšie predpokladá determinizmus faktorov, na rozdiel od náhodnej chyby, ktorá automaticky znamená, že exogénna podmienka je splnená. Vo všeobecnosti pre konzistentnosť odhadov stačí splniť podmienku exogenity spolu s konvergenciou matice k nejakej nesingulárnej matici s nárastom veľkosti vzorky do nekonečna.

Aby boli okrem konzistentnosti a nezaujatosti efektívne aj odhady (zvyčajných) najmenších štvorcov (najlepšie v triede lineárnych neskreslených odhadov), je potrebné splniť ďalšie vlastnosti náhodnej chyby:

Tieto predpoklady možno formulovať pre kovariančnú maticu vektora náhodnej chyby

Lineárny model, ktorý tieto podmienky spĺňa, sa nazýva tzv klasický. Odhady OLS pre klasickú lineárnu regresiu sú nezaujaté, konzistentné a najefektívnejšie odhady v triede všetkých lineárnych neskreslených odhadov (v anglickej literatúre sa niekedy používa skratka Modrá (Najlepší lineárny nezaložený odhad) je najlepší lineárny nezaujatý odhad; v domácej literatúryčastejšie sa uvádza Gauss-Markovova veta). Ako je ľahké ukázať, kovariančná matica vektora odhadov koeficientov sa bude rovnať:

Zovšeobecnené najmenšie štvorce

Metóda najmenších štvorcov umožňuje široké zovšeobecnenie. Namiesto minimalizovania súčtu štvorcov rezíduí je možné minimalizovať nejakú kladne definitívnu kvadratickú formu reziduálneho vektora , kde je nejaká symetrická kladne definitná váhová matica. Obyčajné najmenšie štvorce sú špeciálnym prípadom tohto prístupu, keď je matica váh úmerná matici identity. Ako je známe z teórie symetrických matíc (alebo operátorov), pre takéto matice existuje rozklad. Preto môže byť špecifikovaný funkcionál reprezentovaný nasledovne, to znamená, že tento funkcionál môže byť reprezentovaný ako súčet druhých mocnín niektorých transformovaných "zvyškov". Môžeme teda rozlíšiť triedu metód najmenších štvorcov – LS-metód (Least Squares).

Je dokázané (Aitkenova veta), že pre zovšeobecnený lineárny regresný model (v ktorom nie sú kladené žiadne obmedzenia na kovariančnú maticu náhodných chýb) sú najefektívnejšie (v triede lineárnych neskreslených odhadov) odhady tzv. zovšeobecnené OLS (OMNK, GLS - Generalized Least Squares)- LS-metóda s váhovou maticou rovnajúcou sa inverznej kovariančnej matici náhodných chýb: .

Dá sa ukázať, že vzorec pre GLS odhady parametrov lineárneho modelu má tvar

Kovariančná matica týchto odhadov sa bude rovnať

V skutočnosti podstata OLS spočíva v určitej (lineárnej) transformácii (P) pôvodných údajov a aplikácii obvyklých najmenších štvorcov na transformované údaje. Účelom tejto transformácie je, že pre transformované dáta náhodné chyby už spĺňajú klasické predpoklady.

Vážené najmenšie štvorce

V prípade diagonálnej váhovej matice (a teda kovariančnej matice náhodných chýb) máme takzvané vážené najmenšie štvorce (WLS - Weighted Least Squares). V tomto prípade je vážený súčet štvorcov rezíduí modelu minimalizovaný, to znamená, že každé pozorovanie dostane „váhu“, ktorá je nepriamo úmerná rozptylu náhodnej chyby v tomto pozorovaní: . Údaje sa v skutočnosti transformujú vážením pozorovaní (vydelením čiastkou úmernou odhadu smerodajná odchýlka náhodné chyby), zatiaľ čo na vážené údaje sa použijú normálne najmenšie štvorce.

Niektoré špeciálne prípady aplikácie LSM v praxi

Lineárna aproximácia

Zvážte prípad, keď v dôsledku štúdia závislosti určitej skalárnej veličiny od určitej skalárnej veličiny (môže to byť napríklad závislosť napätia od sily prúdu: , kde je konštantná hodnota, odpor vodiča ), boli tieto veličiny namerané, v dôsledku čoho sú hodnoty a im zodpovedajúce hodnoty. Namerané údaje by sa mali zaznamenať do tabuľky.

Tabuľka. Výsledky merania.

Meranie č.
1
2
3
4
5
6

Otázka znie takto: akú hodnotu koeficientu je možné zvoliť, aby najlepšie popísala závislosť? Podľa najmenších štvorcov by táto hodnota mala byť taká, že súčet štvorcových odchýlok hodnôt od hodnôt

bol minimálny

Súčet štvorcových odchýlok má jeden extrém – minimum, čo nám umožňuje použiť tento vzorec. Z tohto vzorca nájdeme hodnotu koeficientu. Aby sme to urobili, transformujme ho ľavá strana nasledujúcim spôsobom:

Posledný vzorec nám umožňuje nájsť hodnotu koeficientu, ktorý bol v úlohe požadovaný.

Príbeh

Predtým začiatkom XIX v. vedci nemali isté pravidlá na riešenie sústavy rovníc, v ktorej je počet neznámych menší ako počet rovníc; Dovtedy sa používali osobitné metódy v závislosti od typu rovníc a dômyselnosti kalkulačiek, a preto rôzne kalkulačky vychádzajúce z rovnakých pozorovacích údajov dospeli k rôznym záverom. Gaussovi (1795) sa pripisuje prvá aplikácia tejto metódy a Legendre (1805) ju nezávisle objavil a publikoval pod jej moderným názvom (fr. Methode des moindres quarres ). Laplace dal metódu do súvislosti s teóriou pravdepodobnosti a americký matematik Adrain (1808) uvažoval o jej pravdepodobnostných aplikáciách. Metóda je rozšírená a vylepšená ďalším výskumom Enckeho, Bessela, Hansena a ďalších.

Alternatívne využitie nadnárodných spoločností

Myšlienka metódy najmenších štvorcov môže byť použitá aj v iných prípadoch, ktoré s ňou priamo nesúvisia regresná analýza. Faktom je, že súčet štvorcov je jednou z najbežnejších mier blízkosti pre vektory (euklidovská metrika v konečných rozmeroch).

Jednou z aplikácií je „riešenie“ systémov lineárnych rovníc, v ktorých je počet rovníc väčší ako počet premenných

kde matica nie je štvorcová, ale obdĺžniková.

Takýto systém rovníc vo všeobecnom prípade nemá riešenie (ak je poradie v skutočnosti väčšie ako počet premenných). Preto je možné tento systém „riešiť“ len v zmysle výberu takého vektora, aby sa minimalizovala „vzdialenosť“ medzi vektormi a . Na tento účel môžete použiť kritérium na minimalizáciu súčtu štvorcových rozdielov ľavej a pravej časti rovníc systému, teda . Je ľahké ukázať, že riešenie tohto problému minimalizácie vedie k riešeniu ďalší systém rovnice

Metóda najmenších štvorcov (LSM) umožňuje odhadnúť rôzne veličiny pomocou výsledkov mnohých meraní obsahujúcich náhodné chyby.

Charakteristika MNC

Hlavná myšlienka túto metódu spočíva v tom, že za kritérium presnosti riešenia úlohy sa považuje súčet druhých mocnín, ktorý sa snaží minimalizovať. Pri použití tejto metódy je možné použiť numerický aj analytický prístup.

Najmä ako numerická implementácia metóda najmenších štvorcov znamená vykonať čo najviac viac merania neznámej náhodnej veličiny. Navyše, čím viac výpočtov, tým presnejšie bude riešenie. Na tomto súbore výpočtov (počiatočných údajov) sa získa ďalší súbor navrhnutých riešení, z ktorých sa potom vyberie to najlepšie. Ak je množina riešení parametrizovaná, potom sa metóda najmenších štvorcov zredukuje na nájdenie optimálnej hodnoty parametrov.

Ako analytický prístup k implementácii LSM na súbore počiatočných údajov (meraní) a navrhovanom súbore riešení sú definované niektoré (funkčné), ktoré možno vyjadriť pomocou vzorca získaného ako určitú hypotézu, ktorú je potrebné potvrdiť. V tomto prípade je metóda najmenších štvorcov redukovaná na nájdenie minima tejto funkcionality na množine štvorcových chýb počiatočných údajov.

Všimnite si, že nie samotné chyby, ale druhé mocniny chýb. prečo? Faktom je, že často odchýlky meraní od presná hodnota sú pozitívne aj negatívne. Pri určovaní priemeru môže jednoduchý súčet viesť k nesprávnemu záveru o kvalite odhadu, pretože vzájomné zrušenie kladných a záporných hodnôt zníži vzorkovaciu silu súboru meraní. A následne aj presnosť hodnotenia.

Aby sa tomu zabránilo, štvorcové odchýlky sa spočítajú. Ba čo viac, na vyrovnanie rozmeru nameranej hodnoty a konečného odhadu sa na extrakciu používa súčet štvorcových chýb.

Niektoré aplikácie nadnárodných spoločností

MNC sa široko používa v rôznych oblastiach. Napríklad v teórii pravdepodobnosti a matematickej štatistike sa metóda používa na určenie takej charakteristiky náhodnej premennej, ako je priemer smerodajná odchýlka, ktorý určuje šírku rozsahu hodnôt náhodnej premennej.

Príklad.

Experimentálne údaje o hodnotách premenných X a pri sú uvedené v tabuľke.

Výsledkom ich zosúladenia je funkcia

Použitím metóda najmenších štvorcov, aproximovať tieto údaje s lineárnou závislosťou y=ax+b(nájdite parametre a a b). Zistite, ktorý z dvoch riadkov je lepší (v zmysle metódy najmenších štvorcov) zarovnáva experimentálne údaje. Urobte si kresbu.

Podstata metódy najmenších štvorcov (LSM).

Problémom je nájsť lineárne koeficienty závislosti, pre ktoré je funkcia dvoch premenných a a b má najmenšiu hodnotu. Teda vzhľadom na dáta a a b súčet štvorcových odchýlok experimentálnych údajov od nájdenej priamky bude najmenší. Toto je celý zmysel metódy najmenších štvorcov.

Riešenie príkladu sa teda redukuje na nájdenie extrému funkcie dvoch premenných.

Odvodenie vzorcov na hľadanie koeficientov.

Zostaví sa a vyrieši systém dvoch rovníc s dvoma neznámymi. Hľadanie parciálnych derivácií funkcií podľa premenných a a b, prirovnávame tieto deriváty k nule.

Výslednú sústavu rovníc riešime ľubovoľnou metódou (napr substitučná metóda alebo Cramerova metóda) a získajte vzorce na nájdenie koeficientov pomocou metódy najmenších štvorcov (LSM).

S údajmi a a b funkciu má najmenšiu hodnotu. Dôkaz o tejto skutočnosti je uvedený pod textom na konci strany.

To je celá metóda najmenších štvorcov. Vzorec na nájdenie parametra a obsahuje súčty ,,, a parameter n- množstvo experimentálnych údajov. Hodnoty týchto súm sa odporúča vypočítať samostatne. Koeficient b zistené po výpočte a.

Je čas pripomenúť si pôvodný príklad.

Riešenie.

V našom príklade n=5. Tabuľku vypĺňame pre pohodlie výpočtu súm, ktoré sú zahrnuté vo vzorcoch požadovaných koeficientov.

Hodnoty vo štvrtom riadku tabuľky sa získajú vynásobením hodnôt v 2. riadku hodnotami v 3. riadku pre každé číslo i.

Hodnoty v piatom riadku tabuľky sa získajú umocnením hodnôt v 2. riadku pre každé číslo i.

Hodnoty posledného stĺpca tabuľky sú súčty hodnôt v riadkoch.

Na zistenie koeficientov používame vzorce metódy najmenších štvorcov a a b. Nahradíme v nich zodpovedajúce hodnoty z posledného stĺpca tabuľky:

v dôsledku toho y = 0,165 x + 2,184 je požadovaná približná priamka.

Zostáva zistiť, ktorý z riadkov y = 0,165 x + 2,184 alebo lepšie aproximuje pôvodné údaje, t. j. urobiť odhad pomocou metódy najmenších štvorcov.

Odhad chyby metódy najmenších štvorcov.

Aby ste to dosiahli, musíte vypočítať súčty štvorcových odchýlok pôvodných údajov z týchto riadkov a , menšia hodnota zodpovedá riadku, ktorý sa lepšie približuje pôvodným údajom z hľadiska metódy najmenších štvorcov.

Od , potom riadok y = 0,165 x + 2,184 sa lepšie približuje pôvodným údajom.

Grafické znázornenie metódy najmenších štvorcov (LSM).

Na grafoch vyzerá všetko skvele. Červená čiara je nájdená čiara y = 0,165 x + 2,184, modrá čiara je , ružové bodky sú pôvodné údaje.

V praxi sa pri modelovaní rôznych procesov - najmä ekonomických, fyzikálnych, technických, sociálnych - široko používa jedna alebo druhá metóda výpočtu približných hodnôt funkcií z ich známych hodnôt v niektorých pevných bodoch.

Problémy s aproximáciou funkcií tohto druhu často vznikajú:

    pri konštrukcii približných vzorcov na výpočet hodnôt charakteristických veličín skúmaného procesu podľa tabuľkových údajov získaných ako výsledok experimentu;

    v numerickej integrácii, diferenciácii, riešení diferenciálne rovnice atď.;

    ak je potrebné vypočítať hodnoty funkcií v medziľahlých bodoch uvažovaného intervalu;

    pri určovaní hodnôt charakteristických veličín procesu mimo uvažovaného intervalu, najmä pri prognózovaní.

Ak sa na modelovanie určitého procesu špecifikovaného tabuľkou zostrojí funkcia, ktorá tento proces približne opisuje na základe metódy najmenších štvorcov, bude sa nazývať aproximačná funkcia (regresia) a samotná úloha konštrukcie aproximačných funkcií bude byť aproximačným problémom.

Tento článok rozoberá možnosti balíka MS Excel na riešenie takýchto problémov, okrem toho sú uvedené metódy a techniky na konštruovanie (vytváranie) regresií pre tabuľkovo dané funkcie (čo je základom regresnej analýzy).

Existujú dve možnosti vytvárania regresií v Exceli.

    Pridanie vybraných regresií (trendových línií) do grafu zostaveného na základe údajovej tabuľky pre študovanú charakteristiku procesu (dostupné, len ak je graf zostavený);

    Pomocou vstavaných štatistických funkcií pracovného hárka Excel, ktoré umožňujú získať regresie (trendové čiary) priamo z tabuľky zdrojových údajov.

Pridanie trendových čiar do grafu

Pre tabuľku údajov popisujúcich určitý proces a reprezentovaných diagramom má Excel efektívny nástroj regresnej analýzy, ktorý vám umožňuje:

    stavať na základe metódy najmenších štvorcov a pridať do diagramu päť typov regresií, ktoré modelujú skúmaný proces s rôznym stupňom presnosti;

    pridajte do diagramu rovnicu zostrojenej regresie;

    určiť mieru zhody vybranej regresie s údajmi zobrazenými v grafe.

Na základe údajov z grafu vám Excel umožňuje získať lineárne, polynomické, logaritmické, exponenciálne, exponenciálne typy regresií, ktoré sú dané rovnicou:

y = y (x)

kde x je nezávislá premenná, ktorá často nadobúda hodnoty postupnosti prirodzených čísel (1; 2; 3; ...) a vytvára napríklad odpočítavanie času skúmaného procesu (charakteristiky) .

1 . Lineárna regresia je dobrá pri modelovaní prvkov, ktoré sa zvyšujú alebo znižujú konštantnou rýchlosťou. Toto je najjednoduchší model skúmaného procesu. Je zostavený podľa rovnice:

y=mx+b

kde m je dotyčnica sklonu lineárnej regresie k osi x; b - súradnica priesečníka lineárnej regresie s osou y.

2 . Polynomická trendová čiara je užitočná na opis charakteristík, ktoré majú niekoľko odlišných extrémov (horné a nízke). Výber stupňa polynómu je určený počtom extrémov skúmanej charakteristiky. Polynóm druhého stupňa teda môže dobre opísať proces, ktorý má len jedno maximum alebo minimum; polynóm tretieho stupňa - nie viac ako dva extrémy; polynóm štvrtého stupňa - nie viac ako tri extrémy atď.

V tomto prípade je trendová čiara zostavená v súlade s rovnicou:

y = c0 + c1x + c2x2 + c3x3 + c4x4 + c5x5 + c6x6

kde koeficienty c0, c1, c2,...c6 sú konštanty, ktorých hodnoty sa určujú počas konštrukcie.

3 . Logaritmická trendová čiara sa úspešne používa pri modelovaní charakteristík, ktorých hodnoty sa najskôr rýchlo menia a potom sa postupne stabilizujú.

y = c ln(x) + b

4 . Trendová čiara výkonu poskytuje dobré výsledky, ak sú hodnoty študovanej závislosti charakterizované konštantnou zmenou rýchlosti rastu. Príklad takejto závislosti môže slúžiť ako graf rovnomerne zrýchleného pohybu auta. Ak sú v údajoch nulové alebo záporné hodnoty, nemôžete použiť silovú trendovú čiaru.

Je zostavený podľa rovnice:

y = cxb

kde koeficienty b, c sú konštanty.

5 . Ak sa rýchlosť zmeny údajov neustále zvyšuje, mala by sa použiť exponenciálna trendová čiara. Tento druh aproximácie tiež nie je použiteľný pre údaje obsahujúce nulové alebo záporné hodnoty.

Je zostavený podľa rovnice:

y=cebx

kde koeficienty b, c sú konštanty.

Pri výbere trendovej čiary Excel automaticky vypočíta hodnotu R2, ktorá charakterizuje presnosť aproximácie: čím je hodnota R2 bližšie k jednej, tým spoľahlivejšie trendová čiara aproximuje skúmaný proces. V prípade potreby môže byť hodnota R2 vždy zobrazená na diagrame.

Určené podľa vzorca:

Ak chcete pridať trendovú čiaru do série údajov:

    aktivovať graf zostavený na základe údajových radov, t. j. kliknite do oblasti grafu. V hlavnom menu sa zobrazí položka Graf;

    po kliknutí na túto položku sa na obrazovke zobrazí ponuka, v ktorej vyberte príkaz Pridať trendovú čiaru.

Rovnaké akcie sa dajú ľahko implementovať, ak umiestnite kurzor myši na graf zodpovedajúci jednému z radov údajov a kliknete pravým tlačidlom myši; v kontextovej ponuke, ktorá sa zobrazí, vyberte príkaz Pridať trendovú čiaru. Na obrazovke sa objaví dialógové okno Trendová čiara s otvorenou kartou Typ (obr. 1).

Potom potrebujete:

Vyberte na karte Typ požadovaný typ trendové čiary (predvolene je vybraný lineárny typ). Pre typ polynómu v poli Stupeň zadajte stupeň vybratého polynómu.

1 . Pole Built on Series obsahuje zoznam všetkých radov údajov v príslušnom grafe. Ak chcete pridať trendovú čiaru ku konkrétnej sérii údajov, vyberte jej názov v poli Postavené na sérii.

V prípade potreby môžete prechodom na kartu Parametre (obr. 2) nastaviť nasledujúce parametre pre trendovú čiaru:

    zmeňte názov trendovej čiary v poli Názov aproximačnej (vyhladenej) krivky.

    nastavte počet období (dopredu alebo dozadu) pre predpoveď v poli Predpoveď;

    zobraziť rovnicu trendovej čiary v oblasti grafu, pre ktorú by ste mali zaškrtnúť políčko zobraziť rovnicu v grafe;

    zobrazte hodnotu spoľahlivosti aproximácie R2 v oblasti diagramu, pre ktorú by ste mali povoliť zaškrtávacie políčko vložte do diagramu hodnotu spoľahlivosti aproximácie (R^2);

    nastavte priesečník trendovej čiary s osou Y, pre ktorý by ste mali zaškrtnúť políčko Priesečník krivky s osou Y v bode;

    kliknutím na tlačidlo OK zatvorte dialógové okno.

Existujú tri spôsoby, ako začať upravovať už vytvorenú trendovú čiaru:

    po výbere trendovej čiary použite príkaz Vybraná trendová čiara z ponuky Formát;

    z kontextovej ponuky vyberte príkaz Formátovať trendovú čiaru, ktorý sa vyvolá kliknutím pravým tlačidlom myši na čiaru trendu;

    dvojitým kliknutím na trendovú čiaru.

Na obrazovke sa objaví dialógové okno Formátovať trendovú čiaru (obr. 3), ktoré obsahuje tri záložky: View, Type, Parameters a obsah posledných dvoch sa úplne zhoduje s podobnými kartami dialógového okna Trendline (obr. 1-2). ). Na karte Zobraziť môžete nastaviť typ čiary, jej farbu a hrúbku.

Ak chcete vymazať už vytvorenú trendovú čiaru, vyberte trendovú čiaru, ktorá sa má vymazať, a stlačte kláves Delete.

Výhody uvažovaného nástroja regresnej analýzy sú:

    relatívna jednoduchosť vykresľovania trendovej čiary do grafov bez vytvorenia tabuľky s údajmi;

    pomerne široký zoznam typov navrhovaných trendových čiar a tento zoznam obsahuje najbežnejšie používané typy regresie;

    možnosť predpovedania správania sa skúmaného procesu pre ľubovoľný (v rámci zdravého rozumu) počet krokov vpred, ako aj späť;

    možnosť získania rovnice trendovej čiary v analytickej forme;

    možnosť v prípade potreby získať posúdenie spoľahlivosti aproximácie.

Nevýhody zahŕňajú nasledujúce body:

    konštrukcia trendovej čiary sa vykonáva iba vtedy, ak existuje graf zostavený zo série údajov;

    proces generovania radov údajov pre skúmanú charakteristiku na základe rovníc trendovej čiary získaných pre ňu je trochu neprehľadný: požadované regresné rovnice sa aktualizujú pri každej zmene hodnôt pôvodného radu údajov, ale iba v rámci oblasti diagramu , zatiaľ čo rad údajov, vytvorený na základe starej rovnice trendovej čiary, zostáva nezmenený;

    Keď v zostavách kontingenčného grafu zmeníte zobrazenie grafu alebo súvisiacu zostavu kontingenčnej tabuľky, existujúce spojnice trendu sa nezachovajú, takže pred nakreslením spojníc trendu alebo iným formátovaním zostavy kontingenčného grafu musíte zabezpečiť, aby rozloženie zostavy vyhovovalo vašim požiadavkám.

Trendové čiary možno pridať do dátových radov prezentovaných na grafoch, ako sú graf, histogram, ploché nenormalizované plošné grafy, stĺpcové, bodové, bublinové a akciové grafy.

Trendové čiary nemôžete pridávať do dátových radov na 3-D, štandardnom, radarovom, koláčovom a prstencovom grafe.

Používanie vstavaných funkcií programu Excel

Excel tiež poskytuje nástroj regresnej analýzy na vykresľovanie trendových čiar mimo oblasti grafu. Na tento účel možno použiť množstvo štatistických funkcií pracovného hárka, ale všetky vám umožňujú zostaviť iba lineárne alebo exponenciálne regresie.

Excel má niekoľko funkcií na vytváranie lineárnej regresie, najmä:

    TREND;

  • SLOPE a REZ.

Rovnako ako niekoľko funkcií na vytvorenie exponenciálnej trendovej čiary, najmä:

    LGRFPpribl.

Treba poznamenať, že techniky konštrukcie regresií pomocou funkcií TREND a GROWTH sú prakticky rovnaké. To isté možno povedať o dvojici funkcií LINEST a LGRFPRIBL. Pre tieto štyri funkcie sa pri vytváraní tabuľky hodnôt používajú funkcie Excelu, ako sú vzorce poľa, čo trochu komplikuje proces vytvárania regresií. Poznamenávame tiež, že konštrukciu lineárnej regresie je podľa nášho názoru najjednoduchšie implementovať pomocou funkcií SLOPE a INTERCEPT, kde prvá z nich určuje sklon lineárnej regresie a druhá určuje segment odrezaný regresiou. na osi y.

Výhody vstavaného nástroja funkcií pre regresnú analýzu sú:

    pomerne jednoduchý proces rovnakého typu tvorby radov údajov sledovanej charakteristiky pre všetky vstavané štatistické funkcie, ktoré určujú trendové čiary;

    štandardná technika na vytváranie trendových čiar na základe vygenerovaných radov údajov;

    možnosť predpovedania správania sa skúmaného procesu na požadované množstvo kroky vpred alebo vzad.

A medzi nevýhody patrí skutočnosť, že Excel nemá vstavané funkcie na vytváranie iných (okrem lineárnych a exponenciálnych) typov trendových čiar. Táto okolnosť často neumožňuje vybrať dostatočne presný model skúmaného procesu, ako aj získať prognózy blízke realite. Navyše pri použití funkcií TREND a GROW nie sú známe rovnice trendových čiar.

Je potrebné poznamenať, že autori si nestanovili za cieľ článku predstaviť priebeh regresnej analýzy s rôznou mierou úplnosti. Jeho hlavnou úlohou je ukázať schopnosti balíka Excel pri riešení aproximačných problémov na konkrétnych príkladoch; demonštrovať, aké efektívne nástroje má Excel na vytváranie regresií a prognóz; ilustrujú, ako relatívne ľahko môže takéto problémy vyriešiť aj používateľ, ktorý nemá hlboké znalosti o regresnej analýze.

Príklady riešenia konkrétnych problémov

Zvážte riešenie konkrétnych problémov pomocou uvedených nástrojov balíka Excel.

Úloha 1

S tabuľkou údajov o zisku podniku motorovej dopravy za roky 1995-2002. musíte urobiť nasledovné.

    Zostavte graf.

    Pridajte do grafu lineárne a polynomické (kvadratické a kubické) trendové čiary.

    Pomocou rovníc trendových čiar získajte tabuľkové údaje o zisku podniku pre každú trendovú čiaru za roky 1995-2004.

    Urobte prognózu zisku pre podnik na roky 2003 a 2004.

Riešenie problému

    Do rozsahu buniek A4:C11 hárka programu Excel zadáme hárok znázornený na obr. štyri.

    Po výbere rozsahu buniek B4:C11 vytvoríme graf.

    Zostrojený graf aktivujeme a vyššie popísanou metódou po výbere typu trendovej čiary v dialógovom okne Trendová čiara (pozri obr. 1) do grafu striedavo pridávame lineárne, kvadratické a kubické trendové čiary. V tom istom dialógovom okne otvorte záložku Parametre (pozri obr. 2), do poľa Názov aproximačnej (vyhladenej) krivky zadajte názov pridávaného trendu a v poli Forecast forward for: periods nastavte hodnotu 2, keďže sa plánuje urobiť prognóza zisku na dva roky dopredu. Ak chcete zobraziť regresnú rovnicu a hodnotu aproximačnej spoľahlivosti R2 v oblasti diagramu, začiarknite políčka Zobraziť rovnicu na obrazovke a umiestnite do diagramu hodnotu aproximačnej spoľahlivosti (R^2). Pre lepšie vizuálne vnímanie meníme typ, farbu a hrúbku vykresľovaných trendových čiar, na čo slúži záložka Zobraziť dialógového okna Formát čiary trendu (pozri obr. 3). Výsledný graf s pridanými trendovými čiarami je znázornený na obr. 5.

    Získať tabuľkové údaje o zisku podniku pre každú trendovú čiaru za roky 1995-2004. Použime rovnice trendových čiar uvedených na obr. 5. Za týmto účelom zadajte do buniek rozsahu D3:F3 textové informácie o type vybranej trendovej čiary: Lineárny trend, Kvadratický trend, Kubický trend. Potom zadajte vzorec lineárnej regresie do bunky D4 a pomocou značky výplne skopírujte tento vzorec s relatívnymi odkazmi na rozsah buniek D5:D13. Treba poznamenať, že každá bunka so vzorcom lineárnej regresie z rozsahu buniek D4:D13 má ako argument zodpovedajúcu bunku z rozsahu A4:A13. Podobne pre kvadratickú regresiu je vyplnený rozsah buniek E4:E13 a pre kubickú regresiu je vyplnený rozsah buniek F4:F13. Preto sa urobila prognóza zisku podniku na roky 2003 a 2004. s tromi trendmi. Výsledná tabuľka hodnôt je znázornená na obr. 6.

Úloha 2

    Zostavte graf.

    Pridajte do grafu logaritmické, exponenciálne a exponenciálne trendové čiary.

    Odvoďte rovnice získaných trendových čiar, ako aj hodnoty aproximačnej spoľahlivosti R2 pre každú z nich.

    Pomocou rovníc trendových čiar získajte tabuľkové údaje o zisku podniku pre každú trendovú čiaru za roky 1995-2002.

    Vytvorte prognózu zisku pre podnikanie na roky 2003 a 2004 pomocou týchto trendových čiar.

Riešenie problému

Podľa metodiky uvedenej pri riešení úlohy 1 získame diagram s pridanými logaritmickými, exponenciálnymi a exponenciálnymi trendovými čiarami (obr. 7). Ďalej pomocou získaných rovníc trendových čiar vyplníme tabuľku hodnôt zisku podniku vrátane predpovedaných hodnôt za roky 2003 a 2004. (obr. 8).

Na obr. 5 a obr. je vidieť, že model s logaritmickým trendom zodpovedá najnižšej hodnote spoľahlivosti aproximácie

R2 = 0,8659

Najvyššie hodnoty R2 zodpovedajú modelom s polynomickým trendom: kvadratický (R2 = 0,9263) a kubický (R2 = 0,933).

Úloha 3

S tabuľkou údajov o zisku podniku motorovej dopravy za roky 1995-2002, ktorá je uvedená v úlohe 1, musíte vykonať nasledujúce kroky.

    Získajte dátové série pre lineárne a exponenciálne trendové čiary pomocou funkcií TREND a GROW.

    Pomocou funkcií TREND a GROWTH vytvorte prognózu zisku pre podnik na roky 2003 a 2004.

    Pre počiatočné údaje a prijaté série údajov vytvorte diagram.

Riešenie problému

Využime pracovný list úlohy 1 (pozri obr. 4). Začnime funkciou TREND:

    vyberte rozsah buniek D4:D11, ktorý by mal byť vyplnený hodnotami funkcie TREND zodpovedajúcimi známym údajom o zisku podniku;

    zavolajte príkaz Funkcia z ponuky Vložiť. V zobrazenom dialógovom okne Sprievodca funkciou vyberte funkciu TREND z kategórie Štatistika a potom kliknite na tlačidlo OK. Rovnakú operáciu je možné vykonať stlačením tlačidla (funkcia Vložiť) na štandardnom paneli nástrojov.

    V zobrazenom dialógovom okne Argumenty funkcie zadajte rozsah buniek C4:C11 do poľa Známe_hodnoty_y; v poli Known_values_x - rozsah buniek B4:B11;

    ak chcete zo zadaného vzorca urobiť vzorec poľa, použite kombináciu kláves + + .

Vzorec, ktorý sme zadali do riadka vzorcov, bude vyzerať takto: =(TREND(C4:C11;B4:B11)).

Výsledkom je, že rozsah buniek D4:D11 je vyplnený zodpovedajúcimi hodnotami funkcie TREND (obr. 9).

Urobiť prognózu zisku spoločnosti na roky 2003 a 2004. potrebné:

    vyberte rozsah buniek D12:D13, kde budú zadané hodnoty predpovedané funkciou TREND.

    zavolajte funkciu TREND a v zobrazenom dialógovom okne Argumenty funkcie zadajte do poľa Známe_hodnoty_y rozsah buniek C4:C11; v poli Known_values_x - rozsah buniek B4:B11; a v poli Nové_hodnoty_x - rozsah buniek B12:B13.

    premeňte tento vzorec na vzorec poľa pomocou kombinácie Klávesy Ctrl+ Shift + Enter.

    Zadaný vzorec bude vyzerať takto: =(TREND(C4:C11;B4:B11;B12:B13)) a rozsah buniek D12:D13 bude vyplnený predpovedanými hodnotami funkcie TREND (pozri obr. 9).

Podobne sa dátový rad napĺňa pomocou funkcie GROWTH, ktorá sa používa pri analýze nelineárnych závislostí a funguje úplne rovnako ako jeho lineárny náprotivok TREND.

Obrázok 10 zobrazuje tabuľku v režime zobrazenia vzorca.

Pre počiatočné dáta a získané dátové série je diagram znázornený na obr. jedenásť.

Úloha 4

S tabuľkou údajov o príjme žiadostí o výkony dispečerskou službou podniku motorovej dopravy za obdobie od 1. do 11. dňa bežného mesiaca je potrebné vykonať nasledovné úkony.

    Získajte rad údajov pre lineárnu regresiu: pomocou funkcií SLOPE a INTERCEPT; pomocou funkcie LINEST.

    Získajte sériu údajov pre exponenciálnu regresiu pomocou funkcie LYFFPRIB.

    Pomocou vyššie uvedených funkcií vytvorte prognózu príjmu žiadostí na dispečing na obdobie od 12. do 14. dňa aktuálneho mesiaca.

    Pre pôvodný a prijatý rad údajov vytvorte diagram.

Riešenie problému

Všimnite si, že na rozdiel od funkcií TREND a GROW žiadna z vyššie uvedených funkcií (SLOPE, INTERCEPTION, LINEST, LGRFPRIB) nie je regresia. Tieto funkcie zohrávajú len pomocnú úlohu, určujúce potrebné regresné parametre.

Pre lineárne a exponenciálne regresie postavené pomocou funkcií SLOPE, INTERCEPT, LINEST, LGRFPRIB je vzhľad ich rovníc vždy známy, na rozdiel od lineárnych a exponenciálnych regresií zodpovedajúcich funkciám TREND a GROWTH.

1 . Zostavme lineárnu regresiu, ktorá má rovnicu:

y=mx+b

pomocou funkcií SLOPE a INTERCEPT, pričom sklon regresie m určuje funkcia SLOPE a konštantný člen b - funkcia INTERCEPT.

Za týmto účelom vykonávame nasledujúce akcie:

    zadajte zdrojovú tabuľku v rozsahu buniek A4:B14;

    hodnota parametra m bude určená v bunke C19. Vyberte z kategórie Štatistika funkciu Sklon; zadajte rozsah buniek B4:B14 do poľa známe_hodnoty_y a rozsah buniek A4:A14 do poľa známe_hodnoty_x. Do bunky C19 sa zadá vzorec: =SLOPE(B4:B14;A4:A14);

    pomocou podobnej metódy sa určí hodnota parametra b v bunke D19. A jeho obsah bude vyzerať takto: = INTERCEPT(B4:B14;A4:A14). Hodnoty parametrov m a b, potrebné na zostavenie lineárnej regresie, budú teda uložené v bunkách C19, D19;

    potom zadáme vzorec lineárnej regresie do bunky C4 v tvare: = $ C * A4 + $ D. V tomto vzorci sú bunky C19 a D19 zapísané s absolútnymi odkazmi (adresa bunky by sa pri prípadnom kopírovaní nemala meniť). Absolútny referenčný znak $ je možné zadať buď z klávesnice alebo pomocou klávesu F4 po umiestnení kurzora na adresu bunky. Pomocou rukoväte výplne skopírujte tento vzorec do rozsahu buniek C4:C17. Dostaneme požadovaný rad údajov (obr. 12). Vzhľadom na to, že počet žiadostí je celé číslo, mali by ste na karte Číslo v okne Formát bunky nastaviť formát čísla s počtom desatinných miest na 0.

2 . Teraz zostavme lineárnu regresiu danú rovnicou:

y=mx+b

pomocou funkcie LINEST.

Pre to:

    zadajte funkciu LINEST ako vzorec poľa do rozsahu buniek C20:D20: =(LINEST(B4:B14;A4:A14)). V dôsledku toho dostaneme hodnotu parametra m v ​​bunke C20 a hodnotu parametra b v bunke D20;

    do bunky D4 zadajte vzorec: =$C*A4+$D;

    skopírujte tento vzorec pomocou značky výplne do rozsahu buniek D4:D17 a získajte požadovaný rad údajov.

3 . Zostavíme exponenciálnu regresiu, ktorá má rovnicu:

pomocou funkcie LGRFPRIBL sa vykonáva podobne:

    v rozsahu buniek C21:D21 zadajte funkciu LGRFPRIBL ako vzorec poľa: =( LGRFPRIBL (B4:B14;A4:A14)). V tomto prípade sa hodnota parametra m určí v bunke C21 a hodnota parametra b sa určí v bunke D21;

    vzorec sa zadá do bunky E4: =$D*$C^A4;

    pomocou značky výplne sa tento vzorec skopíruje do rozsahu buniek E4:E17, kde bude umiestnený rad údajov pre exponenciálnu regresiu (pozri obr. 12).

Na obr. 13 je tabuľka, kde môžeme vidieť funkcie, ktoré používame s potrebnými rozsahmi buniek, ako aj vzorce.

Hodnota R 2 volal determinačný koeficient.

Úlohou konštrukcie regresnej závislosti je nájsť vektor koeficientov m modelu (1), pri ktorom koeficient R nadobúda maximálnu hodnotu.

Na posúdenie významnosti R sa používa Fisherov F-test vypočítaný podľa vzorca

kde n- veľkosť vzorky (počet experimentov);

k je počet modelových koeficientov.

Ak F prekročí určitú kritickú hodnotu pre dáta n a k a akceptovanej úrovni spoľahlivosti, potom sa hodnota R považuje za významnú. Tabuľky kritických hodnôt F sú uvedené v referenčných knihách o matematickej štatistike.

Význam R je teda určený nielen jeho hodnotou, ale aj pomerom medzi počtom experimentov a počtom koeficientov (parametrov) modelu. V skutočnosti je korelačný pomer pre n=2 pre jednoduchý lineárny model 1 (cez 2 body v rovine môžete vždy nakresliť jednu priamku). Ak sú však experimentálne údaje náhodné premenné, takejto hodnote R by sa malo dôverovať veľmi opatrne. Zvyčajne, aby sa získala významná R a spoľahlivá regresia, je zameraná na zabezpečenie toho, aby počet experimentov výrazne prevyšoval počet modelových koeficientov (n>k).

Ak chcete vytvoriť model lineárnej regresie, musíte:

1) pripravte zoznam n riadkov a m stĺpcov obsahujúcich experimentálne údaje (stĺpec obsahujúci výstupnú hodnotu Y musí byť buď prvý alebo posledný v zozname); zoberme si napríklad údaje predchádzajúcej úlohy, pričom pridáme stĺpec s názvom „číslo obdobia“, očíslujeme čísla období od 1 do 12. (toto budú hodnoty X)

2) prejdite do ponuky Údaje/Analýza údajov/Regresia

Ak položka „Analýza údajov“ v ponuke „Nástroje“ chýba, mali by ste prejsť na položku „Doplnky“ v tej istej ponuke a začiarknuť políčko „Analytický balík“.

3) v dialógovom okne "Regresia" nastavte:

vstupný interval Y;

vstupný interval X;

výstupný interval - ľavá horná bunka intervalu, v ktorom budú umiestnené výsledky výpočtu (odporúča sa umiestniť ho na nový pracovný hárok);

4) kliknite na „OK“ a analyzujte výsledky.

Páčil sa vám článok? Zdieľaj to