Kontakty

Pravdepodobnosť spoľahlivosti. Interval spoľahlivosti

V predchádzajúcich podkapitolách sme sa zaoberali otázkou odhadu neznámeho parametra A jedno číslo. Toto sa nazýva „bodový“ odhad. V mnohých úlohách musíte nielen nájsť parameter A vhodnú číselnú hodnotu, ale aj na vyhodnotenie jej presnosti a spoľahlivosti. Musíte vedieť, k akým chybám môže výmena parametra viesť A jeho bodový odhad A a s akou mierou istoty môžeme očakávať, že tieto chyby nepresiahnu známe limity?

Problémy tohto druhu sú relevantné najmä pri malom počte pozorovaní, keď bodový odhad a v je do značnej miery náhodné a približné nahradenie a môže viesť k vážnym chybám.

Pre predstavu o presnosti a spoľahlivosti odhadu A,

V matematickej štatistike sa používajú takzvané intervaly spoľahlivosti a pravdepodobnosti spoľahlivosti.

Nech pre parameter A nestranný odhad získaný zo skúseností A. V tomto prípade chceme odhadnúť možnú chybu. Priraďme nejakú dostatočne veľkú pravdepodobnosť p (napríklad p = 0,9, 0,95 alebo 0,99) takú, že udalosť s pravdepodobnosťou p možno považovať za prakticky spoľahlivú a nájdime hodnotu s, pre ktorú

Potom je rozsah prakticky možné hodnoty chyba, ktorá sa vyskytne pri výmene A na A, bude ± s; Veľké chyby v absolútnej hodnote sa objavia len s nízkou pravdepodobnosťou a = 1 - p. Prepíšme (14.3.1) ako:

Rovnosť (14.3.2) znamená, že s pravdepodobnosťou p je neznáma hodnota parametra A spadá do intervalu

Je potrebné poznamenať jednu okolnosť. Predtým sme opakovane zvažovali pravdepodobnosť, že náhodná premenná spadne do daného nenáhodného intervalu. Tu je situácia iná: veľkosť A nie je náhodný, ale interval / p je náhodný. Jeho poloha na osi x je náhodná, určená jej stredom A; Vo všeobecnosti je dĺžka intervalu 2s tiež náhodná, pretože hodnota s sa vypočítava spravidla z experimentálnych údajov. Preto by v tomto prípade bolo lepšie interpretovať hodnotu p nie ako pravdepodobnosť „zasiahnutia“ bodu A v intervale / p a ako pravdepodobnosť, že náhodný interval / p pokryje bod A(obr. 14.3.1).

Ryža. 14.3.1

Pravdepodobnosť p sa zvyčajne nazýva pravdepodobnosť dôvery, a interval / p - interval spoľahlivosti. Hranice intervalov Ak. a x = a- s a a 2 = a + a volajú sa hranice dôvery.

Uveďme iný výklad pojmu interval spoľahlivosti: možno ho považovať za interval hodnôt parametrov A, kompatibilné s experimentálnymi údajmi a nie sú v rozpore s nimi. Ak totiž súhlasíme, že udalosť s pravdepodobnosťou a = 1-p považujeme za prakticky nemožnú, potom tie hodnoty parametra a, pre ktoré a - a> s musia byť uznané ako protichodné experimentálne údaje a tie, pre ktoré |a - A a t na 2.

Nech pre parameter A existuje nestranný odhad A. Keby sme poznali zákon rozdelenia množstva A, úloha nájsť interval spoľahlivosti by bola veľmi jednoduchá: stačilo by nájsť hodnotu s, pre ktorú

Problém je v tom, že zákon distribúcie odhadov A závisí od distribučného zákona množstva X a teda na jeho neznámych parametroch (najmä na samotnom parametri A).

Na obídenie tohto problému môžete použiť nasledujúcu približnú techniku: nahraďte neznáme parametre vo výraze pre s ich bodovými odhadmi. S pomerne veľké číslo experimenty P(asi 20...30) táto technika zvyčajne poskytuje výsledky, ktoré sú z hľadiska presnosti uspokojivé.

Ako príklad uvažujme problém intervalu spoľahlivosti pre matematické očakávania.

Nech sa vyrába P X, ktorých charakteristikou je matematické očakávanie T a rozptyl D- neznámy. Pre tieto parametre sa získali nasledujúce odhady:

Je potrebné zostrojiť interval spoľahlivosti / p zodpovedajúci pravdepodobnosti spoľahlivosti p pre matematické očakávanie T množstvá X.

Pri riešení tohto problému využijeme fakt, že množstvo T predstavuje súčet P nezávislé identicky rozdelené náhodné premenné Xh a podľa centrálnej limitnej vety pre dostatočne veľkú P jeho distribučný zákon je blízky normálu. V praxi aj pri relatívne malom počte členov (asi 10...20) možno distribučný zákon súčtu považovať približne za normálny. Budeme predpokladať, že hodnota T distribuované podľa bežného zákona. Charakteristiky tohto zákona – matematické očakávanie a rozptyl – sa rovnajú, resp T A

(pozri kapitolu 13 pododdiel 13.3). Predpokladajme, že hodnota D poznáme a nájdeme hodnotu Ep, pre ktorú

Pomocou vzorca (6.3.5) z kapitoly 6 vyjadríme pravdepodobnosť na ľavej strane (14.3.5) prostredníctvom funkcie normálneho rozdelenia

kde je štandardná odchýlka odhadu T.

Z rov.

nájdite hodnotu Sp:

kde arg Ф* (х) je inverzná funkcia Ф* (X), tie. taká hodnota argumentu, pre ktorú sa funkcia normálneho rozdelenia rovná X.

Disperzia D, prostredníctvom ktorého sa množstvo vyjadruje A 1P, nevieme presne; ako jeho približnú hodnotu môžete použiť odhad D(14.3.4) a uveďte približne:

Problém konštrukcie intervalu spoľahlivosti bol teda približne vyriešený, čo sa rovná:

kde gp je určené vzorcom (14.3.7).

Aby sa predišlo spätnej interpolácii v tabuľkách funkcie Ф* (l) pri výpočte s p, je vhodné zostaviť špeciálnu tabuľku (tabuľka 14.3.1), ktorá udáva hodnoty množstva

v závislosti od r. Hodnota (p určuje pre normálny zákon počet smerodajných odchýlok, ktoré je potrebné vykresliť vpravo a vľavo od stredu disperzie tak, aby pravdepodobnosť vstupu do výslednej oblasti bola rovná p.

Pomocou hodnoty 7 p je interval spoľahlivosti vyjadrený ako:

Tabuľka 14.3.1

Príklad 1. Uskutočnilo sa 20 experimentov s množstvom X; výsledky sú uvedené v tabuľke. 14.3.2.

Tabuľka 14.3.2

Je potrebné nájsť odhad z pre matematické očakávanie množstva X a zostrojte interval spoľahlivosti zodpovedajúci pravdepodobnosti spoľahlivosti p = 0,8.

Riešenie. Máme:

Ak ako referenčný bod zvolíme l: = 10, pomocou tretieho vzorca (14.2.14) nájdeme nezaujatý odhad D :

Podľa tabuľky 14.3.1 nájdeme

Hranice spoľahlivosti:

Interval spoľahlivosti:

Hodnoty parametrov T, ležiace v tomto intervale sú kompatibilné s experimentálnymi údajmi uvedenými v tabuľke. 14.3.2.

Interval spoľahlivosti pre rozptyl možno zostrojiť podobným spôsobom.

Nech sa vyrába P nezávislé experimenty s náhodnou premennou X s neznámymi parametrami pre A aj disperziu D bol získaný nestranný odhad:

Je potrebné približne zostrojiť interval spoľahlivosti pre rozptyl.

Zo vzorca (14.3.11) je zrejmé, že množstvo D predstavuje

čiastka P náhodné premenné formulára . Tieto hodnoty nie sú

nezávislé, pretože ktorýkoľvek z nich zahŕňa množstvo T, závislý na všetkých ostatných. Dá sa však ukázať, že s pribúdajúcimi P zákon rozdelenia ich súčtu sa tiež blíži k normálu. Takmer o P= 20...30 to už možno považovať za normálne.

Predpokladajme, že je to tak a nájdime charakteristiky tohto zákona: matematické očakávanie a rozptyl. Od hodnotenia D- teda nezaujatý M[D] = D.

Výpočet rozptylu D D je spojená s pomerne zložitými výpočtami, preto uvádzame jej vyjadrenie bez odvodenia:

kde q 4 je štvrtý centrálny moment veľkosti X.

Ak chcete použiť tento výraz, musíte nahradiť hodnoty \u003d 4 a D(aspoň blízkych). Namiesto D môžete použiť jeho hodnotenie D. V zásade môže byť štvrtý centrálny moment nahradený aj odhadom, napríklad hodnotou tvaru:

ale takáto náhrada poskytne extrémne nízku presnosť, pretože vo všeobecnosti sa pri obmedzenom počte experimentov určujú momenty vysokého rádu s veľkými chybami. V praxi sa však často stáva, že typ rozdelenia množstva zákon X vopred známy: neznáme sú len jeho parametre. Potom sa môžete pokúsiť vyjadriť μ 4 prostredníctvom D.

Zoberme si najbežnejší prípad, kedy je hodnota X distribuované podľa bežného zákona. Potom je jeho štvrtý centrálny moment vyjadrený rozptylom (pozri kapitolu 6, pododdiel 6.2);

a vzorec (14.3.12) dáva alebo

Nahradenie neznámeho v (14.3.14) D jeho hodnotenie D, dostaneme: odkiaľ

Moment μ 4 možno vyjadriť cez D aj v niektorých iných prípadoch, keď rozdelenie hodnoty X nie je normálne, ale jeho vzhľad je známy. Napríklad pre zákon rovnomernej hustoty (pozri kapitolu 5) máme:

kde (a, P) je interval, na ktorom je zákon špecifikovaný.

teda

Pomocou vzorca (14.3.12) dostaneme: kde približne nájdeme

V prípadoch, keď nie je známy typ distribučného zákona pre veličinu 26, pri približnom odhade hodnoty a/) sa aj tak odporúča použiť vzorec (14.3.16), pokiaľ neexistujú osobitné dôvody domnievať sa, že tento zákon sa veľmi líši od bežného (má znateľné kladné alebo záporné špičky).

Ak sa približná hodnota a/) získa tak či onak, potom môžeme zostrojiť interval spoľahlivosti pre rozptyl rovnakým spôsobom, ako sme ho vytvorili pre matematické očakávanie:

kde hodnotu závislú od danej pravdepodobnosti p nájdeme podľa tabuľky. 14.3.1.

Príklad 2. Nájdite približne 80 % interval spoľahlivosti pre rozptyl náhodnej premennej X za podmienok príkladu 1, ak je známe, že hodnota X distribuované podľa zákona blízkeho normálu.

Riešenie. Hodnota zostáva rovnaká ako v tabuľke. 14.3.1:

Podľa vzorca (14.3.16)

Pomocou vzorca (14.3.18) nájdeme interval spoľahlivosti:

Zodpovedajúci interval priemerných hodnôt štvorcová odchýlka: (0,21; 0,29).

14.4. Presné metódy konštrukcie intervalov spoľahlivosti pre parametre náhodnej premennej distribuovanej podľa normálneho zákona

V predchádzajúcej podkapitole sme skúmali približne približné metódy konštrukcie intervalov spoľahlivosti pre matematické očakávania a rozptyl. Tu poskytneme predstavu o presných metódach riešenia rovnakého problému. Zdôrazňujeme, že pre presné nájdenie intervalov spoľahlivosti je bezpodmienečne nutné vopred poznať formu distribučného zákona množstva X, pričom pre aplikáciu približných metód to nie je potrebné.

Nápad presné metódy Konštrukcia intervalov spoľahlivosti vychádza z nasledujúceho. Akýkoľvek interval spoľahlivosti sa zistí z podmienky vyjadrujúcej pravdepodobnosť splnenia určitých nerovností, medzi ktoré patrí aj odhad, ktorý nás zaujíma A. Zákon rozdelenia ocenenia A vo všeobecnom prípade závisí od neznámych parametrov veličiny X. Niekedy je však možné prejsť v nerovnostiach z náhodnej premennej A na nejakú inú funkciu pozorovaných hodnôt X p X 2, ..., X str. ktorého distribučný zákon nezávisí od neznámych parametrov, ale závisí len od počtu pokusov a od typu distribučného zákona veličiny X. Tieto druhy náhodných premenných hrajú dôležitú úlohu v matematickej štatistike; boli najpodrobnejšie študované pre prípad normálneho rozdelenia množstva X.

Napríklad je dokázané, že pri normálnom rozdelení hodnoty X náhodná hodnota

podriaďuje sa tzv Zákon o distribúcii študentov s P- 1 stupeň voľnosti; hustota tohto zákona má tvar

kde G(x) je známa funkcia gama:

Bolo tiež dokázané, že náhodná premenná

má "%2 distribúciu" s P- 1 stupeň voľnosti (pozri kapitolu 7), ktorého hustota je vyjadrená vzorcom

Bez toho, aby sme sa zaoberali deriváciami rozdelení (14.4.2) a (14.4.4), ukážeme, ako ich možno použiť pri konštrukcii intervalov spoľahlivosti pre parametre ty D.

Nech sa vyrába P nezávislé experimenty s náhodnou premennou X, normálne distribuované s neznámymi parametrami T&O. Pre tieto parametre sa získali odhady

Je potrebné zostrojiť intervaly spoľahlivosti pre oba parametre zodpovedajúce pravdepodobnosti spoľahlivosti p.

Najprv zostrojme interval spoľahlivosti pre matematické očakávanie. Je prirodzené brať tento interval symetrický vzhľadom na T; nech s p označuje polovicu dĺžky intervalu. Hodnota s p musí byť zvolená tak, aby bola splnená podmienka

Skúsme sa presunúť na ľavú stranu rovnosti (14.4.5) od náhodnej premennej T na náhodnú premennú T, distribuované podľa študentského zákona. Ak to chcete urobiť, vynásobte obe strany nerovnosti |m-w?|

kladnou hodnotou: alebo pomocou zápisu (14.4.1),

Nájdite číslo / p také, aby sa hodnota / p dala nájsť z podmienky

Zo vzorca (14.4.2) je zrejmé, že (1) - dokonca funkciu, tak (14.4.8) dáva

Rovnosť (14.4.9) určuje hodnotu / p v závislosti od p. Ak máte k dispozícii tabuľku integrálnych hodnôt

potom hodnotu /p možno nájsť reverznou interpoláciou v tabuľke. Je však pohodlnejšie vopred zostaviť tabuľku hodnôt /p. Takáto tabuľka je uvedená v prílohe (tabuľka 5). Táto tabuľka zobrazuje hodnoty v závislosti od úrovne spoľahlivosti p a počtu stupňov voľnosti P- 1. Po určení / p z tabuľky. 5 a za predpokladu

nájdeme polovičnú šírku intervalu spoľahlivosti / p a samotný interval

Príklad 1. Uskutočnilo sa 5 nezávislých experimentov s náhodnou premennou X, normálne distribuované s neznámymi parametrami T a o. Výsledky experimentov sú uvedené v tabuľke. 14.4.1.

Tabuľka 14.4.1

Nájsť hodnotenie T pre matematické očakávanie a zostrojte preň 90 % interval spoľahlivosti / p (t. j. interval zodpovedajúci pravdepodobnosti spoľahlivosti p = 0,9).

Riešenie. Máme:

Podľa tabuľky 5 žiadosti o P - 1 = 4 a p = 0,9 nájdeme kde

Interval spoľahlivosti bude

Príklad 2. Pre podmienky príkladu 1 pododdielu 14.3, za predpokladu hodnoty X normálne rozložené, nájdite presný interval spoľahlivosti.

Riešenie. Podľa tabuľky 5 v prílohe zistíme kedy P - 1 = 19ir =

0,8 / p = 1,328; odtiaľ

V porovnaní s riešením z príkladu 1 pododdielu 14.3 (e p = 0,072) sme presvedčení, že nezrovnalosť je veľmi nevýznamná. Ak zachováme presnosť na dve desatinné miesta, potom sa intervaly spoľahlivosti zistené presnou a približnou metódou zhodujú:

Prejdime ku konštrukcii intervalu spoľahlivosti pre rozptyl. Zvážte nezaujatý odhad rozptylu

a vyjadriť náhodná premenná D cez veľkosť V(14.4.3), s rozdelením x 2 (14.4.4):

Poznať zákon rozdelenia množstva V, môžete nájsť interval /(1), do ktorého spadá s danou pravdepodobnosťou p.

Zákon distribúcie kn_x(v) magnitúda I7 má tvar znázornený na obr. 14.4.1.

Ryža. 14.4.1

Vynára sa otázka: ako zvoliť interval / p? Ak zákon rozdelenia vel V bol symetrický (ako normálny zákon alebo Studentovo rozdelenie), bolo by prirodzené brať interval /p symetrický vzhľadom na matematické očakávanie. V tomto prípade zákon k p_x (v) asymetrické. Dohodnime sa, že zvolíme interval /p tak, aby pravdepodobnosť hodnoty bola V za intervalom vpravo a vľavo (tieňované oblasti na obr. 14.4.1) boli rovnaké a rovnaké

Na vytvorenie intervalu /p s touto vlastnosťou použijeme tabuľku. 4 aplikácie: obsahuje čísla y) také že

za hodnotu V, s x 2 -distribúciou s r stupňami voľnosti. V našom prípade r = n- 1. Poďme opraviť r = n- 1 a nájdite v príslušnom riadku tabuľky. 4 dva významy x 2 - jeden zodpovedá pravdepodobnosti druhý - pravdepodobnosť Označme tieto

hodnoty o 2 A xl? Interval má y 2,ľavou stranou a y~ pravý koniec.

Teraz nájdime z intervalu / p požadovaný interval spoľahlivosti /| pre disperziu s hranicami D a D2, ktorý pokrýva pointu D s pravdepodobnosťou p:

Zostrojme interval / (, = (?> ь А), ktorý pokrýva bod D vtedy a len vtedy, ak hodnota V spadá do intervalu /r. Ukážme, že interval

spĺňa túto podmienku. Pravdaže, nerovnosti sú ekvivalentné nerovnostiam

a tieto nerovnosti sa uspokoja s pravdepodobnosťou p. Interval spoľahlivosti pre rozptyl bol teda nájdený a je vyjadrený vzorcom (14.4.13).

Príklad 3. Nájdite interval spoľahlivosti pre rozptyl za podmienok príkladu 2 pododdielu 14.3, ak je známe, že hodnota X normálne distribuované.

Riešenie. Máme . Podľa tabuľky 4 prílohy

nájdeme na r = n - 1 = 19

Pomocou vzorca (14.4.13) nájdeme interval spoľahlivosti pre rozptyl

Zodpovedajúci interval pre štandardnú odchýlku je (0,21; 0,32). Tento interval len mierne presahuje interval (0,21; 0,29) získaný v príklade 2 pododdielu 14.3 približnou metódou.

  • Obrázok 14.3.1 uvažuje interval spoľahlivosti symetrický okolo a. Vo všeobecnosti, ako uvidíme neskôr, to nie je potrebné.

Akákoľvek vzorka poskytuje iba približnú predstavu o všeobecnej populácii a všetky štatistické charakteristiky vzorky (priemer, režim, rozptyl...) sú aproximáciou alebo povedzme odhadom všeobecných parametrov, ktoré vo väčšine prípadov nie je možné vypočítať. k neprístupnosti bežnej populácie (obrázok 20) ​​.

Obrázok 20. Chyba pri odbere vzoriek

Môžete však určiť interval, v ktorom s určitou mierou pravdepodobnosti leží skutočná (všeobecná) hodnota štatistickej charakteristiky. Tento interval sa nazýva d interval spoľahlivosti (CI).

Takže všeobecná priemerná hodnota s pravdepodobnosťou 95% leží v rámci

od do, (20)

Kde t – tabuľková hodnota Študentovho testu pre α = 0,05 a f= n-1

V tomto prípade možno nájsť aj 99 % CI t vybrané pre α =0,01.

Aký je praktický význam intervalu spoľahlivosti?

    Široký interval spoľahlivosti naznačuje, že priemer vzorky presne neodráža priemer populácie. Je to zvyčajne spôsobené nedostatočnou veľkosťou vzorky, prípadne jej heterogenitou, t.j. veľký rozptyl. Obidve poskytujú väčšiu chybu priemeru, a teda aj širší CI. A to je základ pre návrat do fázy plánovania výskumu.

    Horná a dolná hranica CI poskytujú odhad, či budú výsledky klinicky významné

Zastavme sa podrobnejšie pri otázke štatistickej a klinickej významnosti výsledkov štúdia skupinových vlastností. Pripomeňme si, že úlohou štatistiky je na základe vzorových údajov odhaliť aspoň nejaké rozdiely vo všeobecných populáciách. Výzvou pre lekárov je odhaliť rozdiely (nie hocijaké), ktoré pomôžu diagnostike alebo liečbe. A štatistické závery nie sú vždy základom pre klinické závery. Štatisticky významný pokles hemoglobínu o 3 g/l teda nie je dôvodom na obavy. A naopak, ak nejaký problém v ľudskom tele nie je rozšírený na úrovni celej populácie, nie je to dôvod, aby sme sa týmto problémom nezaoberali.

Pozrime sa na túto situáciu príklad.

Výskumníkov zaujímalo, či chlapci, ktorí trpeli nejakým druhom infekčného ochorenia, nezaostávajú v raste za svojimi rovesníkmi. Na tento účel bola vykonaná vzorová štúdia, ktorej sa zúčastnilo 10 chlapcov, ktorí trpeli týmto ochorením. Výsledky sú uvedené v tabuľke 23.

Tabuľka 23. Výsledky štatistického spracovania

nižší limit

Horná hranica

Normy (cm)

priemer

Z týchto výpočtov vyplýva, že vzorka priemernej výšky 10-ročných chlapcov, ktorí podstúpili nejaké infekcia, takmer normálne (132,5 cm). Spodná hranica intervalu spoľahlivosti (126,6 cm) však naznačuje, že existuje 95 % pravdepodobnosť, že skutočná priemerná výška týchto detí zodpovedá pojmu „nízka výška“, t.j. tieto deti sú zakrpatené.

V tomto príklade sú výsledky výpočtov intervalu spoľahlivosti klinicky významné.

Z tohto článku sa dozviete:

    Čo sa stalo interval spoľahlivosti?

    Aký to má zmysel pravidlá 3 sigma?

    Ako môžete tieto poznatky uplatniť v praxi?

V dnešnej dobe kvôli prebytku informácií spojených s veľkým sortimentom produktov, predajných smerov, zamestnancov, oblastí činnosti atď. môže byť ťažké zdôrazniť to hlavné, ktorý v prvom rade stojí za pozornosť a snahu zvládnuť. Definícia interval spoľahlivosti a analýza skutočných hodnôt presahujúcich jej hranice - technika, ktorá vám pomôže upozorniť na situácie, ovplyvňovanie meniacich sa trendov. Budete schopní rozvíjať pozitívne faktory a znižovať vplyv negatívnych. Táto technológia sa používa v mnohých známych svetových spoločnostiach.

Existujú tzv. upozornenia", ktorý informovať manažérovže ďalšia hodnota je v určitom smere išiel ďalej interval spoľahlivosti. Čo to znamená? Je to signál, že došlo k nejakej nezvyčajnej udalosti, ktorá môže zmeniť doterajší trend v tomto smere. Toto je signál k tomu prísť na to v danej situácii a pochopiť, čo ju ovplyvnilo.

Zvážte napríklad niekoľko situácií. Vypočítali sme prognózu predaja s limitmi prognózy pre 100 produktov na rok 2011 podľa mesiacov a skutočných predajov v marci:

  1. podľa " Slnečnicový olej» prekonal hornú hranicu prognózy a nespadol do intervalu spoľahlivosti.
  2. Pre „Suché droždie“ sme prekročili spodnú hranicu predpovede.
  3. podľa " Ovsené vločky„Prelomil hornú hranicu.

Pri ostatných produktoch bol skutočný predaj v rámci daných prognózovaných limitov. Tie. ich predaj bol v rámci očakávaní. Identifikovali sme teda 3 produkty, ktoré prekročili hranice, a začali sme zisťovať, čo ich ovplyvnilo, aby prekročili hranice:

  1. V prípade Slnečnicového oleja sme vstúpili do novej distribučnej siete, čím sme získali ďalší objem predaja, čo viedlo k prekročeniu hornej hranice. Pre tento produkt sa oplatí prepočítať prognózu do konca roka s prihliadnutím na prognózu predaja pre túto sieť.
  2. Za „suché kvasnice“ auto uviazlo na colnici a do 5 dní došlo k nedostatku, čo ovplyvnilo pokles predaja a prekročilo spodnú hranicu. Možno by stálo za to zistiť, čo to spôsobilo a pokúsiť sa túto situáciu neopakovať.
  3. Bola spustená akcia na podporu predaja pre ovsenú kašu, ktorá výrazne zvýšila predaj a viedla k tomu, že spoločnosť prekročila prognózu.

Identifikovali sme 3 faktory, ktoré ovplyvnili prekročenie limitov prognózy. V živote ich môže byť oveľa viac Na zvýšenie presnosti predpovedí a plánovania, faktorov, ktoré vedú k tomu, že skutočné tržby môžu presahovať predpovedné limity, stojí za to zdôrazniť a zostaviť predpovede a plány pre ne samostatne. A potom zvážte ich vplyv na hlavnú prognózu predaja. Môžete tiež pravidelne hodnotiť vplyv týchto faktorov a meniť situáciu k lepšiemu. znížením vplyvu negatívnych a zvýšením vplyvu pozitívnych faktorov.

S intervalom spoľahlivosti môžeme:

  1. Vyberte trasu, ktoré stoja za pozornosť, pretože v týchto smeroch nastali udalosti, ktoré môžu ovplyvniť zmena trendu.
  2. Identifikujte faktory, ktoré skutočne ovplyvňujú zmenu situácie.
  3. súhlasiť informované rozhodnutie(napríklad o nákupe, plánovaní atď.).

Teraz sa pozrime na to, čo je interval spoľahlivosti a ako ho vypočítať v programe Excel pomocou príkladu.

Čo je interval spoľahlivosti?

Interval spoľahlivosti je hranica prognózy (horná a dolná), v rámci ktorej s danou pravdepodobnosťou (sigma) objavia sa skutočné hodnoty.

Tie. Vypočítame predpoveď - to je naše hlavné usmernenie, ale chápeme, že skutočné hodnoty sa pravdepodobne nebudú 100% rovnať našej predpovedi. A vyvstáva otázka, v akých hraniciach skutočné hodnoty môžu klesnúť, ak bude súčasný trend pokračovať? A táto otázka nám pomôže odpovedať výpočet intervalu spoľahlivosti, t.j. - horná a dolná hranica prognózy.

Čo je daná pravdepodobnosť sigma?

Pri výpočte interval spoľahlivosti môžeme nastaviť pravdepodobnosť hity skutočné hodnoty v rámci daných predpovedných limitov. Ako to spraviť? Aby sme to dosiahli, nastavíme hodnotu sigma a ak sa sigma rovná:

    3 sigma- potom pravdepodobnosť ďalšej skutočnej hodnoty spadajúcej do intervalu spoľahlivosti bude 99,7 % alebo 300 ku 1, alebo je pravdepodobnosť prekročenia hraníc 0,3 %.

    2 sigma- potom pravdepodobnosť ďalšej hodnoty spadajúcej do hraníc je ≈ 95,5 %, t.j. šance sú asi 20 ku 1, alebo je 4,5% šanca, že to prekročíte.

    1 sigma- potom je pravdepodobnosť ≈ 68,3 %, t.j. pravdepodobnosť je približne 2 ku 1 alebo existuje 31,7 % šanca, že ďalšia hodnota bude mimo intervalu spoľahlivosti.

Formulovali sme pravidlo 3 sigma,ktorý hovorí, že pravdepodobnosť zásahu iná náhodná hodnota do intervalu spoľahlivosti s daná hodnota tri sigma je 99,7%.

Veľký ruský matematik Čebyšev dokázal vetu, že existuje 10% pravdepodobnosť prekročenia predpovedných limitov s danou hodnotou tri sigma. Tie. pravdepodobnosť spadnutia do 3-sigma intervalu spoľahlivosti bude minimálne 90 %, pričom pokus o výpočet prognózy a jej hraníc „od oka“ je plný oveľa výraznejších chýb.

Ako vypočítať interval spoľahlivosti sami v Exceli?

Pozrime sa na príklade výpočtu intervalu spoľahlivosti v Exceli (t. j. hornej a dolnej hranice prognózy). Máme časový rad - predaj podľa mesiacov za 5 rokov. Pozri si prílohu.

Na výpočet limitov prognózy vypočítame:

  1. Prognóza predaja().
  2. Sigma - štandardná odchýlka predpovedné modely zo skutočných hodnôt.
  3. Tri sigma.
  4. Interval spoľahlivosti.

1. Prognóza predaja.

=(RC[-14] (údaje z časových radov)- RC[-1] (hodnota modelu))^2 (štvorec)


3. Za každý mesiac spočítajme hodnoty odchýlok od štádia 8 Sum((Xi-Ximod)^2), t.j. Zhrňme si január, február... za každý rok.

Ak to chcete urobiť, použite vzorec =SUMIF()

SUMIF(pole s číslami období vo vnútri cyklu (pre mesiace od 1 do 12); prepojenie na číslo obdobia v cykle; prepojenie na pole so štvorcami rozdielu medzi zdrojovými údajmi a hodnotami obdobia)


4. Vypočítajte štandardnú odchýlku pre každé obdobie v cykle od 1 do 12 (10. fáza v priloženom súbore).

Aby sme to dosiahli, extrahujeme koreň z hodnoty vypočítanej v štádiu 9 a vydelíme počtom období v tomto cykle mínus 1 = SQRT((Sum(Xi-Ximod)^2/(n-1))

Použime vzorce v Exceli =ROOT(R8 (odkaz na (Sum(Xi-Ximod)^2)/(COUNTIF($O$8:$O$67 (odkaz na pole s číslami cyklov); O8 (odkaz na konkrétne číslo cyklu, ktoré počítame v poli))-1))

Pomocou vzorca Excel = COUNTIF spočítame číslo n


Po vypočítaní štandardnej odchýlky skutočných údajov z predpovedného modelu sme získali hodnotu sigma pre každý mesiac - fáza 10 v priloženom súbore.

3. Vypočítajme 3 sigma.

V štádiu 11 nastavíme počet sigmov - v našom príklade „3“ (11 v priloženom súbore):

Vhodné aj na precvičovanie sigma hodnôt:

1,64 sigma - 10% šanca na prekročenie limitu (1 šanca z 10);

1,96 sigma – 5 % šanca na prekročenie limitov (1 šanca z 20);

2,6 sigma - 1% šanca na prekročenie limitov (1 šanca zo 100).

5) Výpočet troch sigma, na tento účel vynásobíme hodnoty „sigma“ za každý mesiac „3“.

3. Určite interval spoľahlivosti.

  1. Horný limit predpovede- prognóza predaja zohľadňujúca rast a sezónnosť + (plus) 3 sigma;
  2. Dolný limit predpovede- prognóza predaja zohľadňujúca rast a sezónnosť – (mínus) 3 sigma;

Na uľahčenie výpočtu intervalu spoľahlivosti na dlhé obdobie (pozri priložený súbor) použijeme vzorec Excel =Y8+VLOOKUP(W8;$U$8:$V$19;2;0), Kde

Y8- prognóza predaja;

W8- číslo mesiaca, pre ktorý budeme brať hodnotu 3-sigma;

Tie. Horný limit predpovede= „predpoveď predaja“ + „3 sigma“ (v príklade VLOOKUP(číslo mesiaca; tabuľka s 3 hodnotami sigma; stĺpec, z ktorého extrahujeme hodnotu sigma rovnajúcu sa číslu mesiaca v príslušnom riadku; 0)).

Dolný limit predpovede= „predpoveď predaja“ mínus „3 sigma“.

V Exceli sme teda vypočítali interval spoľahlivosti.

Teraz máme predpoveď a rozsah s hranicami, do ktorých budú skutočné hodnoty spadať s danou sigma pravdepodobnosťou.

V tomto článku sme sa pozreli na to, čo je sigma a pravidlo troch sigma, ako určiť interval spoľahlivosti a čo môžete použiť túto techniku na praxi.

Prajeme vám presné predpovede a úspech!

Ako Forecast4AC PRO vám môže pomôcťpri výpočte intervalu spoľahlivosti?:

    Forecast4AC PRO automaticky vypočíta hornú alebo dolnú hranicu predpovede pre viac ako 1000 časových radov súčasne;

    Schopnosť analyzovať hranice prognózy v porovnaní s prognózou, trendom a skutočným predajom na grafe jedným stlačením klávesu;

V programe Forcast4AC PRO je možné nastaviť hodnotu sigma od 1 do 3.

Pripoj sa k nám!

Stiahnite si bezplatné aplikácie na prognózovanie a analýzu podnikania:


  • Novo Forecast Lite- automatický predpovedný výpočet V Excel.
  • 4analytics - Analýza ABC-XYZ a analýzu emisií Excel.
  • Qlik Sense Desktop a QlikViewPersonal Edition - BI systémy pre analýzu a vizualizáciu dát.

Otestujte možnosti platených riešení:

  • Novo Forecast PRO- prognózovanie v Exceli pre veľké súbory údajov.

Nechaj nás mať veľké množstvo objekty s normálnym rozložením určitých charakteristík (napríklad kompletný sklad rovnakého druhu zeleniny, ktorého veľkosť a hmotnosť sa líšia). Chcete vedieť priemerné vlastnosti celej šarže tovaru, ale nemáte čas ani chuť každú zeleninu merať a vážiť. Chápete, že to nie je potrebné. Koľko kusov by však bolo potrebné vziať na náhodnú kontrolu?

Pred uvedením niekoľkých vzorcov užitočných pre túto situáciu si pripomeňme niekoľko zápisov.

Po prvé, ak by sme zmerali celý sklad zeleniny (tento súbor prvkov sa nazýva všeobecná populácia), potom by sme so všetkou presnosťou, ktorú máme k dispozícii, poznali priemernú hmotnosť celej dávky. Nazvime to priemer X priem .g en . - všeobecný priemer. Už vieme, čo je úplne určené, ak je známa jeho stredná hodnota a odchýlka s . Pravda, kým nie sme ani X priemerný gen s Nepoznáme bežnú populáciu. Môžeme odobrať iba určitú vzorku, zmerať hodnoty, ktoré potrebujeme, a vypočítať pre túto vzorku priemernú hodnotu X avg aj smerodajnú odchýlku S sel.

Je známe, že ak naša vzorová kontrola obsahuje veľký počet prvkov (zvyčajne n je väčšie ako 30), tak sa berú naozaj náhodné, potom s všeobecná populácia sa sotva bude líšiť od výberu S ..

Okrem toho v prípade normálneho rozdelenia môžeme použiť nasledujúce vzorce:

S pravdepodobnosťou 95%


S pravdepodobnosťou 99%



IN všeobecný pohľad s pravdepodobnosťou P (t)


Vzťah medzi hodnotou t a hodnotou pravdepodobnosti P (t), s ktorou chceme poznať interval spoľahlivosti, môžeme získať z nasledujúcej tabuľky:


Takto sme určili, v akom rozsahu leží priemerná hodnota pre populáciu (s danou pravdepodobnosťou).

Pokiaľ nemáme dostatočne veľkú vzorku, nemôžeme povedať, že populácia má s = S vyberte Okrem toho je v tomto prípade problematická blízkosť vzorky k normálnemu rozdeleniu. V tomto prípade namiesto toho použijeme aj S select s vo vzorci:




ale hodnota t pre pevnú pravdepodobnosť P(t) bude závisieť od počtu prvkov vo vzorke n. Čím väčšie n, tým bližšie bude výsledný interval spoľahlivosti k hodnote danej vzorcom (1). Hodnoty t sú v tomto prípade prevzaté z inej tabuľky ( Študentov t-test), ktorý uvádzame nižšie:

Hodnoty študentského t-testu pre pravdepodobnosť 0,95 a 0,99


Príklad 3 Zo zamestnancov spoločnosti bolo náhodne vybraných 30 ľudí. Podľa vzorky sa ukázalo, že priemerná mzda (za mesiac) je 30 000 rubľov s priemerom štvorcová odchýlka 5 tisíc rubľov. Určte priemernú mzdu vo firme s pravdepodobnosťou 0,99.

Riešenie: Podľa podmienky máme n = 30, X priem. = 30 000, S = 5 000, P = 0,99. Na zistenie intervalu spoľahlivosti použijeme vzorec zodpovedajúci Studentovmu t testu. Podľa tabuľky pre n = 30 a P = 0,99 nájdeme t = 2,756, teda


tie. vyhľadávaný správca interval 27484< Х ср.ген < 32516.

S pravdepodobnosťou 0,99 teda môžeme povedať, že interval (27484; 32516) obsahuje v sebe priemernú mzdu v spoločnosti.

Dúfame, že túto metódu využijete a nie je nutné, aby ste mali stôl zakaždým pri sebe. Výpočty je možné vykonávať automaticky v Exceli. V súbore Excel kliknite na tlačidlo fx v hornom menu. Potom vyberte medzi funkciami typ „štatistický“ az navrhovaného zoznamu v okne – STUDAR DISCOVER. Potom na výzvu umiestnením kurzora do poľa „pravdepodobnosť“ zadajte hodnotu inverznej pravdepodobnosti (t. j. v našom prípade namiesto pravdepodobnosti 0,95 musíte zadať pravdepodobnosť 0,05). Očividne tabuľkový procesor je zostavený tak, aby výsledok odpovedal na otázku, s akou pravdepodobnosťou sa môžeme pomýliť. Podobne do poľa Stupeň voľnosti zadajte hodnotu (n-1) pre vašu vzorku.

"Katren-Style" pokračuje vo vydávaní série Konstantina Kravchika o lekárskej štatistike. V dvoch predchádzajúcich článkoch sa autor zaoberal vysvetlením pojmov ako a.

Konštantín Kravčík

Matematik-analytik. Špecialista na štatistický výskum v medicíne a humanitných vedách

Mesto Moskva

Veľmi často v článkoch na klinický výskum môžete naraziť na záhadnú frázu: „interval spoľahlivosti“ (95 % CI alebo 95 % CI - interval spoľahlivosti). Napríklad článok môže napísať: „Na posúdenie významnosti rozdielov sa na výpočet 95 % intervalu spoľahlivosti použil Studentov t-test.“

Aká je hodnota „95 % intervalu spoľahlivosti“ a prečo ho počítať?

Čo je interval spoľahlivosti? - Toto je rozsah, v ktorom ležia skutočné populačné prostriedky. Existujú „nepravdivé“ priemery? V istom zmysle áno, robia. Vysvetlili sme, že nie je možné merať parameter záujmu v celej populácii, takže výskumníci si vystačia s obmedzenou vzorkou. V tejto vzorke (napríklad na základe telesnej hmotnosti) existuje jedna priemerná hodnota (určitá hmotnosť), podľa ktorej posudzujeme priemernú hodnotu v celej populácii. Je však nepravdepodobné, že by sa priemerná hmotnosť vo vzorke (najmä malej) zhodovala s priemernou hmotnosťou vo všeobecnej populácii. Preto je správnejšie vypočítať a použiť rozsah priemerných hodnôt populácie.

Predstavte si napríklad, že 95 % interval spoľahlivosti (95 % CI) pre hemoglobín je 110 až 122 g/l. To znamená, že existuje 95% šanca, že skutočná stredná hodnota hemoglobínu v populácii bude medzi 110 a 122 g/l. Inými slovami, nepoznáme priemernú hodnotu hemoglobínu v populácii, ale môžeme s 95 % pravdepodobnosťou uviesť rozsah hodnôt pre túto vlastnosť.

Intervaly spoľahlivosti sú obzvlášť dôležité pre rozdiely v priemeroch medzi skupinami alebo veľkosti účinku, ako sa nazývajú.

Povedzme, že sme porovnali účinnosť dvoch prípravkov železa: jedného, ​​ktorý je na trhu už dlho, a jedného, ​​ktorý je práve zaregistrovaný. Po ukončení terapie sme hodnotili koncentráciu hemoglobínu v skúmaných skupinách pacientov a štatistický program vypočítal, že rozdiel medzi priemernými hodnotami oboch skupín bol s 95 % pravdepodobnosťou v rozmedzí od 1,72 do 14,36 g/l (tabuľka 1).

Tabuľka 1. Test na nezávislé vzorky
(skupiny sa porovnávajú podľa hladiny hemoglobínu)

Malo by sa to interpretovať nasledovne: u niektorých pacientov v bežnej populácii, ktorí užívajú nový liek, hemoglobín bude vyšší v priemere o 1,72–14,36 g/l ako u tých, ktorí užili už známy liek.

Inými slovami, vo všeobecnej populácii je rozdiel v priemerných hodnotách hemoglobínu medzi skupinami v rámci týchto limitov s pravdepodobnosťou 95 %. Či je to veľa alebo málo, posúdi výskumník. Pointou toho všetkého je, že nepracujeme s jednou priemernou hodnotou, ale s rozsahom hodnôt, preto spoľahlivejšie odhadneme rozdiel v parametri medzi skupinami.

V štatistických balíkoch môžete podľa uváženia výskumníka nezávisle zúžiť alebo rozšíriť hranice intervalu spoľahlivosti. Znižovaním pravdepodobností intervalu spoľahlivosti zužujeme rozsah priemerov. Napríklad pri 90 % CI bude rozsah priemerov (alebo rozdiel v priemeroch) užší ako pri 95°%.

Naopak, zvýšenie pravdepodobnosti na 99 % rozširuje rozsah hodnôt. Pri porovnávaní skupín môže spodná hranica CI prekročiť nulovú značku. Napríklad, ak sme rozšírili hranice intervalu spoľahlivosti na 99 %, potom sa hranice intervalu pohybovali od –1 do 16 g/l. To znamená, že vo všeobecnej populácii existujú skupiny, medzi ktorými je rozdiel v priemeroch pre skúmanú charakteristiku rovný 0 (M = 0).

Pomocou intervalu spoľahlivosti môžete testovať štatistické hypotézy. Ak interval spoľahlivosti prekročí nulovú hodnotu, potom platí nulová hypotéza, ktorá predpokladá, že skupiny sa nelíšia v skúmanom parametri. Príklad je opísaný vyššie, kde sme rozšírili hranice na 99 %. Niekde v bežnej populácii sme našli skupiny, ktoré sa nijako nelíšili.

95 % interval spoľahlivosti rozdielu hemoglobínu, (g/l)


Obrázok ukazuje 95% interval spoľahlivosti pre rozdiel v stredných hodnotách hemoglobínu medzi týmito dvoma skupinami. Čiara prechádza nulovou značkou, preto existuje rozdiel medzi priemernými hodnotami, rovná nule, čo podporuje nulovú hypotézu, že skupiny sa nelíšia. Rozdiel medzi skupinami je od –2 do 5 g/l, čo znamená, že hemoglobín sa môže znížiť o 2 g/l alebo zvýšiť o 5 g/l.

Interval spoľahlivosti je veľmi dôležitým ukazovateľom. Vďaka nej môžete vidieť, či rozdiely v skupinách boli skutočne spôsobené rozdielom v priemeroch alebo veľkou vzorkou, keďže pri veľkej vzorke je šanca nájsť rozdiely väčšia ako pri malej.

V praxi to môže vyzerať takto. Odobrali sme vzorku 1000 ľudí, zmerali sme hladiny hemoglobínu a zistili sme, že interval spoľahlivosti pre rozdiel v priemeroch sa pohyboval od 1,2 do 1,5 g/l. Hladina štatistickej významnosti v tomto prípade p

Vidíme, že koncentrácia hemoglobínu sa zvýšila, ale takmer nebadateľne, preto sa štatistická významnosť objavila práve kvôli veľkosti vzorky.

Intervaly spoľahlivosti možno vypočítať nielen pre priemer, ale aj pre proporcie (a pomery rizika). Zaujíma nás napríklad interval spoľahlivosti podielov pacientov, ktorí dosiahli remisiu pri užívaní vyvinutého lieku. Predpokladajme, že 95 % CI pre proporcie, t.j. pre podiel takýchto pacientov, leží v rozmedzí 0,60–0,80. Dá sa teda povedať, že naša medicína má terapeutický účinok od 60 do 80 % prípadov.

Páčil sa vám článok? Zdieľaj to