Kontakty

Štandardná odchýlka funkcie. Rozptyl: všeobecný, ukážkový, opravený

Pri štatistickom testovaní hypotéz, pri meraní lineárneho vzťahu medzi náhodnými veličinami.

Stredná smerodajná odchýlka:

Smerodajná odchýlka(odhad štandardnej odchýlky náhodná premenná Podlaha, steny okolo nás a strop X v porovnaní s jeho matematickým očakávaním na základe nezaujatého odhadu jeho rozptylu):

kde - rozptyl; - Podlaha, steny okolo nás a strop, i-ty prvok vzorky; - veľkosť vzorky; - aritmetický priemer vzorky:

Treba poznamenať, že oba odhady sú skreslené. Vo všeobecnom prípade nie je možné vytvoriť nezaujatý odhad. Odhad založený na nezaujatom odhade rozptylu je však konzistentný.

pravidlo troch sigma

pravidlo troch sigma() - takmer všetky hodnoty normálne rozloženej náhodnej premennej ležia v intervale . Presnejšie - s nie menšou ako 99,7% istotou leží hodnota normálne rozloženej náhodnej premennej v špecifikovanom intervale (za predpokladu, že hodnota je pravdivá a nie je získaná ako výsledok spracovania vzorky).

Ak skutočná hodnota nie je známa, mali by ste použiť nie, ale podlahu, steny okolo nás a strop, s. Pravidlo troch sigm je teda preložené do pravidla troch poschodí, stien okolo nás a stropu, s .

Interpretácia hodnoty smerodajnej odchýlky

Veľká hodnota štandardnej odchýlky ukazuje veľký rozptyl hodnôt v prezentovanom súbore s priemernou hodnotou súboru; malá hodnota znamená, že hodnoty v súbore sú zoskupené okolo priemernej hodnoty.

Napríklad máme tri sady čísel: (0, 0, 14, 14), (0, 6, 8, 14) a (6, 6, 8, 8). Všetky tri súbory majú stredné hodnoty 7 a smerodajné odchýlky 7, 5 a 1. Posledný súbor má malú smerodajnú odchýlku, pretože hodnoty v súbore sú zoskupené okolo priemeru; prvá sada má najviac veľký významštandardná odchýlka - hodnoty v rámci súboru sa výrazne líšia od strednej hodnoty.

Vo všeobecnom zmysle možno štandardnú odchýlku považovať za mieru neistoty. Napríklad vo fyzike sa štandardná odchýlka používa na určenie chyby série po sebe idúcich meraní nejakej veličiny. Táto hodnota je veľmi dôležitá na určenie hodnovernosti skúmaného javu v porovnaní s hodnotou predpovedanou teóriou: ak je stredná hodnota meraní veľmi odlišná od hodnôt predpovedaných teóriou (veľká smerodajná odchýlka), potom získané hodnoty alebo spôsob ich získania by sa mali znova skontrolovať.

Praktické využitie

V praxi vám štandardná odchýlka umožňuje určiť, do akej miery sa môžu hodnoty v súbore líšiť od priemernej hodnoty.

Klíma

Predpokladajme, že existujú dve mestá s rovnakou priemernou dennou maximálnou teplotou, ale jedno sa nachádza na pobreží a druhé vo vnútrozemí. Je známe, že pobrežné mestá majú mnoho rôznych denných maximálnych teplôt nižšie ako vnútrozemské mestá. Preto bude smerodajná odchýlka maximálnych denných teplôt v pobrežnom meste menšia ako v druhom meste, a to aj napriek tomu, že majú rovnakú priemernú hodnotu tejto hodnoty, čo v praxi znamená, že pravdepodobnosť, že maximálna teplota vzduchu je každý konkrétny deň v roku bude silnejší, líši sa od priemernej hodnoty, vyššej pre mesto nachádzajúce sa na kontinente.

Šport

Predpokladajme, že ich je niekoľko futbalové tímy, ktoré sa hodnotia podľa nejakej sady parametrov, napríklad počtu strelených a inkasovaných gólov, šancí na skórovanie atď. Je veľmi pravdepodobné, že najlepší tím v tejto skupine bude mať najlepšie hodnoty pre viacero parametrov. Čím menšia je štandardná odchýlka tímu pre každý z prezentovaných parametrov, tým je výsledok tímu predvídateľnejší, takéto tímy sú vyrovnané. Na druhej strane pre tím s veľkou smerodajnou odchýlkou ​​je ťažké predpovedať výsledok, čo sa zase vysvetľuje nerovnováhou, napr. silná obrana, ale slabý útok.

Použitie štandardnej odchýlky parametrov tímu umožňuje do určitej miery predpovedať výsledok zápasu medzi dvoma tímami, hodnotiť silné stránky a slabé stránky príkazy, a teda aj zvolené metódy boja.

Technická analýza

pozri tiež

Literatúra

* Borovikov, V.ŠTATISTIKA. Umenie počítačovej analýzy dát: Pre profesionálov / V. Borovikov. - St. Petersburg. : Peter, 2003. - 688 s. - ISBN 5-272-00078-1.

Treba poznamenať, že tento výpočet rozptylu má nevýhodu - ukazuje sa ako neobjektívny, t.j. jeho matematické očakávanie sa nerovná skutočnej hodnote rozptylu. Viac o tomto. Zároveň nie je všetko také zlé. S nárastom veľkosti vzorky sa stále približuje k svojmu teoretickému náprotivku, t.j. je asymptoticky nezaujatý. Preto pri práci s veľké veľkosti vzorky, môžete použiť vzorec uvedený vyššie.

Je užitočné preložiť jazyk znakov do jazyka slov. Ukazuje sa, že rozptyl je priemerný štvorec odchýlok. To znamená, že najprv sa vypočíta priemerná hodnota, potom sa vezme rozdiel medzi každou pôvodnou a priemernou hodnotou, umocní sa, sčíta sa a potom sa vydelí počtom hodnôt v tejto populácii. Rozdiel medzi jednotlivou hodnotou a priemerom odráža mieru odchýlky. Umocňuje sa, aby sa zabezpečilo, že všetky odchýlky sa stanú výlučne kladnými číslami a aby sa zabránilo vzájomnému zrušeniu kladných a záporných odchýlok pri ich sčítaní. Potom, vzhľadom na druhú mocninu odchýlok, jednoducho vypočítame aritmetický priemer. Priemer - štvorec - odchýlky. Odchýlky sú umocnené na druhú a berie sa do úvahy priemer. Odpoveď spočíva len v troch slovách.

Avšak v čistej forme, ako je aritmetický priemer alebo index, rozptyl sa nepoužíva. Ide skôr o pomocný a prechodný ukazovateľ, ktorý je potrebný pre iné typy štatistických analýz. Nemá ani normálnu mernú jednotku. Súdiac podľa vzorca, ide o druhú mocninu pôvodnej dátovej jednotky. Bez fľaše, ako sa hovorí, nepochopíte.

(modul 111)

Aby sa disperzia vrátila do reality, teda aby sa použila na prízemnejšie účely, vytiahne sa z nej druhá odmocnina. Ukazuje sa tzv stredná smerodajná odchýlka(RMS). Existujú názvy „štandardná odchýlka“ alebo „sigma“ (z názvu gréckeho písmena). Vzorec smerodajná odchýlka vyzerá ako:

Ak chcete získať tento ukazovateľ pre vzorku, použite vzorec:

Rovnako ako v prípade rozptylu existuje trochu iná možnosť výpočtu. Ale ako vzorka rastie, rozdiel mizne.

Smerodajná odchýlka, samozrejme, tiež charakterizuje mieru rozptylu údajov, ale teraz (na rozdiel od rozptylu) ju možno porovnať s pôvodnými údajmi, pretože majú rovnaké jednotky merania (je to zrejmé z výpočtového vzorca). Tento ukazovateľ vo svojej čistej forme však nie je príliš informatívny, pretože obsahuje príliš veľa medzivýpočtov, ktoré sú mätúce (odchýlka, druhá mocnina, súčet, priemer, odmocnina). Napriek tomu je už možné pracovať priamo so smerodajnou odchýlkou, pretože vlastnosti tohto ukazovateľa sú dobre preštudované a známe. Napríklad je tu toto pravidlo troch sigma, ktorý uvádza, že 997 údajových bodov z 1 000 je v rozmedzí ± 3 sigma od aritmetického priemeru. Smerodajná odchýlka ako miera neistoty je tiež súčasťou mnohých štatistických výpočtov. S jeho pomocou sa stanovuje stupeň presnosti rôznych odhadov a predpovedí. Ak je odchýlka veľmi veľká, potom sa aj štandardná odchýlka ukáže ako veľká, preto bude predpoveď nepresná, čo bude vyjadrené napríklad vo veľmi širokých intervaly spoľahlivosti.

Variačný koeficient

Štandardná odchýlka poskytuje absolútny odhad miery rozpätia. Preto, aby sme pochopili, aké veľké je rozpätie vzhľadom na samotné hodnoty (t. j. bez ohľadu na ich rozsah), je potrebný relatívny ukazovateľ. Tento indikátor sa nazýva koeficient variácie a vypočíta sa pomocou nasledujúceho vzorca:

Variačný koeficient sa meria v percentách (ak sa vynásobí 100 %). Pomocou tohto ukazovateľa môžete porovnávať rôzne javy bez ohľadu na ich rozsah a jednotky merania. Práve táto skutočnosť robí variačný koeficient tak populárnym.

V štatistike sa akceptuje, že ak je hodnota variačného koeficientu menšia ako 33 %, potom sa populácia považuje za homogénnu, ak je viac ako 33 %, potom je heterogénna. Ťažko sa mi tu vyjadruje. Neviem, kto a prečo to takto definoval, ale považuje sa to za axiómu.

Mám pocit, že som sa nechal uniesť suchou teóriou a potrebujem priniesť niečo vizuálne a obrazné. Na druhej strane, všetky ukazovatele variácie opisujú približne to isté, len sú inak vypočítané. Preto je ťažké zažiariť rôznymi príkladmi. Líšiť sa môžu iba hodnoty ukazovateľov, ale nie ich podstata. Poďme teda porovnať, ako sa líšia hodnoty rôznych ukazovateľov variácie pre rovnaký súbor údajov. Uveďme si príklad s výpočtom priemeru lineárna odchýlka(od ). Tu sú pôvodné údaje:

A pripomienková tabuľka.

Na základe týchto údajov vypočítame rôzne ukazovatele variácie.

Priemer je obvyklý aritmetický priemer.

Rozsah variácie je rozdiel medzi maximom a minimom:

Priemerná lineárna odchýlka sa vypočíta podľa vzorca:

štandardná odchýlka:

Výpočet zhrnieme do tabuľky.

Ako vidíte, lineárny priemer a štandardná odchýlka poskytujú podobné hodnoty pre stupeň variácie údajov. Rozptyl je sigma na druhú, takže bude vždy relatívny. Vysoké čísločo v skutočnosti nič nehovorí. Rozsah variácií je rozdiel medzi extrémami a môže veľa povedať.

Zhrňme si nejaké výsledky.

Variácia ukazovateľa odráža variabilitu procesu alebo javu. Jeho stupeň je možné merať pomocou viacerých ukazovateľov.

1. Rozsah variácie je rozdiel medzi maximom a minimom. odrážať rozsah možné hodnoty.
2. Priemerná lineárna odchýlka - odráža priemer absolútnych (modulo) odchýlok všetkých hodnôt analyzovanej populácie od ich priemernej hodnoty.
3. Disperzia - priemerný štvorec odchýlok.
4. Smerodajná odchýlka – koreň rozptylu (stredné kvadratické odchýlky).
5. Variačný koeficient je najuniverzálnejším ukazovateľom, ktorý odráža mieru rozptylu hodnôt bez ohľadu na ich stupnicu a jednotky merania. Variačný koeficient sa meria v percentách a možno ho použiť na porovnanie variácií rôznych procesov a javov.

V štatistickej analýze teda existuje systém ukazovateľov odrážajúcich homogenitu javov a stabilitu procesov. Ukazovatele variácií často nemajú nezávislý význam a používajú sa na ďalšiu analýzu údajov (výpočet intervalov spoľahlivosti

Podľa výberového prieskumu boli vkladatelia zoskupení podľa veľkosti vkladu v Sberbank mesta:

Definuj:

1) rozsah variácií;

2) priemerná výška vkladu;

3) priemerná lineárna odchýlka;

4) disperzia;

5) štandardná odchýlka;

6) variačný koeficient príspevkov.

Riešenie:

Tento distribučný rad obsahuje otvorené intervaly. V takýchto radoch sa hodnota intervalu prvej skupiny bežne považuje za rovnajúcu sa hodnote intervalu ďalšej skupiny a hodnote intervalu posledná skupina rovný intervalu predchádzajúceho.

Hodnota intervalu druhej skupiny je 200, teda hodnota prvej skupiny je tiež 200. Hodnota intervalu predposlednej skupiny je 200, čo znamená, že aj posledný interval bude mať hodnotu 200.

1) Definujte rozsah variácie ako rozdiel medzi najväčším a najmenšia hodnota znamenie:

Rozsah variácií vo veľkosti príspevku je 1 000 rubľov.

2) Priemerná veľkosť príspevok je určený vzorcom aritmetického váženého priemeru.

Predbežne definujme diskrétne množstvo funkciu v každom intervale. Aby sme to dosiahli, pomocou jednoduchého vzorca aritmetického priemeru nájdeme stredy intervalov.

Priemerná hodnota prvého intervalu sa bude rovnať:

druhý - 500 atď.

Výsledky výpočtov dáme do tabuľky:

Výška vkladu, rub.Počet prispievateľov, fStred intervalu, xxf
200-400 32 300 9600
400-600 56 500 28000
600-800 120 700 84000
800-1000 104 900 93600
1000-1200 88 1100 96800
Celkom 400 - 312000

Priemerný vklad v mestskej Sberbank bude 780 rubľov:

3) Priemerná lineárna odchýlka je aritmetický priemer absolútnych odchýlok jednotlivých hodnôt atribútu od celkového priemeru:

Postup výpočtu priemernej lineárnej odchýlky v rade intervalového rozdelenia je nasledujúci:

1. Aritmetický vážený priemer sa vypočíta tak, ako je uvedené v odseku 2).

2. Stanovia sa absolútne odchýlky variantu od priemeru:

3. Získané odchýlky sa vynásobia frekvenciami:

4. Súčet vážených odchýlok sa zistí bez zohľadnenia znamienka:

5. Súčet vážených odchýlok sa vydelí súčtom frekvencií:

Je vhodné použiť tabuľku vypočítaných údajov:

Výška vkladu, rub.Počet prispievateľov, fStred intervalu, x
200-400 32 300 -480 480 15360
400-600 56 500 -280 280 15680
600-800 120 700 -80 80 9600
800-1000 104 900 120 120 12480
1000-1200 88 1100 320 320 28160
Celkom 400 - - - 81280

Priemerná lineárna odchýlka veľkosti vkladu klientov Sberbank je 203,2 rubľov.

4) Disperzia je aritmetický priemer druhej mocniny odchýlok každej hodnoty vlastnosti od aritmetického priemeru.

Výpočet rozptylu v intervaloch distribučných radov sa vykonáva podľa vzorca:

Postup na výpočet rozptylu je v tomto prípade nasledovný:

1. Určite aritmetický vážený priemer, ako je uvedené v odseku 2).

2. Nájdite odchýlky od priemeru:

3. Umocnenie odchýlky každej možnosti od priemeru:

4. Vynásobte druhé mocniny odchýlok váhami (frekvenciami):

5. Zhrňte prijaté diela:

6. Výsledná suma sa vydelí súčtom váh (frekvencií):

Uveďme výpočty do tabuľky:

Výška vkladu, rub.Počet prispievateľov, fStred intervalu, x
200-400 32 300 -480 230400 7372800
400-600 56 500 -280 78400 4390400
600-800 120 700 -80 6400 768000
800-1000 104 900 120 14400 1497600
1000-1200 88 1100 320 102400 9011200
Celkom 400 - - - 23040000

Matematické očakávanie a rozptyl

Poďme zmerať náhodnú premennú N krát, napríklad desaťkrát meriame rýchlosť vetra a chceme zistiť priemernú hodnotu. Ako súvisí stredná hodnota s distribučnou funkciou?

Hodíme kockou veľké množstvo raz. Počet bodov, ktoré padnú na kocku počas každého hodu, je náhodná premenná a môže nadobudnúť akékoľvek prirodzené hodnoty od 1 do 6. N smeruje k veľmi konkrétnemu číslu – matematickému očakávaniu M x. V tomto prípade M x = 3,5.

Ako táto hodnota vznikla? Vpustiť N Testy raz vypadli o 1 bod, raz - 2 body a tak ďalej. Potom N→ ∞ počet výsledkov, pri ktorých padol jeden bod, Podobne odtiaľto

Model 4.5. Kocky

Predpokladajme teraz, že poznáme zákon rozdelenia náhodnej premennej X, to znamená, že vieme, že náhodná premenná X môže nadobudnúť hodnoty X 1 , X 2 , ..., x k s pravdepodobnosťami p 1 , p 2 , ..., p k.

Očakávaná hodnota M x náhodná premenná X rovná sa:

Odpoveď. 2,8.

Matematické očakávanie nie je vždy rozumným odhadom nejakej náhodnej premennej. Takže odhadnúť priemer mzdy rozumnejšie je použiť pojem medián, teda takú hodnotu, že počet ľudí, ktorí dostávajú menej ako medián platu a viac, je rovnaký.

Medián náhodná premenná sa nazýva číslo X 1/2 tak, že p (X < X 1/2) = 1/2.

Inými slovami, pravdepodobnosť p 1, že náhodná premenná X bude menej X 1/2 a pravdepodobnosť p 2, že náhodná premenná X bude väčšia X 1/2 sú rovnaké a rovnajú sa 1/2. Medián nie je jednoznačne určený pre všetky distribúcie.

Späť k náhodnej premennej X, ktorý môže nadobudnúť hodnoty X 1 , X 2 , ..., x k s pravdepodobnosťami p 1 , p 2 , ..., p k.

disperzia náhodná premenná X je stredná hodnota štvorcovej odchýlky náhodnej premennej od jej matematického očakávania:

Príklad 2

Za podmienok predchádzajúceho príkladu vypočítajte rozptyl a smerodajnú odchýlku náhodnej premennej X.

Odpoveď. 0,16, 0,4.

Model 4.6. streľba na terč

Príklad 3

Nájdite rozdelenie pravdepodobnosti počtu bodov hodených na kocke z prvého hodu, mediánu, matematického očakávania, rozptylu a štandardnej odchýlky.

Vypustenie akejkoľvek tváre je rovnako pravdepodobné, takže distribúcia bude vyzerať takto:

Smerodajná odchýlka Je vidieť, že odchýlka hodnoty od strednej hodnoty je veľmi veľká.

Vlastnosti matematického očakávania:

  • Matematické očakávanie súčtu nezávislých náhodných premenných sa rovná súčtu ich matematických očakávaní:

Príklad 4

Nájdite matematické očakávanie súčtu a súčinu bodov hodených na dvoch kockách.

V príklade 3 sme zistili, že pre jednu kocku M (X) = 3,5. Takže na dve kocky

Disperzné vlastnosti:

  • Rozptyl súčtu nezávislých náhodných premenných sa rovná súčtu rozptylov:

D x + r = D x + D Y.

Nechajte pre N hádže kockami r bodov. Potom

Tento výsledok neplatí len pri hodoch kockami. V mnohých prípadoch určuje presnosť merania matematického očakávania empiricky. Je vidieť, že s nárastom počtu meraní Nšírenie hodnôt okolo priemeru, teda štandardnej odchýlky, sa úmerne znižuje

Rozptyl náhodnej premennej súvisí s matematickým očakávaním druhej mocniny tejto náhodnej premennej nasledujúcim vzťahom:

Nájdime matematické očakávania oboch častí tejto rovnosti. Podľa definície,

Matematické očakávanie pravej strany rovnosti sa podľa vlastnosti matematických očakávaní rovná

Smerodajná odchýlka

smerodajná odchýlka rovná sa odmocnina z disperzie:
Pri určovaní smerodajnej odchýlky pre dostatočne veľký objem študovanej populácie (n> 30) sa používajú tieto vzorce:

Podobné informácie.


Disperzia. Smerodajná odchýlka

Disperzia je aritmetický priemer druhých mocnín odchýlok každej hodnoty znaku od celkového priemeru. V závislosti od zdrojových údajov môže byť rozptyl nevážený (jednoduchý) alebo vážený.

Disperzia sa vypočíta pomocou nasledujúcich vzorcov:

pre nezoskupené údaje

pre zoskupené údaje

Postup výpočtu váženého rozptylu:

1. určiť aritmetický vážený priemer

2. Stanovia sa odchýlky variantov od priemeru

3. odmocni odchýlku každej možnosti od priemeru

4. vynásobte druhé mocniny odchýlok váhami (frekvenciami)

5. zhrnúť prijaté práce

6. výsledná suma sa vydelí súčtom váh

Vzorec na určenie rozptylu možno previesť na nasledujúci vzorec:

- jednoduchý

Postup výpočtu rozptylu je jednoduchý:

1. určiť aritmetický priemer

2. odmocnina aritmetického priemeru

3. možnosť štvorca každého riadku

4. nájdite možnosť súčet štvorcov

5. vydeľte súčet štvorcov opcie ich počtom, t.j. určiť stredný štvorec

6. určte rozdiel medzi strednou druhou mocninou znaku a druhou mocninou priemeru

Aj vzorec na určenie váženého rozptylu možno previesť na nasledujúci vzorec:

tie. rozptyl sa rovná rozdielu medzi priemerom druhých mocnín hodnôt funkcie a druhou mocninou aritmetického priemeru. Pri použití transformovaného vzorca je vylúčený dodatočný postup na výpočet odchýlok jednotlivých hodnôt znaku od x a vylúčená je chyba vo výpočte spojená s odchýlkami zaokrúhľovania.

Disperzia má množstvo vlastností, z ktorých niektoré uľahčujú výpočet:

1) rozptyl konštantnej hodnoty je nula;

2) ak sa všetky varianty hodnôt atribútov znížia o rovnaké číslo, potom sa rozptyl nezníži;

3) ak sa všetky varianty hodnôt atribútu znížia o rovnaký počet krát (krát), potom sa rozptyl zníži o faktor

Smerodajná odchýlka S- je druhá odmocnina z rozptylu:

Pre nezoskupené údaje:

;

· za variačná séria:

Rozsah variácie, stredná lineárna a stredná kvadratická odchýlka sú pomenované veličiny. Majú rovnaké jednotky ako individuálnych hodnôt znamenie.

Rozptyl a smerodajná odchýlka sú najpoužívanejšie miery variácie. Vysvetľuje to skutočnosť, že sú zahrnuté vo väčšine teorémov teórie pravdepodobnosti, ktorá slúži ako základ matematickej štatistiky. Okrem toho sa rozptyl môže rozložiť na základné prvky, čo umožňuje posúdiť vplyv rôzne faktory ktoré určujú variáciu vlastnosti.

Výpočet variačných ukazovateľov pre banky zoskupených podľa zisku je uvedený v tabuľke.

Zisk, milióny rubľov Počet bánk vypočítané ukazovatele
3,7 - 4,6 (-) 4,15 8,30 -1,935 3,870 7,489
4,6 - 5,5 5,05 20,20 - 1,035 4,140 4,285
5,5 - 6,4 5,95 35,70 - 0,135 0,810 0,109
6,4 - 7,3 6,85 34,25 +0,765 3,825 2,926
7,3 - 8,2 7,75 23,25 +1,665 4,995 8,317
Celkom: 121,70 17,640 23,126

Stredná lineárna a stredná kvadratická odchýlka ukazujú, ako veľmi kolíše hodnota atribútu v priemere pre jednotky a skúmanú populáciu. Áno, v tomto prípade priemerná hodnota kolísanie výšky zisku je: podľa priemernej lineárnej odchýlky 0,882 milióna rubľov; podľa štandardnej odchýlky - 1,075 milióna rubľov. Smerodajná odchýlka je vždy väčšia ako priemerná lineárna odchýlka. Ak je distribúcia znaku blízko normálu, potom existuje vzťah medzi S a d: S=1,25d, alebo d=0,8S. Smerodajná odchýlka ukazuje, ako sa väčšina jednotiek populácie nachádza v porovnaní s aritmetickým priemerom. Bez ohľadu na formu distribúcie, 75 hodnôt atribútov spadá do intervalu x 2S a najmenej 89 zo všetkých hodnôt spadá do intervalu x 3S (P.L. Chebyshevova veta).

Páčil sa vám článok? Zdieľaj to