Kontakty

Ako vypočítať smerodajnú odchýlku. Rozptyl: všeobecný, vzorový, opravený

Disperzia. Smerodajná odchýlka

Disperzia je aritmetický priemer druhej mocniny odchýlok každej hodnoty atribútu od celkového priemeru. V závislosti od zdrojových údajov môže byť rozptyl nevážený (jednoduchý) alebo vážený.

Rozptyl sa vypočíta pomocou nasledujúcich vzorcov:

· pre nezoskupené údaje

· pre zoskupené údaje

Postup výpočtu váženého rozptylu:

1. určiť aritmetický vážený priemer

2. zisťujú sa odchýlky variantu od priemeru

3. druhá mocnina odchýlky každej možnosti od priemeru

4. vynásobte druhé mocniny odchýlok váhami (frekvenciami)

5. zhrnúť výsledné produkty

6. výsledná suma sa vydelí súčtom váh

Vzorec na určenie rozptylu možno previesť na nasledujúci vzorec:

- jednoduchý

Postup výpočtu rozptylu je jednoduchý:

1. určiť aritmetický priemer

2. odmocnina aritmetického priemeru

3. utvorte štvorec každej možnosti v rade

4. nájsť možnosť súčet štvorcov

5. vydeľte súčet štvorcov ich počtom, t.j. určiť stredný štvorec

6. určte rozdiel medzi druhou mocninou charakteristiky a druhou mocninou priemeru

Vzorec na určenie váženého rozptylu možno tiež previesť na nasledujúci vzorec:

tie. rozptyl sa rovná rozdielu medzi priemerom druhých mocnín atribútu a druhou mocninou aritmetického priemeru. Pri použití transformovaného vzorca odpadá dodatočný postup výpočtu odchýlok jednotlivých hodnôt charakteristiky od x a eliminuje sa chyba vo výpočte spojená so zaokrúhľovaním odchýlok.

Disperzia má množstvo vlastností, z ktorých niektoré uľahčujú výpočet:

1) rozptyl konštantnej hodnoty je nula;

2) ak sa všetky varianty hodnôt atribútov znížia o rovnaké číslo, potom sa rozptyl nezníži;

3) ak sa všetky varianty hodnôt atribútov znížia rovnakým počtom krát (násobne), potom sa rozptyl zníži o faktor

Priemerná smerodajná odchýlka S- predstavuje druhú odmocninu rozptylu:

· pre nezoskupené údaje:

;

· pre sériu variácií:

Rozsah variácie, lineárny priemer a štandardná odchýlka sú pomenované veličiny. Majú rovnaké merné jednotky ako individuálnych hodnôt znamenie.

Rozptyl a štandardná odchýlka sú najpoužívanejšími mierami variácie. Vysvetľuje to skutočnosť, že sú zahrnuté vo väčšine teorémov teórie pravdepodobnosti, ktorá slúži ako základ matematickej štatistiky. Okrem toho sa rozptyl môže rozložiť na základné prvky, čo umožňuje posúdiť vplyv rôznych faktorov, čo spôsobuje variáciu vlastnosti.

Výpočet variačných ukazovateľov pre banky zoskupených podľa ziskovej marže je uvedený v tabuľke.

Výška zisku, milióny rubľov. Počet bánk vypočítané ukazovatele
3,7 - 4,6 (-) 4,15 8,30 -1,935 3,870 7,489
4,6 - 5,5 5,05 20,20 - 1,035 4,140 4,285
5,5 - 6,4 5,95 35,70 - 0,135 0,810 0,109
6,4 - 7,3 6,85 34,25 +0,765 3,825 2,926
7,3 - 8,2 7,75 23,25 +1,665 4,995 8,317
Celkom: 121,70 17,640 23,126

Priemerná lineárna a štandardná odchýlka ukazujú, ako veľmi kolíše hodnota charakteristiky v priemere medzi jednotkami a študovanou populáciou. Takže v tomto prípade je priemerná fluktuácia zisku: podľa priemernej lineárnej odchýlky 0,882 milióna rubľov; podľa štandardnej odchýlky - 1,075 milióna rubľov. Smerodajná odchýlka je vždy väčšia ako priemer lineárna odchýlka. Ak je rozloženie charakteristiky blízke normálu, potom medzi S a d existuje vzťah: S=1,25d, alebo d=0,8S. Smerodajná odchýlka ukazuje, ako sa väčšina jednotiek populácie nachádza v porovnaní s aritmetickým priemerom. Bez ohľadu na tvar rozdelenia spadá 75 hodnôt atribútu do intervalu x 2S a najmenej 89 zo všetkých hodnôt spadá do intervalu x 3S (P.L. Chebyshevova veta).

Stojí za zmienku, že tento výpočet rozptylu má nevýhodu - ukazuje sa ako neobjektívny, t.j. jeho matematické očakávanie sa nerovná skutočnej hodnote rozptylu. Prečítajte si o tom viac. Zároveň nie je všetko také zlé. S narastajúcou veľkosťou vzorky sa stále približuje k svojmu teoretickému analógu, t.j. je asymptoticky nezaujatý. Preto pri práci s veľké veľkosti vzorky, môžete použiť vzorec uvedený vyššie.

Je užitočné preložiť jazyk znakov do jazyka slov. Ukazuje sa, že rozptyl je priemerný štvorec odchýlok. To znamená, že sa najprv vypočíta priemerná hodnota, potom sa vezme rozdiel medzi každou pôvodnou a priemernou hodnotou, umocní sa na druhú, pridá sa a potom sa vydelí počtom hodnôt v populácii. Rozdiel medzi jednotlivou hodnotou a priemerom odráža mieru odchýlky. Umocňuje sa tak, aby sa všetky odchýlky stali výlučne kladnými číslami a aby sa zabránilo vzájomnému zničeniu kladných a záporných odchýlok pri ich sčítavaní. Potom, vzhľadom na druhú mocninu odchýlok, jednoducho vypočítame aritmetický priemer. Priemer - štvorec - odchýlky. Odchýlky sa umocnia na druhú a vypočíta sa priemer. Riešenie spočíva len v troch slovách.

Avšak v čistej forme, ako je aritmetický priemer alebo index, rozptyl sa nepoužíva. Ide skôr o pomocný a prechodný ukazovateľ, ktorý je potrebný pre iné typy štatistických analýz. Nemá ani normálnu mernú jednotku. Súdiac podľa vzorca, ide o druhú mocninu jednotky merania pôvodných údajov. Bez fľaše, ako sa hovorí, na to nemôžete prísť.

(modul 111)

Aby sme disperziu vrátili do reality, teda aby sme ju využili na všednejšie účely, extrahujeme z nej Odmocnina. Ukazuje sa tzv štandardná odchýlka (RMS). Sú tam mená" smerodajná odchýlka"alebo "sigma" (z názvu gréckeho písmena). Vzorec štandardnej odchýlky je:

Ak chcete získať tento ukazovateľ pre vzorku, použite vzorec:

Rovnako ako v prípade rozptylu existuje trochu iná možnosť výpočtu. Ale ako vzorka rastie, rozdiel mizne.

Smerodajná odchýlka, samozrejme, charakterizuje aj mieru rozptylu údajov, ale teraz (na rozdiel od rozptylu) ho možno porovnať s pôvodnými údajmi, keďže majú rovnaké merné jednotky (je to zrejmé z výpočtového vzorca). Tento ukazovateľ vo svojej čistej forme však nie je príliš informatívny, pretože obsahuje príliš veľa medzivýpočtov, ktoré sú mätúce (odchýlka, druhá mocnina, súčet, priemer, odmocnina). Už teraz je však možné pracovať priamo so smerodajnou odchýlkou, pretože vlastnosti tohto ukazovateľa sú dobre preštudované a známe. Napríklad je tu toto pravidlo troch sigma, ktorý uvádza, že údaje majú 997 hodnôt z 1000 v rozmedzí ±3 sigma aritmetického priemeru. Smerodajná odchýlka ako miera neistoty je tiež súčasťou mnohých štatistických výpočtov. S jeho pomocou sa určuje stupeň presnosti rôznych odhadov a predpovedí. Ak je odchýlka veľmi veľká, potom bude veľká aj smerodajná odchýlka, a preto bude predpoveď nepresná, čo sa prejaví napríklad vo veľmi širokých intervaloch spoľahlivosti.

Variačný koeficient

Štandardná odchýlka poskytuje absolútny odhad miery disperzie. Preto, aby sme pochopili, aké veľké je rozpätie vzhľadom na samotné hodnoty (t. j. bez ohľadu na ich rozsah), je potrebný relatívny ukazovateľ. Tento indikátor sa nazýva koeficient variácie a vypočíta sa pomocou nasledujúceho vzorca:

Variačný koeficient sa meria v percentách (ak sa vynásobí 100 %). Pomocou tohto indikátora môžete porovnávať rôzne javy bez ohľadu na ich rozsah a jednotky merania. Práve táto skutočnosť robí variačný koeficient tak populárnym.

V štatistike sa akceptuje, že ak je hodnota variačného koeficientu menšia ako 33 %, potom sa populácia považuje za homogénnu, ak je viac ako 33 %, potom je heterogénna. Ťažko sa mi tu niečo vyjadruje. Neviem, kto to definoval a prečo, ale považuje sa to za axiómu.

Cítim, že som unesený suchou teóriou a potrebujem priniesť niečo vizuálne a obrazné. Na druhej strane všetky variačné ukazovatele opisujú približne to isté, len sa odlišne počítajú. Preto je ťažké ukázať rôzne príklady Iba hodnoty ukazovateľov sa môžu líšiť, ale nie ich podstata. Poďme teda porovnať, ako sa líšia hodnoty rôznych variačných indikátorov pre rovnaký súbor údajov. Uveďme si príklad s výpočtom priemernej lineárnej odchýlky (od ). Tu sú zdrojové údaje:

A plán, ktorý vám to pripomenie.

Pomocou týchto údajov vypočítame rôzne ukazovatele variácie.

Priemerná hodnota je obvyklý aritmetický priemer.

Rozsah variácie je rozdiel medzi maximom a minimom:

Priemerná lineárna odchýlka sa vypočíta podľa vzorca:

Štandardná odchýlka:

Zhrňme si výpočet do tabuľky.

Ako je možné vidieť, lineárny priemer a štandardná odchýlka poskytujú podobné hodnoty pre stupeň variácie údajov. Rozptyl je sigma na druhú, takže bude vždy relatívny Vysoké číslo, čo v skutočnosti nič neznamená. Rozsah variácií je rozdiel medzi extrémnymi hodnotami a môže hovoriť veľa.

Zhrňme si niektoré výsledky.

Variácia indikátora odráža variabilitu procesu alebo javu. Jeho stupeň je možné merať pomocou viacerých ukazovateľov.

1. Rozsah variácie - rozdiel medzi maximom a minimom. Odráža rozsah možné hodnoty.
2. Priemerná lineárna odchýlka – vyjadruje priemer absolútnych (modulo) odchýlok všetkých hodnôt analyzovanej populácie od ich priemernej hodnoty.
3. Disperzia - priemerný štvorec odchýlok.
4. Smerodajná odchýlka je odmocnina disperzie (stredná štvorec odchýlok).
5. Variačný koeficient je najuniverzálnejším ukazovateľom, ktorý odráža mieru rozptylu hodnôt bez ohľadu na ich stupnicu a jednotky merania. Variačný koeficient sa meria v percentách a možno ho použiť na porovnanie variácií rôznych procesov a javov.

V štatistickej analýze teda existuje systém ukazovateľov, ktoré odrážajú homogenitu javov a stabilitu procesov. Variačné ukazovatele často nemajú nezávislý význam a používajú sa na ďalšiu analýzu údajov (výpočet intervalov spoľahlivosti

Lekcia č.4

Téma: „Deskriptívna štatistika. Indikátory diverzity vlastností v súhrne"

Hlavné kritériá pre diverzitu charakteristiky v štatistickej populácii sú: limit, amplitúda, štandardná odchýlka, koeficient oscilácie a koeficient variácie. V predchádzajúcej lekcii sa diskutovalo o tom, že priemerné hodnoty poskytujú iba zovšeobecnenú charakteristiku charakteristiky študovanej v súhrne a nezohľadňujú hodnoty jej jednotlivých variantov: minimálne a maximálne hodnoty, nadpriemerné, nižšie priemer atď.

Príklad. Priemerné hodnoty dvoch rôznych číselných radov: -100; -20; 100; 20 a 0,1; -0,2; 0,1 sú úplne rovnaké a rovnakéO.Avšak rozsahy rozptylu týchto relatívnych stredných sekvenčných údajov sú veľmi odlišné.

Určenie uvedených kritérií pre diverzitu ukazovateľa sa primárne vykonáva s prihliadnutím na jeho hodnotu v jednotlivých prvkoch štatistického súboru.

Indikátory na meranie variácie vlastnosti sú absolútne A príbuzný. Medzi absolútne ukazovatele variácie patria: rozsah variácie, limit, štandardná odchýlka, rozptyl. Koeficient variácie a koeficient oscilácie sa vzťahujú na relatívne miery variácie.

Limit (lim)- Toto je kritérium, ktoré je určené extrémnymi hodnotami variantu v sérii variácií. Inými slovami, toto kritérium je obmedzené na minimálne a maximálne hodnoty atribútu:

Amplitúda (Am) alebo rozsah variácií - toto je rozdiel extrémna možnosť. Výpočet tohto kritéria sa vykonáva odpočítaním jeho minimálnej hodnoty od maximálnej hodnoty atribútu, čo nám umožňuje odhadnúť stupeň rozptylu možnosti:

Nevýhodou limitu a amplitúdy ako kritérií variability je, že úplne závisia od extrémnych hodnôt charakteristiky v rade variácií. V tomto prípade sa neberie do úvahy kolísanie hodnôt atribútov v rámci série.

Najúplnejší popis diverzity vlastnosti v štatistickej populácii poskytuje smerodajná odchýlka(sigma), čo je všeobecná miera odchýlky opcie od jej priemernej hodnoty. Štandardná odchýlka sa často nazýva smerodajná odchýlka.

Smerodajná odchýlka je založená na porovnaní každej možnosti s aritmetickým priemerom danej populácie. Keďže v súhrne bude vždy možností aj menej aj viac ako je, súčet odchýlok so znamienkom "" bude zrušený súčtom odchýlok so znamienkom "", t.j. súčet všetkých odchýlok je nula. Aby sa predišlo vplyvu znamienok rozdielov, berú sa odchýlky od štvorca aritmetického priemeru, t.j. . Súčet štvorcových odchýlok sa nerovná nule. Ak chcete získať koeficient, ktorý dokáže merať variabilitu, zoberte priemer súčtu štvorcov – táto hodnota sa nazýva odchýlky:

Disperzia je v podstate priemerný štvorec odchýlok jednotlivých hodnôt charakteristiky od jej priemernej hodnoty. Disperzia štvorec štandardnej odchýlky.

Rozptyl je rozmerová veličina (pomenovaná). Ak sú teda varianty číselného radu vyjadrené v metroch, potom rozptyl udáva metre štvorcové; ak sú možnosti vyjadrené v kilogramoch, potom rozptyl udáva druhú mocninu tejto miery (kg 2) atď.

Smerodajná odchýlka– druhá odmocnina rozptylu:

, potom pri výpočte rozptylu a smerodajnej odchýlky v menovateli zlomku namiestomusí byť položený.

Výpočet štandardnej odchýlky možno rozdeliť do šiestich etáp, ktoré sa musia vykonať v určitom poradí:

Aplikácia štandardnej odchýlky:

a) na posudzovanie variability variačných radov a porovnávacie posúdenie typickosti (reprezentatívnosti) aritmetických priemerov. Toto je potrebné v odlišná diagnóza pri zisťovaní stability znakov.

b) rekonštruovať variačný rad, t.j. obnovenie jeho frekvenčnej odozvy na základe tri sigma pravidlá. V intervale (М±3σ) 99,7 % všetkých variantov série sa nachádza v intervale (М±2σ) - 95,5 % a v rozsahu (М±1σ) - 68,3 % možnosť riadkov(obr. 1).

c) na identifikáciu „vyskakovacích“ možností

d) určiť parametre normy a patológie pomocou sigma odhadov

e) na výpočet variačného koeficientu

f) na výpočet priemernej chyby aritmetického priemeru.

Charakterizovať akúkoľvek populáciu, ktorá mátyp normálneho rozdelenia , stačí poznať dva parametre: aritmetický priemer a smerodajnú odchýlku.

Obrázok 1. Pravidlo Three Sigma

Príklad.

V pediatrii sa štandardná odchýlka používa na hodnotenie fyzického vývoja detí porovnaním údajov konkrétneho dieťaťa s príslušnými štandardnými ukazovateľmi. Ako štandard sa berie aritmetický priemer telesného vývoja zdravých detí. Porovnanie ukazovateľov s normami sa vykonáva pomocou špeciálnych tabuliek, v ktorých sú uvedené normy spolu s ich zodpovedajúcimi sigma stupnicami. Predpokladá sa, že ak je ukazovateľ fyzického vývoja dieťaťa v rámci štandardu (aritmetický priemer) ±σ, potom fyzický vývoj dieťa (podľa tohto ukazovateľa) zodpovedá norme. Ak je indikátor v rámci normy ±2σ, potom existuje mierna odchýlka od normy. Ak ukazovateľ prekročí tieto hranice, potom sa fyzický vývoj dieťaťa výrazne líši od normy (patológia je možná).

Štatistický výskum okrem variačných ukazovateľov vyjadrených v absolútnych hodnotách využíva ukazovatele variácie vyjadrené v relatívnych hodnotách. Oscilačný koeficient - je to pomer rozsahu variácie k priemernej hodnote vlastnosti. Variačný koeficient - Ide o pomer smerodajnej odchýlky k priemernej hodnote charakteristiky. Tieto hodnoty sú zvyčajne vyjadrené v percentách.

Vzorce na výpočet ukazovateľov relatívnej variácie:

Z vyššie uvedených vzorcov je zrejmé, že čím väčší koeficient V je bližšie k nule, tým menšia je odchýlka charakteristických hodnôt. Viac V, čím je znamienko variabilnejšie.

V štatistickej praxi sa najčastejšie používa variačný koeficient. Používa sa nielen na porovnávacie hodnotenie variácií, ale aj na charakterizáciu homogenity populácie. Populácia sa považuje za homogénnu, ak variačný koeficient nepresahuje 33 % (pre rozdelenia blízke normálu). Aritmeticky pomer σ a aritmetického priemeru neutralizuje vplyv absolútnej hodnoty týchto charakteristík a percentuálny pomer robí z variačného koeficientu bezrozmernú (nepomenovanú) hodnotu.

Výsledná hodnota variačného koeficientu sa odhaduje v súlade s približnými gradáciami stupňa diverzity znaku:

Slabé – do 10 %

Priemer – 10 – 20 %

Silný - viac ako 20%

Použitie variačného koeficientu sa odporúča v prípadoch, keď je potrebné porovnať charakteristiky, ktoré sa líšia veľkosťou a rozmermi.

Rozdiel medzi variačným koeficientom a inými rozptylovými kritériami je jasne demonštrovaný príklad.

stôl 1

Zloženie pracovníkov priemyselného podniku

Na základe štatistických charakteristík uvedených v príklade môžeme vyvodiť záver o relatívnej homogenite vekového zloženia a vzdelanostnej úrovne zamestnancov podniku vzhľadom na nízku odbornú stabilitu skúmaného kontingentu. Je ľahké vidieť, že pokus posúdiť tieto sociálne trendy podľa štandardnej odchýlky by viedol k chybnému záveru a pokus porovnať účtovné charakteristiky „pracovná prax“ a „vek“ s účtovným ukazovateľom „vzdelanie“ by bol vo všeobecnosti nesprávne z dôvodu heterogenity týchto charakteristík.

Medián a percentily

Pre ordinálne (poradové) rozdelenia, kde je kritériom pre stred radu medián, štandardná odchýlka a rozptyl nemôžu slúžiť ako charakteristiky rozptylu variantu.

To isté platí pre otvorené série variácií. Táto okolnosť je spôsobená skutočnosťou, že odchýlky, z ktorých sa počíta rozptyl a σ, sú merané z aritmetického priemeru, ktorý sa nepočíta v otvorených variačných radoch a v radoch rozdelenia kvalitatívnych charakteristík. Preto sa pre komprimovaný popis distribúcií používa ďalší parameter rozptylu - kvantil(synonymum - „percentil“), vhodné na popis kvalitatívnych a kvantitatívnych charakteristík v akejkoľvek forme ich distribúcie. Tento parameter možno použiť aj na premenu kvantitatívnych charakteristík na kvalitatívne. V tomto prípade sa takéto hodnotenia prideľujú v závislosti od poradia kvantilu, ktorému konkrétna možnosť zodpovedá.

V praxi biomedicínskeho výskumu sa najčastejšie používajú tieto kvantily:

– medián;

, – kvartily (štvrtiny), kde – dolný kvartil, horný kvartil.

Kvantily rozdeľujú oblasť možných zmien v sérii variácií do určitých intervalov. Medián (kvantil) je možnosť, ktorá je v strede série variácií a rozdeľuje túto sériu na polovicu na dve rovnaké časti ( 0,5 A 0,5 ). Kvartil rozdeľuje sériu na štyri časti: prvá časť (dolný kvartil) je možnosť oddeľujúca možnosti, ktorých číselné hodnoty nepresahujú 25 % maximálneho možného v túto sériu, kvartil oddeľuje možnosti s číselnou hodnotou do 50 % maximálneho možného. Horný kvartil () oddeľuje možnosti až do 75 % maximálnych možných hodnôt.

V prípade asymetrického rozdelenia premenná vzhľadom na aritmetický priemer, na jej charakterizáciu sa používa medián a kvartily. V tomto prípade sa používa nasledujúca forma zobrazenia priemernej hodnoty - Meh (;). Napríklad, skúmaný znak – „obdobie, v ktorom dieťa začalo samostatne chodiť“ – má v študijnej skupine asymetrickú distribúciu. Zároveň dolný kvartil () zodpovedá začiatku chôdze - 9,5 mesiaca, medián - 11 mesiacov, horný kvartil () - 12 mesiacov. V súlade s tým bude charakteristika priemerného trendu špecifikovaného atribútu prezentovaná ako 11 (9,5; 12) mesiacov.

Posúdenie štatistickej významnosti výsledkov štúdie

Štatistickou významnosťou údajov sa rozumie miera, do akej zodpovedajú zobrazenej skutočnosti, t.j. štatisticky významné údaje sú tie, ktoré neskresľujú a správne odrážajú objektívnu realitu.

Posúdenie štatistickej významnosti výsledkov výskumu znamená určenie, s akou pravdepodobnosťou je možné preniesť výsledky získané z výberovej populácie na celú populáciu. Posúdenie štatistickej významnosti je potrebné na pochopenie toho, do akej miery sa dá jav použiť na posúdenie javu ako celku a jeho vzorcov.

Hodnotenie štatistickej významnosti výsledkov výskumu pozostáva z:

1. chyby reprezentatívnosti (chyby priemerných a relatívnych hodnôt) - m;

2. medze spoľahlivosti priemerných alebo relatívnych hodnôt;

3. spoľahlivosť rozdielu v priemerných alebo relatívnych hodnotách podľa kritéria t.

Štandardná chyba aritmetického priemeru alebo chyba reprezentatívnosti charakterizuje kolísanie priemeru. Je potrebné poznamenať, že čím väčšia je veľkosť vzorky, tým menší je rozptyl priemerných hodnôt. Štandardná chyba priemeru sa vypočíta podľa vzorca:

V modernej vedeckej literatúre sa aritmetický priemer píše spolu s chybou reprezentatívnosti:

alebo spolu so štandardnou odchýlkou:

Ako príklad si vezmite údaje o 1 500 mestských klinikách v krajine (všeobecná populácia). Priemerný počet obsluhovaných pacientov v ambulancii je 18 150 osôb. Náhodný výber 10 % miest (150 ambulancií) dáva priemerný počet pacientov rovný 20 051 ľuďom. Výberová chyba, zrejme kvôli skutočnosti, že do vzorky nebolo zahrnutých všetkých 1500 kliník, sa rovná rozdielu medzi týmito priemermi – všeobecnému priemeru ( M gén) a priemer vzorky ( M vybraný). Ak z našej populácie vytvoríme inú vzorku rovnakej veľkosti, dostane inú chybovú hodnotu. Všetky tieto vzorky s dostatočne veľkými vzorkami sú normálne rozdelené okolo všeobecného priemeru s dostatočne veľkými vzorkami veľké číslo opakovania vzorky rovnakého počtu objektov z populácie. Štandardná chyba priemeru m- toto je nevyhnutné rozšírenie priemeru vzorky okolo všeobecného priemeru.

V prípade, že sú výsledky výskumu prezentované v relatívnych množstvách (napríklad v percentách) - vypočítané štandardná chyba zlomku:

kde P je ukazovateľ v %, n je počet pozorovaní.

Výsledok sa zobrazí ako (P ± m) %. Napríklad, percento zotavenia medzi pacientmi bolo (95,2±2,5)%.

V prípade, že počet prvkov obyv, potom pri výpočte smerodajných chýb priemeru a zlomku v menovateli zlomku namiestomusí byť položený.

Pre normálne rozdelenie (distribúcia priemerov vzorky je normálna) vieme, aká časť populácie spadá do akéhokoľvek intervalu okolo priemeru. Konkrétne:

V praxi je problém, že charakteristiky bežnej populácie sú nám neznáme a vzorka sa robí práve za účelom ich odhadu. To znamená, že ak urobíme vzorky rovnakej veľkosti n z bežnej populácie, potom v 68,3 % prípadov bude interval obsahovať hodnotu M(v 95,5 % prípadov bude na intervale a v 99,7 % prípadov – na intervale).

Keďže sa v skutočnosti odoberá iba jedna vzorka, toto tvrdenie je formulované z hľadiska pravdepodobnosti: s pravdepodobnosťou 68,3 % leží priemerná hodnota atribútu v populácii v intervale, s pravdepodobnosťou 95,5 % - v intervale atď.

V praxi sa okolo hodnoty vzorky vytvorí interval tak, že s danou (dostatočne vysokou) pravdepodobnosťou, pravdepodobnosť spoľahlivosti - by „pokryla“ skutočnú hodnotu tohto parametra v bežnej populácii. Tento interval sa nazýva interval spoľahlivosti.

Pravdepodobnosť spoľahlivostiP toto je miera spoľahlivosti, že interval spoľahlivosti bude skutočne obsahovať skutočnú (neznámu) hodnotu parametra v populácii.

Napríklad, ak pravdepodobnosť spoľahlivosti R je 90 %, to znamená, že 90 vzoriek zo 100 poskytne správny odhad parametra v populácii. Podľa toho pravdepodobnosť chyby, t.j. nesprávny odhad všeobecného priemeru za vzorku sa rovná v percentách: . Pre tento príklad to znamená, že 10 vzoriek zo 100 poskytne nesprávny odhad.

Je zrejmé, že stupeň spoľahlivosti (pravdepodobnosti spoľahlivosti) závisí od veľkosti intervalu: čím širší je interval, tým vyššia je spoľahlivosť, že do neho spadne neznáma hodnota pre populáciu. V praxi sa na vytvorenie intervalu spoľahlivosti používa aspoň dvojnásobok vzorkovacej chyby, aby sa zabezpečila aspoň 95,5 % spoľahlivosť.

Stanovenie hraníc spoľahlivosti priemerov a relatívnych hodnôt nám umožňuje nájsť ich dve extrémne hodnoty - minimálnu možnú a maximálnu možnú, v rámci ktorých sa študovaný ukazovateľ môže vyskytovať v celej populácii. Na základe toho limity spoľahlivosti (alebo interval spoľahlivosti)- sú to hranice priemerných alebo relatívnych hodnôt, za ktorými je v dôsledku náhodných výkyvov nevýznamná pravdepodobnosť.

Interval spoľahlivosti možno prepísať ako: , kde t– kritérium dôvery.

Hranice spoľahlivosti aritmetického priemeru v populácii sú určené vzorcom:

M gén = M vyberte + t m M

pre relatívnu hodnotu:

R gén = P vyberte + t m R

Kde M gén A R gén- hodnoty priemerných a relatívnych hodnôt pre všeobecnú populáciu; M vyberte A R vyberte- hodnoty priemerných a relatívnych hodnôt získaných zo vzorky populácie; m M A m P- chyby priemerných a relatívnych hodnôt; t- kritérium spoľahlivosti (kritérium presnosti, ktoré sa stanovuje pri plánovaní štúdie a môže sa rovnať 2 alebo 3); t m- je to interval spoľahlivosti alebo Δ - maximálna chyba ukazovateľa získaná vo vzorovej štúdii.

Je potrebné poznamenať, že hodnota kritéria t do určitej miery súvisí s pravdepodobnosťou bezchybnej predpovede (p), vyjadrená v %. Vyberá si ho samotný výskumník, ktorý sa riadi potrebou získať výsledok s požadovaným stupňom presnosti. Pre pravdepodobnosť bezchybnej predpovede 95,5 % je teda hodnota kritéria t je 2, pre 99,7 % - 3.

Dané odhady intervalu spoľahlivosti sú prijateľné len pre štatistické populácie s viac ako 30 pozorovaniami Pri menšej veľkosti populácie (malé vzorky) sa na určenie t kritéria používajú špeciálne tabuľky. V týchto tabuľkách sa požadovaná hodnota nachádza na priesečníku čiary zodpovedajúcej veľkosti populácie (n-1), a stĺpec zodpovedajúci úrovni pravdepodobnosti bezchybnej predpovede (95,5 %; 99,7 %) zvolenej výskumníkom. V lekárskom výskume je pri stanovovaní limitov spoľahlivosti pre akýkoľvek ukazovateľ pravdepodobnosť bezchybnej predpovede 95,5 % alebo viac. To znamená, že hodnota ukazovateľa získaná z výberovej populácie musí byť zistená v bežnej populácii minimálne v 95,5 % prípadov.

    Otázky na tému lekcie:

    Relevantnosť ukazovateľov diverzity znakov v štatistickej populácii.

    Všeobecné charakteristiky absolútnych variačných ukazovateľov.

    Smerodajná odchýlka, výpočet, aplikácia.

    Relatívne miery variácie.

    Medián, kvartilové skóre.

    Posúdenie štatistickej významnosti výsledkov štúdie.

    Smerodajná chyba aritmetického priemeru, vzorec výpočtu, príklad použitia.

    Výpočet podielu a jeho štandardnej chyby.

    koncepcia pravdepodobnosť dôvery, príklad použitia.

10. Pojem intervalu spoľahlivosti, jeho aplikácia.

    Testovacie úlohy na danú tému so štandardnými odpoveďami:

1. ABSOLÚTNE UKAZOVATELE VARIÁCIE ODKAZUJÚ

1) variačný koeficient

2) koeficient oscilácie

4) medián

2. RELATÍVNE UKAZOVATELE VARIANTOV ODKAZUJÚ

1) disperzia

4) variačný koeficient

3. KRITÉRIUM, KTORÉ JE URČENÉ EXTRÉMNYMI HODNOTAMI MOŽNOSTI V SÉRII VARIÁCIÍ

2) amplitúda

3) disperzia

4) variačný koeficient

4. ROZDIEL EXTRÉMNYCH MOŽNOSTÍ JE

2) amplitúda

3) štandardná odchýlka

4) variačný koeficient

5. PRIEMERNÝ ŠTVOREC ODCHÝLOK JEDNOTLIVÝCH HODNOT CHARAKTERISTIKY OD JEJ PRIEMERNÝCH HODNOT JE

1) koeficient oscilácie

2) medián

3) disperzia

6. POMER STUPNE VARIACIÍ K PRIEMERNEJ HODNOTE ZNAKU JE

1) variačný koeficient

2) smerodajná odchýlka

4) koeficient oscilácie

7. POMER PRIEMERNEJ ŠTVOTNEJ ODCHYLKY K PRIEMERNEJ HODNOTE CHARAKTERISTIKY JE

1) disperzia

2) variačný koeficient

3) koeficient oscilácie

4) amplitúda

8. MOŽNOSŤ, KTORÁ JE UPROSTRED SÉRIE VARIÁCIÍ A ROZDEĽUJE HO NA DVE ROVNAKÉ ČASTI, JE

1) medián

3) amplitúda

9. V LEKÁRSKOM VÝSKUME SA PRI STANOVENÍ LIMITOV DÔVERY PRE AKÝKOĽVEK INDIKÁTOR PRIJÍMA PRAVDEPODOBNOSŤ BEZCHÝB

10. AK 90 VZORIEK ZO 100 POSKYTUJE SPRÁVNY ODHAD PARAMETRA V OBYVATEĽSTVE, ZNAMENÁ TO, ŽE PRAVDEPODOBNOSŤ DÔVERY P ROVNAKÉ

11. AK 10 VZORIEK ZO 100 UVÁDZA NESPRÁVNY ODHAD, PRAVDEPODOBNOSŤ CHYBY JE ROVNANÁ

12. HRANICE PRIEMERNÝCH ALEBO RELATÍVNYCH HODNOT, ZA KTORÉ MÁ V dôsledku NÁHODNÝCH KMITOV NEVYHĽADNÚ PRAVDEPODOBNOSŤ – TOTO JE

1) interval spoľahlivosti

2) amplitúda

4) variačný koeficient

13. ZA MALÚ VZORKU SA POVAŽUJE OBYVATEĽSTVO, V KTORÝCH

1) n je menšie alebo rovné 100

2) n je menšie alebo rovné 30

3) n je menšie alebo rovné 40

4) n je blízko 0

14. PRE PRAVDEPODOBNOSŤ BEZCHYBNEJ PROGNÓZY 95 % HODNOTA KRITÉRIA t JE

15. PRE PRAVDEPODOBNOSŤ BEZCHYBNEJ PROGNÓZY 99 % HODNOTA KRITÉRIA t JE

16. PRE ROZDELENIA BLÍZKE NORMÁLNEMU SA OBYVATEĽSTVO POVAŽUJE ZA HOMOGÉNNE, AK KOEFICIENT VARIANTY NEPREŠAHUJE

17. MOŽNOSŤ, ODDELENIE MOŽNOSTÍ, KTORÝCH ČÍSELNÉ HODNOTY NEPRESAHUJÚ 25% MAXIMÁLNEHO MOŽNÉHO V DANEJ SÉRII – TOTO JE

2) dolný kvartil

3) horný kvartil

4) kvartil

18. ÚDAJE, KTORÉ NESKRUTAJÚ A SPRÁVNE ODRAZUJÚ OBJEKTÍVNU SKUTOČNOSŤ, SA TZV.

1) nemožné

2) rovnako možné

3) spoľahlivý

4) náhodný

19. PODĽA PRAVIDLA „TRI SIGMA“, S NORMÁLNYM ROZDELENÍM CHARAKTERISTIKY V RÁMCI
BUDE NÁJDENÝ

1) Možnosť 68,3 %.

Druhá odmocnina rozptylu sa nazýva štandardná odchýlka od priemeru, ktorá sa vypočíta takto:

Základné algebraická transformácia Vzorec štandardnej odchýlky vedie k nasledujúcemu tvaru:

Tento vzorec sa často ukazuje ako vhodnejší v praxi výpočtu.

Smerodajná odchýlka, rovnako ako priemerná lineárna odchýlka, ukazuje, o koľko sa priemerné špecifické hodnoty charakteristiky líšia od ich priemernej hodnoty. Smerodajná odchýlka je vždy väčšia ako priemerná lineárna odchýlka. Existuje medzi nimi nasledujúci vzťah:

Keď poznáte tento pomer, môžete pomocou známych ukazovateľov určiť napríklad neznáme, ale (I vypočítať a a naopak. Smerodajná odchýlka meria absolútnu veľkosť variability charakteristiky a vyjadruje sa v rovnakých jednotkách merania ako hodnoty charakteristiky (ruble, tony, roky atď.). Je to absolútna miera variácie.

Pre alternatívne znaky, napríklad prítomnosť alebo neprítomnosť vyššie vzdelanie, vzorce poistenia, rozptylu a štandardnej odchýlky sú nasledovné:

Ukážme si výpočet smerodajnej odchýlky podľa údajov diskrétneho radu charakterizujúceho rozloženie študentov jednej z fakúlt univerzity podľa veku (tabuľka 6.2).

Tabuľka 6.2.

Výsledky pomocných výpočtov sú uvedené v stĺpcoch 2-5 tabuľky. 6.2.

Priemerný vek študenta v rokoch sa určuje podľa vzorca váženého aritmetického priemeru (stĺpec 2):

V stĺpcoch 3-4 sú uvedené štvorce odchýlok individuálneho veku žiaka od priemeru a v stĺpci 5 súčin druhých mocnín odchýlok a príslušné frekvencie.

Zisťujeme rozptyl veku, rokov študentov pomocou vzorca (6.2):

Potom o = l/3,43 1,85 *oda, t.j. Každá konkrétna hodnota veku študenta sa od priemeru odchyľuje o 1,85 roka.

Variačný koeficient

Smerodajná odchýlka vo svojej absolútnej hodnote závisí nielen od stupňa variácie charakteristiky, ale aj od absolútnych úrovní možností a priemeru. Preto porovnajte priemer štandardné odchýlky Variačné série s rôznymi priemernými úrovňami sú priamo nemožné. Aby ste mohli takéto porovnanie urobiť, potrebujete nájsť podiel priemernej odchýlky (lineárnej alebo kvadratickej) na aritmetickom priemere vyjadrený v percentách, t.j. vypočítať relatívne miery variácie.

Lineárny variačný koeficient vypočítané podľa vzorca

Variačný koeficient určuje sa podľa nasledujúceho vzorca:

Vo variačných koeficientoch sa eliminuje nielen neporovnateľnosť spojená s rôznymi jednotkami merania sledovanej charakteristiky, ale aj neporovnateľnosť, ktorá vzniká v dôsledku rozdielov v hodnote aritmetických priemerov. Okrem toho ukazovatele variácie charakterizujú homogenitu populácie. Populácia sa považuje za homogénnu, ak variačný koeficient nepresiahne 33 %.

Podľa tabuľky. 6.2 a výsledky výpočtu získané vyššie, určíme variačný koeficient, %, podľa vzorca (6.3):

Ak variačný koeficient presiahne 33 %, znamená to heterogenitu skúmanej populácie. Získaná hodnota v našom prípade naznačuje, že populácia študentov podľa veku je v zložení homogénna. Dôležitou funkciou zovšeobecňujúcich ukazovateľov variácie je teda hodnotenie spoľahlivosti priemerov. Menej c1, a2 a V, čím homogénnejší je výsledný súbor javov a tým spoľahlivejší je výsledný priemer. Podľa „pravidla troch sigma“ uvažovaného matematickou štatistikou sa v normálne rozdelených alebo im blízkych sériách odchýlky od aritmetického priemeru nepresahujúce ± 3. vyskytujú v 997 prípadoch z 1000. X a, môžete získať všeobecnú počiatočnú predstavu variačná séria. Ak je napr mzda zamestnanec v spoločnosti bol 25 000 rubľov a a sa rovná 100 rubľov, potom s pravdepodobnosťou blízkou istote možno tvrdiť, že mzdy zamestnancov spoločnosti sa pohybujú v rozmedzí (25 000 ± 3 x 100), t.j. od 24 700 do 25 300 rubľov.

Pri štatistickom testovaní hypotéz, pri meraní lineárneho vzťahu medzi náhodnými premennými.

Štandardná odchýlka:

Smerodajná odchýlka(odhad štandardnej odchýlky náhodná premenná Podlaha, steny okolo nás a strop, X v porovnaní s jeho matematickým očakávaním na základe nezaujatého odhadu jeho rozptylu):

kde je disperzia; - Podlaha, steny okolo nás a strop, i prvok výberu; - veľkosť vzorky; - aritmetický priemer vzorky:

Treba poznamenať, že oba odhady sú skreslené. Vo všeobecnom prípade nie je možné vytvoriť nezaujatý odhad. Odhad založený na nestrannom odhade rozptylu je však konzistentný.

Pravidlo troch sigma

Pravidlo troch sigma() - takmer všetky hodnoty normálne rozloženej náhodnej premennej ležia v intervale. Presnejšie - s nie menšou ako 99,7% spoľahlivosťou leží hodnota normálne rozloženej náhodnej premennej v špecifikovanom intervale (za predpokladu, že hodnota je pravdivá a nie je získaná ako výsledok spracovania vzorky).

Ak skutočná hodnota nie je známa, mali by sme použiť nie, ale podlahu, steny okolo nás a strop, s. Tak sa pravidlo troch sigmov mení na pravidlo troch poschodí, stien okolo nás a stropu, s .

Interpretácia hodnoty štandardnej odchýlky

Veľká hodnota štandardnej odchýlky ukazuje veľký rozptyl hodnôt v prezentovanom súbore s priemerná veľkosť zástupy; malá hodnota, teda ukazuje, že hodnoty v súbore sú zoskupené okolo strednej hodnoty.

Napríklad máme tri sady čísel: (0, 0, 14, 14), (0, 6, 8, 14) a (6, 6, 8, 8). Všetky tri súbory majú stredné hodnoty rovné 7 a štandardné odchýlky, v tomto poradí, rovné 7, 5 a 1. Posledný súbor má malú štandardnú odchýlku, pretože hodnoty v súbore sú zoskupené okolo strednej hodnoty; prvá sada má najviac veľký význam smerodajná odchýlka - hodnoty v rámci súboru sa značne líšia od priemernej hodnoty.

Vo všeobecnom zmysle možno štandardnú odchýlku považovať za mieru neistoty. Napríklad vo fyzike sa štandardná odchýlka používa na určenie chyby série po sebe nasledujúcich meraní nejakej veličiny. Táto hodnota je veľmi dôležitá na určenie hodnovernosti skúmaného javu v porovnaní s hodnotou predpovedanou teóriou: ak sa priemerná hodnota meraní výrazne líši od hodnôt predpovedaných teóriou (veľká štandardná odchýlka), potom by sa mali získané hodnoty alebo spôsob ich získania znova skontrolovať.

Praktické využitie

V praxi vám štandardná odchýlka umožňuje určiť, do akej miery sa môžu hodnoty v súbore líšiť od priemernej hodnoty.

Klíma

Predpokladajme, že existujú dve mestá s rovnakou priemernou maximálnou dennou teplotou, ale jedno sa nachádza na pobreží a druhé vo vnútrozemí. Je známe, že mestá nachádzajúce sa na pobreží majú veľa rôznych maximálnych denných teplôt, ktoré sú nižšie ako mestá nachádzajúce sa vo vnútrozemí. Preto bude smerodajná odchýlka maximálnych denných teplôt pre pobrežné mesto menšia ako pre druhé mesto, napriek tomu, že priemerná hodnota tejto hodnoty je rovnaká, čo v praxi znamená, že pravdepodobnosť, že maximálna teplota vzduchu na ktorýkoľvek daný deň v roku bude vyšší, bude sa líšiť od priemernej hodnoty, vyššej pre mesto nachádzajúce sa vo vnútrozemí.

Šport

Predpokladajme, že ich je niekoľko futbalové tímy, ktoré sa posudzujú podľa určitého súboru parametrov, napríklad podľa počtu strelených a inkasovaných gólov, šancí na skórovanie atď. Je veľmi pravdepodobné, že najlepší tím v tejto skupine bude mať lepšie hodnoty pri väčšom počte gólov. parametre. Čím menšia je štandardná odchýlka tímu pre každý z prezentovaných parametrov, tým je výsledok tímu vyrovnanejší. Na druhej strane pre tím s veľkou smerodajnou odchýlkou ​​je ťažké predpovedať výsledok, čo sa zase vysvetľuje nerovnováhou, napr. silná obrana, ale so slabým útokom.

Použitie štandardnej odchýlky tímových parametrov umožňuje do tej či onej miery predpovedať výsledok zápasu medzi dvoma tímami, posúdiť sily a slabé stránky príkazy, a teda aj zvolené spôsoby boja.

Technická analýza

pozri tiež

Literatúra

* Borovikov, V. STATISTICA. Umenie analýzy dát na počítači: Pre profesionálov / V. Borovikov. - St. Petersburg. : Peter, 2003. - 688 s. - ISBN 5-272-00078-1.

Páčil sa vám článok? Zdieľaj to