Kontakty

Konštrukcia distribučných sérií. Štatistické zhrnutie a zoskupenie

Sú prezentované vo forme distribučných sérií a sú formátované ako .

Distribučný rad je jedným typom zoskupenia.

Rozsah distribúcie- predstavuje usporiadané rozloženie jednotiek skúmanej populácie do skupín podľa určitého premenlivého atribútu.

V závislosti od znaku, ktorý je základom tvorby distribučnej série, existujú atribútové a variačné distribučné hodnosti:

  • prívlastkový- nazývať distribučné série postavené na kvalitatívnych základoch.
  • Nazývajú sa distribučné série zostavené vo vzostupnom alebo zostupnom poradí hodnôt kvantitatívneho atribútu variačný.
Séria variácií distribúcie pozostáva z dvoch stĺpcov:

Prvý stĺpec obsahuje kvantitatívnych hodnôt premenlivým znakom, ktoré sú tzv možnosti a sú označené. Diskrétny variant – vyjadrený ako celé číslo. Možnosť intervalu je v rozsahu od a do. V závislosti od typu variantov je možné zostaviť diskrétny alebo intervalový variačný rad.
Druhý stĺpec obsahuje počet konkrétnych možností vyjadrené ako frekvencie alebo frekvencie:

Frekvencie- sú to absolútne čísla, ktoré ukazujú, koľkokrát sa v súhrne vyskytuje daná hodnota prvku, ktoré označujú . Súčet všetkých frekvencií by sa mal rovnať počtu jednotiek celej populácie.

Frekvencie() sú frekvencie vyjadrené ako percento z celku. Súčet všetkých frekvencií vyjadrený v percentách sa musí rovnať 100 % v zlomkoch jednej.

Grafické znázornenie distribučných radov

Distribučné série sú vizualizované pomocou grafických obrázkov.

Distribučné série sú zobrazené ako:
  • Polygón
  • Histogramy
  • Kumuluje sa
  • ogives

Polygón

Pri konštrukcii mnohouholníka na vodorovnej osi (abscisová os) sa vykreslia hodnoty premenného atribútu a na vertikálna os(os y) - frekvencie alebo frekvencie.

Polygón na obr. 6.1 bola postavená podľa mikrosčítania obyvateľov Ruska v roku 1994.

6.1. Rozdelenie domácností podľa veľkosti

Podmienka: Uvádzajú sa údaje o rozložení 25 zamestnancov jedného z podnikov podľa tarifných kategórií:
4; 2; 4; 6; 5; 6; 4; 1; 3; 1; 2; 5; 2; 6; 3; 1; 2; 3; 4; 5; 4; 6; 2; 3; 4
Úloha: Zostavte samostatnú variačnú sériu a graficky ju znázornite ako distribučný mnohouholník.
Riešenie:
V tomto príklade sú možnosti mzdovou kategóriou pracovníka. Na určenie frekvencií je potrebné vypočítať počet zamestnancov s príslušnou mzdovou kategóriou.

Polygón sa používa pre série diskrétnych variácií.

Na zostavenie distribučného polygónu (obr. 1) pozdĺž vodorovnej osi (X) vykreslíme kvantitatívne hodnoty rôzneho znaku - varianty a pozdĺž zvislej osi - frekvencie alebo frekvencie.

Ak sú charakteristické hodnoty vyjadrené ako intervaly, potom sa takáto séria nazýva intervalová séria.
intervalové série distribúcie sú zobrazené graficky ako histogram, kumulácia alebo ogive.

Štatistická tabuľka

Podmienka: Údaje o veľkosti vkladov 20 sú uvedené jednotlivcov v jednej banke (tisíc rubľov) 60; 25; 12; desať; 68; 35; 2; 17; 51; 9; 3; 130; 24; 85; 100; 152; 6; osemnásť; 7; 42.
Úloha: Zostavte sériu variácií intervalov s rovnakými intervalmi.
Riešenie:

  1. Počiatočná populácia pozostáva z 20 jednotiek (N = 20).
  2. Pomocou Sturgessovho vzorca definujeme požadované množstvo použité skupiny: n=1+3,322*lg20=5
  3. Vypočítajme hodnotu rovnakého intervalu: i=(152 - 2) /5 = 30 tisíc rubľov
  4. Počiatočnú populáciu rozdeľujeme do 5 skupín s intervalom 30 000 rubľov.
  5. Výsledky zoskupenia sú uvedené v tabuľke:

Pri takomto zaznamenávaní súvislého znaku, keď sa rovnaká hodnota vyskytne dvakrát (ako horná hranica jedného intervalu a dolná hranica iného intervalu), potom táto hodnota patrí do skupiny, kde táto hodnota pôsobí ako horná hranica.

stĺpcový graf

Na zostavenie histogramu pozdĺž vodorovnej osi označte hodnoty hraníc intervalov a na ich základe vytvorte obdĺžniky, ktorých výška je úmerná frekvenciám (alebo frekvenciám).

Na obr. 6.2. je zobrazený histogram rozloženia obyvateľstva Ruska v roku 1997 podľa vekových skupín.

Ryža. 6.2. Rozdelenie obyvateľstva Ruska podľa vekových skupín

Podmienka: Uvedené je rozdelenie 30 zamestnancov firmy podľa veľkosti mesačnej mzdy

Úloha: Zobrazenie série variácií intervalu graficky ako histogram a sčítanie.
Riešenie:

  1. Neznáma hranica otvoreného (prvého) intervalu je určená hodnotou druhého intervalu: 7000 - 5000 = 2000 rubľov. S rovnakou hodnotou nájdeme spodnú hranicu prvého intervalu: 5000 - 2000 = 3000 rubľov.
  2. Na vytvorenie histogramu v pravouhlom súradnicovom systéme pozdĺž osi x vyčleníme segmenty, ktorých hodnoty zodpovedajú intervalom série variantov.
    Tieto segmenty slúžia ako spodná základňa a zodpovedajúca frekvencia (frekvencia) slúži ako výška vytvorených obdĺžnikov.
  3. Zostavme si histogram:

Na zostavenie kumulácie je potrebné vypočítať akumulované frekvencie (frekvencie). Sú určené postupným sčítaním frekvencií (frekvencií) predchádzajúcich intervalov a sú označené S. Akumulované frekvencie ukazujú, koľko jednotiek populácie má hodnotu znaku, ktorá nie je väčšia ako tá, o ktorej sa uvažuje.

Kumulovať

Rozdelenie vlastnosti vo variačnom rade podľa akumulovaných frekvencií (frekvencií) je znázornené pomocou kumulácie.

Kumulovať alebo kumulatívna krivka, na rozdiel od polygónu, je postavená na akumulovaných frekvenciách alebo frekvenciách. Súčasne sú hodnoty znaku umiestnené na vodorovnej osi a nahromadené frekvencie alebo frekvencie sú umiestnené na osi y (obr. 6.3).

Ryža. 6.3. Kumulatívne rozdelenie domácností podľa veľkosti

4. Vypočítajte akumulované frekvencie:
Frekvencia kolena prvého intervalu sa vypočíta takto: 0 + 4 = 4, pre druhý: 4 + 12 = 16; pre tretinu: 4 + 12 + 8 = 24 atď.

Pri konštrukcii kumulácie sa akumulovaná frekvencia (frekvencia) zodpovedajúceho intervalu priradí k jeho hornej hranici:

Ogiva

Ogiva je konštruovaný podobne ako kumulácia s jediným rozdielom, že akumulované frekvencie sú umiestnené na osi x a hodnoty vlastností sú umiestnené na osi y.

Obmenou kumulácie je krivka koncentrácie alebo Lorenzov graf. Na vykreslenie koncentračnej krivky sú obe osi pravouhlého súradnicového systému upravené v percentách od 0 do 100. V tomto prípade osi x označujú akumulované frekvencie a osi y znázorňujú akumulované hodnoty podielu (v percent) podľa objemu prvku.

Rovnomerné rozloženie znamienka zodpovedá uhlopriečke štvorca na grafe (obr. 6.4). Pri nerovnomernom rozložení je graf konkávna krivka v závislosti od úrovne koncentrácie znaku.

6.4. koncentračná krivka

Pre diskrétne funkcie je konštruovaný diskrétny variačný rad.

Ak chcete vytvoriť sériu diskrétnych variácií, musíte urobiť nasledovné: 1) usporiadať jednotky pozorovania vo vzostupnom poradí podľa hodnoty študovaného atribútu,

2) určiť všetky možné hodnoty atribútu x i, zoradiť ich vo vzostupnom poradí,

hodnota znamienka, i .

frekvencia hodnoty funkcie a označujú f i . Súčet všetkých frekvencií radu sa rovná počtu prvkov v skúmanej populácii.

Príklad 1 .

Zoznam známok, ktoré študenti získali na skúškach: 3; štyri; 3; 5; štyri; 2; 2; štyri; štyri; 3; 5; 2; štyri; 5; štyri; 3; štyri; 3; 3; štyri; štyri; 2; 2; 5; 5; štyri; 5; 2; 3; štyri; štyri; 3; štyri; 5; 2; 5; 5; štyri; 3; 3; štyri; 2; štyri; štyri; 5; štyri; 3; 5; 3; 5; štyri; štyri; 5; štyri; štyri; 5; štyri; 5; 5; 5.

Tu je číslo X - stupeňje diskrétna náhodná premenná a výsledný zoznam odhadov -štatistické (pozorované) údaje .

    usporiadať jednotky pozorovania vo vzostupnom poradí podľa študovanej hodnoty vlastnosti:

2; 2; 2; 2; 2; 2; 2; 2; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5.

2) určte všetky možné hodnoty atribútu x i, zoraďte ich vo vzostupnom poradí:

V tomto príklade možno všetky skóre rozdeliť do štyroch skupín s nasledujúcimi hodnotami: 2; 3; štyri; 5.

Hodnota náhodnej premennej zodpovedajúca samostatnej skupine pozorovaných údajov sa nazýva hodnota znamienka, variant (možnosť) a označte x i .

Zavolá sa číslo, ktoré ukazuje, koľkokrát sa v sérii pozorovaní vyskytne zodpovedajúca hodnota funkcie frekvencia hodnoty funkcie a označujú f i .

Pre náš príklad

skóre 2 sa vyskytne - 8 krát,

skóre 3 sa vyskytuje - 12 krát,

skóre 4 sa vyskytuje - 23-krát,

skóre 5 sa vyskytuje - 17 krát.

Celkovo je tu 60 hodnotení.

4) prijaté dáta zapíšte do tabuľky dvoch riadkov (stĺpcov) - x i a f i .

Na základe týchto údajov je možné zostaviť diskrétny variačný rad

Séria diskrétnych variácií - toto je tabuľka, v ktorej sú vyskytujúce sa hodnoty študovaného znaku označené ako samostatné hodnoty vo vzostupnom poradí a ich frekvencie

  1. Konštrukcia intervalového variačného radu

Okrem diskrétnych variačných radov často existuje aj taký spôsob zoskupovania údajov ako intervalový variačný rad.

Intervalový rad sa vytvorí, ak:

    znak má nepretržitú povahu zmeny;

    existuje veľa diskrétnych hodnôt (viac ako 10)

    frekvencie diskrétnych hodnôt sú veľmi malé (nepresahujú 1-3 pri relatívne veľkom počte jednotiek pozorovania);

    veľa diskrétnych hodnôt prvku s rovnakými frekvenciami.

Séria variácií intervalu je spôsob zoskupovania údajov vo forme tabuľky, ktorá má dva stĺpce (hodnoty funkcií vo forme intervalu hodnôt a frekvencie každého intervalu).

Na rozdiel od diskrétneho radu nie sú hodnoty charakteristiky intervalového radu reprezentované jednotlivými hodnotami, ale intervalom hodnôt („od - do“).

Volá sa číslo, ktoré ukazuje, koľko pozorovacích jednotiek spadá do každého zvoleného intervalu frekvencia hodnoty funkcie a označujú f i . Súčet všetkých frekvencií radu sa rovná počtu prvkov (jednotiek pozorovania) v skúmanej populácii.

Ak má jednotka hodnotu vlastnosti rovnajúcu sa hodnote hornej hranice intervalu, potom by sa mala vzťahovať na nasledujúci interval.

Napríklad dieťa s výškou 100 cm spadne do 2. intervalu a nie do prvého; a dieťa s výškou 130 cm spadne do posledného intervalu, a nie do tretieho.

Na základe týchto údajov je možné zostaviť intervalový variačný rad.

Každý interval má dolnú hranicu (x n), hornú hranicu (x in) a šírku intervalu ( i).

Hranica intervalu je hodnota vlastnosti, ktorá leží na hranici dvoch intervalov.

výška dieťaťa (cm)

výška dieťaťa (cm)

počet detí

cez 130

Ak má interval hornú a dolnú hranicu, potom sa nazýva uzavretý interval. Ak má interval iba dolnú alebo iba hornú hranicu, potom je to - otvorený interval. Môže byť otvorený iba úplne prvý alebo posledný interval. Vo vyššie uvedenom príklade je otvorený posledný interval.

Šírka intervalu (i) je rozdiel medzi hornou a dolnou hranicou.

i = x n - x in

Predpokladá sa, že šírka otvoreného intervalu je rovnaká ako šírka susedného uzavretého intervalu.

výška dieťaťa (cm)

počet detí

Šírka intervalu (i)

pre výpočty 130+20=150

20 (pretože šírka susedného uzavretého intervalu je 20)

Všetky intervalové rady sú rozdelené na intervalové rady s rovnakými intervalmi a intervalové rady s nerovnakými intervalmi. . V riadkoch intervalov s rovnakými intervalmi je šírka všetkých intervalov rovnaká. V intervalových radoch s nerovnakými intervalmi je šírka intervalov rôzna.

V tomto príklade intervalový rad s nerovnakými intervalmi.

Najdôležitejšou etapou pri skúmaní sociálno-ekonomických javov a procesov je systematizácia primárnych údajov a na tomto základe získanie súhrnnej charakteristiky celého objektu pomocou zovšeobecňujúcich ukazovateľov, čo sa dosahuje sumarizáciou a zoskupovaním primárneho štatistického materiálu.

Štatistické zhrnutie - ide o komplex sekvenčných operácií na zovšeobecnenie konkrétnych jednotlivých faktov, ktoré tvoria súbor, na identifikáciu typických znakov a vzorov, ktoré sú vlastné skúmanému javu ako celku. Vykonanie štatistického súhrnu zahŕňa nasledujúce kroky :

  • výber funkcie zoskupenia;
  • určenie poradia vytvárania skupín;
  • vývoj systému štatistických ukazovateľov na charakterizáciu skupín a objektu ako celku;
  • vývoj rozložení štatistických tabuliek na prezentáciu súhrnných výsledkov.

Štatistické zoskupenie nazval rozdelenie jednotiek skúmanej populácie do homogénnych skupín podľa určitých charakteristík, ktoré sú pre ne podstatné. Zoskupenia sú najdôležitejšou štatistickou metódou sumarizácie štatistických údajov, základom pre správny výpočet štatistických ukazovateľov.

Existujú tieto typy zoskupení: typologické, štrukturálne, analytické. Všetky tieto zoskupenia spája skutočnosť, že jednotky objektu sú rozdelené do skupín podľa nejakého atribútu.

znak zoskupenia sa nazýva znak, ktorým sa jednotky obyvateľstva delia do samostatných skupín. Od správna voľba funkcia zoskupovania závisí od záverov štatistickej štúdie. Ako základ pre zoskupovanie je potrebné použiť významné, teoreticky podložené znaky (kvantitatívne alebo kvalitatívne).

Kvantitatívne znaky zoskupovania majú číselné vyjadrenie (objem obchodov, vek osoby, rodinný príjem a pod.), a kvalitatívne znaky zoskupenia odráža stav populačnej jednotky (pohlavie, rodinný stav, odvetvová príslušnosť podniku, jeho forma vlastníctva a pod.).

Po určení základu zoskupenia by sa malo rozhodnúť o počte skupín, do ktorých by sa mala študovaná populácia rozdeliť. Počet skupín závisí od cieľov štúdie a typu ukazovateľa, ktorý je základom zoskupenia, objemu populácie, stupňa variácie vlastnosti.

Napríklad zoskupenie podnikov podľa foriem vlastníctva zohľadňuje mestské, federálne a majetkové pomery subjektov federácie. Ak sa zoskupenie uskutočňuje podľa kvantitatívneho atribútu, potom je potrebné venovať osobitnú pozornosť počtu jednotiek skúmaného objektu a stupňu kolísania atribútu zoskupenia.

Keď sa určí počet skupín, potom by sa mali určiť intervaly zoskupovania. Interval - to sú hodnoty premennej charakteristiky, ktoré ležia v určitých hraniciach. Každý interval má svoju hodnotu, hornú a dolnú hranicu alebo aspoň jednu z nich.

Dolná hranica intervalu sa nazýva najmenšia hodnota atribútu v intervale, a Horná hranica - najväčšia hodnota atribútu v intervale. Hodnota intervalu je rozdiel medzi hornou a dolnou hranicou.

Intervaly zoskupovania v závislosti od ich veľkosti sú: rovnaké a nerovnaké. Ak sa variácia znaku prejavuje v relatívne úzkych hraniciach a distribúcia je rovnomerná, potom sa vytvorí zoskupenie s rovnakými intervalmi. Hodnota rovnakého intervalu je určená nasledujúcim vzorcom :

kde Xmax, Xmin - maximálne a minimálne hodnoty atribútu v súhrne; n je počet skupín.

Najjednoduchším zoskupením, v ktorom je každá vybraná skupina charakterizovaná jedným ukazovateľom, je distribučný rad.

Štatistické distribučné rady - ide o usporiadané rozdelenie jednotiek obyvateľstva do skupín podľa určitého atribútu. V závislosti od znaku, ktorý je základom tvorby distribučného radu, sa rozlišujú atribútové a variačné distribučné rady.

prívlastkový nazývané distribučné rady konštruované podľa kvalitatívnych znakov, teda znakov, ktoré nemajú číselný výraz(rozdelenie podľa druhov práce, podľa pohlavia, podľa profesie atď.). Rad rozdelenia atribútov charakterizuje zloženie populácie podľa jedného alebo druhého podstatného znaku. Tieto údaje, prevzaté z niekoľkých období, nám umožňujú študovať zmenu štruktúry.

Variačné riadky distribučné série postavené na kvantitatívnom základe. Každá variačná séria pozostáva z dvoch prvkov: variantov a frekvencií. možnosti nazývajú sa jednotlivé hodnoty atribútu, ktoré má v rade variácií, teda špecifická hodnota atribútu premennej.

Frekvencie nazývané číslo jednotlivého variantu alebo každej skupiny variačného radu, to znamená, že ide o čísla, ktoré ukazujú, ako často sa určité varianty vyskytujú v distribučnom rade. Súčet všetkých frekvencií určuje veľkosť celej populácie, jej objem. Frekvencie frekvencie sa nazývajú, vyjadrené v zlomkoch jednotky alebo ako percento z celku. V súlade s tým sa súčet frekvencií rovná 1 alebo 100 %.

V závislosti od povahy variácie znaku sa rozlišujú tri formy variačných sérií: radová séria, diskrétne série a intervalové série.

Hodnotené série variácií - ide o rozloženie jednotlivých jednotiek populácie vo vzostupnom alebo zostupnom poradí podľa skúmaného znaku. Ranking umožňuje jednoducho rozdeliť kvantitatívne údaje do skupín, okamžite odhaliť najmenšie a najväčšiu hodnotu zvýraznite hodnoty, ktoré sa najčastejšie opakujú.

Séria diskrétnych variácií charakterizuje rozdelenie populačných jednotiek podľa diskrétneho atribútu, ktorý nadobúda iba celočíselné hodnoty. Napríklad tarifná kategória, počet detí v rodine, počet zamestnancov v podniku atď.

Ak má znak nepretržitú zmenu, ktorá v rámci určitých limitov môže nadobudnúť akékoľvek hodnoty ("od - do"), potom pre toto označenie musíte postaviť intervalové variačné série . Napríklad výška príjmu, pracovné skúsenosti, náklady na fixné aktíva podniku atď.

Príklady riešenia úloh na tému "Štatistický súhrn a zoskupovanie"

Úloha 1 . Je tam informácia o počte kníh, ktoré študenti dostali predplatným za uplynulý akademický rok.

Zostavte sériu distribúcie s rozsahom a diskrétnu variáciu, ktorá označuje prvky série.

Riešenie

Táto sada je súbor možností pre počet kníh, ktoré študenti dostanú. Spočítajme počet takýchto variantov a usporiadame ich do podoby variačného usporiadaného a variačného diskrétneho distribučného radu.

Úloha 2 . Existujú údaje o hodnote fixných aktív pre 50 podnikov, tisíc rubľov.

Zostavte distribučnú sériu a zvýraznite 5 skupín podnikov (v rovnakých intervaloch).

Riešenie

Pre riešenie volíme najväčšie a najmenšia hodnota hodnota fixných aktív podnikov. Ide o 30,0 a 10,2 tisíc rubľov.

Nájdite veľkosť intervalu: h \u003d (30,0-10,2): 5 \u003d 3,96 tisíc rubľov.

Potom prvá skupina bude zahŕňať podniky, ktorých výška fixných aktív je od 10,2 tisíc rubľov. až 10,2 + 3,96 = 14,16 tisíc rubľov. Takýchto podnikov bude 9. Druhá skupina bude zahŕňať podniky, ktorých výška fixných aktív bude od 14,16 tisíc rubľov. až 14,16 + 3,96 = 18,12 tisíc rubľov. Takýchto podnikov bude 16. Podobne zistíme počet podnikov zaradených do tretej, štvrtej a piatej skupiny.

Výsledný distribučný rad sa umiestni do tabuľky.

Úloha 3 . Pre množstvo podnikov ľahkého priemyslu sa získali tieto údaje:

Vytvorte zoskupenie podnikov podľa počtu pracovníkov a vytvorte 6 skupín v rovnakých intervaloch. Počítajte pre každú skupinu:

1. počet podnikov
2. počet pracovníkov
3. objem vyrobených produktov za rok
4. priemerný skutočný výkon na pracovníka
5. výška fixných aktív
6. priemerná veľkosť investičného majetku jedného podniku
7. priemerná hodnota vyrobených výrobkov jedným podnikom

Výsledky výpočtu zaznamenajte do tabuliek. Urobte si vlastné závery.

Riešenie

Pre riešenie volíme najväčšie a najmenšie hodnoty priemerného počtu pracovníkov v podniku. Toto je 43 a 256.

Nájdite veľkosť intervalu: h = (256-43): 6 = 35,5

Potom do prvej skupiny budú zaradené podniky s priemerným počtom pracovníkov od 43 do 43 + 35,5 = 78,5 osôb. Takýchto podnikov bude 5. V druhej skupine budú podniky, ktorých priemerný počet pracovníkov bude od 78,5 do 78,5 + 35,5 = 114 osôb. Takýchto podnikov bude 12. Podobne zistíme počet podnikov zaradených do tretej, štvrtej, piatej a šiestej skupiny.

Výsledný distribučný rad dáme do tabuľky a vypočítame požadované ukazovatele pre každú skupinu:

Záver : Ako vidno z tabuľky, druhá skupina podnikov je najpočetnejšia. Zahŕňa 12 podnikov. Najmenšia je piata a šiesta skupina (po dva podniky). Ide o najväčšie podniky (z hľadiska počtu pracovníkov).

Keďže druhá skupina je najpočetnejšia, objem produkcie za rok podnikov tejto skupiny a objem fixných aktív sú oveľa vyššie ako ostatné. Zároveň priemerný skutočný výkon jedného pracovníka v podnikoch tejto skupiny nie je najvyšší. Tu vedú podniky štvrtej skupiny. Na túto skupinu pripadá aj pomerne veľké množstvo fixných aktív.

Na záver podotýkame, že priemerná veľkosť fixných aktív a priemerná hodnota vyrobené výrobky jedného podniku sú priamo úmerné veľkosti podniku (z hľadiska počtu pracovníkov).

Štatistiky skúmané charakteristiky sa líšia (odlišujú sa od seba) pre rôzne jednotky populácie v rovnakom období alebo časovom bode. Napríklad hodnota obratu zahraničného obchodu sa líši podľa divízie FCS; hodnota vývozu (dovozu) sa mení podľa smeru vývozu (pre rôzne partnerské krajiny v zahraničnom obchode), podľa druhov tovaru a pod.

Príčina variácií sú rôzne podmienky pre existenciu rôznych jednotiek obyvateľstva. Napríklad, obrovské číslo dôvodov ovplyvňuje rozsah zahraničného obchodu rôznych krajín sveta.

Na kontrolu a štúdium variácií pomocou štatistík boli vyvinuté špeciálne metódy na štúdium variácií, systém ukazovateľov, pomocou ktorých sa variácie merajú a ich vlastnosti sú charakterizované.

Prvým krokom v štatistickej štúdii variácie je konštrukcia distribučná séria(alebo variačná séria) - usporiadané rozdelenie jednotiek populácie podľa zvyšujúcich sa (častejšie) alebo klesajúcich (menej často) hodnôt atribútu a počítania počtu jednotiek s jednou alebo druhou hodnotou atribútu.

Sú tam 3 milý distribučný rozsah:

1) zaradený riadok- ide o zoznam jednotlivých jednotiek populácie vo vzostupnom poradí podľa študovaného znaku (napríklad tabuľka 11); ak je počet populačných jednotiek dostatočne veľký, zoradený rad sa stáva ťažkopádnym a v takýchto prípadoch sa distribučný rad zostavuje zoskupením populačných jednotiek podľa hodnôt študovaného atribútu (ak atribút neberie veľké číslo hodnoty, potom sa zostrojí diskrétny rad, inak intervalový rad);

2) diskrétne série- toto je tabuľka pozostávajúca z dvoch stĺpcov (riadkov) - konkrétne hodnoty rôzneho atribútu Xi a počet populačných jednotiek s danou hodnotou prvku fi- frekvencie; počet skupín v diskrétnej sérii je určený počtom skutočne existujúcich hodnôt atribútu premennej;

3) intervalové série- toto je tabuľka pozostávajúca z dvoch stĺpcov (riadkov) - intervalov s rôznym znamienkom Xi a počet populačných jednotiek spadajúcich do daného intervalu (frekvencií), alebo podiely tohto počtu v celková sila agregáty (frekvencie).

Zostavme distribučnú sériu obratu zahraničného obchodu (TO) colnými poštami v Rusku, pre ktoré je potrebné vykonať štatistické pozorovanie, teda zhromaždiť primárny štatistický materiál, ktorým je hodnota VO colných staníc.

Výsledky pozorovania VO na 35 colných staniciach kraja za sledované obdobie budú prezentované vo forme distribučných radov zoradených vzostupne podľa hodnoty VO (tabuľka 11).

Tabuľka 11. Obrat zahraničného obchodu (VO) za 35 colných pošt, mil.

číslo príspevku

číslo príspevku

číslo príspevku

Určme priemernú veľkosť VO podľa vzorca (10), pričom pre X hodnotu VO a pre N- počet príspevkov:

= = 2100/35 = 60 (milión dolárov)

Rozptyl (o ňom sa bude diskutovať o niečo neskôr - v 4. štádiu analýzy variácií v tejto téme) je určený vzorcom (28):

= = 445,778 (milión dolárov2)

Zostavme intervalový rad distribúcie VO colnými poštami, pre ktorý je potrebné zvoliť optimálny počet skupín (intervalov znakov) a nastaviť dĺžku (rozsah) intervalu. Keďže pri analýze distribučného radu sa frekvencie porovnávajú v rôznych intervaloch, je potrebné, aby dĺžka intervalov bola konštantná. Optimálny počet skupín sa volí tak, aby sa dostatočne odrážala diverzita hodnôt vlastností v súhrne a zároveň aby ​​pravidelnosť rozloženia, jeho tvar nebol skreslený náhodnými frekvenčnými výkyvmi. Ak je príliš málo skupín, nedôjde k žiadnej variácii; ak je skupín príliš veľa, náhodné frekvenčné skoky skreslia tvar rozloženia.

Najčastejšie je počet skupín v distribučnej sérii určený Sturgessovým vzorcom (19) alebo (20):

(19) resp ,(20)

kde k– počet skupín (zaokrúhlený na najbližšie celé číslo); N- veľkosť populácie.

Zo Sturgessovho vzorca je zrejmé, že počet skupín je funkciou množstva údajov ( N).

Keď poznáte počet skupín, vypočítajte dĺžku (rozsah) intervalu pomocou vzorca (21):

,(21)

kde X max a X min - maximálne a minimálne hodnoty v súhrne.

V našom príklade o VO pomocou Sturgessovho vzorca (19) určíme počet skupín:

k = 1 + 3,322lg 35 = 1+ 3,322*1,544 = 6,129 ≈ 6.

Vypočítajte dĺžku (rozsah) intervalu pomocou vzorca (21):

h= (111,16 – 24,16)/6 = 87/6 = 14,5 (milión dolárov).

Teraz zostavme intervalovú sériu so 6 skupinami s intervalom 14,5 milióna dolárov. (pozri prvé 3 stĺpce tabuľky 12).

Tabuľka 12. Intervalové rady distribúcie VO podľa colných pošt, mil.

Skupiny príspevkov podľa veľkosti VO

Počet príspevkov

Stred intervalu

X ja fi

Accum. frekvencia

| Xi- |fi

(Xi- )2 fi

(Xi- )3 fi

(Xi- )4 fi

96,66 – 111,16

Grafické znázornenie poskytuje základnú pomoc pri analýze distribučného radu a jeho vlastností. Intervalový rad je reprezentovaný stĺpcovým grafom, v ktorom sú základne stĺpcov umiestnené pozdĺž osi x intervaly hodnôt meniaceho sa atribútu a výšky stĺpcov sú frekvencie zodpovedajúce stupnici pozdĺž ordinátnej osi. Grafické znázornenie rozloženia colníc vo vzorke hodnotou VO je na obr. 4. Tento typ diagramu sa nazýva histogram .

Ryža. 4. Histogram distribúcie 5. Distribučný polygón

Tabuľkové údaje. 12 a obr. 4 ukazujú formu distribúcie charakteristickú pre mnohé znaky: hodnoty priemerných intervalov znaku sú bežnejšie a extrémne (malé a veľké) hodnoty znaku sú menej bežné. Forma tohto rozdelenia je blízka zákonu normálneho rozdelenia, ktorý vzniká, ak je premenná premenná ovplyvňovaná veľkým množstvom faktorov, z ktorých žiadny nemá prevládajúcu hodnotu.

Ak existuje diskrétny distribučný rad alebo sa použijú stredné body intervalov (ako v našom príklade o VO - v tabuľke 12 v 4. stĺpci sú stredy intervalov vypočítané ako polovičný súčet hodnôt začiatok a koniec intervalu), potom sa nazýva grafické znázornenie takéhoto radu mnohouholník(pozri obr. 5) , ktorý sa získa spojením priamych bodov so súradnicami Xi a fi.

Štatistické distribučné rady- ide o usporiadané rozdelenie jednotiek obyvateľstva do skupín podľa určitého premenlivého atribútu.
V závislosti od znaku, ktorý je základom tvorby distribučnej série, existujú atribútové a variačné distribučné série.

Prítomnosť spoločného znaku je základom pre vytvorenie štatistickej populácie, ktorá je výsledkom popisu alebo merania spoločné znaky výskumných objektov.

Predmetom štúdia v štatistike sú meniace sa (variace sa) znaky alebo štatistické znaky.

Typy štatistických znakov.

Distribučné rady sa nazývajú atribútové rady. postavené na kvalitných základoch. Prívlastkový- ide o označenie, ktoré má názov (napríklad povolanie: krajčírka, učiteľka atď.).
Je zvykom usporiadať distribučné série vo forme tabuliek. V tabuľke. 2.8 ukazuje rad distribúcie atribútov.
Tabuľka 2.8 - Rozdelenie druhov právnej pomoci poskytovanej právnikmi občanom jedného z regiónov Ruskej federácie.

Variačné série sú hodnoty vlastností (alebo rozsahy hodnôt) a ich frekvencie.
Variačné série sú distribučné série postavená na kvantitatívnom základe. Každá variačná séria pozostáva z dvoch prvkov: variantov a frekvencií.
Varianty sú jednotlivé hodnoty funkcie, ktorú má v sérii variácií.
Frekvencie sú počty jednotlivých variantov alebo každej skupiny variačného radu, t.j. toto sú čísla ukazujúce, ako často sa určité možnosti vyskytujú v distribučnej sérii. Súčet všetkých frekvencií určuje veľkosť celej populácie, jej objem.
Frekvencie sa nazývajú frekvencie a sú vyjadrené v zlomkoch jednotky alebo ako percento z celku. V súlade s tým sa súčet frekvencií rovná 1 alebo 100 %. Variačný rad nám umožňuje vyhodnotiť podobu distribučného zákona na základe skutočných údajov.

V závislosti od povahy variácie znaku existujú diskrétne a intervalové variačné série.
Príklad diskrétneho variačného radu je uvedený v tabuľke. 2.9.
Tabuľka 2.9 - Rozdelenie rodín podľa počtu obsadených izieb v jednotlivých apartmánoch v roku 1989 v Ruskej federácii.

Prvý stĺpec tabuľky predstavuje varianty diskrétneho variačného radu, druhý stĺpec obsahuje frekvencie variačného radu a tretí stĺpec obsahuje frekvenčné ukazovatele.

Variačné série

V bežnej populácii sa skúma určitý kvantitatívny znak. Z neho sa náhodne extrahuje vzorka objemu n, teda počet prvkov vo vzorke je n. V prvej fáze štatistického spracovania rozsah vzorky, t.j. číslovanie x 1, x 2, …, x n Vzostupne. Každá pozorovaná hodnota x i volal možnosť. Frekvencia m i je počet pozorovaní hodnoty x i vo vzorke. Relatívna frekvencia (frekvencia) w i je pomer frekvencií m i na veľkosť vzorky n: .
Pri štúdiu variačného radu sa používajú aj pojmy kumulatívna frekvencia a kumulatívna frekvencia. Nechaj X nejaké číslo. Potom počet možností , ktorých hodnoty sú menšie X, sa nazýva akumulovaná frekvencia: pre x i n sa nazýva akumulovaná frekvencia w i max.
Atribút sa nazýva diskrétne premenný, ak sa jeho jednotlivé hodnoty (varianty) navzájom líšia o určitú konečnú hodnotu (zvyčajne celé číslo). Variačný rad takéhoto znaku sa nazýva diskrétny variačný rad.

Tabuľka 1. Všeobecný pohľad na diskrétne variačné série frekvencií

Hodnoty funkciíx i x 1 x2 x n
Frekvenciem i m 1 m2 m n

Atribút sa nazýva plynule sa meniaci, ak sa jeho hodnoty navzájom líšia o ľubovoľne malú hodnotu, t.j. znamienko môže nadobudnúť akúkoľvek hodnotu v určitom intervale. Súvislý variačný rad pre takúto vlastnosť sa nazýva intervalový rad.

Tabuľka 2. Celkový pohľad na intervalové variačné série frekvencií

Tabuľka 3. Grafické obrázky série variácií

riadokPolygón alebo histogramEmpirická distribučná funkcia
Diskrétne
interval
Pri pohľade na výsledky pozorovaní sa určí, koľko hodnôt variantov spadlo do každého konkrétneho intervalu. Predpokladá sa, že každý interval patrí jednému z jeho koncov: buď vo všetkých prípadoch vľavo (častejšie), alebo vo všetkých prípadoch vpravo, a frekvencie alebo frekvencie ukazujú počet možností obsiahnutých v uvedených hraniciach. Rozdiely a i – a i +1 sa nazývajú čiastočné intervaly. Na zjednodušenie následných výpočtov možno sériu intervalových variácií nahradiť podmienečne diskrétnou. V tomto prípade stredná hodnota i-tý interval sa berie ako možnosť x i a príslušná intervalová frekvencia m i- pre frekvenciu tohto intervalu.
Pre grafické znázornenie variačných radov sa najčastejšie používa polygón, histogram, kumulatívna krivka a empirická distribučná funkcia.

V tabuľke. 2.3 (Zoskupenie obyvateľstva Ruska podľa veľkosti priemerného príjmu na obyvateľa v apríli 1994) je uvedené intervalové variačné série.
Rozdelenie radov je vhodné analyzovať pomocou grafického znázornenia, ktoré tiež umožňuje posúdiť tvar rozdelenia. Vizuálne znázornenie povahy zmeny frekvencií variačného radu je dané polygón a histogram.
Polygón sa používa pri zobrazovaní diskrétnych variačných radov.
Znázornime si napríklad graficky rozdelenie bytového fondu podľa typu bytov (tabuľka 2.10).
Tabuľka 2.10 - Rozdelenie bytového fondu mestskej oblasti podľa typu bytov (podmienené čísla).


Ryža. Polygón distribúcie bývania


Na osi y je možné vykresliť nielen hodnoty frekvencií, ale aj frekvencie variačných sérií.
Histogram sa použije na zobrazenie série variácií intervalu. Pri konštrukcii histogramu sú hodnoty intervalov vynesené na osi x a frekvencie sú znázornené obdĺžnikmi vytvorenými na zodpovedajúcich intervaloch. Výška stĺpcov v prípade rovnakých intervalov by mala byť úmerná frekvenciám. Histogram je graf, v ktorom je séria zobrazená ako stĺpce vedľa seba.
Poďme graficky znázorniť intervalové distribučné rady uvedené v tabuľke. 2.11.
Tabuľka 2.11 - Rozdelenie rodín podľa veľkosti obytnej plochy na osobu (podmienené čísla).
N p / p Skupiny rodín podľa veľkosti obytnej plochy na osobu Počet rodín s danou veľkosťou obytnej plochy Akumulovaný počet rodín
1 3 – 5 10 10
2 5 – 7 20 30
3 7 – 9 40 70
4 9 – 11 30 100
5 11 – 13 15 115
CELKOM 115 ----


Ryža. 2.2. Histogram rozdelenia rodín podľa veľkosti obytnej plochy na osobu


Pomocou údajov akumulovaných sérií (tabuľka 2.11) zostrojíme kumulatívne rozdelenie.


Ryža. 2.3. Kumulatívne rozdelenie rodín podľa veľkosti obytnej plochy na osobu


Znázornenie variačného radu vo forme kumulácie je obzvlášť účinné pre variačné série, ktorých frekvencie sú vyjadrené ako zlomky alebo percentá súčtu frekvencií série.
Ak zmeníme osi v grafickom znázornení variačného radu vo forme kumulátu, dostaneme ogivu. Na obr. 2.4 ukazuje ogive zostavený na základe údajov v tabuľke. 2.11.
Histogram možno previesť na distribučný mnohouholník nájdením stredových bodov strán obdĺžnikov a následným spojením týchto bodov rovnými čiarami. Výsledný distribučný polygón je znázornený na obr. 2,2 bodkovaná čiara.
Pri konštrukcii histogramu distribúcie variačného radu s nerovnakými intervalmi pozdĺž osi y sa neuplatňujú frekvencie, ale hustota distribúcie znaku v zodpovedajúcich intervaloch.
Hustota distribúcie je frekvencia vypočítaná na jednotku šírky intervalu, t.j. koľko jednotiek v každej skupine pripadá na hodnotu intervalu jednotky. Príklad výpočtu hustoty distribúcie je uvedený v tabuľke. 2.12.
Tabuľka 2.12 - Rozdelenie podnikov podľa počtu zamestnancov (čísla sú podmienené)
N p / p Skupiny podnikov podľa počtu zamestnancov v os. Počet podnikov Veľkosť intervalu, os. Hustota distribúcie
ALE 1 2 3=1/2
1 do 20 15 20 0,75
2 20 – 80 27 60 0,25
3 80 – 150 35 70 0,5
4 150 – 300 60 150 0,4
5 300 – 500 10 200 0,05
CELKOM 147 ---- ----

Pre grafické znázornenie variačných sérií možno použiť aj kumulatívna krivka. Pomocou kumulácie (krivka súčtov) sa zobrazí séria akumulovaných frekvencií. Akumulované frekvencie sa určujú postupným sčítaním frekvencií podľa skupín a ukazujú, koľko jednotiek populácie má hodnoty vlastností nie väčšie ako uvažovaná hodnota.


Ryža. 2.4. Ogiva rozdelenie rodín podľa veľkosti obytnej plochy na osobu

Pri konštrukcii kumulovanej série variácií intervalov sa varianty série vynesú pozdĺž osi x a akumulované frekvencie pozdĺž osi y.

Páčil sa vám článok? Zdieľaj to