Riešenie: I. Zostavte variačný rad - Riešenie

Laboratórne práce №1. Primárne spracovanieštatistické údaje

Konštrukcia distribučných sérií

Usporiadané rozdelenie populačných jednotiek do skupín podľa ktorejkoľvek charakteristiky sa nazýva blízko distribúcie . V tomto prípade môže byť charakteristika buď kvantitatívna, potom sa nazýva séria variačný , a kvalitatívne, potom sa séria nazýva prívlastkový . Napríklad obyvateľstvo mesta môže byť rozdelené podľa vekových skupín vo variačnom rade alebo podľa profesijnej príslušnosti v atribútovom rade (samozrejme, pre zostavenie distribučných radov možno navrhnúť oveľa viac kvalitatívnych a kvantitatívnych charakteristík; výber charakteristika je určená úlohou štatistického výskumu).

Každá distribučná séria sa vyznačuje dvoma prvkami:

- možnosť(x i) – ide o jednotlivé hodnoty charakteristiky jednotiek vo výberovej populácii. Pre variačná séria možnosť nadobúda číselné hodnoty, pre atribút – kvalitatívne (napríklad x = „štátny zamestnanec“);

- frekvencia(n i) – číslo, ktoré ukazuje, koľkokrát sa konkrétna hodnota atribútu vyskytuje. Ak je frekvencia vyjadrená ako relatívne číslo (t. j. podiel prvkov populácie zodpovedajúci danej hodnote možností na celkovom objeme populácie), ide o tzv. relatívna frekvencia alebo frekvencia.

Séria variácií môže byť:

- diskrétne keď je charakterizovaný študovaný znak určitý počet(zvyčajne celé).

- interval, keď sú hranice „od“ a „do“ definované pre neustále sa meniacu charakteristiku. Intervalový rad sa skonštruuje aj vtedy, ak je množina hodnôt diskrétne meniacej sa charakteristiky veľká.

Intervalový rad možno zostrojiť buď s intervalmi rovnakú dĺžku(rovnaký intervalový rad) a s nerovnakými intervalmi, ak si to vyžadujú podmienky štatistickej štúdie. Napríklad možno zvážiť sériu rozdelenia príjmov s nasledujúcimi intervalmi:<5тыс р., 5-10 тыс р., 10-20 тыс.р., 20-50 тыс р., и т.д. Если цель исследования не определяет способ построения интервального ряда, то строится равноинтервальный ряд, число интервалов в котором определяется по формуле Стерджесса:

kde k je počet intervalov, n je veľkosť vzorky. (Samozrejme, vzorec zvyčajne udáva zlomkové číslo a ako počet intervalov sa volí najbližšie celé číslo k výslednému číslu.) Dĺžka intervalu je v tomto prípade určená vzorcom

Graficky môžu byť variačné série prezentované vo forme histogramy(nad každým intervalom intervalového radu je vybudovaný „stĺpec“ výšky zodpovedajúci frekvencii v tomto intervale), distribučný polygón(prerušovaná čiara spájajúca body ( x i;n i) alebo kumuluje(postavená na akumulovaných frekvenciách, t.j. pre každú hodnotu atribútu sa berie frekvencia výskytu v množine objektov s hodnotou atribútu menšou ako je daná).

Pri práci v Exceli je možné použiť nasledujúce funkcie na vytvorenie sérií variácií:

KONTROLA( dátové pole) – na určenie veľkosti vzorky. Argumentom je rozsah buniek, v ktorých sa vzorové údaje nachádzajú.

COUNTIF( rozsah; kritérium) – možno použiť na zostavenie atribútu alebo variačného radu. Argumenty sú rozsah poľa vzorových hodnôt atribútu a kritérium - číselná alebo textová hodnota atribútu alebo číslo bunky, v ktorej sa nachádza. Výsledkom je frekvencia výskytu tejto hodnoty vo vzorke.

FREQUENCY( dátové pole; pole intervalov) – na zostavenie série variácií. Argumenty sú rozsah poľa vzorových údajov a stĺpec intervalu. Ak potrebujete vytvoriť diskrétnu sériu, potom sú tu uvedené hodnoty možností, ak ide o intervalovú sériu, potom horné hranice intervalov (nazývajú sa aj „vrecká“). Keďže výsledkom je stĺpec frekvencií, zadanie funkcie musíte dokončiť stlačením CTRL+SHIFT+ENTER. Všimnite si, že pri zadávaní poľa intervalov pri zavádzaní funkcie nemusíte zadať poslednú hodnotu - všetky hodnoty, ktoré neboli zahrnuté v predchádzajúcich „vreckách“, budú umiestnené do zodpovedajúceho „vrecka“. To môže niekedy pomôcť vyhnúť sa chybe, keď sa najväčšia hodnota vzorky automaticky neumiestni do posledného vrecka.

Okrem toho pre zložité zoskupenia (na základe niekoľkých charakteristík) použite nástroj „kontingenčných tabuliek“. Možno ich použiť aj na zostavenie radov atribútov a variácií, ale to zbytočne komplikuje úlohu. Na vytvorenie série variácií a histogramu je k dispozícii aj postup „histogram“ z doplnku „Analysis Package“ (ak chcete použiť doplnky v Exceli, musíte si ich najprv stiahnuť, predvolene nie sú nainštalované)

Ukážme si proces primárneho spracovania údajov na nasledujúcich príkladoch.

Príklad 1.1. Existujú údaje o kvantitatívnom zložení 60 rodín.

Zostrojte sériu variácií a distribučný polygón

Riešenie.

Otvorme si excelové tabuľky. Zadajte dátové pole do rozsahu A1:L5. Ak študujete dokument v elektronickej forme (napríklad vo formáte Word), stačí vybrať tabuľku s údajmi a skopírovať ju do schránky, potom vybrať bunku A1 a vložiť údaje - automaticky obsadia vhodný rozsah. Vypočítajme objem vzorky n - počet údajov vzorky, aby ste to urobili, zadajte do bunky B7 vzorec =POČET(A1:L5). Upozorňujeme, že na zadanie požadovaného rozsahu do vzorca nie je potrebné zadávať jeho označenie z klávesnice; Určme minimálne a maximálne hodnoty vo vzorke zadaním vzorca =MIN(A1:L5) do bunky B8 a do bunky B9: =MAX(A1:L5).

Obr.1.1 Príklad 1. Primárne spracovanie štatistických údajov v excelovských tabuľkách

Ďalej si pripravíme tabuľku na zostavenie variačného radu zadaním názvov pre stĺpec interval (hodnoty variantov) a stĺpec frekvencie. V stĺpci interval zadajte charakteristické hodnoty od minima (1) po maximum (6) v rozsahu B12:B17. Vyberte stĺpec frekvencie, zadajte vzorec =FREQUENCY(A1:L5,B12:B17) a stlačte kombináciu klávesov CTRL+SHIFT+ENTER

Obr. 1.2 Príklad 1. Konštrukcia radu variácií

Na kontrolu vypočítame súčet frekvencií pomocou funkcie SUM (ikona funkcie S v skupine „Úpravy“ na karte „Domov“), vypočítaný súčet by sa mal zhodovať s predtým vypočítaným objemom vzorky v bunke B7.

Teraz zostavme polygón: po výbere výsledného frekvenčného rozsahu vyberte príkaz „Graf“ na karte „Vložiť“. V predvolenom nastavení budú hodnoty na vodorovnej osi poradové čísla - v našom prípade od 1 do 6, čo sa zhoduje s hodnotami možností (čísla tarifných kategórií).

Názov série grafov „séria 1“ je možné zmeniť pomocou rovnakej možnosti „vybrať údaje“ na karte „Návrh“ alebo jednoducho odstrániť.

Obr.1.3. Príklad 1. Konštrukcia frekvenčného mnohouholníka

Príklad 1.2. Existujú údaje o emisiách znečisťujúcich látok z 50 zdrojov:

10,4	18,6	10,3	26,0	45,0	18,2	17,3	19,2	25,8	18,7
28,2	25,2	18,4	17,5	41,8	14,6	10,0	37,8	10,5	16,0
18,1	16,8	38,5	37,7	17,9	29,0	10,1	28,0	12,0	14,0
14,2	20,8	13,5	42,4	15,5	17,9	19,	10,8	12,1	12,4
12,9	12,6	16,8	19,7	18,3	36,8	15,0	37,0	13,0	19,5

Zostavte sériu s rovnakým intervalom, vytvorte histogram

Riešenie

Zadajte dátové pole do hárku Excelu, bude zaberať rozsah A1:J5 Rovnako ako v predchádzajúcej úlohe určíme veľkosť vzorky n, minimálne a maximálne hodnoty vo vzorke. Keďže teraz nepotrebujeme diskrétny rad, ale intervalový rad a počet intervalov v úlohe nie je zadaný, vypočítame počet intervalov k pomocou Sturgessovho vzorca. Ak to chcete urobiť, zadajte do bunky B10 vzorec =1+3,322*LOG10(B7).

Obr.1.4. Príklad 2. Konštrukcia radu s rovnakým intervalom

Výsledná hodnota nie je celé číslo, je to približne 6,64. Keďže pri k=7 bude dĺžka intervalov vyjadrená ako celé číslo (na rozdiel od k=6), zvolíme k=7 zadaním tejto hodnoty do bunky C10. Dĺžku intervalu d v bunke B11 vypočítame zadaním vzorca =(B9-B8)/C10.

Definujme pole intervalov, označujúce horný limit pre každý zo 7 intervalov. Aby sme to dosiahli, v bunke E8 vypočítame hornú hranicu prvého intervalu zadaním vzorca =B8+B11; v bunke E9 hornú hranicu druhého intervalu zadaním vzorca =E8+B11. Na výpočet zostávajúcich hodnôt horných hraníc intervalov fixujeme počet bunky B11 v zadanom vzorci pomocou znaku $, takže vzorec v bunke E9 má tvar =E8+B$11 a skopírujeme obsah bunky E9 do buniek E10-E14. Posledná získaná hodnota sa rovná maximálnej hodnote vo vzorke vypočítanej skôr v bunke B9.

Obr.1.5. Príklad 2. Konštrukcia radu s rovnakým intervalom

Teraz vyplňte pole „vreciek“ pomocou funkcie FREQUENCY, ako to bolo urobené v príklade 1.

Obr.1.6. Príklad 2. Konštrukcia radu s rovnakým intervalom

Pomocou výsledného radu variácií vytvoríme histogram: vyberte stĺpec frekvencie a na karte „Vložiť“ vyberte „Histogram“. Po prijatí histogramu zmeňme označenia vodorovnej osi na hodnoty v rozsahu intervalov, ak to chcete urobiť, vyberte možnosť „Vybrať údaje“ na karte „Návrhár“. V zobrazenom okne vyberte príkaz „Zmeniť“ pre časť „Štítky horizontálnej osi“ a zadajte rozsah hodnôt možností a vyberte ho myšou.

Obr.1.7. Príklad 2. Zostrojenie histogramu

Obr.1.8. Príklad 2. Zostrojenie histogramu

Pri spracovaní veľkého množstva informácií, ktoré je obzvlášť dôležité pri modernom vedeckom vývoji, stojí pred výskumníkom vážna úloha správne zoskupiť zdrojové údaje. Ak sú údaje svojou povahou diskrétne, potom, ako sme videli, nevznikajú žiadne problémy - stačí vypočítať frekvenciu každej funkcie. Ak má študovaná vlastnosť nepretržitý charakteru (čo je v praxi bežnejšie), potom výber optimálneho počtu intervalov zoskupovania prvkov nie je v žiadnom prípade triviálnou úlohou.

Na zoskupenie spojitých náhodných premenných je celý variačný rozsah charakteristiky rozdelený do určitého počtu intervalov Komu.

Zoskupený interval (nepretržitý) variačná séria sa nazývajú intervaly zoradené podľa hodnoty atribútu (), kde počty pozorovaní spadajúcich do r"-tého intervalu alebo relatívne početnosti () sú uvedené spolu s príslušnými početnosťami ():

Charakteristické intervaly hodnôt
mi frekvencia

stĺpcový graf A kumulovať (ogiva), ktoré sme už podrobne rozoberali, sú vynikajúcim prostriedkom vizualizácie údajov, ktorý vám umožňuje získať primárnu predstavu o štruktúre údajov. Takéto grafy (obr. 1.15) sú konštruované pre spojité dáta rovnakým spôsobom ako pre diskrétne, len s prihliadnutím na skutočnosť, že spojité dáta úplne vypĺňajú oblasť ich možné hodnoty, prijímanie akýchkoľvek hodnôt.

Ryža. 1.15.

Preto stĺpce na histograme a kumulácii sa musia navzájom dotýkať a nesmú mať oblasti, v ktorých hodnoty atribútov nespadajú do všetkých možných(t. j. histogram a kumulácie by nemali mať pozdĺž osi x „diery“, ktoré neobsahujú hodnoty skúmanej premennej, ako na obr. 1.16). Výška stĺpca zodpovedá frekvencii – počtu pozorovaní spadajúcich do daného intervalu alebo relatívnej frekvencii – podielu pozorovaní. Intervaly sa nesmie pretínať a zvyčajne majú rovnakú šírku.

Ryža. 1.16.

Histogram a polygón sú aproximáciou krivky hustoty pravdepodobnosti (diferenciálna funkcia) f(x) teoretické rozdelenie, uvažované v rámci teórie pravdepodobnosti. Preto je ich konštrukcia taká dôležitá pri primárnom štatistickom spracovaní kvantitatívnych spojitých údajov - podľa ich vzhľadu možno usudzovať na zákon hypotetického rozdelenia.

Kumulovať – krivka akumulovaných frekvencií (frekvencií) intervalového variačného radu. Graf funkcie kumulatívneho rozdelenia sa porovnáva s kumulovaným F(x), diskutované aj v kurze teórie pravdepodobnosti.

V zásade sú pojmy histogram a kumulovať špecificky spojené so spojitými údajmi a ich intervalovými variačnými sériami, pretože ich grafy sú empirickými odhadmi funkcie hustoty pravdepodobnosti a distribučnej funkcie.

Konštrukcia intervalového variačného radu začína určením počtu intervalov k. A táto úloha je azda najťažšia, najdôležitejšia a najkontroverznejšia v skúmanej problematike.

Počet intervalov by nemal byť príliš malý, pretože to spôsobí, že histogram bude príliš hladký ( prehladený), stráca všetky znaky variability pôvodných údajov – na obr. 1.17 vidno, ako tie isté údaje, na ktorých sú grafy na obr. 1.15, slúži na zostrojenie histogramu s menším počtom intervalov (graf vľavo).

Počet intervalov by zároveň nemal byť príliš veľký - inak nebudeme môcť odhadnúť hustotu rozloženia študovaných údajov pozdĺž číselnej osi: histogram bude nedostatočne vyhladený (nevyhladené), s prázdnymi intervalmi, nerovnomerné (pozri obr. 1.17, pravý graf).

Ryža. 1.17.

Ako určiť najvýhodnejší počet intervalov?

Už v roku 1926 Herbert Sturges navrhol vzorec na výpočet počtu intervalov, do ktorých je potrebné rozdeliť pôvodný súbor hodnôt študovanej charakteristiky. Tento vzorec sa skutočne stal mimoriadne populárnym – väčšina štatistických učebníc ho ponúka a mnohé štatistické balíky ho štandardne používajú. Nakoľko je to opodstatnené a vo všetkých prípadoch je to veľmi vážna otázka.

Takže, na čom je Sturgesov vzorec založený?

Zvážte binomické rozdelenie)