Kapcsolatok

Megoldás: I. Variációs sorozat összeállítása - Megoldás

Laboratóriumi munka №1. Elsődleges feldolgozás statisztikai adat

Elosztó sorozat felépítése

A populációs egységek csoportokba rendezett eloszlását bármely attribútum szerint nevezzük elosztás közelében . Ebben az esetben az előjel egyaránt lehet mennyiségi, akkor a sorozatot hívjuk variációs , és minőségi, akkor a sorozat ún jelző . Tehát például egy város lakossága elosztható korcsoportok szerint egy variációs sorozatban, vagy szakmai hovatartozás szerint attribútumsorozatban (természetesen sokkal több minőségi és mennyiségi jellemző is javasolható az eloszlási sorozatok összeállításához, a a jellemző kiválasztását a statisztikai kutatás feladata határozza meg).

Bármely disztribúciós sorozatot két elem jellemez:

- választási lehetőség(x i) - ezek a minta sokaság egységei attribútumának egyedi értékei. Változatos sorozatok esetén a változat számértékeket vesz fel, attribúciós sorozatoknál minőségi értékeket (például x = "köztisztviselő");

- frekvencia(n én) egy szám, amely megmutatja, hogy ez vagy az a jellemző érték hányszor fordul elő. Ha a gyakoriságot relatív számban fejezzük ki (azaz az opciók adott értékének megfelelő populációs elemek arányát a sokaság összvolumenében), akkor ún. relatív gyakoriság vagy frekvencia.

A variációs sorozatok lehetnek:

- diszkrét amikor a vizsgált tulajdonságot jellemzik bizonyos szám(általában egészben).

- intervallum amikor a "tól" és "ig" határok egy folyamatosan változó jellemzőhöz vannak meghatározva. Intervallumsorozat akkor is épül, ha egy diszkréten változó jellemző értékkészlete nagy.

Egy intervallum sorozatot úgy lehet összeállítani, mint az intervallumokkal egyenlő hosszúságú(egyenlő intervallumú sorozat) és nem egyenlő intervallumokkal, ha ezt a statisztikai vizsgálat feltételei megszabják. Például a népesség jövedelemeloszlásának sorozatát tekinthetjük a következő intervallumokkal:<5тыс р., 5-10 тыс р., 10-20 тыс.р., 20-50 тыс р., и т.д. Если цель исследования не определяет способ построения интервального ряда, то строится равноинтервальный ряд, число интервалов в котором определяется по формуле Стерджесса:



ahol k az intervallumok száma, n a minta mérete. (Természetesen a képlet általában törtszámot ad, és az intervallumok számának a kapott számhoz legközelebb eső egész számot választjuk.) Az intervallum hosszát ebben az esetben a képlet határozza meg.

.

Grafikusan a variációs sorozatok ábrázolhatók hisztogramok(Ebben az intervallumban a frekvenciának megfelelő magasságú "oszlopot" építenek az intervallumsorozat minden intervalluma fölé), elosztási terület(pontokat összekötő szaggatott vonal ( x i;n i) vagy halmozódik fel(a felhalmozott gyakoriságok szerint szerkesztve, azaz az attribútum minden értékéhez az adottnál kisebb attribútumértékkel rendelkező objektumok halmazában való előfordulási gyakoriságot veszik).

Amikor Excelben dolgozik, a következő függvények használhatók variációs sorozatok készítésére:

JELÖLJE BE( adattömb) – a mintanagyság meghatározásához. Az argumentum a mintaadatokat tartalmazó cellatartomány.

COUNTIF( hatótávolság; kritérium) - attribútum vagy variációs sorozat felépítésére használható. Az argumentumok az attribútum mintaértékeinek tömbjének tartománya és a kritérium - az attribútum numerikus vagy szöveges értéke vagy annak a cellának a száma, amelyben az található. Az eredmény az adott érték előfordulási gyakorisága a mintában.

FREKVENCIA( adattömb; intervallum tömb) – variációs sorozat felépítése. Az argumentumok a mintaadattömb tartománya és az intervallumok oszlopa. Ha diszkrét sorozatot kell építeni, akkor itt az opciók értékei vannak feltüntetve, ha intervallum, akkor az intervallumok felső határai (ezeket "zsebeknek" is nevezik). Mivel az eredmény egy gyakorisági oszlop, ezért a függvény bevezetését a CTRL+SHIFT+ENTER billentyűkombináció lenyomásával kell befejezni. Vegye figyelembe, hogy egy intervallum tömbjének beállításakor egy függvény bevezetésekor az utolsó érték elhagyható - minden olyan érték, amely nem esett az előző "zsebekbe", a megfelelő "zsebbe" kerül. Ez néha segít elkerülni azt a hibát, hogy a legnagyobb mintaérték nem kerül automatikusan az utolsó „zsebbe”.

Ezenkívül összetett csoportosításokhoz (több kritérium szerint) a „pivot tables” eszközt használják. Attribútum- és variációs sorozatok készítésére is használhatók, de ez szükségtelenül bonyolítja a feladatot. Változatsorozatok és hisztogramok készítéséhez létezik egy „hisztogram” eljárás az „Analysis Package” bővítményből (a bővítmények Excelben való használatához először le kell töltenie őket, alapértelmezés szerint nincsenek telepítve)

Az elsődleges adatfeldolgozás folyamatát az alábbi példákkal szemléltetjük.

Példa 1.1. 60 család mennyiségi összetételére vonatkozóan vannak adatok.

Készítsen variációs sorozatot és eloszlási sokszöget

Megoldás.

Nyissuk meg az Excel táblázatokat. Adjunk meg egy adattömböt az A1:L5 tartományban. Ha egy dokumentumot elektronikus formában (például Word formátumban) tanulmányoz, mindössze annyit kell tennie, hogy kiválaszt egy táblázatot az adatokkal és a vágólapra másolja, majd válassza ki az A1 cellát, és illessze be az adatokat - ezek automatikusan elfoglalják a megfelelő tartomány. Számítsuk ki az n mintaméretet - a mintaadatok számát, ehhez a B7 cellába írjuk be a = COUNT képletet (A1: L5). Ne feledje, hogy a kívánt tartomány képletbe való beírásához nem szükséges megadni a jelölését a billentyűzetről, elegendő kiválasztani. Határozzuk meg a mintában a minimális és maximális értéket úgy, hogy a =MIN(A1:L5) képletet beírjuk a B8 cellába, és a B9 cellába: =MAX(A1:L5).

1.1. ábra 1. példa Statisztikai adatok elsődleges feldolgozása Excel táblákban

Ezután készítsünk egy táblázatot egy variációs sorozat felépítéséhez az intervallumoszlop (változatértékek) és a gyakorisági oszlop nevének megadásával. Az intervallumok oszlopába írja be az attribútum értékeit a minimumtól (1) a maximumig (6), a B12:B17 tartományban. Válassza ki a gyakoriság oszlopot, írja be a =FREQUENCY(A1:L5;B12:B17) képletet, és nyomja meg a CTRL+SHIFT+ENTER billentyűkombinációt

1.2. ábra Példa 1. Variációs sorozat felépítése

A vezérléshez a frekvenciák összegét a SUM függvénnyel számítjuk ki (S függvény ikon a Kezdőlap Szerkesztés csoportjában), a számított összegnek meg kell egyeznie a B7 cellában korábban számított mintamérettel.

Most építsünk egy sokszöget: miután kiválasztotta a kapott frekvenciatartományt, válassza ki a "Graph" parancsot a "Beszúrás" fülön. Alapértelmezés szerint a vízszintes tengelyen lévő értékek sorszámok lesznek - esetünkben 1-től 6-ig, ami egybeesik az opciók értékeivel (tarifakategóriák száma).

A „Series 1” diagram sorozatának neve a „Tervező” lapon ugyanazzal az „adatok kiválasztása” opcióval módosítható, vagy egyszerűen törölhető.

1.3. ábra. 1. példa Frekvenciapoligon felépítése

Példa 1.2. 50 forrásból származó szennyezőanyag-kibocsátásról állnak rendelkezésre adatok:

10,4 18,6 10,3 26,0 45,0 18,2 17,3 19,2 25,8 18,7
28,2 25,2 18,4 17,5 41,8 14,6 10,0 37,8 10,5 16,0
18,1 16,8 38,5 37,7 17,9 29,0 10,1 28,0 12,0 14,0
14,2 20,8 13,5 42,4 15,5 17,9 19, 10,8 12,1 12,4
12,9 12,6 16,8 19,7 18,3 36,8 15,0 37,0 13,0 19,5

Állítson össze egy egyenlő intervallumú sorozatot, készítsen hisztogramot

Megoldás

Adjunk hozzá egy adattömböt egy Excel munkalaphoz, ez az A1:J5 tartományt foglalja el Az előző feladathoz hasonlóan itt is meghatározzuk az n mintaméretet, a minta minimális és maximális értékeit. Mivel most nem diszkrét, hanem intervallumsorozatra van szükségünk, és a feladatban az intervallumok száma nincs megadva, a k intervallumok számát a Sturgess-képlet segítségével számítjuk ki. Ehhez írja be a B10 cellába az =1+3.322*LOG10(B7) képletet.

1.4. 2. példa Egyenlő intervallum sorozat felépítése

A kapott érték nem egész szám, hanem körülbelül 6,64. Mivel k=7 esetén az intervallumok hosszát egész számként fejezzük ki (ellentétben k=6 esetével), ezért a C10-es cellába ezt az értéket beírva k=7-et választunk. A B11 cellában lévő d intervallum hosszát a = (B9-B8) / C10 képlet beírásával számítjuk ki.

Határozzuk meg az intervallumok tömbjét, megadva a felső korlátot mind a 7 intervallumhoz. Ehhez az E8 cellában számítsa ki az első intervallum felső határát a =B8+B11 képlet beírásával; az E9 cellában a második intervallum felső határát az =E8+B11 képlet beírásával. Az intervallumok felső határának fennmaradó értékeinek kiszámításához rögzítjük a megadott képlet B11 cellájának számát a $ jellel úgy, hogy az E9 cellában lévő képlet =E8+B$11 legyen, és másoljuk a Az E9 sejt az E10-E14 sejtekhez. Az utolsó kapott érték megegyezik a mintában korábban a B9 cellában számított maximális értékkel.

1.5. 2. példa Egyenlő intervallum sorozat felépítése


Most töltsük ki a „zsebek” tömbjét a FREQUENCY függvénnyel, ahogy az 1. példában történt.

1.6. 2. példa Egyenlő intervallum sorozat felépítése

Az így kapott variációs sorozatok alapján felállítunk egy hisztogramot: válassza ki a gyakoriság oszlopot, majd a "Beszúrás" fülön válassza a "Hisztogram" lehetőséget. A hisztogram kézhezvétele után a vízszintes tengely címkéit az intervallumok tartományában lévő értékekre változtatjuk, ehhez a „Tervező” fül „Adatok kiválasztása” opcióját választjuk. A megjelenő ablakban válassza ki a "Módosítás" parancsot a "Vízszintes tengely címkéi" szakaszban, és adja meg a változatok értéktartományát az "egérrel".

1.7. ábra. 2. példa Hisztogram felépítése

1.8. ábra. 2. példa Hisztogram felépítése

A nagy mennyiségű információ feldolgozásakor, ami különösen fontos a modern tudományos fejlesztések során, a kutató komoly feladat előtt áll a kiindulási adatok helyes csoportosítása. Ha az adatok diszkrétek, akkor, mint láttuk, nincs probléma - csak ki kell számítani az egyes funkciók gyakoriságát. Ha a vizsgált tulajdonság rendelkezik folyamatos karaktert (ami a gyakorlatban elterjedtebb), akkor egy jellemző csoportosításához az optimális intervallumszám kiválasztása korántsem triviális feladat.

A folytonos valószínűségi változók csoportosításához a jellemző teljes variációs tartományát meghatározott számú intervallumra osztjuk nak nek.

Csoportos intervallum (folyamatos) variációs sorozat nevezett intervallumok a jellemző értéke szerint rangsorolva (), ahol a megfelelő gyakoriságokkal () együtt jelzik az r "-edik intervallumba eső megfigyelések számát vagy a relatív gyakoriságokat ():

Jellemző értékintervallumok

mi frekvencia

oszlopdiagramés kumulálódik (ogiva),általunk már részletesen tárgyalt, kiváló adatvizualizációs eszköz, amely lehetővé teszi az adatstruktúra elsődleges megértését. Az ilyen grafikonok (1.15. ábra) a folytonos adatokhoz ugyanúgy épülnek fel, mint a diszkréteknél, csak azt a tényt figyelembe véve, hogy a folytonos adatok teljesen kitöltik a bitek területét. lehetséges értékek, bármilyen értéket figyelembe véve.

Rizs. 1.15.

Ezért a hisztogram és a kumulátum oszlopainak érintkezniük kell egymással, nem lehetnek olyan területek, ahol az attribútumértékek nem esnek az összes lehetséges érték közé(azaz a hisztogramon és a kumulátumon nem lehetnek "lyukak" az abszcissza tengely mentén, amelyekbe a vizsgált változó értékei nem esnek, mint az 1.16. ábrán. A sáv magassága megfelel a gyakoriságnak, az adott intervallumba eső megfigyelések számának, vagy a relatív gyakoriságnak, a megfigyelések arányának. Intervallumok nem szabad keresztezniés általában azonos szélességűek.

Rizs. 1.16.

A hisztogram és a sokszög a valószínűségi sűrűséggörbe (differenciálfüggvény) közelítései. f(x) a valószínűségszámítás során figyelembe vett elméleti eloszlás. Ezért konstrukciójuk a kvantitatív folytonos adatok elsődleges statisztikai feldolgozásában olyan nagy jelentőséggel bír - formájuk alapján megítélhető a hipotetikus eloszlási törvény.

Kumuláció - az intervallumvariációs sorozat felhalmozott frekvenciáinak (frekvenciáinak) görbéje. Az integráleloszlásfüggvény grafikonját összehasonlítjuk a kumulátummal F(x), amelyet a valószínűségszámítás során is figyelembe vettek.

Alapvetően a hisztogram és a kumulátum fogalma pontosan a folytonos adatokhoz és azok intervallumvariációs sorozataihoz kapcsolódik, mivel grafikonjaik a valószínűségi sűrűségfüggvény, illetve az eloszlásfüggvény empirikus becslései.

Az intervallumvariációs sorozat felépítése az intervallumok számának meghatározásával kezdődik k. Ez a feladat pedig talán a legnehezebb, legfontosabb és legvitatottabb a vizsgált kérdésben.

Az intervallumok száma ne legyen túl kicsi, mert a hisztogram túl sima lesz ( túlsimítva), elveszíti a kiindulási adatok változékonyságának minden jellemzőjét - az ábrán. 1.17 láthatja, hogy ugyanazok az adatok, amelyeken a grafikonok az 1.1. Az 1.15-öt kisebb számú intervallumú hisztogram készítésére használják (bal oldali grafikon).

Ugyanakkor az intervallumok száma ne legyen túl nagy - különben nem tudjuk megbecsülni a vizsgált adatok eloszlási sűrűségét a numerikus tengely mentén: a hisztogram alulsimítottnak bizonyul. (alulsimított) kitöltetlen intervallumokkal, egyenetlen (lásd 1.17. ábra, jobb oldali grafikon).

Rizs. 1.17.

Hogyan határozzuk meg az intervallumok legelőnyösebb számát?

1926-ban Herbert Sturges egy képletet javasolt azoknak az intervallumoknak a kiszámítására, amelyekre fel kell osztani a vizsgált attribútum kezdeti értékkészletét. Ez a képlet valóban rendkívül népszerűvé vált - a legtöbb statisztikai tankönyv kínálja, és sok statisztikai csomag alapértelmezés szerint használja. Hogy ez indokolt-e és minden esetben, az nagyon komoly kérdés.

Mire épül tehát a Sturges-képlet?

Tekintsük a binomiális eloszlást )

Tetszett a cikk? Oszd meg