Diszkrét variációs sorozat felépítése.  Statisztikai összesítés és csoportosítás.  Statisztikai eloszlási sorozat.  Példák problémamegoldásra

Diszkrét variációs sorozat felépítése. Statisztikai összesítés és csoportosítás. Statisztikai eloszlási sorozat. Példák problémamegoldásra

A statisztikai anyagok általánosításának legegyszerűbb módja a sorozatok felépítése. Egy statisztikai vizsgálat összefoglalásának eredménye lehet eloszlási sorozat. A statisztikában az eloszlási sorozat a népességi egységek csoportokba rendezett eloszlása ​​bármely tulajdonság szerint: minőségi vagy mennyiségi. Ha a sorozat minőségi alapon épül fel, akkor attribúciósnak, ha pedig mennyiségi alapon, akkor variációsnak nevezzük.

A variációs sorozatot két elem jellemzi: változat (X) és gyakoriság (f). A változat egy különálló egység vagy népességcsoport előjelének különálló értéke. Azt a számot, amely megmutatja, hogy egy adott jellemző értéke hányszor fordul elő, frekvenciának nevezzük. Ha a frekvenciát relatív számként fejezzük ki, akkor frekvenciának nevezzük. A variációs sorozat lehet intervallum, amikor a „tól” és „ig” határok meg vannak határozva, vagy lehet diszkrét, amikor a vizsgált tulajdonságot egy bizonyos szám jellemzi.

Példák segítségével vizsgáljuk meg a variációs sorozatok felépítését.

Példa. illetve az üzem egyik műhelyében 60 dolgozó bérkategóriáiról van adat.

Ossza el a dolgozókat a tarifakategória szerint, készítsen variációs sorozatot.

Ehhez felírjuk az attribútum összes értékét növekvő sorrendben, és kiszámítjuk az egyes csoportok dolgozóinak számát.

1.4. táblázat

A dolgozók megoszlása ​​kategóriák szerint

Dolgozói rang (X)

Dolgozók száma

személy (f)

az összes %-ában (különösen)

Egy variációs diszkrét sorozatot kaptunk, amelyben a vizsgált tulajdonság (a munkás rangja) egy bizonyos számmal van ábrázolva. Az érthetőség kedvéért a variációs sorozatot grafikusan ábrázoltuk. Ezen eloszlási sorozat alapján egy eloszlási felületet építettünk fel.

Rizs. 1.1. Sokszög a munkavállalók bérkategóriák szerinti megoszlására

Épület intervallum sorozat egyenlő időközökkel, nézzük meg a következő példát.

Példa. Ismert adatok 50 cég állótőkéjének költségéről millió rubelben. Meg kell mutatni a cégek állóeszközköltség szerinti megoszlását.

A cégek állótőkeköltség szerinti megoszlásának bemutatásához először döntsük el, hogy hány csoportot szeretnénk megkülönböztetni. Tegyük fel, hogy úgy döntünk, hogy kiemelünk 5 vállalatcsoportot. Ezután meghatározzuk az intervallum méretét a csoportban. Ehhez a képletet használjuk

Példánk szerint.

Ha az intervallum értékét hozzáadjuk az attribútum minimális értékéhez, akkor cégcsoportokat kapunk az állótőke költsége alapján.

A kettős értékű egység abba a csoportba tartozik, ahol felső határként működik (azaz a 17-es jellemzőérték az első csoportba, a 24-es a másodikba stb.).

Számoljuk meg a növények számát az egyes csoportokban.

1.5. táblázat

A cégek megoszlása ​​az állótőke értéke szerint (millió rubel)

Állótőke költsége
millió rubelben (X)

Cégek száma
(gyakoriság) (f)

Felhalmozott frekvenciák
(halmozott)

Ezen eloszlás szerint egy variációs intervallum sorozatot kaptunk, amelyből az következik, hogy 36 cég rendelkezik 10-24 millió rubel értékű állótőkével. stb.

Az intervallumeloszlási sorozatok grafikusan ábrázolhatók hisztogramként.

Az adatfeldolgozás eredményeit ben dokumentáljuk statisztikai táblázatok. A statisztikai táblázatok tartalmazzák tárgyukat és állítmányukat.

Az alany az a halmaz vagy a halmaz egy része, amely alá van vetve a jellemzőnek.

Az állítmány egy jelző, amely az alanyt jellemzi.

A táblázatok megkülönböztethetők: egyszerű és csoportos, kombinációs, az állítmány egyszerű és összetett fejlesztésével.

A tárgy egyszerű táblázata tartalmazza az egyes egységek listáját.

Ha az alany rendelkezik egységek csoportosításával, akkor egy ilyen táblázatot csoporttáblázatnak nevezünk. Például vállalkozások csoportja a munkavállalók száma szerint, lakosságcsoportok nemek szerint.

A kombinációs táblázat tárgya két vagy több kritérium szerinti csoportosítást tartalmaz. Például a lakosságot nemek szerint csoportokra osztják iskolai végzettség, életkor stb. szerint.

A kombinációs táblázatok olyan információkat tartalmaznak, amelyek lehetővé teszik számos mutató kapcsolatának azonosítását és jellemzését, valamint térbeli és időbeli változásaik mintázatát. Annak érdekében, hogy a táblázat vizuális legyen a témája kidolgozásakor, két vagy három jelre korlátozódnak, és mindegyikhez korlátozott számú csoportot alkotnak.

A táblázatokban szereplő predikátum többféleképpen fejleszthető. A predikátum egyszerű fejlesztésével minden mutatója egymástól függetlenül helyezkedik el.

A predikátum komplex fejlesztésével a mutatók kombinálódnak egymással.

Bármely táblázat összeállításakor a vizsgálat céljaiból és a feldolgozott anyag tartalmából kell kiindulni.

A statisztika a táblázatokon kívül grafikonokat és diagramokat is használ. Diagram - a statisztikai adatok geometriai formák segítségével jelennek meg. A diagramok vonal- és oszlopdiagramokra vannak osztva, de lehetnek göndör diagramok (rajzok és szimbólumok), kördiagramok (a kör a teljes sokaság méretének számít, és az egyes szektorok területei jelennek meg fajsúly vagy annak egy részét alkotórészei), radiális diagramok (poláris ordináták alapján). A kartogram egy kombináció kontúr térkép vagy a terület tervrajza diagrammal.

A statisztikai anyagok általánosításának legegyszerűbb módja a sorozatok felépítése. Egy statisztikai vizsgálat összefoglalásának eredménye lehet eloszlási sorozat.

A csoportosítási jellemző, a csoportok számának és a csoportosítási intervallumoknak a meghatározása után az összesítő és csoportosítási adatok eloszlási sorok formájában, illetve statisztikai táblázatok formájában kerülnek bemutatásra.

Az elosztási sorozat a csoportosítás egyik típusa.

Közel elosztás a statisztikában a népességi egységek csoportokba rendezett eloszlását nevezzük bármely tulajdonság szerint: minőségi vagy mennyiségi.

  1. Az elosztási sorozatok típusai

Az eloszlási sorozat kialakulásának hátterében álló tulajdonságtól függően attribútum- és variációs eloszlási sorozatokat különböztetünk meg:

    minőségi alapon felépített terjesztési sorozatnak nevezett attribútum;

    Az eloszlási sorozatokat variációsnak nevezik, amelyek egy mennyiségi tulajdonság értékeinek növekvő vagy csökkenő sorrendjében épülnek fel.

Az eloszlás variációs sorozata két oszlopból áll. Az első oszlop a változó jellemző mennyiségi értékeit tartalmazza, amelyeket változatoknak nevezünk és jelölünk. Diszkrét változat – egész számként kifejezve. Az intervallum opció a és tól tartományba esik. A változatok típusától függően lehetőség van diszkrét vagy intervallum variációs sorozat felépítésére. A második oszlop a konkrét változatok számát tartalmazza gyakoriságokban vagy gyakoriságokban kifejezve:

    a gyakoriságok abszolút számok, amelyek azt mutatják, hogy egy adott jellemző érték hányszor fordul elő az aggregátumban; az összes gyakoriság összegének egyenlőnek kell lennie a teljes sokaság egységeinek számával;

    a gyakoriságok a teljes érték százalékában kifejezett gyakoriságok; az összes gyakoriság százalékban kifejezett összegének egyenlőnek kell lennie 100%-kal az egy törtrészében.

Variációs sorozat két elem jellemzi: változat (X) és gyakoriság (f). A változat egy különálló egység vagy népességcsoport előjelének különálló értéke. Meghívják azt a számot, amely azt mutatja, hogy egy adott jellemző értéke hányszor fordul elő frekvencia. Ha a frekvenciát relatív számként fejezzük ki, akkor frekvenciának nevezzük.

A variációs sorozatok lehetnek:

    intervallum, amikor a "tól" és "ig" határok meg vannak határozva, az intervallum eloszlás sorozat grafikusan ábrázolható hisztogram formájában;

    diszkrét, amikor a vizsgált tulajdonságot egy bizonyos szám jellemzi.

  1. Eloszlási sorozatok grafikus ábrázolása

A disztribúciós sorozatok grafikus képekkel jeleníthetők meg.

A terjesztési sorozatok a következőképpen jelennek meg:

    poligon;

    hisztogramok;

    kumulálódik;

Építéskor szemétlerakó a vízszintes tengelyen (abszcissza) a változó attribútum értékei, a függőleges tengelyen (y-tengely) pedig a frekvenciák vagy frekvenciák vannak ábrázolva.

Építéshez hisztogramok az abszcissza tengely az intervallumok határainak értékeit jelzi, és ezek alapján téglalapokat építenek, amelyek magassága arányos a frekvenciákkal (vagy frekvenciákkal).

Egy tulajdonság eloszlását egy variációs sorozatban a felhalmozott gyakoriságok (gyakoriságok) szerint a kumulátum segítségével ábrázoljuk.

Összesített vagy a kumulatív görbe a sokszöggel ellentétben a felhalmozott frekvenciákra vagy frekvenciákra épül. Ebben az esetben a karakterisztikus értékek az abszcissza tengelyre, a felhalmozott frekvenciák vagy frekvenciák pedig az ordináta tengelyre kerülnek.

Ogiva a kumulátumhoz hasonlóan épül fel azzal a különbséggel, hogy a felhalmozott frekvenciák az abszcissza tengelyre, a jellemzőértékek pedig az ordináta tengelyre kerülnek.

A kumulátum egy változata a koncentrációs görbe vagy a Lorenz-görbe. A koncentrációgörbe ábrázolásához a derékszögű koordináta-rendszer mindkét tengelyét százalékosan 0-tól 100-ig skálázzuk. Ebben az esetben az abszcissza tengelyek a felhalmozott frekvenciákat, az ordináta tengelyek pedig a részarány halmozott értékeit jelzik. százalék) a jellemző mennyiségével.

Egy változó attribútum változásainak leírása eloszlási sorozatok segítségével történik.

Statisztikai eloszlási sorozat- ez a statisztikai sokaság egységeinek rendezett elosztása külön csoportokba egy bizonyos változó tulajdonság szerint.

A kvalitatív alapon felépített statisztikai sorozatokat ún jelző. Ha az eloszlási sorozat kvantitatív attribútumon alapul, akkor a sorozat az variációs.

A variációs sorozatokat viszont diszkrétre és intervallumra osztják. A magban diszkrét a terjesztési sorozat diszkrét (megszakadt) jellemzője, amely meghatározott számértékeket vesz fel (bűncselekmények száma, állampolgárok jogsegélykérelmeinek száma). intervallum az elosztási sorozat egy folyamatos jellemzőre épül, amely egy adott tartományból tetszőleges értéket felvehet (az elítélt életkora, szabadságvesztés időtartama stb.)

Bármely statisztikai eloszlási sorozat két kötelező elemet tartalmaz - sorozat- és gyakorisági változatokat. Lehetőségek (x i) a jellemző egyedi értékei, amelyeket a terjesztési sorozatban vesz fel. Frekvenciák (fi) olyan számértékek, amelyek azt mutatják, hogy bizonyos opciók hányszor fordulnak elő az eloszlási sorozatban. Az összes gyakoriság összegét a sokaság térfogatának nevezzük.

A relatív egységekben (törtekben vagy százalékokban) kifejezett gyakoriságokat gyakoriságoknak ( w i). A gyakoriságok összege eggyel egyenlő, ha a gyakoriságokat egy töredékében fejezzük ki, vagy 100-at, ha százalékban fejezzük ki. A gyakoriságok használata lehetővé teszi a különböző populációméretekkel rendelkező variációs sorozatok összehasonlítását. A gyakoriságokat a következő képlet határozza meg:

Építéshez diszkrét sorozat a sorban előforduló mindegyiket rangsorolják egyéni értékek funkciót, majd kiszámítja az egyes értékek ismétlődési gyakoriságát. Egy eloszlási sorozat egy két sorból és oszlopból álló táblázat ötletében készül, amelyek közül az egyik a sorozat változatainak értékeit tartalmazza. x i, a másodikban - a frekvenciák értékei fi.

Vegyünk egy példát a diszkrét létrehozására variációs sorozat.

Példa 3.1 . Szerint a Belügyminisztérium regisztrált bűncselekményeket követtek el a városban N kiskorú éves.

17 13 15 16 17 15 15 14 16 13 14 17 14 15 15 16 16 15 14 15 15 14 16 16 14 17 16 15 16 15 13 15 15 13 15 14 15 13 17 14.

Készítsen diszkrét eloszlássorozatot.

Megoldás .

Először is rangsorolni kell a kiskorúak életkorára vonatkozó adatokat, pl. írd le őket növekvő sorrendben.

13 13 13 13 13 14 14 14 14 14 14 14 14 15 15 15 15 15 15 15 15 15 15 15 15 15 15 16 16 16 16 16 16 16 16 17 17 17 17 17



3.1. táblázat

Így a gyakoriságok az adott életkor létszámát tükrözik, például 5 fő 13 éves, 8 fő 14 éves stb.

Épület intervallum Az elosztási sorokat a mennyiségi attribútum szerinti egyenlő intervallumú csoportosítás megvalósításához hasonlóan hajtjuk végre, azaz először meghatározzuk a csoportok optimális számát, amelyekre a halmaz fel lesz osztva, meghatározzuk az intervallumok csoportonkénti határait és a frekvenciákat kiszámítják.

Szemléltessük egy intervallum eloszlás sorozat felépítését a következő példával.

Példa 3.2 .

Készítsen intervallumsort a következő statisztikai sokasághoz - egy ügyvéd fizetése az irodában, ezer rubel:

16,0 22,2 25,1 24,3 30,5 32,0 17,0 23,0 19,8 27,5 22,0 18,9 31,0 21,5 26,0 27,4

Megoldás.

Vegyük az egyenlő intervallumú csoportok optimális számát egy adott statisztikai sokasághoz, ami egyenlő 4-gyel (16 lehetőségünk van). Ezért az egyes csoportok mérete egyenlő:

és az egyes intervallumok értéke egyenlő lesz:

Az intervallumok határait a következő képletek határozzák meg:

,

hol van az i-edik intervallum alsó és felső határa.

Az intervallumok határainak közbülső számítását mellőzve ezek értékét (opciók) és az egyes intervallumokon belül fizetéssel rendelkező ügyvédek számát (gyakoriságait) beírjuk a 3.2 táblázatba, amely az így kapott intervallumsorokat mutatja be.

3.2. táblázat

A statisztikai eloszlássorok elemzése grafikus módszerrel is elvégezhető. Az eloszlási sorozatok grafikus ábrázolása lehetővé teszi a vizsgált sokaság eloszlási mintáinak vizuális szemléltetését sokszög, hisztogram és kumulátumok formájában. Vessünk egy pillantást ezekre a grafikonokra.

Poligon egy vonallánc, melynek szakaszai pontokat kapcsolnak össze koordinátákkal ( x i;fi). Általában egy sokszöget használnak diszkrét eloszlási sorozatok megjelenítésére. Felépítéséhez a jellemző rangsorolt ​​egyedi értékeit az x tengelyen ábrázoljuk x i, az y tengelyen az ezeknek az értékeknek megfelelő frekvenciák vannak. Ennek eredményeként az abszcissza és az ordináta tengelyek mentén jelölt adatoknak megfelelő pontok szegmenseinek összekapcsolásával egy vonalláncot kapunk, amelyet sokszögnek nevezünk. Nézzünk egy példát egy frekvenciapoligon felépítésére.

Egy sokszög felépítésének szemléltetésére vegyük a 3.1. példa megoldásának eredményét egy diszkrét sorozat felépítéséhez - 1. ábra. Az abszcisszán az elítéltek életkorát, az ordináta pedig azon fiatalkorú elítéltek számát mutatja, akik adott életkor. Ezt a sokszöget elemezve azt mondhatjuk a legnagyobb számban elítéltek - 14 fő, 15 évesek.

3.1. ábra - Egy diszkrét sorozat frekvenciatartománya.

Intervallumsorozathoz sokszög is építhető, ilyenkor az intervallumok felezőpontjait az abszcissza tengely mentén, a megfelelő frekvenciákat pedig az ordináta tengelye mentén ábrázoljuk.

oszlopdiagram– téglalapokból álló lépcsőzetes figura, melynek alapjai a jellemző értékének intervallumai, magasságai pedig megegyeznek a megfelelő frekvenciákkal. A hisztogram csak az intervallum eloszlási sorozatok megjelenítésére szolgál. Ha az intervallumok egyenlőtlenek, akkor az y tengelyen lévő hisztogram felépítéséhez nem a frekvenciákat ábrázoljuk, hanem a gyakoriság és a megfelelő intervallum szélességének arányát. Egy hisztogram akkor alakítható eloszlási sokszöggé, ha oszlopainak közepét szegmensek kötik össze.

A hisztogram felépítésének szemléltetésére vegyük a 3.2. példa - 3.2. ábra - intervallumsorozat összeállításának eredményeit.

3.2. ábra – Eloszlási hisztogram bérekügyvédek.

A variációs sorozatok grafikus ábrázolásához kumulátum is használatos. Összesített egy görbe, amely halmozott frekvenciák sorozatát ábrázolja, és koordinátákkal összekötő pontokat ( x i;f i nak). A kumulatív gyakoriságok kiszámítása az eloszlási sorozat összes gyakoriságának egymás utáni összegzésével történik, és megmutatja azon populációs egységek számát, amelyeknek a jellemzőértéke nem nagyobb, mint a megadott. Szemléltessük a 3.2. példában – 3.3. táblázatban bemutatott variációs intervallum sorozatok halmozott gyakoriságának kiszámítását.

3.3. táblázat

Egy diszkrét eloszlási sorozat kumulátumának felépítéséhez a tulajdonság rangsorolt ​​egyedi értékeit az abszcissza tengely mentén, a hozzájuk tartozó halmozott frekvenciákat pedig az ordináta tengely mentén ábrázoljuk. Egy intervallumsorozat kumulatív görbéjének megalkotásakor az első pont abszcissza az első intervallum alsó határával, az ordinátája pedig 0 lesz. Minden további pontnak meg kell felelnie az intervallumok felső határának. Készítsünk kumulátumot a 3.3. táblázat - 3.3. ábra adataiból.

3.3. ábra – Az ügyvédi fizetések kumulatív eloszlási görbéje.

tesztkérdések

1. A statisztikai eloszlássorozat fogalma, főbb elemei.

2. A statisztikai eloszlássorok típusai. Rövid leírásuk.

3. Diszkrét és intervallum eloszlási sorozatok.

4. Diszkrét eloszlási sorozatok felépítésének technikája.

5. Intervallumeloszlási sorozatok felépítésének technikája.

6. Diszkrét eloszlási sorozatok grafikus ábrázolása.

7. Intervallumeloszlási sorozatok grafikus ábrázolása.

Feladatok

1. feladat. A csoport 25 tanulójának TGP-ben való előmeneteléről foglalkozásonként a következő adatok állnak rendelkezésre: 5, 4, 4, 4, 3, 2, 5, 3, 4, 4, 4, 3, 2, 5, 2, 5 , 5, 2, 3 , 3, 5, 4, 2, 3, 3. Készítse el a tanulók diszkrét variációs sorozatát a foglalkozáson kapott értékelések pontszámai alapján! Az eredményül kapott sorozathoz számítsa ki a Frekvenciák, kumulatív gyakoriságok, a kumulatív gyakoriságok értékeit. Vonja le saját következtetéseit.

2. feladat. A telepen 1000 elítélt él, életkori megoszlásukat a táblázat tartalmazza:

kép ezt a sort grafikusan. Vonja le saját következtetéseit.

3. feladat. A fogvatartottak szabadságvesztésének idejéről az alábbi adatok állnak rendelkezésre:

5; 4; 2; 1; 6; 3; 4; 3; 2; 2; 3; 1; 17; 6; 2; 8; 5; 11; 9; 3; 5; 6; 4; 3; 10; 5; 25; 1; 12; 3; 3; 4; 9; 6; 5; 3; 4; 3; 5; 12; 4; 13; 2; 4; 6; 4; 14; 3; 11; 5; 4; 13; 2; 4; 6; 4; 14; 3; 11; 5; 4; 3; 12; 6.

Készítsen intervallumsort a foglyok börtönbüntetés szerinti megoszlásáról! Vonja le saját következtetéseit.

4. feladat. Az elítéltek régióbeli megoszlásáról a vizsgált időszakra vonatkozóan az alábbi adatok állnak rendelkezésre szerint korcsoportok:

Rajzolja le ezt a sorozatot grafikusan, vonjon le következtetéseket.

Az összegyűjtött statisztikai adatok csoportosításának eredményeit általában eloszlási sorok formájában mutatjuk be. Az eloszlási sorozat a populációs egységek rendezett eloszlása ​​csoportokba a vizsgált tulajdonság szerint.

Az eloszlási sorozatok a csoportosítás alapjául szolgáló jellemzőtől függően attribútumra és variációsra oszthatók. Ha az előjel kvalitatív, akkor az eloszlássorozatot attribútumnak nevezzük. Az attribútumsorozatra példa a vállalkozások és szervezetek tulajdonosi formák szerinti megoszlása ​​(lásd 3.1. táblázat).

Ha az attribútum, amelyre az eloszlási sorozat épül, kvantitatív, akkor a sorozatot variációsnak nevezzük.

A variációs eloszlás sorozat mindig két részből áll: egy változatból és a hozzájuk tartozó frekvenciákból (vagy frekvenciákból). A változat olyan érték, amely a sokaság egységeiben vehet fel egy jellemzőt, a gyakoriság pedig azoknak a megfigyelési egységeknek a száma, amelyek a jellemző adott értékével rendelkeznek. A gyakoriságok összege mindig megegyezik a populáció méretével. Néha a gyakoriságok helyett a gyakoriságokat számítják ki - ezek a gyakoriságok vagy az egység töredékében (akkor az összes gyakoriság összege 1), vagy a populáció térfogatának százalékában (a gyakoriságok összege egyenlő lesz 100%).

A variációs sorozatok diszkrétek és intervallumok. A diszkrét sorozatok esetében (3.7. táblázat) az opciókat meghatározott számokkal, leggyakrabban egész számokkal fejezzük ki.

3.8. táblázat. Az alkalmazottak munkaidő szerinti megoszlása ​​a biztosítónál
Munkaidő a cégnél teljes évek(lehetőségek) Alkalmazottak száma
Ember (frekvenciák) az összes százalékában (gyakori)
legfeljebb egy évig 15 11,6
1 17 13,2
2 19 14,7
3 26 20,2
4 10 7,8
5 18 13,9
6 24 18,6
Teljes 129 100,0

Az intervallum sorozatban (lásd a 3.2 táblázatot) a mutató értékei intervallumként vannak beállítva. Az intervallumoknak két határa van: alsó és felső. Az intervallumok nyitottak vagy zártak lehetnek. A nyitottaknak nincs egyik szegélye, ezért a táblázatban. 3.2 az első intervallumnak nincs alsó korlátja, az utolsónak pedig nincs felső korlátja. Intervallumsor felépítésénél az attribútum értékeinek terjedésének természetétől függően egyenlő és egyenlőtlen intervallumokat is használunk (a 3.2. táblázat egy egyenlő intervallumú variációs sorozatot mutat).

Ha a jellemző korlátozott számú értéket vesz fel, általában nem több, mint 10, akkor diszkrét eloszlási sorozatok épülnek fel. Ha a változat nagyobb, akkor a diszkrét sorozat elveszíti láthatóságát; ebben az esetben célszerű a variációs sorozat intervallumformáját használni. Egy jellemző folyamatos változásával, amikor az értékei be bizonyos határokat tetszőlegesen kis mértékben különböznek egymástól, építsünk intervallum eloszlás sorozatot is.

3.3.1. Diszkrét variációs sorozatok felépítése

Tekintsük a diszkrét variációs sorozatok készítésének technikáját egy példa segítségével.

Példa 3.2. 60 család mennyiségi összetételéről a következő adatok állnak rendelkezésre:

Ahhoz, hogy képet kapjunk a családok taglétszám szerinti megoszlásáról, egy variációs sorozatot kell összeállítani. Mivel az attribútum korlátozott számú egész értéket vesz fel, diszkrét variációs sorozatot készítünk. Ehhez először ajánlatos az attribútum összes értékét (a család tagjainak számát) felírni növekvő sorrendben (azaz a statisztikai adatok rangsorolásához):

Ezután meg kell számolni az azonos összetételű családok számát. A családtagok száma (a változó tulajdonság értéke) az opciók (ezeket x-szel jelöljük), az azonos összetételű családok száma a gyakoriságok (f-vel jelöljük). A csoportosítási eredményeket a következő diszkrét variációs eloszlási sorozatok formájában ábrázoljuk:

3.11. táblázat.
Családtagok száma (x) Családok száma (y)
1 8
2 14
3 20
4 9
5 5
6 4
Teljes 60

3.3.2. Intervallum variációs sorozatok felépítése

Mutassuk meg az intervallumvariációs eloszlási sorozat felépítésének módszerét a következő példán keresztül.

Példa 3.3. Statisztikai megfigyelés eredményeként a következő adatok a átlagos 50 kereskedelmi bank kamata (%):

3.12. táblázat.
14,7 19,0 24,5 20,8 12,3 24,6 17,0 14,2 19,7 18,8
18,1 20,5 21,0 20,7 20,4 14,7 25,1 22,7 19,0 19,6
19,0 18,9 17,4 20,0 13,8 25,6 13,0 19,0 18,7 21,1
13,3 20,7 15,2 19,9 21,9 16,0 16,9 15,3 21,4 20,4
12,8 20,8 14,3 18,0 15,1 23,8 18,5 14,4 14,4 21,0

Mint látható, rendkívül kényelmetlen egy ilyen adattömb megtekintése, ráadásul a mutatóban nincsenek változási minták. Készítsünk intervallum eloszlás sorozatot.

  1. Határozzuk meg az intervallumok számát.

    Az intervallumok számát a gyakorlatban gyakran maga a kutató határozza meg az egyes megfigyelések céljai alapján. Ez azonban matematikailag is kiszámítható a Sturgess-képlet segítségével

    n = 1 + 3,322 lgN,

    ahol n az intervallumok száma;

    N a sokaság térfogata (a megfigyelési egységek száma).

    Példánkban a következőt kapjuk: n \u003d 1 + 3,322lgN \u003d 1 + 3,322lg50 \u003d 6,6 "7.

  2. Határozzuk meg az (i) intervallumok értékét a képlettel

    ahol x max - az attribútum maximális értéke;

    x min - az attribútum minimális értéke.

    A mi példánkra

    A variációs sorozatok intervallumai szemléletesek, ha határaik "kerek" értékkel rendelkeznek, így az 1,9-es intervallum értékét 2-re, a jellemző minimális értékét pedig 12,3-ra kerekítjük 12,0-ra.

  3. Határozzuk meg az intervallumok határait.

    Az intervallumokat általában úgy írjuk, hogy az egyik intervallum felső határa egyben a következő intervallum alsó határa is legyen. Tehát a mi példánkban ezt kapjuk: 12,0-14,0; 14,0-16,0; 16,0-18,0; 18,0-20,0; 20,0-22,0; 22,0-24,0; 24,0-26,0.

    Az ilyen rekord azt jelenti, hogy a jellemző folyamatos. Ha a tulajdonságopciók szigorúan meghatározott értékeket vesznek fel, például csak egész számokat, de számuk túl nagy ahhoz, hogy diszkrét sorozatot hozzon létre, akkor létrehozhat egy olyan intervallumsorozatot, ahol az intervallum alsó határa nem esik egybe az intervallum felső határával. következő intervallum (ez azt jelenti, hogy a jellemző diszkrét ). Például egy vállalkozás alkalmazottainak életkor szerinti megoszlásánál a következő év intervallumcsoportokat hozhatja létre: 18-25, 26-33, 34-41, 42-49, 50-57, 58-65, 66 és több.

    A példánkban az első és az utolsó intervallumot is nyitottá tehetnénk stb. írás: 14,0-ig; 24.0 és újabb.

  4. A kiinduló adatok alapján rangsorolt ​​sorozatot szerkesztünk. Ehhez növekvő sorrendben írjuk fel a funkció által felvett értékeket. Az eredményeket a táblázat tartalmazza: 3.13. táblázat. Kereskedelmi bankok kamatlábainak rangsorolt ​​sorozata
    Banki kamatláb % (opció)
    12,3 17,0 19,9 23,8
    12,8 17,4 20,0 24,5
    13,0 18,0 20,0 24,6
    13,3 18,1 20,4 25,1
    13,8 18,5 20,4 25,6
    14,2 18,7 20,5
    14,3 18,8 20,7
    14,4 18,9 20,7
    14,7 19,0 20,8
    14,7 19,0 21,0
    15,1 19,0 21,0
    15,2 19,0 21,1
    15,3 19,0 21,4
    16,0 19,6 21,9
    16,9 19,7 22,7
  5. Számítsuk ki a frekvenciákat.

    A frekvenciák számlálása során olyan helyzet adódhat, amikor egy jellemző értéke egy intervallum határára esik. Ebben az esetben követheti a szabályt: az adott mértékegység ahhoz az intervallumhoz van rendelve, amelyre az értéke a felső határ. Tehát a példánkban szereplő 16.0 érték a második intervallumra vonatkozik.

A példánkban kapott csoportosítási eredményeket táblázatban mutatjuk be.

3.14. táblázat. A kereskedelmi bankok megoszlása ​​hitelkamat szerint
Rövid kamatláb, % Bankok száma, egységek (frekvenciák) Felhalmozott frekvenciák
12,0-14,0 5 5
14,0-16,0 9 14
16,0-18,0 4 18
18,0-20,0 15 33
20,0-22,0 11 44
22,0-24,0 2 46
24,0-26,0 4 50
Teljes 50 -

A táblázat utolsó oszlopa a felhalmozott gyakoriságokat mutatja, amelyeket a gyakoriságok egymás utáni összegzésével kapunk, az elsőtől kezdve (például az első intervallumnál - 5, a második intervallumnál 5 + 9 = 14, a harmadik intervallumnál 5 + 9 + 4 = 18 stb.). A halmozott gyakoriság, például 33, azt mutatja, hogy 33 bank hitelkamata nem haladja meg a 20%-ot (a megfelelő intervallum felső határa).

Az adatok csoportosítása során a variációs sorozatok felépítése során néha egyenlőtlen intervallumokat használnak. Ez azokra az esetekre vonatkozik, amikor a jellemző értékek engedelmeskednek az aritmetikai szabálynak, ill geometriai progresszió vagy amikor a Sturgess-formula alkalmazása "üres" intervallumcsoportokat eredményez, amelyek nem tartalmaznak megfigyelési egységet. Ekkor az intervallumok határait maga a kutató határozza meg önkényesen, az alapján józan észés a felmérés céljai vagy képletei. Tehát a megváltozott adatokhoz számtani progresszió, az intervallumok értékét a következőképpen számítjuk ki.

A nagy mennyiségű információ feldolgozásakor, ami különösen fontos a modern tudományos fejlesztések során, a kutató komoly feladat előtt áll a kiindulási adatok helyes csoportosítása. Ha az adatok diszkrétek, akkor, mint láttuk, nincs probléma - csak ki kell számítani az egyes funkciók gyakoriságát. Ha a vizsgált tulajdonság rendelkezik folyamatos karaktert (ami a gyakorlatban elterjedtebb), akkor egy jellemző csoportosításához az optimális intervallumszám kiválasztása korántsem triviális feladat.

A folytonos valószínűségi változók csoportosításához a jellemző teljes variációs tartományát meghatározott számú intervallumra osztjuk nak nek.

Csoportos intervallum (folyamatos) variációs sorozat nevezett intervallumok a jellemző értéke szerint rangsorolva (), ahol a megfelelő gyakoriságokkal () együtt jelzik az r "-edik intervallumba eső megfigyelések számát vagy a relatív gyakoriságokat ():

Jellemző értékintervallumok

mi frekvencia

oszlopdiagramés kumulálódik (ogiva),általunk már részletesen tárgyalt, kiváló adatvizualizációs eszköz, amely lehetővé teszi az adatstruktúra elsődleges megértését. Az ilyen grafikonok (1.15. ábra) a folytonos adatokra ugyanúgy épülnek fel, mint a diszkrét adatokra, csak azt a tényt figyelembe véve, hogy a folytonos adat tetszőleges értéket figyelembe véve teljesen kitölti a lehetséges értékeinek területét.

Rizs. 1.15.

Ezért a hisztogram és a kumulátum oszlopainak érintkezniük kell egymással, nem lehetnek olyan területek, ahol az attribútumértékek nem esnek az összes lehetséges közé(azaz a hisztogramon és a kumulátumon nem lehetnek "lyukak" az abszcissza tengely mentén, amelyekbe a vizsgált változó értékei nem esnek, mint az 1.16. ábrán. A sáv magassága megfelel a gyakoriságnak - az adott intervallumba eső megfigyelések számának, vagy a relatív gyakoriságnak - a megfigyelések arányának. Intervallumok nem szabad keresztezniés általában azonos szélességűek.

Rizs. 1.16.

A hisztogram és a sokszög a valószínűségi sűrűséggörbe (differenciálfüggvény) közelítései. f(x) a valószínűségszámítás során figyelembe vett elméleti eloszlás. Ezért felépítésük az fontosságát a kvantitatív folytonos adatok elsődleges statisztikai feldolgozásában - formájuk alapján ítélhető meg a hipotetikus eloszlási törvény.

Kumuláció - az intervallumvariációs sorozat felhalmozott frekvenciáinak (frekvenciáinak) görbéje. Az integráleloszlásfüggvény grafikonját összehasonlítjuk a kumulátummal F(x), amelyet a valószínűségszámítás során is figyelembe vettek.

Alapvetően a hisztogram és a kumulátum fogalma pontosan a folytonos adatokhoz és azok intervallumvariációs sorozataihoz kapcsolódik, mivel grafikonjaik a valószínűségi sűrűségfüggvény, illetve az eloszlásfüggvény empirikus becslései.

Az intervallumvariációs sorozat felépítése az intervallumok számának meghatározásával kezdődik k. Ez a feladat pedig talán a legnehezebb, legfontosabb és legvitatottabb a vizsgált kérdésben.

Az intervallumok száma ne legyen túl kicsi, mert a hisztogram túl sima lesz ( túlsimítva), elveszíti a kiindulási adatok változékonyságának minden jellemzőjét - az ábrán. 1.17 láthatja, hogy ugyanazok az adatok, amelyeken a grafikonok az 1.1. Az 1.15-öt kisebb számú intervallumú hisztogram készítésére használják (bal oldali grafikon).

Ugyanakkor az intervallumok száma ne legyen túl nagy - különben nem tudjuk megbecsülni a vizsgált adatok eloszlási sűrűségét a numerikus tengely mentén: a hisztogram alulsimítottnak bizonyul. (alulsimított) kitöltetlen intervallumokkal, egyenetlen (lásd 1.17. ábra, jobb oldali grafikon).

Rizs. 1.17.

Hogyan határozzuk meg az intervallumok legelőnyösebb számát?

1926-ban Herbert Sturges egy képletet javasolt azoknak az intervallumoknak a kiszámítására, amelyekre fel kell osztani a vizsgált attribútum kezdeti értékkészletét. Ez a képlet valóban rendkívül népszerűvé vált - a legtöbb statisztikai tankönyv kínálja, és sok statisztikai csomag alapértelmezés szerint használja. Hogy ez indokolt-e és minden esetben, az nagyon komoly kérdés.

Mire épül tehát a Sturges-képlet?

Tekintsük a binomiális eloszlást )