Az intervallum eloszlás sorozat felépítésének sorrendje.  Statisztikai összesítés és csoportosítás.  Statisztikai eloszlási sorozat.  Példák problémamegoldásra

Az intervallum eloszlás sorozat felépítésének sorrendje. Statisztikai összesítés és csoportosítás. Statisztikai eloszlási sorozat. Példák problémamegoldásra

A diszkrét jellemzőkhöz diszkrét variációs sorozatot készítenek.

Egy diszkrét variációs sorozat felépítéséhez a következőket kell tennie: 1) a megfigyelési egységeket a vizsgált attribútumérték növekvő sorrendjében rendezni,

2) határozza meg az x i attribútum összes lehetséges értékét, rendezze őket növekvő sorrendbe,

előjel érték, én .

jellemző érték gyakorisága és jelöljük f én . A sorozat összes gyakoriságának összege megegyezik a vizsgált sokaság elemeinek számával.

1. példa .

A tanulók által vizsgákon szerzett osztályzatok listája: 3; négy; 3; 5; négy; 2; 2; négy; négy; 3; 5; 2; négy; 5; négy; 3; négy; 3; 3; négy; négy; 2; 2; 5; 5; négy; 5; 2; 3; négy; négy; 3; négy; 5; 2; 5; 5; négy; 3; 3; négy; 2; négy; négy; 5; négy; 3; 5; 3; 5; négy; négy; 5; négy; négy; 5; négy; 5; 5; 5.

Itt a szám x - fokozategy diszkrét valószínűségi változó, és a kapott becslések listája azstatisztikai (megfigyelt) adatok .

    rendezd a megfigyelési egységeket a jellemző vizsgált értékének növekvő sorrendjében:

2; 2; 2; 2; 2; 2; 2; 2; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5.

2) határozza meg az x i attribútum összes lehetséges értékét, és rendezze őket növekvő sorrendbe:

NÁL NÉL ezt a példát minden becslés négy csoportra osztható a következő értékekkel: 2; 3; négy; 5.

Jelentése valószínűségi változó a megfigyelt adatok külön csoportjának megfelelő ún előjel érték, változat (opció) és jelölje ki az x-et én .

Azt a számot hívjuk meg, amely megmutatja, hogy a megfelelő jellemzőérték hányszor fordul elő egy megfigyeléssorozatban jellemző érték gyakorisága és jelöljük f én .

A mi példánkra

a 2. pont - 8 alkalommal fordul elő,

a 3. pont - 12 alkalommal fordul elő,

a 4-es pontszám 23 alkalommal fordul elő,

pont 5 fordul elő - 17 alkalommal.

Összesen 60 értékelés van.

4) írja be a kapott adatokat egy kétsoros (oszlopos) táblázatba - x i és f i .

Ezen adatok alapján lehet diszkrét variációs sorozatot szerkeszteni

Diszkrét variációs sorozat - ez egy táblázat, amelyben a vizsgált tulajdonság előfordulási értékei különálló értékekként vannak feltüntetve növekvő sorrendben és azok gyakorisága

  1. Intervallum variációs sorozat felépítése

A diszkrét variációs sorozatok mellett gyakran létezik olyan adatcsoportosítási mód is, mint az intervallumvariációs sorozat.

Intervallum-sorozat akkor épül fel, ha:

    a jel folyamatos változási természetű;

    sok diszkrét érték van (több mint 10)

    a diszkrét értékek gyakorisága nagyon kicsi (viszonylag nagy számú megfigyelési egység esetén ne haladja meg az 1-3-at);

    egy jellemző számos diszkrét értéke azonos frekvenciájú.

Az intervallumvariációs sorozat az adatok csoportosításának módja egy táblázat formájában, amely két oszlopot tartalmaz (a jellemzőértékek értékintervallum formájában és az egyes intervallumok gyakorisága).

A diszkrét sorozatoktól eltérően az intervallumsorozat jellemzőinek értékeit nem egyedi értékek, hanem értékintervallum képviselik ("-tól"-ig).

Az a szám, amely megmutatja, hogy az egyes kiválasztott intervallumokba hány megfigyelési egység esett, hívják jellemző érték gyakorisága és jelöljük f én . A sorozat összes gyakoriságának összege megegyezik a vizsgált sokaság elemeinek (megfigyelési egységeinek) számával.

Ha egy egységnek egy jellemző értéke megegyezik az intervallum felső határának értékével, akkor azt a következő intervallumra kell hivatkozni.

Például egy 100 cm magas gyermek a 2. intervallumba esik, és nem az elsőbe; és egy 130 cm magas gyermek az utolsó intervallumba esik, és nem a harmadikba.

Ezen adatok alapján lehetséges egy intervallumvariációs sorozat felépítése.

Minden intervallumnak van alsó határa (x n), felső határa (x in) és intervallumszélessége ( én).

Az intervallumhatár olyan jellemzőérték, amely két intervallum határán fekszik.

gyerek magasság (cm)

gyerek magasság (cm)

gyerekek mennyisége

130 felett

Ha egy intervallumnak van felső és alsó korlátja, akkor ún zárt intervallum. Ha az intervallumnak csak alsó vagy csak felső határa van, akkor ez - nyitott intervallum. Csak a legelső vagy a legutolsó intervallum lehet nyitva. A fenti példában az utolsó intervallum nyitott.

Intervallum szélesség (én) a különbség a felső és az alsó határ között.

én = x n - x in

Feltételezzük, hogy egy nyitott intervallum szélessége megegyezik egy szomszédos zárt intervallum szélességével.

gyerek magasság (cm)

gyerekek mennyisége

Intervallum szélesség (i)

számításokhoz 130+20=150

20 (mivel a szomszédos zárt intervallum szélessége 20)

Minden intervallum sorozat egyenlő intervallumú intervallumsorozatra és egyenlőtlen intervallumú intervallum sorozatra van felosztva. . Az egyenlő intervallumú intervallumsorokban az összes intervallum szélessége azonos. Az egyenlőtlen intervallumú intervallumsorokban az intervallumok szélessége eltérő.

Ebben a példában egy intervallumsorozat nem egyenlő intervallumokkal.

A nagy mennyiségű információ feldolgozásakor, ami különösen fontos a modern tudományos fejlesztések során, a kutató komoly feladat előtt áll a kiindulási adatok helyes csoportosítása. Ha az adatok diszkrétek, akkor, mint láttuk, nincs probléma - csak ki kell számítani az egyes funkciók gyakoriságát. Ha a vizsgált tulajdonság rendelkezik folyamatos karaktert (ami a gyakorlatban elterjedtebb), akkor egy jellemző csoportosításához az optimális intervallumszám kiválasztása korántsem triviális feladat.

A folytonos valószínűségi változók csoportosításához a jellemző teljes variációs tartományát meghatározott számú intervallumra osztjuk nak nek.

Csoportos intervallum (folyamatos) variációs sorozat nevezett intervallumok a jellemző értéke szerint rangsorolva (), ahol a megfelelő gyakoriságokkal () együtt jelzik az r "-edik intervallumba eső megfigyelések számát vagy a relatív gyakoriságokat ():

Jellemző értékintervallumok

mi frekvencia

oszlopdiagramés kumulálódik (ogiva),általunk már részletesen tárgyalt, kiváló adatvizualizációs eszköz, amely lehetővé teszi az adatstruktúra elsődleges megértését. Az ilyen grafikonok (1.15. ábra) a folytonos adatokra ugyanúgy épülnek fel, mint a diszkrét adatokra, csak azt a tényt figyelembe véve, hogy a folytonos adat tetszőleges értéket véve teljesen kitölti a lehetséges értékeinek területét.

Rizs. 1.15.

Ezért a hisztogram és a kumulátum oszlopainak érintkezniük kell egymással, nem lehetnek olyan területek, ahol az attribútumértékek nem esnek az összes lehetséges közé(azaz a hisztogramon és a kumulátumon nem lehetnek "lyukak" az abszcissza tengely mentén, amelyekbe a vizsgált változó értékei nem esnek, mint az 1.16. ábrán. A sáv magassága megfelel a gyakoriságnak - az adott intervallumba eső megfigyelések számának, vagy a relatív gyakoriságnak - a megfigyelések arányának. Intervallumok nem szabad keresztezniés általában azonos szélességűek.

Rizs. 1.16.

A hisztogram és a sokszög a valószínűségi sűrűséggörbe (differenciálfüggvény) közelítései. f(x) a valószínűségszámítás során figyelembe vett elméleti eloszlás. Ezért felépítésük az fontosságát a kvantitatív folytonos adatok elsődleges statisztikai feldolgozásában - formájuk alapján ítélhető meg a hipotetikus eloszlási törvény.

Kumuláció - az intervallumvariációs sorozat felhalmozott frekvenciáinak (frekvenciáinak) görbéje. Az integráleloszlásfüggvény grafikonját összehasonlítjuk a kumulátummal F(x), amelyet a valószínűségszámítás során is figyelembe vettek.

Alapvetően a hisztogram és a kumulátum fogalma pontosan a folytonos adatokhoz és azok intervallumvariációs sorozataihoz kapcsolódik, mivel grafikonjaik a valószínűségi sűrűségfüggvény, illetve az eloszlásfüggvény empirikus becslései.

Az intervallumvariációs sorozat felépítése az intervallumok számának meghatározásával kezdődik k. Ez a feladat pedig talán a legnehezebb, legfontosabb és legvitatottabb a vizsgált kérdésben.

Az intervallumok száma ne legyen túl kicsi, mert a hisztogram túl sima lesz ( túlsimítva), elveszíti a kiindulási adatok változékonyságának minden jellemzőjét - az ábrán. 1.17 láthatja, hogy ugyanazok az adatok, amelyeken a grafikonok az 1.1. Az 1.15-öt kisebb számú intervallumú hisztogram készítésére használják (bal oldali grafikon).

Ugyanakkor az intervallumok száma ne legyen túl nagy - különben nem tudjuk megbecsülni a vizsgált adatok eloszlási sűrűségét a numerikus tengely mentén: a hisztogram alulsimítottnak bizonyul. (alulsimított) kitöltetlen intervallumokkal, egyenetlen (lásd 1.17. ábra, jobb oldali grafikon).

Rizs. 1.17.

Hogyan határozzuk meg az intervallumok legelőnyösebb számát?

1926-ban Herbert Sturges egy képletet javasolt azoknak az intervallumoknak a kiszámítására, amelyekre fel kell osztani a vizsgált attribútum kezdeti értékkészletét. Ez a képlet valóban rendkívül népszerűvé vált - a legtöbb statisztikai tankönyv kínálja, és sok statisztikai csomag alapértelmezés szerint használja. Hogy ez indokolt-e és minden esetben, az nagyon komoly kérdés.

Mire épül tehát a Sturges-képlet?

Tekintsük a binomiális eloszlást )