A diszkrét jellemzőkhöz diszkrét variációs sorozatot készítenek.
Egy diszkrét variációs sorozat felépítéséhez a következőket kell tennie: 1) a megfigyelési egységeket a vizsgált attribútumérték növekvő sorrendjében rendezni,
2) határozza meg az x i attribútum összes lehetséges értékét, rendezze őket növekvő sorrendbe,
előjel érték, én .
jellemző érték gyakorisága és jelöljük f én . A sorozat összes gyakoriságának összege megegyezik a vizsgált sokaság elemeinek számával.
1. példa .
A tanulók által vizsgákon szerzett osztályzatok listája: 3; négy; 3; 5; négy; 2; 2; négy; négy; 3; 5; 2; négy; 5; négy; 3; négy; 3; 3; négy; négy; 2; 2; 5; 5; négy; 5; 2; 3; négy; négy; 3; négy; 5; 2; 5; 5; négy; 3; 3; négy; 2; négy; négy; 5; négy; 3; 5; 3; 5; négy; négy; 5; négy; négy; 5; négy; 5; 5; 5.
Itt a szám x - fokozategy diszkrét valószínűségi változó, és a kapott becslések listája azstatisztikai (megfigyelt) adatok .
rendezd a megfigyelési egységeket a jellemző vizsgált értékének növekvő sorrendjében:
2; 2; 2; 2; 2; 2; 2; 2; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5.
2) határozza meg az x i attribútum összes lehetséges értékét, és rendezze őket növekvő sorrendbe:
NÁL NÉL ezt a példát minden becslés négy csoportra osztható a következő értékekkel: 2; 3; négy; 5.
Jelentése valószínűségi változó a megfigyelt adatok külön csoportjának megfelelő ún előjel érték, változat (opció) és jelölje ki az x-et én .
Azt a számot hívjuk meg, amely megmutatja, hogy a megfelelő jellemzőérték hányszor fordul elő egy megfigyeléssorozatban jellemző érték gyakorisága és jelöljük f én .
A mi példánkra
a 2. pont - 8 alkalommal fordul elő,
a 3. pont - 12 alkalommal fordul elő,
a 4-es pontszám 23 alkalommal fordul elő,
pont 5 fordul elő - 17 alkalommal.
Összesen 60 értékelés van.
4) írja be a kapott adatokat egy kétsoros (oszlopos) táblázatba - x i és f i .
Ezen adatok alapján lehet diszkrét variációs sorozatot szerkeszteni
Diszkrét variációs sorozat - ez egy táblázat, amelyben a vizsgált tulajdonság előfordulási értékei különálló értékekként vannak feltüntetve növekvő sorrendben és azok gyakorisága
A diszkrét variációs sorozatok mellett gyakran létezik olyan adatcsoportosítási mód is, mint az intervallumvariációs sorozat.
Intervallum-sorozat akkor épül fel, ha:
a jel folyamatos változási természetű;
sok diszkrét érték van (több mint 10)
a diszkrét értékek gyakorisága nagyon kicsi (viszonylag nagy számú megfigyelési egység esetén ne haladja meg az 1-3-at);
egy jellemző számos diszkrét értéke azonos frekvenciájú.
Az intervallumvariációs sorozat az adatok csoportosításának módja egy táblázat formájában, amely két oszlopot tartalmaz (a jellemzőértékek értékintervallum formájában és az egyes intervallumok gyakorisága).
A diszkrét sorozatoktól eltérően az intervallumsorozat jellemzőinek értékeit nem egyedi értékek, hanem értékintervallum képviselik ("-tól"-ig).
Az a szám, amely megmutatja, hogy az egyes kiválasztott intervallumokba hány megfigyelési egység esett, hívják jellemző érték gyakorisága és jelöljük f én . A sorozat összes gyakoriságának összege megegyezik a vizsgált sokaság elemeinek (megfigyelési egységeinek) számával.
Ha egy egységnek egy jellemző értéke megegyezik az intervallum felső határának értékével, akkor azt a következő intervallumra kell hivatkozni.
Például egy 100 cm magas gyermek a 2. intervallumba esik, és nem az elsőbe; és egy 130 cm magas gyermek az utolsó intervallumba esik, és nem a harmadikba.
Ezen adatok alapján lehetséges egy intervallumvariációs sorozat felépítése.
Minden intervallumnak van alsó határa (x n), felső határa (x in) és intervallumszélessége ( én).
Az intervallumhatár olyan jellemzőérték, amely két intervallum határán fekszik.
gyerek magasság (cm) |
gyerek magasság (cm) |
gyerekek mennyisége |
||
130 felett | ||||
Ha egy intervallumnak van felső és alsó korlátja, akkor ún zárt intervallum. Ha az intervallumnak csak alsó vagy csak felső határa van, akkor ez - nyitott intervallum. Csak a legelső vagy a legutolsó intervallum lehet nyitva. A fenti példában az utolsó intervallum nyitott.
Intervallum szélesség (én) a különbség a felső és az alsó határ között.
én = x n - x in
Feltételezzük, hogy egy nyitott intervallum szélessége megegyezik egy szomszédos zárt intervallum szélességével.
gyerek magasság (cm) |
gyerekek mennyisége |
Intervallum szélesség (i) |
|
számításokhoz 130+20=150 |
20 (mivel a szomszédos zárt intervallum szélessége 20) |
||
Minden intervallum sorozat egyenlő intervallumú intervallumsorozatra és egyenlőtlen intervallumú intervallum sorozatra van felosztva. . Az egyenlő intervallumú intervallumsorokban az összes intervallum szélessége azonos. Az egyenlőtlen intervallumú intervallumsorokban az intervallumok szélessége eltérő.
Ebben a példában egy intervallumsorozat nem egyenlő intervallumokkal.
A nagy mennyiségű információ feldolgozásakor, ami különösen fontos a modern tudományos fejlesztések során, a kutató komoly feladat előtt áll a kiindulási adatok helyes csoportosítása. Ha az adatok diszkrétek, akkor, mint láttuk, nincs probléma - csak ki kell számítani az egyes funkciók gyakoriságát. Ha a vizsgált tulajdonság rendelkezik folyamatos karaktert (ami a gyakorlatban elterjedtebb), akkor egy jellemző csoportosításához az optimális intervallumszám kiválasztása korántsem triviális feladat.
A folytonos valószínűségi változók csoportosításához a jellemző teljes variációs tartományát meghatározott számú intervallumra osztjuk nak nek.
Csoportos intervallum (folyamatos) variációs sorozat nevezett intervallumok a jellemző értéke szerint rangsorolva (), ahol a megfelelő gyakoriságokkal () együtt jelzik az r "-edik intervallumba eső megfigyelések számát vagy a relatív gyakoriságokat ():
Jellemző értékintervallumok |
||||||
mi frekvencia |
oszlopdiagramés kumulálódik (ogiva),általunk már részletesen tárgyalt, kiváló adatvizualizációs eszköz, amely lehetővé teszi az adatstruktúra elsődleges megértését. Az ilyen grafikonok (1.15. ábra) a folytonos adatokra ugyanúgy épülnek fel, mint a diszkrét adatokra, csak azt a tényt figyelembe véve, hogy a folytonos adat tetszőleges értéket véve teljesen kitölti a lehetséges értékeinek területét.
Rizs. 1.15.
Ezért a hisztogram és a kumulátum oszlopainak érintkezniük kell egymással, nem lehetnek olyan területek, ahol az attribútumértékek nem esnek az összes lehetséges közé(azaz a hisztogramon és a kumulátumon nem lehetnek "lyukak" az abszcissza tengely mentén, amelyekbe a vizsgált változó értékei nem esnek, mint az 1.16. ábrán. A sáv magassága megfelel a gyakoriságnak - az adott intervallumba eső megfigyelések számának, vagy a relatív gyakoriságnak - a megfigyelések arányának. Intervallumok nem szabad keresztezniés általában azonos szélességűek.
Rizs. 1.16.
A hisztogram és a sokszög a valószínűségi sűrűséggörbe (differenciálfüggvény) közelítései. f(x) a valószínűségszámítás során figyelembe vett elméleti eloszlás. Ezért felépítésük az fontosságát a kvantitatív folytonos adatok elsődleges statisztikai feldolgozásában - formájuk alapján ítélhető meg a hipotetikus eloszlási törvény.
Kumuláció - az intervallumvariációs sorozat felhalmozott frekvenciáinak (frekvenciáinak) görbéje. Az integráleloszlásfüggvény grafikonját összehasonlítjuk a kumulátummal F(x), amelyet a valószínűségszámítás során is figyelembe vettek.
Alapvetően a hisztogram és a kumulátum fogalma pontosan a folytonos adatokhoz és azok intervallumvariációs sorozataihoz kapcsolódik, mivel grafikonjaik a valószínűségi sűrűségfüggvény, illetve az eloszlásfüggvény empirikus becslései.
Az intervallumvariációs sorozat felépítése az intervallumok számának meghatározásával kezdődik k. Ez a feladat pedig talán a legnehezebb, legfontosabb és legvitatottabb a vizsgált kérdésben.
Az intervallumok száma ne legyen túl kicsi, mert a hisztogram túl sima lesz ( túlsimítva), elveszíti a kiindulási adatok változékonyságának minden jellemzőjét - az ábrán. 1.17 láthatja, hogy ugyanazok az adatok, amelyeken a grafikonok az 1.1. Az 1.15-öt kisebb számú intervallumú hisztogram készítésére használják (bal oldali grafikon).
Ugyanakkor az intervallumok száma ne legyen túl nagy - különben nem tudjuk megbecsülni a vizsgált adatok eloszlási sűrűségét a numerikus tengely mentén: a hisztogram alulsimítottnak bizonyul. (alulsimított) kitöltetlen intervallumokkal, egyenetlen (lásd 1.17. ábra, jobb oldali grafikon).
Rizs. 1.17.
Hogyan határozzuk meg az intervallumok legelőnyösebb számát?
1926-ban Herbert Sturges egy képletet javasolt azoknak az intervallumoknak a kiszámítására, amelyekre fel kell osztani a vizsgált attribútum kezdeti értékkészletét. Ez a képlet valóban rendkívül népszerűvé vált - a legtöbb statisztikai tankönyv kínálja, és sok statisztikai csomag alapértelmezés szerint használja. Hogy ez indokolt-e és minden esetben, az nagyon komoly kérdés.
Mire épül tehát a Sturges-képlet?
Tekintsük a binomiális eloszlást )