Comporre un intervallo e una serie variazionale discreta.  Costruire una serie di distribuzione

Comporre un intervallo e una serie variazionale discreta. Costruire una serie di distribuzione

Lavoro di laboratorio №1. Elaborazione primaria dati statistici

Costruzione di serie di distribuzione

Viene chiamata la distribuzione ordinata delle unità di popolazione in gruppi in base a qualsiasi attributo vicino alla distribuzione . In questo caso il segno può essere sia quantitativo, quindi viene chiamata la serie variazionale , e qualitativo, allora viene chiamata la serie attributivo . Ad esempio, la popolazione di una città può essere distribuita in base a gruppi di età in serie di variazione, o per affiliazione professionale in una serie di attributi (ovviamente, possono essere offerti molti più segni qualitativi e quantitativi per costruire serie di distribuzione, la scelta di un segno è determinata dal compito della ricerca statistica).

Ogni serie di distribuzione è caratterizzata da due elementi:

- opzione(x io) sono i singoli valori della caratteristica delle unità quadro di campionamento. Per una serie variazionale, la variante assume valori numerici, per una serie attributiva - qualitativi (ad esempio, x = "impiegato pubblico");

- frequenza(n io) è un numero che mostra quante volte ricorre questo o quel valore di caratteristica. Se la frequenza è espressa come numero relativo (cioè la proporzione di elementi della popolazione corrispondenti a dato valore opzioni, nel volume totale della popolazione), quindi viene chiamato frequenza relativa o frequenza.

Le serie di variazioni possono essere:

- discreto quando il tratto in studio è caratterizzato da un certo numero (di solito un numero intero).

- intervallo quando i confini "da" e "a" sono definiti per una caratteristica continuamente variabile. Viene inoltre creata una serie di intervalli se l'insieme di valori di una funzione discretamente variabile è ampio.

Una serie intervallare può essere costruita sia con intervalli di uguale lunghezza (serie ad intervalli uguali) sia con intervalli disuguali, se ciò è dettato dalle condizioni dello studio statistico. Ad esempio, si può considerare una serie di distribuzione del reddito della popolazione con i seguenti intervalli:<5тыс р., 5-10 тыс р., 10-20 тыс.р., 20-50 тыс р., и т.д. Если цель исследования не определяет способ построения интервального ряда, то строится равноинтервальный ряд, число интервалов в котором определяется по формуле Стерджесса:



dove k è il numero di intervalli, n è la dimensione del campione. (Naturalmente, la formula di solito fornisce un numero frazionario e come numero di intervalli viene scelto il numero intero più vicino al numero risultante.) La lunghezza dell'intervallo in questo caso è determinata dalla formula

.

Graficamente, le serie variazionali possono essere rappresentate come istogrammi(una "colonna" di altezza corrispondente alla frequenza in questo intervallo è costruita sopra ogni intervallo della serie di intervalli), zona di distribuzione(linea tratteggiata punti di collegamento ( x io;io) o cumula(costruito secondo le frequenze accumulate, cioè per ogni valore dell'attributo, viene presa la frequenza di occorrenza nell'insieme degli oggetti con un valore dell'attributo inferiore a quello dato).

Quando si lavora in Excel, è possibile utilizzare le seguenti funzioni per creare serie variazionali:

DAI UN'OCCHIATA( matrice di dati) – per determinare la dimensione del campione. L'argomento è l'intervallo di celle che contiene i dati di esempio.

CONTA.SE( gamma; criterio) - può essere utilizzato per creare un attributo o una serie di variazioni. Gli argomenti sono l'intervallo dell'array dei valori campione dell'attributo e il criterio: il valore numerico o di testo dell'attributo o il numero della cella in cui si trova. Il risultato è la frequenza di occorrenza di quel valore nel campione.

FREQUENZA( matrice di dati; matrice di intervallo) – per costruire una serie variazionale. Gli argomenti sono l'intervallo dell'array di dati di esempio e la colonna degli intervalli. Se è necessario costruire una serie discreta, qui vengono indicati i valori delle opzioni, se si tratta di intervallo, quindi i limiti superiori degli intervalli (sono anche chiamati "tasche"). Poiché il risultato è una colonna di frequenze, l'introduzione della funzione deve essere completata premendo la combinazione di tasti CTRL+MAIUSC+INVIO. Si noti che quando si imposta una matrice di intervalli durante l'introduzione di una funzione, l'ultimo valore in essa contenuto può essere omesso: tutti i valori che non sono caduti nelle precedenti "tasche" verranno inseriti nella corrispondente "tasca". Questo a volte aiuta a evitare l'errore che il valore del campione più grande non venga automaticamente inserito nell'ultima "tasca".

Inoltre, per raggruppamenti complessi (secondo diversi criteri), viene utilizzato lo strumento "tabelle pivot". Possono anche essere usati per costruire attributi e serie di variazioni, ma questo complica inutilmente il compito. Inoltre, per costruire una serie di variazioni e un istogramma, esiste una procedura "istogramma" dal componente aggiuntivo "Analysis Package" (per utilizzare i componenti aggiuntivi in ​​Excel, è necessario prima scaricarli, non sono installati per impostazione predefinita)

Illustriamo il processo di elaborazione dei dati primari con i seguenti esempi.

Esempio 1.1. sono disponibili dati sulla composizione quantitativa di 60 famiglie.

Costruisci una serie di variazioni e un poligono di distribuzione

Soluzione.

Apriamo i fogli di calcolo Excel. Inseriamo un array di dati nell'intervallo A1:L5. Se stai studiando un documento in formato elettronico (in formato Word, ad esempio), non devi fare altro che selezionare una tabella con i dati e copiarla negli appunti, quindi selezionare la cella A1 e incollare i dati: occuperanno automaticamente il gamma appropriata. Calcoliamo la dimensione del campione n - il numero di dati del campione, per questo, nella cella B7, inserisci la formula = COUNT (A1: L5). Si noti che per inserire l'intervallo desiderato nella formula, non è necessario inserirne la designazione dalla tastiera, è sufficiente selezionarlo. Determiniamo i valori minimo e massimo nel campione inserendo la formula =MIN(A1:L5) nella cella B8 e nella cella B9: =MAX(A1:L5).

Fig.1.1 Esempio 1. Elaborazione primaria di dati statistici in tabelle Excel

Successivamente, prepariamo una tabella per la creazione di una serie di variazioni immettendo i nomi per la colonna dell'intervallo (valori della variante) e la colonna della frequenza. Nella colonna degli intervalli, inserire i valori dell'attributo dal minimo (1) al massimo (6), occupando l'intervallo B12:B17. Seleziona la colonna della frequenza, inserisci la formula =FREQUENZA(A1:L5;B12:B17) e premi la combinazione di tasti CTRL+MAIUSC+INVIO

Fig.1.2 Esempio 1. Costruzione di una serie di variazioni

Per il controllo, calcoliamo la somma delle frequenze utilizzando la funzione SOMMA (l'icona della funzione S nel gruppo Modifica nella scheda Home), la somma calcolata deve corrispondere alla dimensione del campione precedentemente calcolata nella cella B7.

Ora costruiamo un poligono: dopo aver selezionato l'intervallo di frequenza risultante, seleziona il comando "Grafico" nella scheda "Inserisci". Per impostazione predefinita, i valori sull'asse orizzontale saranno numeri ordinali, nel nostro caso da 1 a 6, che coincide con i valori delle opzioni (numeri delle categorie tariffarie).

Il nome della serie del grafico "serie 1" può essere modificato utilizzando la stessa opzione "seleziona dati" nella scheda "Designer" o semplicemente cancellato.

Fig.1.3. Esempio 1. Costruzione di un poligono di frequenza

Esempio 1.2. Sono disponibili dati sulle emissioni inquinanti da 50 fonti:

10,4 18,6 10,3 26,0 45,0 18,2 17,3 19,2 25,8 18,7
28,2 25,2 18,4 17,5 41,8 14,6 10,0 37,8 10,5 16,0
18,1 16,8 38,5 37,7 17,9 29,0 10,1 28,0 12,0 14,0
14,2 20,8 13,5 42,4 15,5 17,9 19, 10,8 12,1 12,4
12,9 12,6 16,8 19,7 18,3 36,8 15,0 37,0 13,0 19,5

Compila una serie di intervalli uguali, costruisci un istogramma

Soluzione

Aggiungiamo un array di dati a un foglio Excel, occuperà l'intervallo A1:J5 Come nell'attività precedente, determineremo la dimensione del campione n, i valori minimo e massimo nel campione. Poiché ora non abbiamo bisogno di una serie discreta, ma di intervalli e il numero di intervalli nel problema non è specificato, calcoliamo il numero di intervalli k utilizzando la formula di Sturgess. Per fare ciò, nella cella B10, inserisci la formula =1+3.322*LOG10(B7).

Fig.1.4. Esempio 2. Costruzione di una serie ad intervalli uguali

Il valore risultante non è un numero intero, è circa 6,64. Poiché per k=7 la lunghezza degli intervalli sarà espressa come numero intero (contrariamente al caso di k=6), sceglieremo k=7 inserendo questo valore nella cella C10. Calcoliamo la lunghezza dell'intervallo d nella cella B11 inserendo la formula = (B9-B8) / C10.

Definiamo un array di intervalli, specificando il limite superiore per ciascuno dei 7 intervalli. Per fare ciò, nella cella E8, calcola il limite superiore del primo intervallo inserendo la formula =B8+B11; nella cella E9 il limite superiore del secondo intervallo inserendo la formula =E8+B11. Per calcolare i restanti valori dei limiti superiori degli intervalli, fissiamo il numero della cella B11 nella formula inserita utilizzando il segno $, in modo che la formula nella cella E9 diventi =E8+B$11, e copiamo il contenuto di cella E9 alle celle E10-E14. L'ultimo valore ottenuto è uguale al valore massimo nel campione calcolato in precedenza nella cella B9.

Fig.1.5. Esempio 2. Costruzione di una serie ad intervalli uguali


Ora riempiamo l'array di "tasche" utilizzando la funzione FREQUENZA, come è stato fatto nell'esempio 1.

Figura 1.6. Esempio 2. Costruzione di una serie ad intervalli uguali

Sulla base delle serie variazionali risultanti, costruiremo un istogramma: seleziona la colonna della frequenza e seleziona "Istogramma" nella scheda "Inserisci". Dopo aver ricevuto l'istogramma, cambieremo le etichette dell'asse orizzontale in esso in valori nell'intervallo di intervalli, per questo selezioniamo l'opzione "Seleziona dati" della scheda "Designer". Nella finestra che compare, seleziona il comando "Cambia" per la sezione "Etichette asse orizzontale" e inserisci le varianti dell'intervallo di valori selezionandolo con il "mouse".

Fig.1.7. Esempio 2. Costruzione di un istogramma

Fig.1.8. Esempio 2. Costruzione di un istogramma

Il tema della statistica matematica. Popolazione generale e campione.

— Statistiche matematiche- una branca della matematica che studia i metodi di selezione, raggruppamento, sistematizzazione e analisi dei dati statistici al fine di ottenere conclusioni scientificamente fondate.

— Dati statistici- valori numerici della caratteristica considerata degli oggetti studiati, ottenuti come risultato di un esperimento casuale.

La statistica matematica è strettamente correlata alla teoria della probabilità, ma a differenza della teoria della probabilità, il modello matematico dell'esperimento è sconosciuto. Nelle statistiche matematiche, in base ai dati statistici, è necessario stabilire una distribuzione di probabilità sconosciuta o valutare oggettivamente i parametri di distribuzione.

I metodi della statistica matematica consentono di costruire modelli matematici ottimali di massa, fenomeni ricorrenti. L'anello di congiunzione tra la teoria della probabilità e la statistica matematica sono i teoremi limite della teoria della probabilità.

Attualmente, i metodi statistici sono utilizzati in quasi tutti i settori dell'economia nazionale.

— Popolazione– dati statistici di tutti gli oggetti studiati (a volte - gli oggetti stessi). Spesso la popolazione generale è considerata come RV X.

— Campione(popolazione campione) - dati statistici di oggetti selezionati casualmente dalla popolazione generale.

— Misura di prova n(volume della popolazione generale N) - il numero di oggetti selezionati per lo studio dalla popolazione generale (numero di oggetti nella popolazione generale).

Esempi.

un) Dati statistici può essere: la crescita degli studenti; il numero di verbi (o altre parti del discorso) in un brano di testo di una certa lunghezza; punteggio medio del certificato; livello di intelligenza; il numero di errori commessi dal dispatcher, ecc.

b) Popolazione generale forse: l'altezza di tutte le persone, i ranghi di tutti gli operai, la frequenza dell'uso di una certa parte del discorso in tutte le opere dell'autore in studio, il punteggio medio del certificato di tutti i laureati, ecc.



in) campione forse: - l'altezza di 20 studenti, il numero di verbi in 50 passaggi omogenei di testo selezionati a caso con una lunghezza di 500 usi di parole, il punteggio medio dell'attestato di 100 laureati scelti a caso tra le scuole della città, ecc.

Il campione è chiamato rappresentante, se riflette correttamente la proprietà della popolazione generale. La rappresentatività del campione si ottiene mediante selezione casuale, quando tutti gli oggetti della popolazione generale hanno la stessa probabilità di essere selezionati.

Affinché il campione sia rappresentativo, vengono utilizzati vari metodi di selezione degli oggetti di studio.

Tipi di selezione: semplice, meccanico, seriale, tipico.

Semplice. Gli elementi vengono selezionati casualmente dall'intera popolazione.

Selezione meccanica. Scegli ogni 10 (25, 30, ecc.) oggetto dalla popolazione generale.

Seriale. In ogni serie viene svolto uno studio (ad esempio, dal testo vengono selezionati 10 passaggi di 500 usi di parole - 10 serie).

Tipico. La popolazione generale è divisa in gruppi tipici secondo un certo attributo. Il numero di serie estratte da ciascuno di questi gruppi è determinato dalla proporzione di questo gruppo nella popolazione generale.

Distribuzione statistica del campione e sua rappresentazione grafica.

Si studi la SV X (popolazione generale) rispetto ad alcune caratteristiche. Sono in corso numerosi test indipendenti. Come risultato di esperimenti, SV X assume alcuni valori. L'insieme dei valori ottenuti è un campione e i valori stessi sono dati statistici.

Inizialmente, il campione viene classificato: la disposizione dei dati statistici del campione in ordine non decrescente. Otteniamo una serie di variazioni.

Serie di variazione- campione classificato.

Serie statistiche discrete

Se la popolazione è un CV discreto, viene costruita una serie statistica discreta (distribuzione statistica).

Lascia che il valore appaia nei tempi campione,

Tempo, …, - tempo.

Io-thaya opzione campioni; - frequenza Opzione i-esima Frequenza mostra quante volte questa opzione è apparsa nel campione.

- frequenza relativa i-esima opzione

(mostra quale parte del campione è ).

Una distribuzione statistica è una corrispondenza tra le opzioni campionarie e le loro frequenze o frequenze relative.

Per DSV, la distribuzione statistica può essere presentata sotto forma di tabella: una serie statistica di frequenze o una serie statistica di frequenze relative.

Serie statistiche di frequenze Serie statistiche

frequenze relative

........
........
........
........

Per chiarezza di rappresentazione della distribuzione statistica del campione, vengono costruiti dei “grafici” della distribuzione statistica: un poligono e un istogramma.

Poligono di frequenza(frequenze relative) - una rappresentazione grafica di una serie statistica discreta - una linea tratteggiata che collega i punti in serie [ per il poligono delle frequenze relative].

Esempio. Il ricercatore è interessato alla conoscenza dei candidati in matematica. Vengono selezionati 10 candidati e vengono registrati i loro voti scolastici in questa materia. È stato ricevuto il seguente campione: 5;4;4;3;2;5;4;3;4;5.

a) Presentare il campione come serie di variazione;

b) costruire una serie statistica di frequenze e relative frequenze;

c) disegnare un poligono di frequenze relative per la serie risultante.

a) Classifichiamo il campione, ad es. Disporre i membri del campione in ordine non decrescente. Otteniamo una serie variazionale: 2; 3; 3; quattro; quattro; quattro; quattro; 5; 5;5.

b) Costruiamo una serie statistica di frequenze (corrispondenza tra opzioni campionarie e le loro frequenze) e una serie statistica di frequenze relative (corrispondenza tra opzioni campionarie e le loro frequenze relative)

0,1 0,2 0,4 0,3

Serie statistiche di frequenze serie statistiche rel. frequenze

1+2+4+3=10=n 0,1+0,2+0,4+0,3=1.

Poligono delle frequenze relative.


Qual è il raggruppamento di dati statistici e come è correlato alle serie di distribuzione, è stato considerato in questa lezione, dove puoi anche imparare cos'è una serie di distribuzione discreta e variazionale.

La serie di distribuzione è una delle varietà serie statistica(oltre a loro, le statistiche utilizzano serie di dinamiche), vengono utilizzate per analizzare i dati sui fenomeni della vita sociale. La costruzione di serie variazionali è un compito abbastanza fattibile per tutti. Tuttavia, ci sono regole da ricordare.

Come costruire una serie di distribuzione variazionale discreta

Esempio 1 Sono disponibili dati sul numero di bambini in 20 famiglie intervistate. Costruire una serie variazionale discreta distribuzione delle famiglie per numero di bambini.

0 1 2 3 1
2 1 2 1 0
4 3 2 1 1
1 0 1 0 2

Soluzione:

  1. Partiamo dal layout della tabella, nella quale andremo poi ad inserire i dati. Poiché le righe di distribuzione hanno due elementi, la tabella sarà composta da due colonne. La prima colonna è sempre una variante - cosa stiamo studiando - prendiamo il nome dall'attività (la fine della frase con l'attività nelle condizioni) - per numero di bambini- quindi la nostra versione è il numero di bambini.

La seconda colonna è la frequenza - quanto spesso si verifica la nostra variante nel fenomeno in esame - prendiamo anche il nome della colonna dall'attività - distribuzione delle famiglie - quindi la nostra frequenza è il numero di famiglie con il corrispondente numero di bambini.

  1. Ora, dai dati iniziali, selezioniamo quei valori che si verificano almeno una volta. Nel nostro caso, questo

E disponiamo questi dati nella prima colonna della nostra tabella in ordine logico, in questo caso aumentando da 0 a 4. Otteniamo

E in conclusione, calcoliamo quante volte si verifica ogni valore delle opzioni.

0 1 2 3 1

2 1 2 1 0

4 3 2 1 1

1 0 1 0 2

Di conseguenza, otteniamo una tabella completa o la serie richiesta di distribuzione delle famiglie per numero di bambini.

Esercizio . Esistono dati sulle categorie tariffarie di 30 lavoratori dell'impresa. Costruire una serie variazionale discreta per la distribuzione dei lavoratori per categoria salariale. 2 3 2 4 4 5 5 4 6 3

1 4 4 5 5 6 4 3 2 3

4 5 4 5 5 6 6 3 3 4

Come costruire una serie di distribuzioni con variazioni di intervallo

Costruiamo una serie di distribuzione a intervalli e vediamo come la sua costruzione differisce da una serie discreta.

Esempio 2 Esistono dati sull'ammontare del profitto ricevuto da 16 imprese, milioni di rubli. — 23 48 57 12 118 9 16 22 27 48 56 87 45 98 88 63. Costruire una serie variazionale di intervallo per la distribuzione delle imprese per volume di profitto, selezionando 3 gruppi a intervalli uguali.

Il principio generale di costruire una serie, ovviamente, verrà preservato, le stesse due colonne, le stesse varianti e frequenza, ma in questo caso le varianti saranno localizzate nell'intervallo e le frequenze verranno conteggiate in modo diverso.

Soluzione:

  1. Iniziamo in modo simile all'attività precedente costruendo un layout di tabella, in cui inseriremo i dati. Poiché le righe di distribuzione hanno due elementi, la tabella sarà composta da due colonne. La prima colonna è sempre una variante - ciò che stiamo studiando - prendiamo il nome dall'attività (la fine della frase con l'attività nelle condizioni) - dall'importo del profitto - il che significa che la nostra variante è l'importo del profitto ricevuto.

La seconda colonna è la frequenza - quanto spesso si verifica la nostra variante nel fenomeno in esame - prendiamo anche il nome della colonna dall'assegnazione - la distribuzione delle imprese - questo significa che la nostra frequenza è il numero di imprese con il profitto corrispondente, in questo caso rientra nell'intervallo.

Di conseguenza, il layout della nostra tabella sarà simile a questo:

dove i è il valore o la lunghezza dell'intervallo,

Xmax e Xmin - il valore massimo e minimo della funzione,

n è il numero richiesto di gruppi in base alla condizione del problema.

Calcoliamo il valore dell'intervallo per il nostro esempio. Per fare questo, tra i dati iniziali, troviamo il più grande e il più piccolo

23 48 57 12 118 9 16 22 27 48 56 87 45 98 88 63 - il valore massimo è di 118 milioni di rubli e il minimo è di 9 milioni di rubli. Calcoliamo la formula.

Nel calcolo, abbiamo ottenuto il numero 36, (3) tre nel periodo, in tali situazioni, il valore dell'intervallo deve essere arrotondato per eccesso in modo che dopo i calcoli i dati massimi non vengano persi, motivo per cui il valore del l'intervallo nel calcolo è di 36,4 milioni di rubli.

  1. Ora costruiamo gli intervalli: le nostre opzioni in questo problema. Il primo intervallo viene avviato dal valore minimo, ad esso viene aggiunto il valore dell'intervallo e si ottiene il limite superiore del primo intervallo. Quindi il limite superiore del primo intervallo diventa il limite inferiore del secondo intervallo, ad esso viene aggiunto il valore dell'intervallo e si ottiene il secondo intervallo. E così tante volte quante sono necessarie per costruire gli intervalli secondo la condizione.

Fai attenzione, se non arrotondassimo il valore dell'intervallo a 36,4, ma lo lasciassimo a 36,3, l'ultimo valore sarebbe 117,9. È per evitare la perdita di dati che è necessario arrotondare il valore dell'intervallo a un valore maggiore.

  1. Contiamo il numero di imprese che rientrano in ciascun intervallo specifico. Quando si elaborano i dati, è necessario ricordare che il valore superiore dell'intervallo in questo intervallo non viene preso in considerazione (non è incluso in questo intervallo), ma viene preso in considerazione nell'intervallo successivo (il limite inferiore dell'intervallo è incluso in questo intervallo, e quello superiore non è incluso), ad eccezione dell'ultimo intervallo.

Quando si esegue l'elaborazione dei dati, è meglio indicare i dati selezionati con icone o colori convenzionali per semplificare l'elaborazione.

23 48 57 12 118 9 16 22

27 48 56 87 45 98 88 63

Contrassegneremo il primo intervallo in giallo e determineremo quanti dati rientrano nell'intervallo da 9 a 45,4, mentre questo 45,4 verrà preso in considerazione nel secondo intervallo (a condizione che sia nei dati) - di conseguenza, noi ottenere 7 imprese nel primo intervallo. E così via per tutti gli intervalli.

  1. (azione supplementare) Calcoliamo l'importo totale del profitto ricevuto dalle imprese per ciascun intervallo e in generale. Per fare ciò, aggiungi i dati contrassegnati con colori diversi e ottieni il valore totale del profitto.

Per il primo intervallo 23 + 12 + 9 + 16 + 22 + 27 + 45 = 154 milioni di rubli

Per il secondo intervallo - 48 + 57 + 48 + 56 + 63 = 272 milioni di rubli.

Per il terzo intervallo - 118 + 87 + 98 + 88 = 391 milioni di rubli.

Esercizio . Ci sono dati sulla dimensione del deposito nella banca di 30 depositanti, migliaia di rubli. 150, 120, 300, 650, 1500, 900, 450, 500, 380, 440,

600, 80, 150, 180, 250, 350, 90, 470, 1100, 800,

500, 520, 480, 630, 650, 670, 220, 140, 680, 320

Costruire serie di variazioni di intervallo distribuzione dei depositanti, per entità del contributo, evidenziando 4 gruppi ad intervalli uguali. Per ogni gruppo, calcolare l'importo totale dei contributi.

raggruppamento- questa è la divisione della popolazione in gruppi in qualche modo omogenei.

Assegnazione del servizio. Con il calcolatore online puoi:

  • costruire una serie di variazioni, costruire un istogramma e un poligono;
  • trovare indicatori di variazione (media, moda (anche graficamente), mediana, intervallo di variazione, quartili, decili, coefficiente di differenziazione quartile, coefficiente di variazione e altri indicatori);

Istruzione. Per raggruppare una serie, è necessario selezionare il tipo della serie di variazione risultante (discreta o intervallo) e specificare la quantità di dati (numero di righe). La soluzione risultante viene salvata in un file Word (vedere l'esempio di raggruppamento di dati statistici).

Numero di dati di input
",0);">

Se il raggruppamento è già stato fatto e il serie a variazione discreta o serie di intervalli, allora devi usare il calcolatore online Indicatori di variazione. Testare l'ipotesi sul tipo di distribuzione prodotto utilizzando il servizio Studio della forma distributiva.

Tipi di raggruppamenti statistici

Serie di variazione. Nel caso di osservazioni di un discreto variabile casuale lo stesso valore può essere trovato più di una volta. Tali valori di una variabile casuale x i vengono registrati indicando n i il numero di volte in cui appare in n osservazioni, questa è la frequenza di questo valore.
Nel caso di una variabile casuale continua, in pratica viene utilizzato il raggruppamento.
  1. Raggruppamento tipologico- questa è la divisione della popolazione qualitativamente eterogenea studiata in classi, tipi socio-economici, gruppi omogenei di unità. Per creare questo raggruppamento, utilizzare il parametro Serie variazionale discreta.
  2. Viene chiamato il raggruppamento strutturale, in cui una popolazione omogenea è suddivisa in gruppi che ne caratterizzano la struttura secondo qualche caratteristica variabile. Per creare questo raggruppamento, utilizzare il parametro Serie intervallo.
  3. Viene chiamato un raggruppamento che rivela la relazione tra i fenomeni studiati e le loro caratteristiche gruppo analitico(vedi raggruppamento analitico delle serie).

Principi di costruzione di raggruppamenti statistici

Una serie di osservazioni ordinate in ordine crescente è chiamata serie di variazione. segno di raggruppamentoè il segno con cui la popolazione è divisa in gruppi separati. Si chiama la base del gruppo. Il raggruppamento può essere basato su caratteristiche sia quantitative che qualitative.
Dopo aver determinato la base del raggruppamento, dovrebbe essere decisa la questione del numero di gruppi in cui suddividere la popolazione in studio.

Usando computer personale per elaborare dati statistici, il raggruppamento di unità di un oggetto viene effettuato utilizzando procedure standard.
Una di queste procedure si basa sull'utilizzo della formula di Sturgess per determinare il numero ottimale di gruppi:

k = 1+3,322*lg(N)

Dove k è il numero di gruppi, N è il numero di unità di popolazione.

La lunghezza degli intervalli parziali è calcolata come h=(x max -x min)/k

Quindi contare il numero di hit di osservazioni in questi intervalli, che sono presi come frequenze n i . Poche frequenze, i cui valori sono inferiori a 5 (n i< 5), следует объединить. в этом случае надо объединить и соответствующие интервалы.
I punti medi degli intervalli x i =(c i-1 +c i)/2 sono presi come nuovi valori.

La descrizione delle modifiche in un attributo variabile viene eseguita utilizzando le serie di distribuzione.

Serie di distribuzione statistica- questa è una distribuzione ordinata di unità della popolazione statistica in gruppi separati secondo un certo attributo variabile.

Vengono chiamate serie statistiche costruite su base qualitativa attributivo. Se la serie di distribuzione si basa su un attributo quantitativo, allora la serie lo è variazionale.

A loro volta, le serie variazionali sono divise in discrete e intervalli. Al centro discreto della serie distributiva risiede un tratto discreto (discontinuo) che assume valori numerici specifici (il numero di reati, il numero di domande di assistenza giudiziaria dei cittadini). intervallo la serie di distribuzione è costruita sulla base di una caratteristica continua che può assumere qualsiasi valore da un determinato intervallo (l'età del condannato, il periodo di reclusione, ecc.)

Qualsiasi serie di distribuzione statistica contiene due elementi obbligatori: serie e varianti di frequenza. Opzioni (x io) sono i singoli valori della funzione che assume nella serie di distribuzione. Frequenze (fi) sono valori numerici che mostrano quante volte si verificano determinate opzioni nella serie di distribuzione. La somma di tutte le frequenze si chiama volume della popolazione.

Le frequenze espresse in unità relative (frazioni o percentuali) sono chiamate frequenze ( w io). La somma delle frequenze è uguale a uno se le Frequenze sono espresse in frazioni di uno, o 100 se sono espresse in percentuale. L'uso delle frequenze consente di confrontare serie variazionali con diverse dimensioni della popolazione. Le frequenze sono determinate dalla seguente formula:

Per costruire una serie discreta, tutte le occorrenze nella serie vengono classificate valori individuali caratteristica, quindi viene calcolata la frequenza di ripetizione di ciascun valore. Una serie di distribuzione è redatta nell'idea di una tabella composta da due righe e colonne, una delle quali contiene i valori delle varianti della serie x io, nel secondo - i valori delle frequenze fi.

Consideriamo un esempio di costruzione di una serie variazionale discreta.

Esempio 3.1 . Secondo il Ministero degli affari interni reati registrati commessi nella città di N minori di età.

17 13 15 16 17 15 15 14 16 13 14 17 14 15 15 16 16 15 14 15 15 14 16 16 14 17 16 15 16 15 13 15 15 13 15 14 15 13 17 14.

Costruire una serie di distribuzioni discrete.

Soluzione .

Innanzitutto, è necessario classificare i dati sull'età dei minori, ad es. scriverli in ordine crescente.

13 13 13 13 13 14 14 14 14 14 14 14 14 15 15 15 15 15 15 15 15 15 15 15 15 15 15 16 16 16 16 16 16 16 16 17 17 17 17 17



Tabella 3.1

Pertanto, le frequenze riflettono il numero di persone di una determinata età, ad esempio 5 persone hanno 13 anni, 8 persone hanno 14 anni e così via.

Costruzione intervallo le righe di distribuzione vengono eseguite in modo simile all'implementazione di un raggruppamento a intervalli uguali secondo un attributo quantitativo, ovvero, prima viene determinato il numero ottimale di gruppi in cui verrà suddiviso l'insieme, vengono impostati i limiti degli intervalli per gruppi e le frequenze sono calcolate.

Illustriamo la costruzione di una serie di distribuzione per intervalli utilizzando il seguente esempio.

Esempio 3.2 .

Costruisci una serie di intervalli per la seguente popolazione statistica: lo stipendio di un avvocato in ufficio, mille rubli:

16,0 22,2 25,1 24,3 30,5 32,0 17,0 23,0 19,8 27,5 22,0 18,9 31,0 21,5 26,0 27,4

Soluzione.

Prendiamo il numero ottimale di gruppi di uguale intervallo per una data popolazione statistica, pari a 4 (abbiamo 16 opzioni). Pertanto, la dimensione di ciascun gruppo è pari a:

e il valore di ciascun intervallo sarà pari a:

I limiti degli intervalli sono determinati dalle formule:

,

dove sono rispettivamente i limiti inferiore e superiore dell'intervallo i-esimo.

Omettendo i calcoli intermedi dei confini degli intervalli, inseriamo i loro valori (opzioni) e il numero di avvocati (frequenze) che hanno stipendi all'interno di ciascun intervallo nella Tabella 3.2, che illustra la serie di intervalli risultante.

Tabella 3.2

L'analisi delle serie di distribuzione statistica può essere eseguita utilizzando un metodo grafico. La rappresentazione grafica delle serie di distribuzione consente di illustrare visivamente i modelli di distribuzione della popolazione studiata rappresentandola sotto forma di poligono, istogramma e cumuli. Diamo un'occhiata a ciascuno di questi grafici.

Poligonoè una polilinea i cui segmenti collegano punti con coordinate ( x io;fi). Di solito un poligono viene utilizzato per un'immagine serie discreta distribuzione. Per costruirlo, i singoli valori classificati della funzione vengono tracciati sull'asse x x io, sull'asse y sono le frequenze corrispondenti a questi valori. Di conseguenza, collegando segmenti dei punti corrispondenti ai dati segnati lungo gli assi delle ascisse e delle ordinate, si ottiene una polilinea, chiamata poligono. Facciamo un esempio di costruzione di un poligono di frequenza.

Per illustrare la costruzione di un poligono, prendiamo il risultato della risoluzione dell'esempio 3.1 per costruire una serie discreta - Figura 1. L'ascissa mostra l'età dei detenuti, l'ordinata mostra il numero di detenuti minorenni che hanno data età. Analizzando questo poligono, possiamo dirlo il numero più grande detenuti - 14 persone, hanno 15 anni.

Figura 3.1 - Gamma di frequenze di una serie discreta.

Un poligono può anche essere costruito per una serie di intervalli, nel qual caso i punti medi degli intervalli vengono tracciati lungo l'asse delle ascisse e le frequenze corrispondenti lungo l'asse delle ordinate.

grafico a barre– una figura a gradini costituita da rettangoli, le cui basi sono gli intervalli del valore della caratteristica e le altezze sono uguali alle frequenze corrispondenti. L'istogramma viene utilizzato solo per visualizzare le serie di distribuzione degli intervalli. Se gli intervalli non sono uguali, per costruire un istogramma sull'asse y, non vengono tracciate le frequenze, ma il rapporto tra la frequenza e l'ampiezza dell'intervallo corrispondente. Un istogramma può essere convertito in un poligono di distribuzione se i centri delle sue colonne sono collegati da segmenti.

Per illustrare la costruzione di un istogramma, prendiamo i risultati della costruzione di una serie di intervalli dall'Esempio 3.2 - Figura 3.2.

Figura 3.2 - Istogramma della distribuzione salari avvocati.

Per una rappresentazione grafica delle serie variazionali, viene utilizzato anche cumulate. Cumulareè una curva che rappresenta una serie di frequenze accumulate e collega punti con coordinate ( x io;f i nak). Le frequenze cumulative sono calcolate sommando successivamente tutte le frequenze della serie di distribuzione e mostrano il numero di unità di popolazione che hanno un valore di caratteristica non superiore a quello specificato. Illustriamo il calcolo delle frequenze accumulate per la serie di intervalli variazionali presentata nell'esempio 3.2 - tabella 3.3.

Tabella 3.3

Per costruire il cumulato di una serie di distribuzione discreta, i singoli valori classificati del tratto vengono tracciati lungo l'asse delle ascisse e le frequenze accumulate ad essi corrispondenti vengono tracciate lungo l'asse delle ordinate. Quando si costruisce una curva cumulativa di una serie di intervalli, il primo punto avrà un'ascissa uguale al limite inferiore del primo intervallo e un'ordinata uguale a 0. Tutti i punti successivi devono corrispondere al limite superiore degli intervalli. Costruiamo un cumulato utilizzando i dati in Tabella 3.3 - Figura 3.3.

Figura 3.3 - La curva di distribuzione cumulata degli stipendi degli avvocati.

domande di prova

1. Il concetto di serie di distribuzione statistica, suoi elementi principali.

2. Tipi di serie di distribuzione statistica. La loro breve descrizione.

3. Serie distributive discrete e per intervalli.

4. Tecnica per la costruzione di serie di distribuzioni discrete.

5. Tecnica per la costruzione di serie di distribuzioni intervallari.

6. Rappresentazione grafica di serie di distribuzioni discrete.

7. Rappresentazione grafica di serie di distribuzioni intervallari.

Compiti

Compito 1. Ci sono i seguenti dati sui progressi di 25 studenti del gruppo in TGP per sessione: 5, 4, 4, 4, 3, 2, 5, 3, 4, 4, 4, 3, 2, 5, 2, 5 , 5, 2, 3 , 3, 5, 4, 2, 3, 3. Costruire una discreta serie variazionale di distribuzione degli studenti in base ai punteggi delle valutazioni ricevute nella sessione. Per la serie risultante, calcola Frequenze, Frequenze cumulative, Frequenze cumulative. Trai le tue conclusioni.

Compito 2. La colonia contiene 1000 detenuti, la loro distribuzione per età è presentata nella tabella:

immagine questa serie graficamente. Trai le tue conclusioni.

Compito 3. Sono disponibili i seguenti dati sui termini di detenzione dei detenuti:

5; 4; 2; 1; 6; 3; 4; 3; 2; 2; 3; 1; 17; 6; 2; 8; 5; 11; 9; 3; 5; 6; 4; 3; 10; 5; 25; 1; 12; 3; 3; 4; 9; 6; 5; 3; 4; 3; 5; 12; 4; 13; 2; 4; 6; 4; 14; 3; 11; 5; 4; 13; 2; 4; 6; 4; 14; 3; 11; 5; 4; 3; 12; 6.

Costruisci una serie di intervalli della distribuzione dei detenuti per termini di reclusione. Trai le tue conclusioni.

Compito 4. Si riportano i seguenti dati sulla distribuzione dei detenuti nella regione per il periodo di studio per fasce di età:

Disegna graficamente questa serie, trai conclusioni.