L'ordine di costruzione delle serie di distribuzione degli intervalli.  Riepilogo statistico e raggruppamento.  Serie di distribuzione statistica.  Esempi di problem solving

L'ordine di costruzione delle serie di distribuzione degli intervalli. Riepilogo statistico e raggruppamento. Serie di distribuzione statistica. Esempi di problem solving

Una serie variazionale discreta è costruita per caratteristiche discrete.

Per costruire una serie di variazioni discrete, è necessario fare quanto segue: 1) ordinare le unità di osservazione in ordine crescente del valore dell'attributo studiato,

2) determinare tutti i possibili valori dell'attributo x i, ordinarli in ordine crescente,

valore del segno, io .

frequenza del valore della caratteristica e denotare f io . La somma di tutte le frequenze della serie è uguale al numero di elementi nella popolazione studiata.

Esempio 1 .

Elenco dei voti ottenuti dagli studenti negli esami: 3; quattro; 3; 5; quattro; 2; 2; quattro; quattro; 3; 5; 2; quattro; 5; quattro; 3; quattro; 3; 3; quattro; quattro; 2; 2; 5; 5; quattro; 5; 2; 3; quattro; quattro; 3; quattro; 5; 2; 5; 5; quattro; 3; 3; quattro; 2; quattro; quattro; 5; quattro; 3; 5; 3; 5; quattro; quattro; 5; quattro; quattro; 5; quattro; 5; 5; 5.

Qui il numero X - gradoè una variabile casuale discreta e l'elenco di stime risultante lo èdati statistici (osservati). .

    ordina le unità di osservazione in ordine crescente del valore studiato della caratteristica:

2; 2; 2; 2; 2; 2; 2; 2; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5.

2) determinare tutti i possibili valori dell'attributo x i , ordinarli in ordine crescente:

A questo esempio tutte le stime possono essere suddivise in quattro gruppi con i seguenti valori: 2; 3; quattro; 5.

Significato variabile casuale viene chiamato corrispondente a un gruppo separato di dati osservati valore del segno, variante (opzione) e designare x io .

Viene chiamato il numero che mostra quante volte il valore della caratteristica corrispondente si verifica in una serie di osservazioni frequenza del valore della caratteristica e denotare f io .

Per il nostro esempio

il punteggio 2 si verifica - 8 volte,

il punteggio 3 si verifica - 12 volte,

il punteggio 4 si verifica - 23 volte,

il punteggio 5 si verifica - 17 volte.

Ci sono 60 valutazioni in totale.

4) scrivere i dati ricevuti in una tabella di due righe (colonne) - x i e f i .

Sulla base di questi dati, è possibile costruire una serie variazionale discreta

Serie di variazioni discrete - questa è una tabella in cui i valori che si verificano del tratto studiato sono indicati come valori separati in ordine crescente e le loro frequenze

  1. Costruzione di una serie di variazioni di intervallo

Oltre a una serie variazionale discreta, esiste spesso un modo per raggruppare i dati come serie variazionale di intervallo.

Si costruisce una serie di intervalli se:

    il segno ha una natura continua di cambiamento;

    ci sono molti valori discreti (più di 10)

    le frequenze di valori discreti sono molto piccole (non superare 1-3 con un numero relativamente elevato di unità di osservazione);

    molti valori discreti di una caratteristica con le stesse frequenze.

Una serie di variazioni di intervallo è un modo per raggruppare i dati sotto forma di una tabella che ha due colonne (valori delle funzionalità sotto forma di un intervallo di valori e la frequenza di ciascun intervallo).

A differenza di una serie discreta, i valori della caratteristica di una serie di intervalli non sono rappresentati da valori individuali, ma da un intervallo di valori ("da - a").

Viene chiamato il numero che mostra quante unità di osservazione rientrano in ciascun intervallo selezionato frequenza del valore della caratteristica e denotare f io . La somma di tutte le frequenze della serie è uguale al numero di elementi (unità di osservazione) nella popolazione studiata.

Se un'unità ha un valore di caratteristica uguale al valore del limite superiore dell'intervallo, allora dovrebbe essere riferita all'intervallo successivo.

Ad esempio, un bambino con un'altezza di 100 cm cadrà nel 2° intervallo e non nel primo; e un bambino con un'altezza di 130 cm cadrà nell'ultimo intervallo e non nel terzo.

Sulla base di questi dati, è possibile costruire una serie di variazioni di intervallo.

Ogni intervallo ha un limite inferiore (x n), un limite superiore (x in) e una larghezza dell'intervallo ( io).

Un limite di intervallo è un valore di caratteristica che si trova sul bordo di due intervalli.

altezza bambini (cm)

altezza bambini (cm)

quantità di bambini

oltre 130

Se un intervallo ha un limite superiore e inferiore, viene chiamato intervallo chiuso. Se l'intervallo ha solo un limite inferiore o solo superiore, allora questo è - intervallo aperto. Solo il primo o l'ultimo intervallo può essere aperto. Nell'esempio sopra, l'ultimo intervallo è aperto.

Larghezza intervallo (io) è la differenza tra il limite superiore e quello inferiore.

io = x n - x pollici

Si presume che la larghezza di un intervallo aperto sia la stessa della larghezza di un intervallo chiuso adiacente.

altezza bambini (cm)

quantità di bambini

Larghezza intervallo (i)

per i calcoli 130+20=150

20 (perché la larghezza dell'intervallo chiuso adiacente è 20)

Tutte le serie di intervalli sono divise in serie di intervalli con intervalli uguali e serie di intervalli con intervalli disuguali. . Nelle righe di intervallo con intervalli uguali, la larghezza di tutti gli intervalli è la stessa. Nelle serie di intervalli con intervalli disuguali, la larghezza degli intervalli è diversa.

In questo esempio, una serie di intervalli con intervalli disuguali.

Quando si elaborano grandi quantità di informazioni, che è particolarmente importante durante lo svolgimento di moderni sviluppi scientifici, il ricercatore deve affrontare il serio compito di raggruppare correttamente i dati iniziali. Se i dati sono discreti, allora, come abbiamo visto, non ci sono problemi: devi solo calcolare la frequenza di ciascuna funzione. Se il tratto in studio ha continuo carattere (cosa più comune nella pratica), quindi la scelta del numero ottimale di intervalli per raggruppare una caratteristica non è affatto un compito banale.

Per raggruppare variabili casuali continue, l'intero intervallo di variazione della funzione viene suddiviso in un certo numero di intervalli a.

Intervallo raggruppato (continuo) serie variazionale chiamati intervalli ordinati per il valore della caratteristica (), dove indicato insieme alle frequenze corrispondenti () il numero di osservazioni che cadevano nell'intervallo r "esimo, o frequenze relative ():

Intervalli di valori caratteristici

mi frequenza

grafico a barre e cumulare (ogiva), già discussi in dettaglio da noi, sono un ottimo strumento di visualizzazione dei dati che permette di avere una comprensione primaria della struttura dei dati. Tali grafici (Fig. 1.15) sono costruiti per i dati continui allo stesso modo dei dati discreti, tenendo solo conto del fatto che i dati continui riempiono completamente l'area dei suoi possibili valori, prendendo qualsiasi valore.

Riso. 1.15.

Ecco perchè le colonne sull'istogramma e il cumulato devono essere a contatto, non avere aree in cui i valori degli attributi non rientrino in tutti i possibili(cioè, l'istogramma e il cumulato non dovrebbero avere "buchi" lungo l'asse delle ascisse, in cui i valori della variabile in studio non cadono, come in Fig. 1.16). L'altezza della barra corrisponde alla frequenza - il numero di osservazioni che rientrano nell'intervallo dato, o la frequenza relativa - la proporzione di osservazioni. Intervalli non deve attraversare e di solito hanno la stessa larghezza.

Riso. 1.16.

L'istogramma e il poligono sono approssimazioni della curva di densità di probabilità (funzione differenziale) f(x) distribuzione teorica, considerata nel corso della teoria della probabilità. Pertanto, la loro costruzione è importanza nell'elaborazione statistica primaria di dati continui quantitativi - dalla loro forma si può giudicare l'ipotetica legge di distribuzione.

Cumula - la curva delle frequenze accumulate (frequenze) della serie di variazioni dell'intervallo. Il grafico della funzione di distribuzione integrale viene confrontato con il cumulato F(x), considerato anche nel corso della teoria della probabilità.

Fondamentalmente, i concetti di istogramma e cumulati sono associati proprio ai dati continui e alle loro serie di variazioni di intervallo, poiché i loro grafici sono stime empiriche rispettivamente della funzione di densità di probabilità e della funzione di distribuzione.

La costruzione di una serie di variazioni di intervallo inizia con la determinazione del numero di intervalli K. E questo compito è forse il più difficile, importante e controverso della questione in esame.

Il numero di intervalli non dovrebbe essere troppo piccolo, poiché l'istogramma sarà troppo uniforme ( troppo levigato), perde tutte le caratteristiche della variabilità dei dati iniziali - in Fig. 1.17 si può notare come gli stessi dati su cui si trovano i grafici di Fig. 1.15 sono usati per costruire un istogramma con un numero minore di intervalli (grafico a sinistra).

Allo stesso tempo, il numero di intervalli non dovrebbe essere troppo grande, altrimenti non saremo in grado di stimare la densità di distribuzione dei dati in studio lungo l'asse numerico: l'istogramma risulterà poco levigato (sottolivellato) con intervalli non riempiti, irregolari (vedi Fig. 1.17, grafico a destra).

Riso. 1.17.

Come determinare il numero di intervalli più preferito?

Già nel 1926 Herbert Sturges propose una formula per calcolare il numero di intervalli in cui è necessario dividere l'insieme iniziale di valori dell'attributo studiato. Questa formula è diventata davvero molto popolare: la maggior parte dei libri di testo di statistica la offre e molti pacchetti statistici la usano per impostazione predefinita. Se questo sia giustificato e in tutti i casi è una questione molto seria.

Quindi su cosa si basa la formula di Sturges?

Considera la distribuzione binomiale)