Calcolo della dispersione intergruppo.  Come calcolare la varianza in Excel usando la funzione disp.v

Calcolo della dispersione intergruppo. Come calcolare la varianza in Excel usando la funzione disp.v

Se la popolazione è suddivisa in gruppi in base al tratto in studio, è possibile calcolare i seguenti tipi di dispersione per questa popolazione: totale, gruppo (intragruppo), media di gruppo (media dell'intragruppo), intergruppo.

Inizialmente, calcola il coefficiente di determinazione, che mostra quale parte della variazione totale del tratto studiato è la variazione intergruppo, cioè per raggruppamento:

Il rapporto di correlazione empirica caratterizza la tenuta della connessione tra i segni di raggruppamento (fattoriale) ed effettivi.

Il rapporto di correlazione empirica può assumere valori da 0 a 1.

Per valutare la vicinanza della relazione in base al rapporto di correlazione empirica, è possibile utilizzare le relazioni di Chaddock:

Esempio 4 Sono disponibili i seguenti dati sulle prestazioni del lavoro in base alla progettazione e alle organizzazioni di sondaggi forme diverse proprietà:

Definire:

1) varianza totale;

2) dispersioni di gruppo;

3) la media delle dispersioni di gruppo;

4) dispersione intergruppo;

5) varianza totale basata sulla regola della somma delle varianze;


6) coefficiente di determinazione e correlazione empirica.

Trai le tue conclusioni.

Soluzione:

1. Determiniamo il volume medio di lavoro svolto da imprese di due forme di proprietà:

Calcola la varianza totale:

2. Definisci le medie di gruppo:

milioni di rubli;

mln strofinare.

Variazioni di gruppo:

;

3. Calcola la media delle varianze di gruppo:

4. Determinare la varianza intergruppo:

5. Calcolare la varianza totale in base alla regola per sommare le varianze:

6. Determinare il coefficiente di determinazione:

.

Pertanto, la quantità di lavoro svolto dalle organizzazioni di progettazione e indagine del 22% dipende dalla forma di proprietà delle imprese.

Il rapporto di correlazione empirica è calcolato dalla formula

.

Il valore dell'indicatore calcolato indica che la dipendenza della quantità di lavoro dalla forma di proprietà dell'impresa è piccola.

Esempio 5 A seguito di un'indagine sulla disciplina tecnologica dei siti produttivi, sono stati ottenuti i seguenti dati:

Determinare il coefficiente di determinazione

I principali indicatori generalizzanti di variazione nelle statistiche sono la dispersione e la deviazione standard.

Dispersione esso significato aritmetico deviazioni al quadrato di ciascun valore della caratteristica dalla media totale. La varianza è solitamente chiamata il quadrato medio delle deviazioni ed è indicata con  2 . A seconda dei dati iniziali, la varianza può essere calcolata dalla media aritmetica, semplice o pesata:

 dispersione non ponderata (semplice);

 varianza ponderata.

Deviazione standard è una caratteristica generalizzante delle dimensioni assolute variazioni caratteristica nell'aggregato. È espresso nelle stesse unità del segno (in metri, tonnellate, percentuale, ettari, ecc.).

La deviazione standard è la radice quadrata della varianza ed è indicata da :

 deviazione standard non ponderata;

 deviazione standard ponderata.

La deviazione standard è una misura dell'affidabilità della media. Minore è la deviazione standard, migliore è la media aritmetica che riflette l'intera popolazione rappresentata.

Il calcolo della deviazione standard è preceduto dal calcolo della varianza.

La procedura per calcolare la varianza ponderata è la seguente:

1) determinare la media aritmetica pesata:

2) calcolare gli scostamenti delle opzioni dalla media:

3) al quadrato la deviazione di ciascuna opzione dalla media:

4) moltiplicare le deviazioni al quadrato per i pesi (frequenze):

5) riassumere i lavori ricevuti:

6) l'importo risultante viene diviso per la somma dei pesi:

Esempio 2.1

Calcola la media aritmetica pesata:

I valori delle deviazioni dalla media e i loro quadrati sono presentati nella tabella. Definiamo la varianza:

La deviazione standard sarà pari a:

Se i dati di origine sono presentati come un intervallo serie di distribuzione , devi prima determinare il valore discreto della funzione, quindi applicare il metodo descritto.

Esempio 2.2

Mostriamo il calcolo della varianza per le serie di intervallo sui dati sulla distribuzione della superficie seminata del colcos per la resa del frumento.

La media aritmetica è:

Calcoliamo la varianza:

6.3. Calcolo della dispersione secondo la formula dei dati individuali

Tecnica di calcolo dispersione complicato, e grandi valori le opzioni e le frequenze possono essere ingombranti. I calcoli possono essere semplificati utilizzando le proprietà di dispersione.

La dispersione ha le seguenti proprietà.

1. Una diminuzione o un aumento dei pesi (frequenze) di una caratteristica variabile di un certo numero di volte non cambia la dispersione.

2. Diminuendo o aumentando ogni valore di caratteristica dello stesso valore costante MA la dispersione non cambia.

3. Diminuendo o aumentando il valore di ciascuna caratteristica di un certo numero di volte K rispettivamente riduce o aumenta la varianza in K 2 volte deviazione standard  dentro K una volta.

4. La varianza di una caratteristica rispetto a un valore arbitrario è sempre maggiore della varianza relativa alla media aritmetica per il quadrato della differenza tra i valori medi e arbitrari:

Se una MA 0, allora si arriva alla seguente uguaglianza:

cioè, la varianza di una caratteristica è uguale alla differenza tra il quadrato medio dei valori della caratteristica e il quadrato della media.

Ogni proprietà può essere utilizzata da sola o in combinazione con altre nel calcolo della varianza.

La procedura per calcolare la varianza è semplice:

1) determinare significato aritmetico :

2) al quadrato la media aritmetica:

3) al quadrato la deviazione di ciascuna variante della serie:

X io 2 .

4) trova la somma dei quadrati delle opzioni:

5) dividere la somma dei quadrati delle opzioni per il loro numero, ovvero determinare il quadrato medio:

6) determinare la differenza tra il quadrato medio dell'elemento e il quadrato della media:

Esempio 3.1 Abbiamo i seguenti dati sulla produttività dei lavoratori:

Facciamo i seguenti calcoli:

Spesso nelle statistiche, quando si analizza un fenomeno o un processo, è necessario tenere conto non solo delle informazioni sui livelli medi degli indicatori studiati, ma anche dispersione o variazione dei valori delle singole unità , che è una caratteristica importante della popolazione studiata.

Prezzi delle azioni, volumi di domanda e offerta, tassi di interesse in periodi diversi tempo e in luoghi diversi.

I principali indicatori che caratterizzano la variazione , sono l'intervallo, la varianza, la deviazione standard e il coefficiente di variazione.

Variazione dell'intervallo è la differenza tra i valori massimo e minimo dell'attributo: R = Xmax – Xmin. Lo svantaggio di questo indicatore è che valuta solo i limiti della variazione del tratto e non riflette la sua fluttuazione all'interno di questi limiti.

Dispersione privo di questa mancanza. Viene calcolato come il quadrato medio delle deviazioni dei valori degli attributi dal loro valore medio:

Metodo semplificato per calcolare la varianza si effettua con le seguenti formule (semplice e ponderata):

Esempi dell'applicazione di queste formule sono presentati nelle attività 1 e 2.

Un indicatore ampiamente utilizzato in pratica è deviazione standard :

La deviazione standard è definita come la radice quadrata della varianza e ha la stessa dimensione del tratto in studio.

Gli indicatori considerati consentono di ottenere il valore assoluto della variazione, ovvero valutarlo in unità di misura del tratto in studio. A differenza di loro, il coefficiente di variazione misura la fluttuazione in termini relativi - rispetto al livello medio, che in molti casi è preferibile.

Formula per il calcolo del coefficiente di variazione.

Esempi di risoluzione di problemi sull'argomento "Indicatori di variazione nelle statistiche"

Compito 1 . Nello studio dell'influenza della pubblicità sulla dimensione del deposito mensile medio nelle banche della regione, sono state esaminate 2 banche. Si ottengono i seguenti risultati:

Definire:
1) per ciascuna banca: a) la dimensione media deposito mensile; b) dispersione del contributo;
2) il deposito medio mensile per due banche insieme;
3) Dispersione del deposito per 2 banche, a seconda della pubblicità;
4) Dispersione del deposito per 2 banche, a seconda di tutti i fattori tranne la pubblicità;
5) Variazione totale utilizzando la regola dell'addizione;
6) Coefficiente di determinazione;
7) Relazione di correlazione.

Soluzione

1) Facciamo una tabella di calcolo per una banca con pubblicità . Per determinare il deposito medio mensile, troviamo i punti medi degli intervalli. In questo caso, il valore dell'intervallo aperto (il primo) è condizionatamente equiparato al valore dell'intervallo ad esso adiacente (il secondo).

Troviamo la dimensione media del contributo utilizzando la formula della media aritmetica pesata:

29.000/50 = 580 rubli

La dispersione del contributo si trova con la formula:

23 400/50 = 468

Eseguiremo azioni simili per una banca senza pubblicità :

2) Trova il deposito medio per due banche insieme. Xav \u003d (580 × 50 + 542,8 × 50) / 100 \u003d 561,4 rubli.

3) La varianza del deposito, per due banche, a seconda della pubblicità, la troveremo con la formula: σ 2 =pq (formula della varianza di un segno alternativo). Qui p=0,5 è la proporzione di fattori che dipendono dalla pubblicità; q=1-0,5, quindi σ 2 =0,5*0,5=0,25.

4) Poiché la quota di altri fattori è 0,5, anche la varianza del deposito per due banche, che dipende da tutti i fattori tranne la pubblicità, è 0,25.

5) Determinare la varianza totale utilizzando la regola dell'addizione.

= (468*50+636,16*50)/100=552,08

= [(580-561,4)250+(542,8-561,4)250] / 100= 34 596/ 100=345,96

σ 2 \u003d σ 2 fatto + σ 2 resto \u003d 552,08 + 345,96 \u003d 898,04

6) Coefficiente di determinazione η 2 = σ 2 fatto / σ 2 = 345,96/898,04 = 0,39 = 39% - l'entità del contributo dipende dalla pubblicità del 39%.

7) Rapporto di correlazione empirica η = √η 2 = √0,39 = 0,62 - la relazione è abbastanza stretta.

Compito 2 . Esiste un raggruppamento di imprese in base al valore dei prodotti commerciabili:

Determinare: 1) la dispersione del valore dei prodotti commerciabili; 2) deviazione standard; 3) coefficiente di variazione.

Soluzione

1) Presentato per condizione serie di intervalli distribuzione. Deve essere espresso in modo discreto, cioè trovare la metà dell'intervallo (x "). Nei gruppi di intervalli chiusi, troviamo la metà con una semplice media aritmetica. Nei gruppi con un limite superiore, come differenza tra questo limite superiore e metà della dimensione dell'intervallo che lo segue (200-(400 -200):2=100).

Nei gruppi con un limite inferiore - la somma di questo limite inferiore e metà della dimensione dell'intervallo precedente (800+(800-600):2=900).

Il calcolo del valore medio dei prodotti commerciabili avviene secondo la formula:

Хср = k×((Σ((x"-a):k)×f):Σf)+a. Qui a=500 è la dimensione della variante alla frequenza più alta, k=600-400=200 è la dimensione dell'intervallo alla frequenza più alta Mettiamo il risultato in una tabella:

Così, valore medio prodotti commerciabili per il periodo in esame nel suo insieme è Xav = (-5:37) × 200 + 500 = 472,97 mila rubli.

2) Troviamo la dispersione usando la seguente formula:

σ 2 \u003d (33/37) * 2002-(472,97-500) 2 \u003d 35.675,67-730,62 \u003d 34.945,05

3) deviazione standard: σ = ±√σ 2 = ±√34 945,05 ≈ ±186,94 mila rubli.

4) coefficiente di variazione: V \u003d (σ / Xav) * 100 \u003d (186,94 / 472,97) * 100 \u003d 39,52%

Tra i tanti indicatori che vengono utilizzati in statistica, è necessario evidenziare il calcolo della varianza. Va notato che eseguire manualmente questo calcolo è un compito piuttosto noioso. Fortunatamente esistono in Excel delle funzioni che consentono di automatizzare la procedura di calcolo. Scopriamo l'algoritmo per lavorare con questi strumenti.

La varianza è una misura della variazione, che è il quadrato medio delle deviazioni da aspettativa matematica. Quindi, esprime la diffusione dei numeri sulla media. Il calcolo della varianza può essere effettuato come popolazione, oltre che selettivamente.

Metodo 1: calcolo sulla popolazione generale

Per calcolare questo indicatore in Excel per la popolazione generale, viene utilizzata la funzione DISP.G. La sintassi per questa espressione è la seguente:

DISP.G(Numero1;Numero2;…)

In totale possono essere applicati da 1 a 255 argomenti. Gli argomenti possono essere sia valori numerici che riferimenti alle celle in cui sono contenuti.

Vediamo come calcolare questo valore per un intervallo di dati numerici.


Metodo 2: calcolo del campione

Contrariamente al calcolo del valore per la popolazione generale, nel calcolo del campione il denominatore non è il numero totale dei numeri, ma uno in meno. Questo viene fatto per correggere l'errore. Excel tiene conto di questa sfumatura in una funzione speciale progettata per questo tipo di calcolo: DISP.V. La sua sintassi è rappresentata dalla seguente formula:

VAR.B(Numero1;Numero2;…)

Anche il numero di argomenti, come nella funzione precedente, può variare da 1 a 255.


Come puoi vedere, il programma Excel è in grado di facilitare notevolmente il calcolo della varianza. Questa statistica può essere calcolata dall'applicazione sia per la popolazione che per il campione. In questo caso, tutte le azioni dell'utente si riducono in realtà solo a specificare l'intervallo di numeri elaborati e il principale Lavoro Excel lo fa da solo. Naturalmente, ciò farà risparmiare una notevole quantità di tempo per gli utenti.

Gamma di variazione (o gamma di variazione) -è la differenza tra i valori massimo e minimo della caratteristica:

Nel nostro esempio, l'intervallo di variazione della produzione di turni dei lavoratori è: nella prima brigata R=105-95=10 bambini, nella seconda brigata R=125-75=50 bambini. (5 volte di più). Ciò suggerisce che l'uscita della 1a brigata è più "stabile", ma la seconda brigata ha più riserve per la crescita della produzione, perché. se tutti i lavoratori raggiungono la produzione massima per questa brigata, può produrre 3 * 125 = 375 parti e nella 1a brigata solo 105 * 3 = 315 parti.
Se i valori estremi dell'attributo non sono tipici per la popolazione, vengono utilizzati gli intervalli di quartile o decile. L'intervallo di quartile RQ= Q3-Q1 copre il 50% della popolazione, il primo intervallo di decile RD1 = D9-D1 copre l'80% dei dati, il secondo intervallo di decile RD2= D8-D2 copre il 60%.
Lo svantaggio dell'indicatore dell'intervallo di variazione è che il suo valore non riflette tutte le fluttuazioni del tratto.
L'indicatore generalizzante più semplice che riflette tutte le fluttuazioni di un tratto è deviazione lineare media, che è la media aritmetica degli scostamenti assoluti delle singole opzioni dal loro valore medio:

,
per i dati raggruppati
,
dove хi è il valore della caratteristica in serie discreta o la metà di un intervallo in una distribuzione di intervallo.
Nelle formule precedenti si prendono modulo le differenze del numeratore, altrimenti, per la proprietà della media aritmetica, il numeratore sarà sempre uguale a zero. Pertanto, la deviazione lineare media viene utilizzata raramente nella pratica statistica, solo nei casi in cui la somma degli indicatori senza tener conto del segno ha un senso economico. Con il suo aiuto, ad esempio, vengono analizzate la composizione dei dipendenti, la redditività della produzione e il fatturato del commercio estero.
Variazione delle caratteristicheè il quadrato medio delle deviazioni della variante dal loro valore medio:
semplice varianza
,
varianza ponderata
.
La formula per il calcolo della varianza può essere semplificata:

Pertanto, la varianza è uguale alla differenza tra la media dei quadrati della variante e il quadrato della media della variante della popolazione:
.
Tuttavia, a causa della somma delle deviazioni al quadrato, la varianza fornisce un'idea distorta delle deviazioni, quindi la media viene calcolata da essa. deviazione standard, che mostra quanto le varianti specifiche dell'attributo si discostano in media dal loro valore medio. Calcolato estraendo radice quadrata dalla dispersione:
per dati non raggruppati
,
per serie di variazioni

Minore è il valore della varianza e della deviazione standard, più omogenea è la popolazione, più affidabile (tipico) sarà il valore medio.
Media lineare e media deviazione standard- i numeri con nome, cioè sono espressi in unità di misura dell'attributo, sono identici nel contenuto e vicini nel significato.
contare indicatori assoluti si consigliano variazioni utilizzando le tabelle.
Tabella 3 - Calcolo delle caratteristiche di variazione (sull'esempio del periodo dei dati sull'output dei turni delle squadre di lavoro)


Numero di lavoratori

La metà dell'intervallo

Valori stimati

Totale:

Produzione media di turni dei lavoratori:

Deviazione lineare media:

Dispersione in uscita:

La deviazione standard della produzione dei singoli lavoratori dalla produzione media:
.

1 Calcolo della dispersione con il metodo dei momenti

Il calcolo delle varianze è associato a calcoli macchinosi (soprattutto se la media è espressa come un numero grande con più cifre decimali). I calcoli possono essere semplificati utilizzando una formula semplificata e proprietà di dispersione.
La dispersione ha le seguenti proprietà:

  1. se tutti i valori dell'attributo vengono ridotti o aumentati dello stesso valore A, la varianza non diminuirà da questo:

,

, quindi o
Usando le proprietà della varianza e riducendo prima tutte le varianti della popolazione per il valore A, e poi dividendo per il valore dell'intervallo h, otteniamo una formula per calcolare la varianza in serie variazionali con intervalli uguali modo dei momenti:
,
dove è la dispersione calcolata con il metodo dei momenti;
h è il valore dell'intervallo della serie di variazioni;
– nuovi valori di variante (trasformati);
A è un valore costante, che viene utilizzato come metà dell'intervallo con la frequenza più alta; o la variante con la frequenza più alta;
è il quadrato del momento del primo ordine;
è un momento del secondo ordine.
Calcoliamo la varianza con il metodo dei momenti in base ai dati sull'output del turno del team di lavoro.
Tabella 4 - Calcolo della dispersione con il metodo dei momenti


Gruppi di addetti alla produzione, pz.

Numero di lavoratori

La metà dell'intervallo

Valori stimati

Procedura di calcolo:


  1. calcola la varianza:

2 Calcolo della varianza di una caratteristica alternativa

Tra i segni studiati dalla statistica, ci sono quelli che hanno solo due significati che si escludono a vicenda. Questi sono segni alternativi. Vengono assegnati loro due valori quantitativi, rispettivamente: opzioni 1 e 0. La frequenza delle opzioni 1, che è indicata da p, è la proporzione di unità che hanno questa caratteristica. La differenza 1-p=q è la frequenza delle opzioni 0. Quindi,


xi

Media aritmetica della caratteristica alternativa
, poiché p+q=1.

Variazione delle caratteristiche
, perché 1-p=q
Pertanto, la varianza di un attributo alternativo è uguale al prodotto della proporzione di unità che hanno questo attributo e della proporzione di unità che non hanno questo attributo.
Se i valori 1 e 0 sono ugualmente frequenti, cioè p=q, la varianza raggiunge il suo massimo pq=0,25.
La variabile varianza viene utilizzata nelle indagini campionarie, ad esempio la qualità del prodotto.

3 Dispersione intergruppo. Regola di addizione della varianza

La dispersione, a differenza di altre caratteristiche della variazione, è una quantità additiva. Cioè, in aggregato, che è diviso in gruppi secondo il criterio del fattore X , varianza risultante y può essere scomposto in varianza all'interno di ciascun gruppo (all'interno del gruppo) e varianza tra gruppi (tra gruppo). Quindi, insieme allo studio della variazione del tratto nell'intera popolazione, diventa possibile studiare la variazione in ciascun gruppo, così come tra questi gruppi.

Variazione totale misura la variazione di un tratto a sull'intera popolazione sotto l'influenza di tutti i fattori che hanno determinato tale variazione (deviazioni). È uguale al quadrato medio delle deviazioni dei singoli valori della caratteristica a della media complessiva e può essere calcolata come varianza semplice o ponderata.
Varianza intergruppo caratterizza la variazione della caratteristica effettiva a, causato dall'influenza del fattore segno X alla base del raggruppamento. Caratterizza la variazione delle medie del gruppo ed è uguale al quadrato medio delle deviazioni delle medie del gruppo dalla media totale:
,
dove è la media aritmetica dell'i-esimo gruppo;
– numero di unità nell'i-esimo gruppo (frequenza dell'i-esimo gruppo);
è la media totale della popolazione.
Varianza intragruppo riflette la variazione casuale, cioè quella parte della variazione che è causata dall'influenza di fattori non contabilizzati e non dipende dall'attributo-fattore alla base del raggruppamento. Caratterizza la variazione valori individuali rispetto alle medie del gruppo, uguale al quadrato medio delle deviazioni dei singoli valori dell'attributo a all'interno di un gruppo dalla media aritmetica di questo gruppo (media del gruppo) e viene calcolata come varianza semplice o ponderata per ciascun gruppo:
o ,
dove è il numero di unità nel gruppo.
Sulla base delle varianze intragruppo per ciascun gruppo, è possibile determinare la media complessiva delle varianze all'interno del gruppo:
.
Viene chiamata la relazione tra le tre varianze regole di addizione della varianza, secondo cui la varianza totale è uguale alla somma della varianza infragruppo e della media delle varianze infragruppo:

Esempio. Studiando l'influenza della categoria tariffaria (qualifica) dei lavoratori sul livello di produttività del loro lavoro, sono stati ottenuti i seguenti dati.
Tabella 5 - Distribuzione dei lavoratori per produzione oraria media.



p/p

Operai di 4a categoria

Operai di 5a categoria

Allenarsi
operaio, pz.,

Allenarsi
operaio, pz.,

1
2
3
4
5
6

7
9
9
10
12
13

7-10=-3
9-10=-1
-1
0
2
3

9
1
1
0
4
9

1
2
3
4

14
14
15
17

14-15=-1
-1
0
2

1
1
0
4

A questo esempio i lavoratori sono divisi in due gruppi secondo un criterio fattoriale X- qualifiche, che sono caratterizzate dal loro grado. Il tratto effettivo - produzione - varia sia sotto la sua influenza (variazione intergruppo) sia a causa di altri fattori casuali (variazione intragruppo). La sfida consiste nel misurare queste variazioni utilizzando tre varianze: totale, tra i gruppi e all'interno del gruppo. Il coefficiente di determinazione empirico mostra la proporzione della variazione della caratteristica risultante a sotto l'influenza di un segno di fattore X. Il resto della variazione totale a causato da cambiamenti in altri fattori.
Nell'esempio, il coefficiente di determinazione empirico è:
o 66,7%,
Ciò significa che il 66,7% della variazione della produttività del lavoro dei lavoratori è dovuto alle differenze nelle qualifiche e il 33,3% all'influenza di altri fattori.
Relazione di correlazione empirica mostra la stretta relazione tra il raggruppamento e le caratteristiche effettive. Si calcola come radice quadrata del coefficiente di determinazione empirico:

Il rapporto di correlazione empirica, così come, può assumere valori da 0 a 1.
Se non c'è connessione, allora =0. In questo caso, =0, cioè le medie del gruppo sono uguali tra loro e non vi è alcuna variazione intergruppo. Ciò significa che il segno di raggruppamento - il fattore non influisce sulla formazione della variazione generale.
Se la relazione è funzionale, allora =1. In questo caso, la varianza delle medie di gruppo è uguale alla varianza totale (), cioè non vi è alcuna variazione intragruppo. Ciò significa che la caratteristica di raggruppamento determina completamente la variazione della caratteristica risultante da studiare.
Quanto più vicino è il valore della relazione di correlazione a uno, tanto più vicina, vicina alla dipendenza funzionale, la relazione tra le caratteristiche.
Per una valutazione qualitativa della vicinanza della connessione tra i segni si utilizzano le relazioni di Chaddock.

Nell'esempio , che indica una stretta relazione tra la produttività dei lavoratori e le loro qualifiche.