Quando si calcola il coefficiente di variazione, vengono utilizzati gli indicatori.  Parametri statistici

Quando si calcola il coefficiente di variazione, vengono utilizzati gli indicatori. Parametri statistici

Caratteristica Variazione determinato da vari fattori, alcuni di questi fattori possono essere identificati se la popolazione statistica è suddivisa in gruppi in base a un determinato attributo. Quindi, insieme allo studio della variazione del tratto nella popolazione nel suo complesso, è possibile studiare la variazione per ciascuno dei suoi gruppi costituenti e tra questi gruppi. In un caso semplice, quando la popolazione è suddivisa in gruppi in base a un fattore, lo studio della variazione si ottiene calcolando e analizzando tre tipi di varianze: generale, intergruppo e infragruppo.

Coefficiente empirico di determinazione

Coefficiente empirico di determinazione ampiamente usato in analisi statistica ed è un indicatore che rappresenta la quota di dispersione intergruppo nel tratto risultante e caratterizza la forza dell'influenza del tratto di raggruppamento sulla formazione della variazione complessiva. Può essere calcolato utilizzando la formula:

Mostra la quota di variazione della caratteristica risultante y sotto l'influenza della caratteristica del fattore x, è associata al coefficiente di correlazione da una dipendenza quadratica. In assenza di una connessione, il coefficiente empirico di determinazione è zero e, nel caso di una connessione funzionale, è uno.

Ad esempio, quando si studia la dipendenza della produttività del lavoro dei lavoratori dalle loro qualifiche, il coefficiente di determinazione è 0,7, quindi il 70% della variazione della produttività del lavoro dei lavoratori è dovuto alle differenze nelle loro qualifiche e il 30% è dovuto all'influenza di altri fattori.

La correlazione empirica è Radice quadrata dal coefficiente di determinazione. Il rapporto mostra la tenuta della connessione tra il raggruppamento e le caratteristiche effettive. Il rapporto di correlazione empirico assume valori da -1 a 1. Se non c'è connessione, il rapporto di correlazione è zero, cioè Tutte le medie di gruppo sono uguali e non vi è alcuna variazione intergruppo. Ciò significa che il tratto di raggruppamento non influisce sulla formazione della variazione generale.

Se la connessione è funzionale, il rapporto di correlazione è uguale a uno. In questo caso, la varianza delle medie di gruppo è uguale alla varianza totale, cioè nessuna variazione infragruppo. Ciò significa che la caratteristica di raggruppamento determina completamente la variazione della caratteristica risultante.

Più il valore del rapporto di correlazione è vicino a uno, più forte e vicina alla dipendenza funzionale è la relazione tra le caratteristiche. Per una valutazione qualitativa della forza della relazione basata sull'indicatore del coefficiente di correlazione empirica, è possibile utilizzare il rapporto Chaddock.

Rapporto chaddock

  • La connessione è molto stretta - il coefficiente di correlazione è compreso tra 0,9 e 0,99
  • Chiudi connessione - Rxy = 0,7 - 0,9
  • La connessione è evidente: Rxy \u003d 0,5 - 0,7
  • La comunicazione è moderata - Rxy = 0,3 - 0,5
  • La connessione è debole - Rxy = 0,1 - 0,3

I valori ottenuti dall'esperienza contengono inevitabilmente errori dovuti a una serie di motivi. Tra questi, dovrebbero essere distinti gli errori sistematici e casuali. Gli errori sistematici sono dovuti a cause che agiscono in modo ben preciso, e possono sempre essere eliminati o presi in considerazione con sufficiente accuratezza. Gli errori casuali sono causati da un numero molto elevato di cause individuali che non possono essere spiegate con precisione e agiscono in modo diverso in ogni singola misurazione. Questi errori non possono essere completamente esclusi; possono essere presi in considerazione solo in media, per i quali è necessario conoscere le leggi a cui sono soggetti gli errori casuali.

Indicheremo il valore misurato con A e l'errore casuale nella misura x. Poiché l'errore x può assumere qualsiasi valore, è continuo variabile casuale, che è pienamente caratterizzato dalla sua legge di distribuzione.

La realtà più semplice e che riflette più accuratamente (nella stragrande maggioranza dei casi) è la cosiddetta distribuzione normale degli errori:

Questa legge di distribuzione può essere ottenuta da varie premesse teoriche, in particolare, dal requisito che il valore più probabile di una quantità sconosciuta per la quale si ottiene una serie di valori con lo stesso grado di accuratezza mediante misurazione diretta sia la media aritmetica di questi valori. Viene chiamato il valore 2 dispersione di questa legge normale.

Media

Determinazione della dispersione secondo dati sperimentali. Se per qualsiasi quantità A, n valori a i sono ottenuti mediante misurazione diretta con lo stesso grado di accuratezza, e se gli errori nella quantità A sono soggetti alla normale legge di distribuzione, allora il valore più probabile di A sarà media:

a - media aritmetica,

a i - valore misurato all'i-esimo passo.

Deviazione del valore osservato (per ogni osservazione) a i del valore A da significato aritmetico: a io - a.

Per determinare la dispersione della normale distribuzione degli errori in questo caso, utilizzare la formula:

2 - dispersione,
a - media aritmetica,
n è il numero di misurazioni dei parametri,

deviazione standard

deviazione standard mostra la deviazione assoluta dei valori misurati da significato aritmetico. Secondo la formula per la misura della precisione della combinazione lineare errore quadratico medio della radice la media aritmetica è determinata dalla formula:

, dove


a - media aritmetica,
n è il numero di misurazioni dei parametri,
a i - valore misurato all'i-esimo passo.

Il coefficiente di variazione

Il coefficiente di variazione caratterizza il relativo grado di deviazione dei valori misurati da significato aritmetico:

, dove

V - coefficiente di variazione,
- deviazione standard,
a - media aritmetica.

Come più valore coefficiente di variazione, quanto maggiore è la dispersione e minore è l'uniformità dei valori studiati. Se una il coefficiente di variazione inferiore al 10%, quindi la variabilità serie di variazione considerato non significativo, dal 10% al 20% si riferisce a medio, superiore al 20% e inferiore al 33% a significativo, e se il coefficiente di variazione supera il 33%, questo indica l'eterogeneità delle informazioni e la necessità di escludere i valori più grandi e più piccoli.

Deviazione lineare media

Uno degli indicatori della gamma e dell'intensità della variazione è deviazione lineare media(modulo medio di deviazione) dalla media aritmetica. Deviazione lineare media calcolato dalla formula:

, dove

_
a - deviazione lineare media,
a - media aritmetica,
n è il numero di misurazioni dei parametri,
a i - valore misurato all'i-esimo passo.

Per verificare la conformità dei valori studiati con la legge della distribuzione normale, viene utilizzata la relazione indice di asimmetria al suo errore e al suo atteggiamento indicatore di curtosi al suo errore.

Indice di asimmetria

Indice di asimmetria(A) e il suo errore (m a) è calcolato utilizzando le seguenti formule:

, dove

A - indicatore di asimmetria,
- deviazione standard,
a - media aritmetica,
n è il numero di misurazioni dei parametri,
a i - valore misurato all'i-esimo passo.

Indicatore di curtosi

Indicatore di curtosi(E) e il suo errore (m e) è calcolato utilizzando le seguenti formule:

, dove

La variazione viene misurata utilizzando valori relativi chiamati coefficienti di variazione e definiti come il rapporto tra la deviazione media e la media. Il coefficiente di variazione viene utilizzato non solo per una valutazione comparativa della variazione delle unità della popolazione, ma anche come caratteristica dell'omogeneità della popolazione. I valori del coefficiente di variazione variano da 0 a 100%, e più è vicino a zero, più tipico è il valore medio trovato per la popolazione statistica in studio, e quindi migliore è la selezione dei dati statistici. L'insieme è considerato quantitativamente omogeneo se il coefficiente di variazione non supera il 33% (per distribuzioni vicine alla normalità). Esistono i seguenti indicatori relativi di variazione:

Il coefficiente di variazione:

dove è la deviazione standard, è la media aritmetica.

Coefficiente di variazione lineare:

dove è la deviazione lineare media.

Fattore di oscillazione:

dove è l'intervallo di variazione.

Calcoliamo i coefficienti di variazione per un gruppo di organizzazioni in termini di fatturato del trasporto merci su strada (tabella 5.1) utilizzando le formule 5.9, 5.10, 5.11

Il coefficiente di variazione sarà pari a: , che supera il 33%, quindi la popolazione è eterogenea.

Calcoliamo il coefficiente di variazione lineare: . Di conseguenza, la quota del valore medio delle deviazioni assolute delle organizzazioni da di medie dimensioni pari al 30,7%

Trova il coefficiente di oscillazione: . Ne consegue che la differenza tra i valori massimo e minimo delle organizzazioni supera il valore medio di quasi 1.078 volte.

Determiniamo i coefficienti di variazione per raggruppare le superfici dei locali residenziali (in media per abitante) (Tabella 5.3).

Calcoliamo il coefficiente di variazione utilizzando la formula (5.9):

. Ciò significa che il coefficiente di variazione non supera il 33%, quindi la popolazione è omogenea.

Calcoliamo il coefficiente di variazione lineare secondo la formula (5.10):

. Ciò significa che la quota del valore medio degli scostamenti assoluti delle superfici dei locali residenziali dal valore medio è del 5,56%.

Troviamo il coefficiente di oscillazione con la formula (5.11):

. La differenza tra i valori massimo e minimo dei locali residenziali non supera il valore medio.

CALCOLO E COSTRUZIONE DELLE CARATTERISTICHE STRUTTURALI DI UNA SERIE VARIAZIONALE

Un po' di più sull'argomento

Economia politica di D. Ricardo come ideologo della rivoluzione industriale
Nell'ultimo terzo del XVIII sec. La rivoluzione industriale iniziò in Inghilterra. Per diversi decenni nell'industria leggera, un'invenzione si è susseguita. L'intero processo di produzione in questo settore è stato trasferito su una base di macchina. A poco a poco, la rivoluzione si estese ad altri rami dell'industria leggera, e poi all'industria pesante. L'onnipresente pe...

Uno dei principali indicatori statistici della sequenza di numeri è il coefficiente di variazione. Per trovarlo, vengono effettuati calcoli piuttosto complessi. Strumenti Microsoft Excel renderli molto più facili per l'utente.

Questo indicatore è il rapporto tra la deviazione standard e la media aritmetica. Il risultato ottenuto è espresso in percentuale.

In Excel non esiste una funzione separata per il calcolo di questo indicatore, ma esistono formule per calcolare la deviazione standard e la media aritmetica di una serie di numeri, ovvero vengono utilizzate per trovare il coefficiente di variazione.

Passaggio 1: calcola la deviazione standard

La deviazione standard, o, come viene chiamata in altro modo, deviazione standard, è la radice quadrata di . La funzione viene utilizzata per calcolare la deviazione standard DEV.ST. A partire da Excel 2010, è suddiviso in base a popolazione c'è un calcolo o per campionamento, in due opzioni separate: DEV.ST.G e DEV.ST.V.

La sintassi di queste funzioni è simile alla seguente:

DEV.ST(Numero1, Numero2,…)
= DEV.ST.G(Numero1, Numero2,…)
= DEV.ST.B(Numero1, Numero2,…)


Passaggio 2: calcola la media aritmetica

La media aritmetica è il rapporto tra la somma totale di tutti i valori della serie numerica e il loro numero. Per calcolare questo indicatore, esiste anche una funzione separata: MEDIA. Calcoliamo il suo valore su un esempio specifico.


Passaggio 3: trovare il coefficiente di variazione

Ora abbiamo tutti i dati necessari per calcolare direttamente il coefficiente di variazione stesso.


Pertanto, abbiamo calcolato il coefficiente di variazione, facendo riferimento alle celle in cui sono già state calcolate la deviazione standard e la media aritmetica. Ma puoi farlo in un modo leggermente diverso, senza calcolare questi valori separatamente.


C'è una distinzione condizionale. Si ritiene che se il coefficiente di variazione è inferiore al 33%, l'insieme dei numeri è omogeneo. Altrimenti, è consuetudine caratterizzarlo come eterogeneo.

Come puoi vedere, il programma Excel ti consente di semplificare notevolmente il calcolo di un calcolo statistico così complesso come la ricerca del coefficiente di variazione. Sfortunatamente, l'applicazione non ha ancora una funzione che calcoli questo indicatore in un solo passaggio, ma con l'aiuto degli operatori DEV.ST e MEDIA questo compito è notevolmente semplificato. Quindi, anche una persona che non ha alto livello conoscenze relative alle regolarità statistiche.

CALCOLO DEGLI INDICATORI DI VARIAZIONE

LAVORO PRATICO 3

Obbiettivo: acquisire abilità pratiche nel calcolo di vari indicatori (misure) di variazione a seconda dei compiti fissati dallo studio.

Ordine di lavoro:

1. Determinare il tipo e la forma (semplice o ponderata) degli indicatori di variazione.

3. Formulare conclusioni.

1. Determinazione del tipo e della forma degli indicatori di variazione.

Gli indicatori di variazione sono divisi in due gruppi: assoluti e relativi. Quelli assoluti includono: l'intervallo di variazione, la deviazione quartile, la deviazione lineare media, la varianza e la deviazione standard. Gli indicatori relativi sono coefficienti di oscillazione, variazioni, deviazione lineare relativa, indicatore relativo di variazione quartile, ecc.

Intervallo di variazione (R)è la misura più semplice della variazione di tratto ed è determinata dalla seguente formula:

dove - valore più alto segno variabile;

– il valore più piccolo della caratteristica variabile.

Deviazione quartile (Q)- utilizzato per caratterizzare la variazione di un tratto nell'aggregato. Può essere utilizzato al posto dell'intervallo di variazione per evitare gli svantaggi dell'utilizzo degli estremi.

dove e sono rispettivamente il primo e il terzo quartile della distribuzione.

Quartili- sono i valori dell'attributo nella serie di distribuzione classificata, scelti in modo tale che il 25% delle unità di popolazione risulti inferiore a ; Il 25% delle unità sarà racchiuso tra e ; Il 25% delle unità sarà compreso tra e e il restante 25% sarà superiore a .

I quartili 1 e 3 sono determinati dalle formule:

,

Dove è il limite inferiore dell'intervallo in cui si trova il primo quartile;

- la somma delle frequenze accumulate degli intervalli precedenti l'intervallo in cui si trova il primo quartile;

- la frequenza dell'intervallo in cui si trova il primo quartile.

dove Me è la mediana della serie;

,

le convenzioni sono le stesse delle quantità .

Nelle distribuzioni simmetriche o moderatamente asimmetriche, Q»2/3s. Poiché la deviazione quartile non è influenzata dalle deviazioni di tutti i valori dell'attributo, il suo utilizzo dovrebbe essere limitato ai casi in cui la determinazione della deviazione standard è difficile o impossibile.

Deviazione lineare media () rappresenta il valore medio delle deviazioni assolute delle varianti di tratto dalla loro media. Può essere calcolato utilizzando la formula della media aritmetica, sia non ponderata che ponderata, a seconda dell'assenza o della presenza di frequenze nella serie di distribuzione.



Deviazione lineare media non ponderata,

- deviazione lineare media ponderata.

varianza()– scarti quadratici medi valori individuali segno dal loro valore medio. La varianza viene calcolata utilizzando le semplici formule non ponderate e ponderate.

- non ponderato,

- ponderato.

Deviazioni standard)- l'indicatore di variazione più comune è la radice quadrata del valore di varianza.

L'intervallo di variazione, la deviazione quartile, le deviazioni medie lineari e quadratiche sono denominate quantità, hanno la dimensione della caratteristica media. La varianza non ha unità di misura.

Ai fini del confronto della volatilità vari segni nella stessa popolazione o quando si confrontano le fluttuazioni dello stesso carattere in più popolazioni, vengono calcolati i relativi indicatori di variazione. La base per il confronto è la media aritmetica. Molto spesso, gli indicatori relativi sono espressi in percentuale e caratterizzano non solo una valutazione comparativa della variazione, ma caratterizzano anche l'omogeneità della popolazione.

Fattore di oscillazione(intervallo relativo di variazione) è calcolato dalla formula:

,

Coefficiente di variazione lineare(deviazione lineare relativa):

Indicatore relativo della variazione quartile:

o

Il coefficiente di variazione:

,

L'indicatore più comunemente usato della volatilità relativa nelle statistiche è il coefficiente di variazione. Viene utilizzato non solo per una valutazione comparativa della variazione, ma anche come caratteristica dell'omogeneità della popolazione. Maggiore è il valore del coefficiente di variazione, maggiore è la diffusione dei valori dei tratti attorno alla media, maggiore è l'eterogeneità della popolazione. Esiste una scala per determinare il grado di omogeneità della popolazione, in funzione dei valori del coefficiente di variazione (17; C.61).

Per avere un'idea approssimativa della forma della distribuzione, vengono costruiti grafici di distribuzione (un poligono e un istogramma).

Nella pratica della ricerca statistica si deve incontrare una varietà di distribuzioni. Quando si studiano popolazioni omogenee, si tratta, di regola, di distribuzioni unimodali. Multivertex indica l'eterogeneità della popolazione studiata, la comparsa di due o più vertici indica la necessità di raggruppare i dati per identificare gruppi più omogenei. Scoprire la natura generale della distribuzione comporta la valutazione del grado della sua omogeneità, nonché il calcolo degli indicatori di asimmetria e curtosi. simmetricoè una distribuzione in cui le frequenze di due varianti equidistanti su entrambi i lati del centro di distribuzione sono uguali. Per le distribuzioni simmetriche, la media aritmetica, la moda e la mediana sono uguali. Per questo motivo, la misura più semplice asimmetrie in base al rapporto tra gli indicatori del centro di distribuzione: di più differenza tra le medie, maggiore è l'asimmetria della serie.

Per caratterizzare l'asimmetria nella parte centrale della distribuzione, cioè la maggior parte delle unità, o per analisi comparativa il grado di asimmetria di diverse distribuzioni calcola l'indicatore relativo dell'asimmetria di K. Pearson:

Il valore As può essere positivo o negativo. Un valore positivo dell'indicatore indica la presenza di asimmetria verso destra (il ramo destro è più esteso rispetto all'ordinata massima rispetto a quello sinistro). Con l'asimmetria del lato destro, esiste una relazione tra gli indicatori del centro di distribuzione: . Il segno negativo dell'indice di asimmetria indica la presenza di asimmetria sinistra (Fig. 1). In questo caso, esiste una relazione tra gli indicatori del centro di distribuzione: .



Riso. 1. Distribuzione:

1 - con asimmetria del lato sinistro; 2 - con asimmetria del lato destro.

Un altro indicatore, proposto dal matematico svedese Lindberg, è calcolato dalla formula:

dove P è la percentuale di quei valori di tratto che superano la media aritmetica in valore.

Il più accurato e comune è l'indicatore basato sulla determinazione del momento centrale del terzo ordine (in una distribuzione simmetrica, il suo valore è zero):

dove è il momento centrale del terzo ordine:

σ è la deviazione standard.

L'uso di questo indicatore consente non solo di determinare l'entità dell'asimmetria, ma anche di rispondere alla domanda sulla presenza o assenza di asimmetria nella distribuzione di un tratto nella popolazione generale. Una valutazione del grado di significatività di questo indicatore viene data utilizzando l'errore quadratico medio, che dipende dal volume delle osservazioni n ed è calcolato dalla formula:

.

Se il rapporto è , l'asimmetria è significativa e la distribuzione del tratto nella popolazione generale non è simmetrica. Se la relazione , l'asimmetria è insignificante, la sua presenza può essere spiegata dall'influenza di varie circostanze casuali.

Per le distribuzioni simmetriche, viene calcolato l'indicatore curtosi(a punta). Lindberg ha proposto il seguente indicatore per valutare la curtosi:

,

dove P è la proporzione (%) del numero di opzioni che si trovano nell'intervallo pari alla metà della deviazione standard in una direzione o nell'altra dalla media aritmetica.

Il più accurato è l'indicatore che utilizza il momento centrale del quarto ordine:

dov'è il momento centrale del quarto momento;

- per dati non raggruppati;

- per i dati raggruppati.

La Figura 2 mostra due distribuzioni: una ha il picco (il valore della curtosi è positivo), la seconda è piatta (il valore della curtosi è negativo). La curtosi è una caduta della parte superiore della distribuzione empirica verso l'alto o verso il basso rispetto alla parte superiore della curva di distribuzione normale. In una distribuzione normale, il rapporto .



Riso. 2. Distribuzione:

1.4 - normale; 2 - appuntito; 3 - cima piatta

L'errore quadratico medio della curtosi è calcolato dalla formula:

,

dove n è il numero di osservazioni.

Se , allora la curtosi è significativa; se , allora è insignificante.

Una valutazione del significato degli indicatori di asimmetria e curtosi ci consente di concludere se questo studio empirico può essere attribuito al tipo di curve di distribuzione normali.

2. Considerare il metodo di calcolo degli indicatori di variazione.