L'ordine di costruzione delle serie di distribuzione degli intervalli.  Costruzione di una serie di variazioni di intervallo per dati quantitativi continui

L'ordine di costruzione delle serie di distribuzione degli intervalli. Costruzione di una serie di variazioni di intervallo per dati quantitativi continui

2. Il concetto di serie di distribuzione. Serie di distribuzione discreta e di intervallo

righe di distribuzione vengono chiamati i raggruppamenti tipo speciale, in cui il numero di unità nel gruppo è noto per ciascun attributo, gruppo di attributi o classe di attributi, o peso specifico questo numero in totale. Quelli. serie di distribuzione– un insieme ordinato di valori di attributo disposti in ordine crescente o decrescente con i relativi pesi. Le serie di distribuzione possono essere costruite per quantità o per attributo.

Le serie di distribuzione costruite su base quantitativa sono chiamate serie di variazione. Sono discreto e intervallo. Una serie di distribuzione può essere costruita su una caratteristica che varia continuamente (quando una caratteristica può assumere qualsiasi valore all'interno di un intervallo) e su una caratteristica che varia discretamente (prende valori interi rigorosamente definiti).

discreto la serie di distribuzione variazionale è un insieme a intervalli di varianti con le loro frequenze o dettagli corrispondenti. Le varianti di una serie discreta cambiano in modo discreto e discontinuo i valori di un segno, di solito questo è il risultato di un conteggio.

Discreto

le serie di variazioni vengono solitamente costruite se i valori del tratto in studio possono differire tra loro di almeno un valore finito. Nelle serie discrete, vengono specificati i valori in punti di una caratteristica. Esempio : Distribuzione di abiti da uomo venduti dai negozi al mese per taglia.

intervallo

una serie variazionale è un insieme ordinato di intervalli di variazione dei valori di una variabile casuale con le frequenze o frequenze corrispondenti dei valori della quantità che cadono in ciascuna di esse. Le serie di intervalli sono progettate per analizzare la distribuzione di una caratteristica in continua evoluzione, il cui valore viene spesso registrato mediante misurazione o ponderazione. Le varianti di tale riga sono un raggruppamento.

Esempio : Distribuzione degli acquisti in drogheria per importo.

Se nelle serie variazionali discrete la risposta in frequenza si riferisce direttamente alla variante della serie, in quelle a intervallo al gruppo delle varianti.

È conveniente analizzare le serie di distribuzione utilizzando la loro rappresentazione grafica, che consente di giudicare sia la forma della distribuzione che i modelli. Una serie discreta viene visualizzata sul grafico come una linea spezzata - area di distribuzione. Per costruirlo sistema rettangolare coordinate lungo l'asse delle ascisse, i valori classificati (ordinati) della caratteristica variabile sono tracciati sulla stessa scala e la scala per esprimere le frequenze viene tracciata lungo l'asse delle ordinate.

Le serie di intervalli vengono visualizzate come istogrammi di distribuzione(es. grafici a barre).

Quando si costruisce un istogramma, i valori degli intervalli sono tracciati sull'asse delle ascisse e le frequenze sono rappresentate da rettangoli costruiti sugli intervalli corrispondenti. L'altezza delle colonne nel caso di intervalli uguali dovrebbe essere proporzionale alle frequenze.

Qualsiasi istogramma può essere convertito in un poligono di distribuzioni; per questo è necessario collegare i vertici dei suoi rettangoli con segmenti retti.

2. Metodo dell'indice per analizzare l'impatto della produzione media e dell'organico medio sulle variazioni della produzione

Metodo dell'indice viene utilizzato per analizzare le dinamiche e confrontare indicatori generali, nonché fattori che influenzano il cambiamento nei livelli di tali indicatori. Con l'aiuto di indici è possibile rilevare l'influenza della produzione media e dell'organico medio sulle variazioni del volume di produzione. Questo problema viene risolto costruendo un sistema di indici analitici.

L'indice del volume di produzione con l'indice del numero medio dei dipendenti e l'indice di produzione media è correlato allo stesso modo in cui il volume di produzione (Q) è correlato alla produzione ( w) e numero ( r) .

Possiamo concludere che il volume di produzione sarà uguale al prodotto della produzione media e dell'organico medio:

Q = w r, dove Q è il volume di produzione,

w - produzione media,

r è l'organico medio.

Come visto, noi stiamo parlando sulla relazione dei fenomeni nella statica: il prodotto di due fattori dà il volume totale del fenomeno risultante. È anche ovvio che questa connessione è funzionale, quindi la dinamica di questa connessione viene studiata con l'aiuto di indici. Per l'esempio fornito, questo è il seguente sistema:

J w × J r = J wr .

Ad esempio, l'indice di volume di produzione Jwr, come indice di un fenomeno risultante, può essere scomposto in due fattori indici: l'indice di produzione media (Jw) e l'indice di organico medio (Jr):

Indice Indice Indice

il volume della media

forza di produzione

dove J w- indice di produttività del lavoro calcolato con la formula di Laspeyres;

Jr- indice del numero dei dipendenti, calcolato secondo la formula Paasche.

I sistemi di indici vengono utilizzati per determinare l'influenza dei singoli fattori sulla formazione del livello dell'indicatore efficace, consentono di determinare il valore dell'incognita di 2 valori di indice noti.

Sulla base del suddetto sistema di indici, si può trovare anche l'aumento assoluto del volume di produzione, scomposto nell'influenza dei fattori.

1. Aumento totale del volume di produzione:

∆wr = ∑w 1 r 1 - ∑w 0 r 0 .

2. Crescita dovuta all'azione dell'indicatore di output medio:

∆wr/w = ∑w 1 r 1 - ∑w 0 r 1 .

3. Crescita per azione dell'indicatore dell'organico medio:

∆wr/r = ∑w 0 r 1 - ∑w 0 r 0

∆wr = ∆wr/w + ∆wr/r.

Esempio. Le seguenti informazioni sono note

Possiamo determinare come è cambiato il volume di produzione in termini relativi e assoluti e come fattori individuali influenzato questo cambiamento.

Il volume di produzione è stato pari a:

nel periodo base

w 0 * r 0 \u003d 2000 * 90 \u003d 180000,

e nella rendicontazione

w 1 * r 1 \u003d 2100 * 100 \u003d 210000.

Di conseguenza, il volume della produzione è aumentato di 30.000 unità, ovvero dell'1,16%.

∆wr=∑w 1 r 1 -∑w 0 r 0= (210000-180000)=30000

o (210000:180000)*100%=1,16%.

Questa variazione del volume di produzione è dovuta a:

1) aumento dell'organico medio di 10 persone ovvero del 111,1%

r 1 / r 0 \u003d 100 / 90 \u003d 1,11 o 111,1%.

In termini assoluti, a causa di questo fattore, il volume della produzione è aumentato di 20.000:

w 0 r 1 - w 0 r 0 \u003d w 0 (r 1 -r 0) \u003d 2000 (100-90) \u003d 20000.

2) un aumento della produzione media del 105% o di 10.000:

w 1 r 1 / w 0 r 1 \u003d 2100 * 100 / 2000 * 100 \u003d 1,05 o 105%.

In termini assoluti l'incremento è:

w 1 r 1 - w 0 r 1 \u003d (w 1 -w 0) r 1 \u003d (2100-2000) * 100 \u003d 10000.

Quindi, l'influenza combinata dei fattori è stata:

1. In termini assoluti

10000 + 20000 = 30000

2. In termini relativi

1,11 * 1,05 = 1,16 (116%)

Pertanto, l'aumento è dell'1,16%. Entrambi i risultati sono stati ottenuti in precedenza.

La parola "indice" nella traduzione significa puntatore, indicatore. In statistica, l'indice è interpretato come un indicatore relativo che caratterizza il cambiamento di un fenomeno nel tempo, nello spazio o nel confronto con il piano. Poiché l'indice è un valore relativo, i nomi degli indici sono in consonanza con i nomi dei valori relativi.

Nei casi in cui analizziamo il cambiamento nel tempo di un prodotto confrontato, possiamo porre la domanda su come in varie condizioni(in diverse aree) cambiano le componenti dell'indice (prezzo, volume fisico, struttura della produzione o vendita di alcune tipologie di prodotti). A questo proposito, vengono costruiti indici di composizione costante, composizione variabile e spostamenti strutturali.

Indice di composizione permanente (fisso) - si tratta di un indice che caratterizza la dinamica del valore medio a parità di struttura fissa della popolazione.

Il principio di costruzione di un indice di composizione costante è quello di eliminare l'influenza delle variazioni nella struttura dei pesi sul valore indicizzato calcolando il livello medio ponderato dell'indicatore indicizzato con gli stessi pesi.

L'indice di composizione costante è identico nella forma all'indice aggregato. La forma aggregata è la più comune.

L'indice di composizione costante è calcolato con pesi fissati a livello di uno di qualsiasi periodo, e mostra la variazione solo del valore indicizzato. L'indice di composizione costante elimina l'influenza delle variazioni della struttura dei pesi sul valore indicizzato calcolando il livello medio ponderato dell'indicatore indicizzato a parità di pesi. Negli indici a composizione costante vengono confrontati indicatori calcolati sulla base di una struttura costante dei fenomeni.

La fase più importante nello studio dei fenomeni e dei processi socioeconomici è la sistematizzazione dei dati primari e, su questa base, l'ottenimento di una caratteristica di sintesi dell'intero oggetto utilizzando indicatori generalizzanti, che si ottiene riassumendo e raggruppando materiale statistico primario.

Riassunto statistico - si tratta di un complesso di operazioni sequenziali per generalizzare specifici singoli fatti che formano un insieme, per identificare caratteristiche e pattern tipici insiti nel fenomeno in esame nel suo complesso. L'esecuzione di un riepilogo statistico include i seguenti passaggi :

  • scelta della funzione di raggruppamento;
  • determinazione dell'ordine di formazione dei gruppi;
  • sistema di sviluppo indicatori statistici caratterizzare i gruppi e l'oggetto nel suo insieme;
  • sviluppo di schemi di tabelle statistiche per la presentazione dei risultati di sintesi.

Raggruppamento statistico chiamato divisione delle unità della popolazione studiata in gruppi omogenei secondo determinate caratteristiche che sono per loro essenziali. I raggruppamenti sono il metodo statistico più importante per riassumere i dati statistici, la base per il corretto calcolo degli indicatori statistici.

Esistono i seguenti tipi di raggruppamento: tipologico, strutturale, analitico. Tutti questi raggruppamenti sono accomunati dal fatto che le unità dell'oggetto sono divise in gruppi secondo alcuni attributi.

segno di raggruppamento è chiamato il segno con cui le unità della popolazione sono divise in gruppi separati. Da giusta scelta caratteristica di raggruppamento dipende dalle conclusioni dello studio statistico. Come base per il raggruppamento, è necessario utilizzare caratteristiche significative, teoricamente comprovate (quantitative o qualitative).

Segni quantitativi di raggruppamento avere un'espressione numerica (volume degli scambi, età di una persona, reddito familiare, ecc.), e caratteristiche qualitative del raggruppamento riflettono lo stato dell'unità di popolazione (sesso, stato civile, l'affiliazione industriale dell'impresa, la sua forma di proprietà, ecc.).

Dopo aver determinato la base del raggruppamento, dovrebbe essere decisa la questione del numero di gruppi in cui dovrebbe essere suddivisa la popolazione in studio. Il numero dei gruppi dipende dagli obiettivi dello studio e dal tipo di indicatore alla base del raggruppamento, dal volume della popolazione, dal grado di variazione del tratto.

Ad esempio, il raggruppamento delle imprese secondo le forme di proprietà tiene conto del patrimonio comunale, federale e dei soggetti della federazione. Se il raggruppamento viene effettuato su base quantitativa, è necessario invertire Attenzione speciale sul numero di unità dell'oggetto in studio e sul grado di fluttuazione dell'attributo di raggruppamento.

Una volta determinato il numero di gruppi, è necessario determinare gli intervalli di raggruppamento. Intervallo - questi sono i valori di una caratteristica variabile che si trovano entro certi limiti. Ogni intervallo ha un proprio valore, limiti superiore e inferiore, o almeno uno di essi.

Il limite inferiore dell'intervallo è chiamato il valore più piccolo dell'attributo nell'intervallo, e limite superiore - il valore più grande dell'attributo nell'intervallo. Il valore dell'intervallo è la differenza tra i limiti superiore e inferiore.

Gli intervalli di raggruppamento, a seconda della loro dimensione, sono: uguali e disuguali. Se la variazione del tratto si manifesta in confini relativamente stretti e la distribuzione è uniforme, viene costruito un raggruppamento con intervalli uguali. Il valore di un intervallo uguale è determinato dalla formula seguente :

dove Xmax, Xmin - i valori massimo e minimo dell'attributo nell'aggregato; n è il numero di gruppi.

Il raggruppamento più semplice, in cui ogni gruppo selezionato è caratterizzato da un indicatore, è una serie di distribuzione.

Serie di distribuzione statistica - questa è una distribuzione ordinata delle unità di popolazione in gruppi secondo un determinato attributo. A seconda del tratto alla base della formazione di una serie di distribuzione, si distinguono serie di distribuzione attributiva e variazione.

attributivo chiamano le serie di distribuzione costruite secondo caratteristiche qualitative, cioè segni che non hanno un'espressione numerica (distribuzione per tipo di lavoro, per sesso, per professione, ecc.). Le serie di distribuzione degli attributi caratterizzano la composizione della popolazione secondo l'una o l'altra caratteristica essenziale. Presi su più periodi, questi dati ci permettono di studiare il cambiamento nella struttura.

Righe di variazione denominate serie di distribuzione costruite su base quantitativa. Qualsiasi serie variazionale è composta da due elementi: varianti e frequenze. Opzioni vengono chiamati i singoli valori dell'attributo che assume nella serie di variazioni, ovvero il valore specifico dell'attributo variabile.

Frequenze chiamato il numero della singola variante o di ciascun gruppo serie di variazioni, ovvero questi sono numeri che mostrano la frequenza con cui si verificano determinate opzioni nelle serie di distribuzione. La somma di tutte le frequenze determina la dimensione dell'intera popolazione, il suo volume. Frequenze vengono chiamate le frequenze, espresse in frazioni di unità o in percentuale del totale. Di conseguenza, la somma delle frequenze è pari a 1 o 100%.

A seconda della natura della variazione del tratto, si distinguono tre forme della serie di variazioni: una serie classificata, serie discreta e serie di intervalli.

Serie di variazioni classificate - questa è la distribuzione delle singole unità della popolazione in ordine crescente o decrescente del carattere oggetto di studio. Il ranking semplifica la suddivisione dei dati quantitativi in ​​gruppi, il rilevamento immediato dei più piccoli e maggior valore caratteristica, evidenziare i valori che si ripetono più spesso.

Serie di variazioni discrete caratterizza la distribuzione delle unità di popolazione secondo un attributo discreto che assume solo valori interi. Ad esempio, la categoria tariffaria, il numero di figli in famiglia, il numero di dipendenti nell'impresa, ecc.

Se un segno ha un cambiamento continuo, che entro certi limiti può assumere qualsiasi valore ("da - a"), allora per questo segno è necessario costruire serie di variazioni di intervallo . Ad esempio, l'importo del reddito, l'esperienza lavorativa, il costo delle immobilizzazioni dell'impresa, ecc.

Esempi di risoluzione di problemi sull'argomento "Riepilogo statistico e raggruppamento"

Compito 1 . Sono disponibili informazioni sul numero di libri ricevuti dagli studenti in abbonamento per l'anno accademico trascorso.

Costruisci una serie di distribuzione variazionale a intervalli e discreti, che denoti gli elementi della serie.

Soluzione

Questo set è un insieme di opzioni per il numero di libri che gli studenti ricevono. Contiamo il numero di tali varianti e disponiamole sotto forma di serie di distribuzione variazionale classificata e variazionale discreta.

Compito 2 . Ci sono dati sul valore delle immobilizzazioni per 50 imprese, migliaia di rubli.

Costruisci una serie di distribuzione, evidenziando 5 gruppi di imprese (a intervalli uguali).

Soluzione

Per la soluzione, scegliamo i valori più grandi e più piccoli del costo delle immobilizzazioni delle imprese. Questi sono 30,0 e 10,2 mila rubli.

Trova la dimensione dell'intervallo: h \u003d (30,0-10,2): 5 \u003d 3,96 mila rubli.

Quindi il primo gruppo includerà le imprese, il cui importo delle immobilizzazioni è di 10,2 mila rubli. fino a 10,2 + 3,96 = 14,16 mila rubli. Ci saranno 9 di queste imprese Il secondo gruppo includerà imprese, il cui importo delle immobilizzazioni sarà di 14,16 mila rubli. fino a 14,16 + 3,96 = 18,12 mila rubli. Le imprese di questo tipo saranno 16. Allo stesso modo, troviamo il numero di imprese incluse nel terzo, quarto e quinto gruppo.

La serie di distribuzione risultante viene inserita nella tabella.

Compito 3 . Per un certo numero di imprese del settore leggero, sono stati ottenuti i seguenti dati:

Fare un raggruppamento di imprese in base al numero di lavoratori, formando 6 gruppi a intervalli uguali. Conta per ogni gruppo:

1. numero di imprese
2. numero di lavoratori
3. volume di prodotti fabbricati all'anno
4. produzione media effettiva per lavoratore
5. importo delle immobilizzazioni
6. la dimensione media patrimonio fisso di un'impresa
7. valore medio prodotti fabbricati da un'impresa

Registrare i risultati del calcolo nelle tabelle. Trai le tue conclusioni.

Soluzione

Per la soluzione, scegliamo i valori più grandi e più piccoli del numero medio di lavoratori nell'impresa. Questi sono 43 e 256.

Trova la dimensione dell'intervallo: h = (256-43): 6 = 35,5

Il primo gruppo comprenderà poi le imprese con un numero medio di addetti compreso tra 43 e 43 + 35,5 = 78,5 persone. Le imprese di questo tipo saranno 5. Il secondo gruppo includerà le imprese, il numero medio di lavoratori in cui sarà compreso tra 78,5 e 78,5 + 35,5 = 114 persone. Le imprese di questo tipo saranno 12. Allo stesso modo, troviamo il numero di imprese incluse nel terzo, quarto, quinto e sesto gruppo.

Mettiamo la serie di distribuzione risultante in una tabella e calcoliamo gli indicatori necessari per ciascun gruppo:

Conclusione : Come si evince dalla tabella, il secondo gruppo di imprese è il più numeroso. Comprende 12 imprese. I più piccoli sono il quinto e il sesto gruppo (due imprese ciascuno). Queste sono le imprese più grandi (in termini di numero di lavoratori).

Poiché il secondo gruppo è il più numeroso, il volume della produzione annua delle imprese di questo gruppo e il volume delle immobilizzazioni sono molto più elevati di altri. Allo stesso tempo, la produzione effettiva media di un lavoratore nelle imprese di questo gruppo non è la più alta. Le imprese del quarto gruppo sono in testa qui. Questo gruppo rappresenta anche una quantità abbastanza grande di immobilizzazioni.

In conclusione, si nota che la dimensione media delle immobilizzazioni e il valore medio della produzione di un'impresa sono direttamente proporzionali alla dimensione dell'impresa (in termini di numero di lavoratori).

Quando si costruisce serie di intervalli La distribuzione si occupa di tre domande:

  • 1. Quanti intervalli devo prendere?
  • 2. Qual è la lunghezza degli intervalli?
  • 3. Qual è la procedura per includere le unità di popolazione nei confini degli intervalli?
  • 1. Numero di intervalli può essere determinato da Formula di Sturges:

2. Lunghezza dell'intervallo o passo dell'intervallo, è solitamente determinato dalla formula

dove R- gamma di variazione.

3. L'ordine di inclusione delle unità di popolazione nei confini dell'intervallo

può essere diverso, ma quando si costruisce una serie di intervalli, la distribuzione è necessariamente definita rigorosamente.

Ad esempio, questo: [), in cui le unità della popolazione sono incluse nei limiti inferiori e non incluse nei limiti superiori, ma vengono trasferite all'intervallo successivo. L'eccezione a questa regola è l'ultimo intervallo, il cui limite superiore include l'ultimo numero della serie classificata.

I limiti degli intervalli sono:

  • chiuso - con due valori estremi dell'attributo;
  • aperto - con un valore estremo della caratteristica (prima qualche numero o Sopra un tale numero).

Per assimilare il materiale teorico, introduciamo informazioni di base per soluzioni attraverso compiti.

Ci sono dati condizionali sul numero medio di responsabili delle vendite, sul numero di merci di qualità singola da loro vendute, sul prezzo di mercato individuale per questo prodotto, nonché sul volume delle vendite di 30 aziende in una delle regioni della Federazione Russa in il primo trimestre dell'anno di riferimento (Tabella 2.1).

Tabella 2.1

Informazioni iniziali per un'attività trasversale

popolazione

gestori

Prezzo, mille rubli

Volume delle vendite, milioni di rubli

popolazione

gestori

Quantità di merce venduta, pz.

Prezzo, mille rubli

Volume delle vendite, milioni di rubli

Sulla base delle informazioni iniziali, nonché di informazioni aggiuntive, imposteremo singole attività. Quindi presentiamo la metodologia per risolverli e le soluzioni stesse.

Compito trasversale. Compito 2.1

Utilizzo della tabella dati originale. 2.1 richiesto costruire una serie discreta di distribuzione delle imprese per il numero di beni venduti (Tabella 2.2).

Soluzione:

Tabella 2.2

Serie discreta di distribuzione delle imprese in base al numero di merci vendute in una delle regioni della Federazione Russa nel primo trimestre dell'anno in esame

Compito trasversale. Compito 2.2

necessario costruire una serie classificata di 30 aziende in base al numero medio di manager.

Soluzione:

15; 17; 18; 20; 20; 20; 22; 22; 24; 25; 25; 25; 27; 27; 27; 28; 29; 30; 32; 32; 33; 33; 33; 34; 35; 35; 38; 39; 39; 45.

Compito trasversale. Compito 2.3

Utilizzo della tabella dati originale. 2.1, necessario:

  • 1. Costruire una serie di intervalli per la distribuzione delle imprese per il numero dei dirigenti.
  • 2. Calcolare le frequenze delle serie distributive delle imprese.
  • 3. Trarre conclusioni.

Soluzione:

Calcola usando la formula di Sturgess (2.5) numero di intervalli:

Quindi, prendiamo 6 intervalli (gruppi).

Lunghezza intervallo, o passo di intervallo, calcola con la formula

Nota. L'ordine di inclusione delle unità della popolazione nei confini dell'intervallo è il seguente: I), in cui le unità della popolazione sono incluse nei confini inferiori e non incluse in quelli superiori, ma vengono trasferite al successivo intervallo. L'eccezione a questa regola è l'ultimo intervallo I ], il cui limite superiore include l'ultimo numero della serie classificata.

Costruiamo una serie di intervalli (Tabella 2.3).

Serie di intervalli di distribuzione delle imprese ma il numero medio di dirigenti in una delle regioni della Federazione Russa nel primo trimestre dell'anno di riferimento

Conclusione. Il gruppo di imprese più numeroso è quello con un numero medio di dirigenti di 25-30 persone, che comprende 8 imprese (27%); il gruppo più piccolo con un numero medio di dirigenti di 40-45 persone comprende una sola impresa (3%).

Utilizzo della tabella dati originale. 2.1, nonché le serie intervallari della distribuzione delle imprese per numero di dirigenti (Tabella 2.3), necessario costruire un raggruppamento analitico della relazione tra il numero dei dirigenti e il volume delle vendite delle imprese e, sulla base di esso, trarre una conclusione sulla presenza (o assenza) di una relazione tra i segni indicati.

Soluzione:

Il raggruppamento analitico è costruito sulla base di un fattore. Nel nostro problema, il segno del fattore (x) è il numero di manager e il segno risultante (y) è il volume delle vendite (Tabella 2.4).

Costruiamo ora raggruppamento analitico(Tabella 2.5).

Conclusione. Sulla base dei dati del raggruppamento analitico costruito, si può affermare che con l'aumento del numero dei responsabili delle vendite aumenta anche il volume medio delle vendite dell'azienda nel gruppo, il che indica la presenza di una relazione diretta tra queste caratteristiche.

Tabella 2.4

Tabella ausiliaria per la costruzione di un raggruppamento analitico

Numero di dirigenti, persone,

Numero aziendale

Volume delle vendite, milioni di rubli, y

» = 59 f = 9,97

I-™ 4 - Yu.22

74'25 1PY1

U4 = 7 = 10,61

a = ’ =10,31 30

Tabella 2.5

Dipendenza dei volumi di vendita dal numero di dirigenti d'azienda in una delle regioni della Federazione Russa nel primo trimestre dell'anno in esame

DOMANDE DI PROVA
  • 1. Qual è l'essenza dell'osservazione statistica?
  • 2. Denominare le fasi dell'osservazione statistica.
  • 3. Quali sono le forme organizzative dell'osservazione statistica?
  • 4. Denominare i tipi di osservazione statistica.
  • 5. Che cos'è un riepilogo statistico?
  • 6. Denominare i tipi di rapporti statistici.
  • 7. Che cos'è un raggruppamento statistico?
  • 8. Denominare i tipi di raggruppamenti statistici.
  • 9. Che cos'è una serie di distribuzione?
  • 10. Denominare gli elementi strutturali della serie di distribuzione.
  • 11. Qual è la procedura per costruire una serie di distribuzione?

Un esempio di risoluzione di un test in statistica matematica

Compito 1

Dati iniziali : studenti di un determinato gruppo composto da 30 persone hanno superato l'esame nel corso "Informatica". I voti ricevuti dagli studenti formano la seguente serie di numeri:

I. Componi una serie variazionale

m X

w X

m X nak

w X nak

Totale:

II. Rappresentazione grafica di informazioni statistiche.

III. Caratteristiche numeriche del campione.

1. Media aritmetica

2. Media geometrica

3. Moda

4. Mediana

222222333333333 | 3 34444444445555

5. Variazione del campione

7. Coefficiente di variazione

8. Asimmetria

9. Coefficiente di asimmetria

10. Kurtosi

11. Coefficiente di curtosi

Compito 2

Dati iniziali : gli studenti di un determinato gruppo hanno scritto un test finale. Il gruppo è composto da 30 persone. I punteggi ottenuti dagli studenti formano la seguente serie di numeri

Soluzione

I. Poiché il segno assume molti valori diversi, costruiremo per esso una serie di variazioni di intervallo. Per fare ciò, impostiamo prima il valore dell'intervallo h. Usiamo la formula di Sturger

Facciamo una scala di intervalli. In questo caso, per il limite superiore del primo intervallo prenderemo il valore determinato dalla formula:

I limiti superiori degli intervalli successivi sono determinati dalla seguente formula ricorsiva:

, poi

Finiamo di costruire la scala degli intervalli, poiché il limite superiore dell'intervallo successivo è diventato maggiore o uguale al valore massimo del campione
.

II. Visualizzazione grafica della serie di variazioni dell'intervallo

III. Caratteristiche numeriche del campione

Per determinare le caratteristiche numeriche del campione, compileremo una tabella ausiliaria

Somma:

1. Media aritmetica

2. Media geometrica

3. Moda

4. Mediana

10 11 12 12 13 13 13 13 14 14 14 14 15 15 15 |15 15 15 16 16 16 16 16 17 17 18 19 19 20 20

5. Variazione del campione

6. Esempio di deviazione standard

7. Coefficiente di variazione

8. Asimmetria

9. Coefficiente di asimmetria

10. Kurtosi

11. Coefficiente di curtosi

Compito 3

Condizione : il valore della divisione della scala dell'amperometro è 0,1 A. Le letture vengono arrotondate alla divisione intera più vicina. Trova la probabilità che durante la lettura venga commesso un errore maggiore di 0,02 A.

Soluzione.

L'errore di arrotondamento può essere considerato una variabile casuale X, che è distribuito uniformemente nell'intervallo tra due divisioni intere adiacenti. Densità di distribuzione uniforme

dove
- la lunghezza dell'intervallo che contiene i valori possibili X; al di fuori di questo intervallo
In questo problema, la lunghezza dell'intervallo contenente i possibili valori X, è uguale a 0,1, quindi

L'errore di lettura supererà 0,02 se è racchiuso nell'intervallo (0,02; 0,08). Quindi

Risposta: R=0,6

Compito 4

Dati iniziali: aspettativa matematica e deviazione standard di una caratteristica normalmente distribuita X sono rispettivamente 10 e 2. Trova la probabilità che come risultato del test X assumerà il valore contenuto nell'intervallo (12, 14).

Soluzione.

Usiamo la formula

E frequenze teoriche

Soluzione

Per x lei valore atteso M(X) e varianza D(X). Soluzione. Trova la funzione di distribuzione F(x) di una variabile casuale... errore di campionamento). Componiamo variazionale riga Larghezza intervallo sarà: Per ogni valore riga Calcoliamo quanti...

  • Soluzione: equazione separabile

    Soluzione

    Nel modulo Per trovare un privato soluzioni equazione disomogenea comporre sistema Risolviamo il sistema risultante... ; +47; +61; +10; -otto. Costruisci intervallo variazionale riga. Fornire stime statistiche della media...

  • Soluzione: calcoliamo la catena e i tassi di crescita assoluti di base, i tassi di crescita, i tassi di crescita. I valori ottenuti sono riassunti nella tabella 1

    Soluzione

    Il volume di produzione. Soluzione: Media aritmetica dell'intervallo variazionale riga calcolato come segue: per... Errore di campionamento marginale con una probabilità di 0,954 (t=2) sarà: Δ w = t*μ = 2*0.0146 = 0.02927 Definiamo i confini...

  • Soluzione. cartello

    Soluzione

    Circa la cui esperienza di lavoro e ammontava a campione. L'anzianità media di servizio per il campione ... della giornata lavorativa di questi dipendenti e ammontava a campione. Durata media del campione... 1,16, livello di significatività α = 0,05. Soluzione. variazionale riga di questo campione ha la forma: 0,71 ...

  • Curriculum di lavoro in biologia per i gradi 10-11 Compilato da Polikarpova S. V

    Lavorando programma di allenamento

    Gli schemi di incrocio più semplici» 5 L.r. " Soluzione problemi genetici elementari” 6 L.r. " Soluzione problemi genetici elementari” 7 L.r. "..., 110, 115, 112, 110. Trucco variazionale riga, disegno variazionale curva, trova il valore medio della caratteristica ...

  • Statistiche matematiche- una branca della matematica dedicata a metodi matematici elaborazione, sistematizzazione e utilizzo di dati statistici per conclusioni scientifiche e pratiche.

    3.1. CONCETTI DI BASE DELLA STATISTICA MATEMATICA

    Nei problemi biomedici, è spesso necessario studiare la distribuzione dell'uno o dell'altro tratto per un numero molto elevato di individui. In individui diversi, questa caratteristica ha significato diverso, quindi è una variabile casuale. Ad esempio, qualsiasi farmaco terapeutico ha un'efficacia diversa se applicato a pazienti diversi. Tuttavia, per avere un'idea dell'efficacia di questo farmaco, non è necessario applicarlo tutti malato. È possibile far risalire i risultati dell'uso del farmaco ad un gruppo relativamente ristretto di pazienti e, sulla base dei dati ottenuti, identificare le caratteristiche essenziali (efficacia, controindicazioni) del processo terapeutico.

    Popolazione- un insieme di elementi omogenei da studiare, caratterizzati da qualche caratteristica. Questo segno è continuo variabile casuale con densità di distribuzione f(x).

    Ad esempio, se siamo interessati alla prevalenza di una malattia in una determinata regione, la popolazione generale è l'intera popolazione della regione. Se vogliamo scoprire la suscettibilità a questa malattia di uomini e donne separatamente, dovrebbero essere considerate due popolazioni generali.

    Per studiare le proprietà popolazione seleziona alcuni dei suoi elementi.

    Campione- parte della popolazione generale selezionata per l'esame (trattamento).

    Se ciò non crea confusione, il campione viene chiamato come raccolta di oggetti selezionato per l'esame, e totalità

    i valori del tratto in studio, ottenuto in sede d'esame. Questi valori possono essere rappresentati in diversi modi.

    Semplice serie statistiche - i valori del tratto in studio, registrati nell'ordine in cui sono stati ottenuti.

    Un esempio di una semplice serie statistica ottenuta misurando la velocità dell'onda superficiale (m/s) nella pelle della fronte di 20 pazienti è mostrato in Tabella. 3.1.

    Tabella 3.1.Serie statistica semplice

    Una semplice serie statistica è il modo principale e più completo per registrare i risultati di un'indagine. Può contenere centinaia di elementi. È molto difficile dare un'occhiata a un tale aggregato a colpo d'occhio. Pertanto, i campioni di grandi dimensioni sono generalmente suddivisi in gruppi. Per fare ciò, l'area di modifica dell'attributo è divisa in più (N) intervalli di uguale larghezza e calcolare le frequenze relative (n/n) della caratteristica che rientra in questi intervalli. La larghezza di ogni intervallo è:

    I limiti degli intervalli hanno i seguenti significati:

    Se un qualsiasi elemento del campione è il confine tra due intervalli adiacenti, allora si parla di sinistra intervallo. I dati raggruppati in questo modo vengono chiamati serie statistiche di intervallo.

    - questa è una tabella che mostra gli intervalli dei valori del tratto e le relative frequenze del tratto che rientrano in questi intervalli.

    Nel nostro caso, possiamo formare, ad esempio, una serie statistica di intervallo (N = 5, d= 4), tab. 3.2.

    Tabella 3.2.Serie statistica a intervalli

    Qui vengono assegnati due valori pari a 28 all'intervallo 28-32 (Tabella 3.1) e i valori 32, 33, 34 e 35 sono assegnati all'intervallo 32-36.

    Una serie statistica di intervallo può essere rappresentata graficamente. Per fare ciò, vengono tracciati intervalli di valori caratteristici lungo l'asse delle ascisse e su ciascuno di essi, come sulla base, viene costruito un rettangolo con un'altezza uguale alla frequenza relativa. Viene chiamato il grafico a barre risultante istogramma.

    Riso. 3.1. grafico a barre

    Sull'istogramma, i modelli statistici della distribuzione della caratteristica sono visti abbastanza chiaramente.

    Con una grande dimensione del campione (diverse migliaia) e una piccola larghezza delle colonne, la forma dell'istogramma è vicina alla forma del grafico densità di distribuzione cartello.

    Il numero di colonne dell'istogramma può essere selezionato utilizzando la seguente formula:

    La creazione manuale di un istogramma è un processo lungo. Pertanto, sviluppato programmi per computer per la loro costruzione automatica.

    3.2. CARATTERISTICHE NUMERICHE DELLE SERIE STATISTICHE

    Molte procedure statistiche utilizzano stime campionarie per la media e la varianza (o deviazione standard) della popolazione.

    campione medio(X) è la media aritmetica di tutti gli elementi di una semplice serie statistica:

    Per il nostro esempio X= 37,05 (m/s).

    La media campionaria èil migliorestima della media generaleM.

    Varianza campionaria s 2è uguale alla somma delle deviazioni al quadrato degli elementi dalla media campionaria, divisa per n- 1:

    Nel nostro esempio, s 2 \u003d 25,2 (m / s) 2.

    Si noti che quando si calcola la varianza campionaria, il denominatore della formula non è la dimensione del campione n, ma n-1. Ciò è dovuto al fatto che quando si calcolano le deviazioni nella formula (3.3), invece di un'aspettativa matematica sconosciuta, viene utilizzata la sua stima - campione medio.

    La varianza campionaria è il migliore stima della varianza generale (σ 2).

    Esempio di deviazione standard(s) è Radice quadrata dalla varianza campionaria:

    Per il nostro esempio S= 5,02 (m/s).

    selettivo rms la deviazione è la migliore stima dell'RMSE generale (σ).

    Con un aumento illimitato della dimensione del campione, tutte le caratteristiche del campione tendono alle caratteristiche corrispondenti della popolazione generale.

    Per calcolare le caratteristiche del campione, vengono utilizzate formule del computer. In Excel, questi calcoli eseguono le funzioni statistiche MEDIA, VARR. DEV.ST.

    3.3. STIMA DELL'INTERVALLO

    Tutte le caratteristiche del campione lo sono variabili casuali. Ciò significa che per un altro campione della stessa dimensione, i valori delle caratteristiche del campione saranno diversi. Quindi, selettivo

    le caratteristiche sono uniche stime caratteristiche rilevanti della popolazione generale.

    Compensa le carenze della valutazione selettiva stima dell'intervallo, che rappresentano intervallo numerico, all'interno del quale con una data probabilità R d si trova il vero valore del parametro stimato.

    Permettere U r - alcuni parametri della popolazione generale (media generale, varianza generale, ecc.).

    stima dell'intervallo il parametro U r è chiamato intervallo (U1, U2), soddisfare la condizione:

    P(U < Ur < U2) = Рд. (3.5)

    Probabilità R d chiamato probabilità di confidenza.

    Probabilità di confidenza Рd - la probabilità che sia il vero valore della quantità stimata dentro l'intervallo specificato.

    Allo stesso tempo, l'intervallo (U1, U2) chiamato intervallo di confidenza per il parametro stimato.

    Spesso, al posto della probabilità di confidenza, viene chiamato il valore associato α = 1 - R d livello di significatività.

    Livello di significativitàè la probabilità che sia il valore vero del parametro stimato fuoriintervallo di confidenza.

    A volte α e R d sono espressi in percentuale, ad esempio 5% invece di 0,05 e 95% invece di 0,95.

    Nella stima dell'intervallo, prima scegli l'appropriato livello di confidenza(di solito 0,95 o 0,99), quindi trova l'intervallo di valori corrispondente del parametro stimato.

    Ne notiamo alcuni proprietà generali stime di intervallo.

    1. Più basso è il livello di significatività (più Rd), più ampia è la stima dell'intervallo. Quindi, se a un livello di significatività di 0,05 la stima dell'intervallo della media generale è 34,7< M< 39,4, то для уровня 0,01 она будет гораздо шире: 33,85 < M< 40,25.

    2. Maggiore è la dimensione del campione n, più ristretta è la stima dell'intervallo con il livello di significatività selezionato. Sia, ad esempio, 5 la stima percentuale della media generale (β=0,05) ottenuta da un campione di 20 item, quindi 34,7< M< 39,4.

    Aumentando la dimensione del campione a 80, otterremo una stima più accurata allo stesso livello di significatività: 35,5< M< 38,6.

    A caso generale la costruzione di stime di confidenza affidabili richiede la conoscenza della legge secondo la quale la caratteristica casuale stimata è distribuita nella popolazione generale. Considera come viene costruita la stima dell'intervallo media generale tratto, che è distribuito nella popolazione generale secondo normale legge.

    3.4. STIMA DELL'INTERVALLO DELLA MEDIA GENERALE PER LA NORMALE DIRITTO DELLA DISTRIBUZIONE

    La costruzione di una stima di intervallo della media generale M per una popolazione generale con una legge di distribuzione normale si basa sulla seguente proprietà. Per campionamento volumetrico n atteggiamento

    obbedisce alla distribuzione di Student con il numero di gradi di libertà ν = n- 1.

    Qui Xè la media campionaria, e S- deviazione standard selettiva.

    Usando le tabelle di distribuzione di Student o il loro analogo del computer, si può trovare un valore limite tale che con una data probabilità di confidenza sia soddisfatta la seguente disuguaglianza:

    Questa disuguaglianza corrisponde alla disuguaglianza per M:

    dove ε è la semiampiezza dell'intervallo di confidenza.

    Pertanto, la costruzione di un intervallo di confidenza per M viene eseguita nella sequenza seguente.

    1. Scegliere la probabilità di confidenza P d (solitamente 0,95 o 0,99) e per essa, secondo la tabella di distribuzione di Student, si trova il parametro t

    2. Calcolare la semiampiezza dell'intervallo di confidenza ε:

    3. Si ottiene una stima di intervallo della media generale con la probabilità di confidenza selezionata:

    In breve si scrive così:

    Sono state sviluppate procedure informatiche per trovare stime di intervallo.

    Spieghiamo come utilizzare la tabella di distribuzione di Student. Questa tabella ha due "ingressi": la colonna di sinistra, chiamata numero di gradi di libertà ν = n- 1, e la riga superiore è il livello di significatività α. All'intersezione della riga e della colonna corrispondenti si trova il coefficiente di Student t.

    Applichiamo questo metodo al nostro campione. Di seguito viene presentato un frammento della tabella di distribuzione dello Studente.

    Tabella 3.3. Frammento della tavola di distribuzione di Student

    Una semplice serie statistica per un campione di 20 persone (n= 20, ν =19) è presentato nella tabella. 3.1. Per questa serie, i calcoli che utilizzano le formule (3.1-3.3) danno: X= 37,05; S= 5,02.

    Scegliamo α = 0,05 (Pd = 0,95). All'intersezione della riga "19" e della colonna "0.05" troviamo t= 2,09.

    Calcoliamo l'accuratezza della stima con la formula (3.6): ε = 2,09?5,02/λ /20 = 2,34.

    Costruiamo una stima di intervallo: con una probabilità del 95%, la media generale sconosciuta soddisfa la disuguaglianza:

    37,05 - 2,34 < M< 37,05 + 2,34, или M= 37,05 ± 2,34 (m/s), Р d = 0,95.

    3.5. METODI PER LA VERIFICA DI IPOTESI STATISTICHE

    Ipotesi statistiche

    Prima di formulare cos'è un'ipotesi statistica, si consideri il seguente esempio.

    Per confrontare due metodi di trattamento di una determinata malattia, sono stati selezionati due gruppi di pazienti di 20 persone ciascuno, il cui trattamento è stato effettuato secondo questi metodi. Per ogni paziente, a il numero di procedure seguito da un effetto positivo. Sulla base di questi dati, per ogni gruppo, abbiamo trovato medie campionarie (X), varianze campionarie (s 2) e campione RMS (S).

    I risultati sono presentati in tabella. 3.4.

    Tabella 3.4

    Il numero di procedure necessarie per ottenere un effetto positivo è una variabile casuale, tutte le informazioni su cui è attiva questo momento contenuto nel campione.

    Dal tavolo. 3.4 mostra che la media campionaria nel primo gruppo è inferiore a quella nel secondo. Questo significa che lo stesso rapporto vale per le medie generali: M 1< М 2 ? Достаточно ли статистических данных для такого вывода? Ответы на эти вопросы и дает verifica statistica delle ipotesi.

    Ipotesi statistica- è un'ipotesi sulle proprietà delle popolazioni.

    Considereremo ipotesi sulle proprietà Due popolazioni generali.

    Se le popolazioni hanno noto, lo stesso distribuzione del valore oggetto di stima, e le ipotesi riguardano le quantità qualche parametro questa distribuzione, allora si chiamano le ipotesi parametrico. Ad esempio, i campioni vengono estratti da popolazioni con legge normale distribuzione e varianza uguale. È necessario scoprirlo sono gli stessi le medie generali di queste popolazioni.

    Se non si sa nulla delle leggi di distribuzione delle popolazioni generali, vengono chiamate ipotesi sulle loro proprietà non parametrico. Per esempio, sono gli stessi le leggi di distribuzione delle popolazioni da cui vengono prelevati i campioni.

    Ipotesi nulla e alternative.

    Il compito di verificare le ipotesi. Livello di significatività

    Facciamo conoscenza con la terminologia utilizzata nel test di ipotesi.

    H 0 - ipotesi nulla (ipotesi scettica) - questa è un'ipotesi circa nessuna differenza tra campioni confrontati. Lo scettico ritiene che le differenze tra le stime campionarie ottenute dai risultati della ricerca siano casuali;

    H 1- un'ipotesi alternativa (l'ipotesi dell'ottimista) è un'ipotesi sulla presenza di differenze tra i campioni confrontati. L'ottimista ritiene che le differenze tra le stime campionarie siano causate da ragioni oggettive e corrispondano alle differenze nelle popolazioni generali.

    La verifica di ipotesi statistiche è fattibile solo quando gli elementi dei campioni confrontati possono essere utilizzati per comporne alcune valore(criterio), la cui legge di distribuzione in caso di equità H0 conosciuto. Quindi, per questa quantità, si può specificare intervallo di confidenza, in cui con una data probabilità R d ottiene il suo valore. Questo intervallo è chiamato area critica. Se il valore del criterio rientra nella regione critica, l'ipotesi è accettata H0. In caso contrario, l'ipotesi H 1 è accettata.

    Nella ricerca medica viene utilizzato P d = 0,95 o P d = 0,99. Questi valori corrispondono livelli di significativitàα = 0,05 o α = 0,01.

    Quando si verificano ipotesi statistichelivello di significatività(α) è la probabilità di rifiutare l'ipotesi nulla quando è vera.

    Si noti che, al suo interno, è mirata la procedura di verifica delle ipotesi rilevamento delle differenze, per non confermare la loro assenza. Quando il valore del criterio va oltre l'area critica, possiamo dire "scettici" con un cuore puro - beh, cos'altro vuoi?! Se non ci fossero differenze, con una probabilità del 95% (o 99%) il valore calcolato rientrerebbe nei limiti specificati. Quindi no!..

    Ebbene, se il valore del criterio rientra nella regione critica, non c'è motivo di ritenere che l'ipotesi H 0 sia corretta. Questo molto probabilmente indica una delle due possibili cause.

    1. Le dimensioni del campione non sono sufficientemente grandi per rilevare le differenze. È probabile che la continua sperimentazione porti al successo.

    2. Ci sono differenze. Ma sono così piccoli che non hanno importanza pratica. In questo caso, la continuazione degli esperimenti non ha senso.

    Passiamo a considerare alcune delle ipotesi statistiche utilizzate nella ricerca medica.

    3.6. IPOTESI TEST SULL'UGUAGLIANZA DELLE VARIAZIONI, CRITERIO F FISHER

    In alcuni studi clinici, un effetto positivo è evidenziato non tanto da grandezza parametro in studio, quanto stabilizzazione, riducendone le fluttuazioni. In questo caso si pone la questione di confrontare due varianze generali sulla base dei risultati di un'indagine campionaria. Questo compito può essere risolto utilizzando Il criterio di Fisher.

    Formulazione del problema

    legge normale distribuzione. Dimensioni del campione -

    n 1 e n2, un varianze campionarie pari s 1 e s 2 2 varianze generali.

    Ipotesi verificate:

    H0- varianze generali sono gli stessi;

    H 1- varianze generali diverso.

    Mostrato se i campioni sono estratti da popolazioni con legge normale distribuzione, quindi se l'ipotesi è vera H0 il rapporto delle varianze campionarie obbedisce alla distribuzione di Fisher. Pertanto, come criterio per verificare la validità H0 viene preso il valore F, calcolato con la formula:

    dove s 1 e s 2 - varianze campionarie.

    Questo rapporto obbedisce alla distribuzione di Fisher con il numero di gradi di libertà del numeratore ν 1 = n 1- 1 e il numero di gradi di libertà del denominatore ν 2 = n 2 - 1. I confini della regione critica si trovano secondo le tabelle della distribuzione di Fisher o utilizzando la funzione di computer BRASPOBR.

    Per l'esempio presentato nella tabella. 3.4, otteniamo: ν 1 \u003d ν 2 \u003d 20 - 1 \u003d 19; F= 2,16/4,05 = 0,53. A α = 0,05, i confini della regione critica sono rispettivamente uguali: = 0,40, = 2,53.

    Il valore del criterio rientrava nella regione critica, quindi l'ipotesi è accettata H0: varianze campionarie generali sono gli stessi.

    3.7. VERIFICA DI IPOTESI RELATIVA ALLA UGUAGLIANZA DELLE MEDIE, t-test DELLO STUDENTE

    Problema di confronto medio due popolazioni si verifica quando valore pratico ha esattamente grandezza il tratto oggetto di studio. Ad esempio, quando si confronta la durata del trattamento con due metodi diversi o il numero di complicazioni derivanti dal loro utilizzo. In questo caso è possibile utilizzare il test t di Student.

    Formulazione del problema

    Due campioni (X 1 ) e (X 2 ) sono stati ottenuti da popolazioni con legge normale distribuzione e la stessa dispersione. Dimensioni del campione - n 1 e n 2 , campione significa sono uguali a X 1 e X 2, e varianze campionarie- s 1 2 e s 2 2 rispettivamente. Ha bisogno di essere confrontato medie generali.

    Ipotesi verificate:

    H0- medie generali sono gli stessi;

    H 1- medie generali diverso.

    Si dimostra che se l'ipotesi è vera H0 il valore di t, calcolato con la formula:

    distribuito secondo la legge di Student con il numero di gradi di libertà ν = ν 1 + + ν2 - 2.

    Qui dove ν 1 = n 1 - 1 - numero di gradi di libertà per il primo campione; v2 = n 2 - 1 - il numero di gradi di libertà per il secondo campione.

    I confini della regione critica si trovano dalle tabelle di distribuzione t o utilizzando la funzione del computer STUDRASP. La distribuzione di Student è simmetrica rispetto a zero, quindi i confini sinistro e destro della regione critica sono gli stessi in valore assoluto e opposti nel segno: -e

    Per l'esempio presentato nella tabella. 3.4, otteniamo:

    v 1 \u003d v 2 \u003d 20 - 1 \u003d 19; v = 38, t= -2,51. Con α = 0,05 = 2,02.

    Il valore del criterio va oltre il bordo sinistro della regione critica, quindi accettiamo l'ipotesi H 1: medie generali diverso. Allo stesso tempo, la media della popolazione generale primo campione MENO.

    Applicabilità del test t di Student

    Il test t dello studente si applica solo ai campioni di normale aggrega con le stesse varianze generali. Se almeno una delle condizioni è violata, l'applicabilità del criterio è dubbia. Il requisito della normalità della popolazione generale viene solitamente ignorato, riferendosi a teorema del limite centrale. Infatti, la differenza delle medie campionarie, che è nel numeratore (3.10), può considerarsi normalmente distribuita per ν > 30. Ma la questione dell'uguaglianza delle varianze non è soggetta a verifica, e si fa riferimento al fatto che il Fisher il test non ha rilevato differenze non può essere preso in considerazione. Tuttavia, il test t è ampiamente utilizzato per rilevare differenze nelle medie della popolazione, sebbene senza prove sufficienti.

    Di seguito è considerato criterio non parametrico, che viene utilizzato con successo per gli stessi scopi e che non ne richiede normalità,uguaglianza delle varianze.

    3.8. CONFRONTO NON PARAMETRICO DI DUE CAMPIONI: IL TEST DI MANN-WHITNEY

    I criteri non parametrici sono progettati per rilevare differenze nelle leggi di distribuzione di due popolazioni generali. Criteri sensibili alle differenze in generale medio, chiamati criteri spostare. Criteri sensibili alle differenze in generale dispersione, chiamati criteri scala. Il test di Mann-Whitney fa riferimento ai criteri taglio ed è utilizzato per rilevare le differenze nelle medie di due popolazioni, i cui campioni sono presentati in scala di classifica. I segni misurati si trovano su questa scala in ordine crescente e quindi numerati con numeri interi 1, 2 ... Questi numeri sono chiamati ranghi. A valori uguali vengono assegnati gli stessi ranghi. Non è il valore dell'attributo in sé che conta, ma solo luogo ordinale, che occupa tra gli altri valori.

    In tavola. 3.5. il primo gruppo della tabella 3.4 viene presentato in forma espansa (riga 1), soggetto a graduatoria (riga 2), quindi i ranghi degli stessi valori vengono sostituiti da valori medi aritmetici. Ad esempio, agli elementi 4 e 4 nella prima riga sono stati assegnati i ranghi 2 e 3, che sono stati poi sostituiti con gli stessi valori di 2,5.

    Tabella 3.5

    Formulazione del problema

    Campioni indipendenti (X 1) e (X 2) estratti da popolazioni con leggi di distribuzione sconosciute. Dimensioni del campione n 1 e n 2 rispettivamente. I valori degli elementi dei campioni sono presentati in scala di classifica.È necessario verificare se queste popolazioni generali differiscono l'una dall'altra?

    Ipotesi verificate:

    H0- i campioni appartengono alla stessa popolazione generale; H 1- i campioni appartengono a diverse popolazioni generali.

    Per verificare tali ipotesi, viene utilizzato il test (/-Mann-Whitney.

    In primo luogo, un campione combinato (X) è composto da due campioni, i cui elementi sono classificati. Quindi si trova la somma dei ranghi corrispondenti agli elementi del primo campione. Questa somma è il criterio per verificare le ipotesi.

    u= La somma dei ranghi del primo campione. (3.11)

    Per campioni indipendenti maggiori di 20, il valore u obbedisce a una distribuzione normale, la cui aspettativa matematica e deviazione standard sono uguali a:

    Pertanto, i confini della regione critica si trovano secondo le normali tabelle di distribuzione.

    Per l'esempio presentato nella tabella. 3.4, otteniamo: ν 1 \u003d ν 2 \u003d 20 - 1 \u003d 19, u= 339, μ = 410, σ = 37. Per α = 0,05 otteniamo: sia a sinistra = 338 che a destra = 482.

    Il valore del criterio va oltre il confine sinistro della regione critica, quindi l'ipotesi H 1 è accettata: le popolazioni generali hanno leggi di distribuzione diverse. Allo stesso tempo, la media della popolazione generale primo campione MENO.