Equazione di regressione.  Fondamenti di regressione lineare

Equazione di regressione. Fondamenti di regressione lineare

Come accennato in precedenza, nel caso di una relazione lineare, l'equazione di regressione è un'equazione di linea retta.

Distinguere

Y = a u/x + b u/x X

X = un x/a + b x/a Y

Qui un e b- coefficienti, o parametri, che sono determinati da formule. Valore del coefficiente b calcolato

Si può vedere dalle formule che i coefficienti di regressione b u/x e b x/a hanno lo stesso segno del coefficiente di correlazione, la dimensione è uguale al rapporto tra le dimensioni degli indicatori studiati X e In, e sono legati dalla relazione:

Per calcolare il coefficiente unè sufficiente sostituire i valori medi delle variabili correlate nelle equazioni di regressione



Il grafico delle linee di regressione teoriche (Fig. 17) si presenta così:

Fig 17. Linee di regressione teoriche

Dalle formule di cui sopra, è facile dimostrarlo fattori di pendenza le regressioni dirette sono rispettivamente uguali


Perché
, poi
. Ciò significa che la regressione diretta Y sul X ha una pendenza minore rispetto all'asse x rispetto alla retta di regressione X sul Y.

Il più vicino all'unità, minore è l'angolo tra le linee di regressione. Queste linee si fondono solo quando
.

In
le regressioni dirette sono descritte dalle equazioni
,
.

Pertanto, le equazioni di regressione consentono:

    determinare quanto cambia un valore rispetto a un altro;

    prevedere i risultati.

2. Metodologia per eseguire l'insediamento e il lavoro grafico n. 2

Insediamento e lavoro grafico contiene 4 sezioni.

Nella prima sezione:

    Il tema è formulato;

    Lo scopo del lavoro è formulato.

Nella seconda sezione:

    La condizione del problema è formulata;

    La tabella dei dati del campione iniziale è piena.

Nella terza sezione:

    I risultati della misurazione sono presentati come una serie di variazioni;

    Viene fornita una rappresentazione grafica della serie di variazioni.

    La conclusione è formulata.

Nella quarta sezione:

    Vengono calcolate le principali caratteristiche statistiche di una serie di misure;

    Sulla base dei risultati dei calcoli, viene formulata una conclusione.

Modulo di lavoro:

    Il lavoro viene svolto su un taccuino separato o su fogli di formato.

    Il frontespizio è compilato secondo il campione.

Università Statale Russa

cultura fisica, sport, gioventù e turismo

Dipartimento di scienze naturali

Analisi di correlazione e regressione

Insediamento e lavoro grafico n. 2

in matematica

Completato: studente 1 K. 1 sudore. 1 gr.

Ivanov S.M.

Insegnante:

Assoc. Dipartimento di UND e IT

Mosca - 2012

(Esempio di design del frontespizio)

Un esempio di esecuzione di insediamenti e lavori grafici n. 2.

Tema di lavoro: Analisi di correlazione e regressione.

Obbiettivo: Determinare la relazione tra gli indicatori dei due campioni.

Progresso del lavoro:

    Trova due campioni del tuo sport con la stessa taglia n.

    Disegna un campo di correlazione, trai una conclusione preliminare.

    Determinare l'affidabilità del coefficiente di correlazione e trarre una conclusione finale.

    Costruisci linee di regressione teoriche sul campo di correlazione e mostra il punto della loro intersezione.

1. Condizione del problema: Un gruppo di atleti ha determinato i risultati nei 100 m ostacoli X io(c) e salto in lungo Y io(m) (tabella). Verificare se esiste una correlazione tra le caratteristiche studiate e determinare l'affidabilità del coefficiente di correlazione.

Tabella dei dati del campione iniziale: I risultati sono riportati nella tabella dei dati iniziali.

Tabella 6

Corri e salta i risultati

p/p

X io, Insieme a

Y io , m

p/p

X io, Insieme a

Y io, m

Soluzione:

2 . Costruiamo un campo di correlazione (scatterplot) e traiamo una conclusione preliminare sulla relazione tra le caratteristiche studiate.

Fig 18. Campo di correlazione

Conclusione preliminare:

Relazione tra indicatori di prestazione nei 100 ostacoli X io(c) e salto in lungo Y io(centimetro):

    lineare;

    negativo;

3 . Calcoliamo il coefficiente di correlazione lineare accoppiato di Bravais-Pearson, avendo precedentemente calcolato i principali indicatori statistici dei due campioni. Per calcolarli, compileremo una tabella in cui la penultima e l'ultima colonna sono necessarie per il calcolo delle deviazioni standard se non sono note. Per il nostro esempio, questi valori sono stati calcolati nel primo calcolo e lavoro grafico, ma per chiarezza mostreremo anche il calcolo.

Tabella 7

Tabella ausiliaria per il calcolo del coefficiente

Correlazioni di Bravais-Pearson

X io , Insieme a

Y io, centimetro

13,59

X =
,

si =
,

.

Il valore ottenuto del coefficiente di correlazione ci consente di confermare la conclusione preliminare e trarre la conclusione finale: la relazione tra le caratteristiche studiate:

    lineare;

    negativo;

4 . Determiniamo l'affidabilità del coefficiente di correlazione.

Supponiamo che non vi sia alcuna relazione tra il risultato nei 100 metri e il salto in lungo ( H di : r= 0).

Conclusione: c'è un forte, negativo statisticamente significativo ( R\u003d 0,95) il rapporto tra 100 m ostacoli e salto in lungo. Ciò significa che con un miglioramento del risultato nel salto in lungo, il tempo per percorrere una distanza di 100 m diminuisce.

5 . Calcoliamo il coefficiente di determinazione:

Di conseguenza, solo il 96% del rapporto tra i risultati nei 100 m ostacoli e nel salto in lungo è spiegato dalla loro reciproca influenza, e il resto, cioè il 4%, è spiegato dall'influenza di altri fattori non considerati.

6. Calcoliamo i coefficienti delle equazioni di regressione diretta e inversa utilizzando le formule, sostituiamo i valori dei coefficienti calcolati nella formula corrispondente e annotiamo le equazioni di regressione diretta e inversa:

Y= un 1 + b 1 X- equazione di regressione diretta;

X = un 2 + b 2 Y - equazione inversa regressione.

Usiamo i risultati del calcolo sopra indicati:

X =
; si =
;
;
13,59;
6,4,

Calcola il coefficiente b 1 utilizzando la formula:

Per calcolare il coefficiente un 1 b 1 X e Y

un 1 e b 1

Y = 22 - 1,15X

Calcola il coefficiente b 2 utilizzando la formula:

Per calcolare il coefficiente un 2 sostituire nell'equazione di regressione diretta invece di b 2 valore calcolato, e invece di X e Y valori medi aritmetici di due campioni dalla tabella:

Sostituiamo i valori ottenuti dei coefficienti un 1 e b 1 in un'equazione di regressione diretta e scrivi l'equazione di una retta:

X = 18,92 - 0,83Y

Pertanto, abbiamo ottenuto equazioni di regressione diretta e inversa:

Y = 22 - 1,15X- equazione di regressione diretta;

X = 18,92 - 0,83Yè l'equazione di regressione inversa.

Per verificare la correttezza dei calcoli, è sufficiente sostituire il valore medio nell'equazione diretta e determinare il valore Y. Valore ricevuto Y deve essere vicino o uguale alla media .

Y = 22 - 1,15 = 22 - 1,15 13,59 = 6,4 =.

Quando si sostituisce nell'equazione di regressione inversa della media , valore ricevuto X deve essere vicino o uguale alla media .

X = 18,92 - 0,83= 18,92 - 0,83 6,4 = 13,6 = .

7. Costruiamo linee di regressione sul campo di correlazione.

Per il tracciamento grafico delle linee di regressione teoriche, nonché per tracciare qualsiasi linea retta, è necessario disporre di due punti dall'intervallo di valori X e Y.

Inoltre, nell'equazione di regressione diretta, la variabile indipendente X, e dipendente Y, e nel caso opposto, la variabile indipendente Y, e dipendente X.

Y = 22 - 1,15X

X

Y

X = 18,92 - 0,83Y

Y

X

Le coordinate del punto di intersezione delle linee delle equazioni di regressione diretta e inversa sono i valori della media aritmetica di due campioni (tenendo conto degli errori di arrotondamento nei calcoli approssimativi).

Conclusione: conoscere il risultato della corsa ad ostacoli a una distanza di 100 m, equazione diretta regressione, è possibile determinare teoricamente il risultato del salto in lungo; e viceversa, conoscendo il risultato del salto in lungo secondo l'equazione di regressione inversa, è possibile determinare il risultato della corsa a ostacoli.

Nelle note precedenti, l'analisi si è spesso concentrata su una singola variabile numerica, come i rendimenti dei fondi comuni, il tempo di caricamento della pagina Web o il consumo. bevande analcoliche. In questa e nelle note successive considereremo metodi per prevedere i valori di una variabile numerica in funzione dei valori di una o più altre variabili numeriche.

Il materiale sarà illustrato con un esempio attraverso. Previsione del volume delle vendite in un negozio di abbigliamento. La catena di negozi di abbigliamento discount Sunflowers è in continua espansione da 25 anni. Tuttavia, la società non ha attualmente un approccio sistematico alla selezione di nuovi punti vendita. Il luogo in cui l'azienda intende aprire un nuovo negozio è determinato sulla base di considerazioni soggettive. I criteri di selezione sono condizioni vantaggiose contratto di locazione o l'idea del gestore di una posizione ideale per il negozio. Immagina di essere il capo del dipartimento Progetti speciali e pianificazione. Ti è stato assegnato lo sviluppo piano strategico apertura di nuovi punti vendita. Questo piano dovrebbe contenere una previsione delle vendite annuali nei negozi di nuova apertura. Ritieni che la vendita di spazi sia direttamente correlata alle entrate e vuoi tenere conto di questo fatto nel tuo processo decisionale. Come si sviluppa un modello statistico che preveda le vendite annuali in base alle nuove dimensioni del negozio?

In genere, l'analisi di regressione viene utilizzata per prevedere i valori di una variabile. Il suo obiettivo è sviluppare un modello statistico che preveda i valori della variabile dipendente, o risposta, dai valori di almeno una variabile indipendente o esplicativa. In questa nota considereremo una semplice regressione lineare, un metodo statistico che consente di prevedere i valori della variabile dipendente Y dai valori della variabile indipendente X. Le note seguenti descriveranno un modello di regressione multipla progettato per prevedere i valori della variabile indipendente Y dai valori di diverse variabili dipendenti ( X 1 , X 2 , …, X k).

Scarica nota in formato o, esempi in formato

Tipi di modelli di regressione

dove ρ 1 è il coefficiente di autocorrelazione; Se ρ 1 = 0 (nessuna autocorrelazione), D≈ 2; Se ρ 1 ≈ 1 (autocorrelazione positiva), D≈ 0; Se ρ 1 = -1 (autocorrelazione negativa), D ≈ 4.

In pratica, l'applicazione del criterio di Durbin-Watson si basa su un confronto del valore D con valori teorici critici dl e d U per un dato numero di osservazioni n, il numero di variabili indipendenti del modello K(per regressione lineare semplice K= 1) e livello di significatività α. Se una D< d L , l'ipotesi di indipendenza delle deviazioni casuali è rifiutata (quindi, c'è un'autocorrelazione positiva); Se D > dU, l'ipotesi non è rifiutata (cioè non c'è autocorrelazione); Se dl< D < d U non ci sono motivi sufficienti per prendere una decisione. Quando il valore calcolato D supera 2, quindi dl e d U non è il coefficiente stesso che viene confrontato D, e l'espressione (4 – D).

Per calcolare le statistiche di Durbin-Watson in Excel, passiamo alla tabella in basso in Fig. quattordici Prelievo saldo. Il numeratore nell'espressione (10) viene calcolato utilizzando la funzione = SUMMQDIFF(array1, array2) e il denominatore = SUMMQ(array) (Fig. 16).

Riso. 16. Formule per il calcolo delle statistiche di Durbin-Watson

Nel nostro esempio D= 0,883. La domanda principale è: quale valore della statistica di Durbin-Watson dovrebbe essere considerato abbastanza piccolo da concludere che esiste un'autocorrelazione positiva? È necessario correlare il valore di D con i valori critici ( dl e d U) a seconda del numero di osservazioni n e livello di significatività α (Fig. 17).

Riso. 17. Valori critici delle statistiche di Durbin-Watson (frammento di tabella)

Pertanto, nel problema del volume delle vendite in un negozio che consegna merci a casa tua, esiste una variabile indipendente ( K= 1), 15 osservazioni ( n= 15) e livello di significatività α = 0,05. Di conseguenza, dl= 1,08 e dU= 1,36. Perché il D = 0,883 < dl= 1.08, c'è un'autocorrelazione positiva tra i residui, il metodo minimi quadrati non può essere applicato.

Verifica delle ipotesi sulla pendenza e sul coefficiente di correlazione

La suddetta regressione è stata applicata esclusivamente per la previsione. Per determinare i coefficienti di regressione e prevedere il valore di una variabile Y per un dato valore di variabile Xè stato utilizzato il metodo dei minimi quadrati. Inoltre, abbiamo considerato l'errore standard della stima e il coefficiente di correlazione mista. Se l'analisi dei residui conferma che le condizioni di applicabilità del metodo dei minimi quadrati non sono violate e il modello di regressione lineare semplice è adeguato, sulla base dei dati campionari, si può sostenere che tra le variabili in popolazione esiste una relazione lineare.

Applicazionet -criteri per la pendenza. Controllando se la pendenza della popolazione β 1 è uguale a zero, si può determinare se esiste una relazione statisticamente significativa tra le variabili X e Y. Se questa ipotesi viene respinta, si può sostenere che tra le variabili X e Y esiste una relazione lineare. Le ipotesi nulla e alternativa sono formulate come segue: H 0: β 1 = 0 (nessuna relazione lineare), H1: β 1 ≠ 0 (c'è una relazione lineare). Per definizione t-statistica è uguale alla differenza tra la pendenza campionaria e la pendenza ipotetica della popolazione, divisa per l'errore standard della stima della pendenza:

(11) t = (b 1 β 1 ) / Sb 1

dove b 1 è la pendenza della regressione diretta basata sui dati del campione, β1 è la pendenza ipotetica della popolazione generale diretta, e statistiche di test t Esso ha t- distribuzione con n-2 gradi di libertà.

Verifichiamo se esiste una relazione statisticamente significativa tra la dimensione del negozio e le vendite annuali a α = 0,05. t-criteria viene visualizzato insieme ad altri parametri durante l'utilizzo Pacchetto analisi(opzione Regressione). I risultati completi del pacchetto di analisi sono mostrati in Fig. 4, un frammento relativo alla statistica t - in fig. diciotto.

Riso. 18. Risultati della domanda t

Perché il numero di negozi n= 14 (vedi Fig. 3), valore critico t-le statistiche a un livello di significatività α = 0,05 possono essere trovate dalla formula: t L=INV.STUDENTE(0.025;12) = -2.1788 dove 0.025 è la metà del livello di significatività e 12 = n – 2; t U\u003d STUDENTE.INV (0,975, 12) \u003d +2,1788.

Perché il t-statistiche = 10,64 > t U= 2.1788 (Fig. 19), ipotesi nulla H 0 viene rifiutato. D'altro canto, R-valore per X\u003d 10.6411, calcolato dalla formula \u003d 1-STUDENT.DIST (D3, 12, TRUE), è approssimativamente uguale a zero, quindi l'ipotesi H 0 viene nuovamente respinto. Il fatto che R-value è quasi zero, il che significa che se non ci fosse una vera relazione lineare tra le dimensioni del negozio e le vendite annuali, sarebbe quasi impossibile trovarlo utilizzando la regressione lineare. Pertanto, esiste una relazione lineare statisticamente significativa tra le vendite medie annuali del negozio e le dimensioni del negozio.

Riso. 19. Testare l'ipotesi sulla pendenza della popolazione generale a un livello di significatività di 0,05 e 12 gradi di libertà

ApplicazioneF -criteri per la pendenza. Un approccio alternativo per testare le ipotesi sulla pendenza di una regressione lineare semplice consiste nell'utilizzare F-criteri. Richiama questo F-criterio viene utilizzato per testare la relazione tra due varianze (vedi dettagli). Quando si verifica l'ipotesi della pendenza, la misura degli errori casuali è la varianza dell'errore (la somma dei quadrati degli errori divisa per il numero di gradi di libertà), quindi F-test utilizza il rapporto della varianza spiegata dalla regressione (ovvero i valori SSR diviso per il numero di variabili indipendenti K), alla varianza dell'errore ( MSE=S YX 2 ).

Per definizione F-la statistica è uguale alle deviazioni quadratiche medie dovute alla regressione (MSR) divise per la varianza dell'errore (MSE): F = MSR/ MSE, dove MSR=SSR / K, MS =SE/(n– k – 1), kè il numero di variabili indipendenti nel modello di regressione. Statistiche di prova F Esso ha F- distribuzione con K e n– k – 1 gradi di libertà.

Per un dato livello di significatività α, la regola decisionale è formulata come segue: if F > FU, l'ipotesi nulla è respinta; in caso contrario, non viene rifiutato. I risultati, presentati sotto forma di tabella riassuntiva dell'analisi della varianza, sono riportati in fig. venti.

Riso. 20. Tavola di analisi della varianza per verificare l'ipotesi della significatività statistica del coefficiente di regressione

Allo stesso modo t-criterio F-criteri viene visualizzato nella tabella durante l'utilizzo Pacchetto analisi(opzione Regressione). Risultati completi del lavoro Pacchetto analisi mostrato in fig. 4, frammento relativo a F-statistiche - in fig. 21.

Riso. 21. Risultati della domanda F- Criteri ottenuti utilizzando Excel Analysis ToolPack

La statistica F è 113,23 e R-valore prossimo allo zero (cell SignificatoF). Se il livello di significatività α è 0,05, determinare il valore critico F-Dalla formula si possono ricavare distribuzioni con uno e 12 gradi di libertà F U\u003d F. OBR (1-0,05; 1; 12) \u003d 4,7472 (figura 22). Perché il F = 113,23 > F U= 4,7472, e R-valore vicino a 0< 0,05, нулевая гипотеза H 0 devia, cioè La dimensione di un negozio è strettamente correlata al suo volume di vendite annuali.

Riso. 22. Verifica dell'ipotesi sulla pendenza della popolazione generale a un livello di significatività di 0,05, con uno e 12 gradi di libertà

Intervallo di confidenza contenente pendenza β 1 ​​. Per verificare l'ipotesi dell'esistenza di una relazione lineare tra variabili, si può costruire un intervallo di confidenza contenente la pendenza β 1 ​​e assicurarsi che il valore ipotetico β 1 = 0 appartenga a tale intervallo. Il centro dell'intervallo di confidenza contenente la pendenza β 1 ​​è la pendenza campionaria b 1 , e i suoi confini sono le quantità b 1 ±t n –2 Sb 1

Come mostrato in fig. diciotto, b 1 = +1,670, n = 14, Sb 1 = 0,157. t 12 \u003d STUDENTE.OBR (0.975, 12) \u003d 2.1788. Di conseguenza, b 1 ±t n –2 Sb 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342 o + 1,328 ≤ β 1 ≤ +2,012. Pertanto, la pendenza della popolazione con una probabilità di 0,95 si trova nell'intervallo da +1,328 a +2,012 (ovvero da $ 1.328.000 a $ 2.012.000). Poiché questi valori sono maggiori di zero, esiste una relazione lineare statisticamente significativa tra le vendite annuali e l'area del negozio. Se l'intervallo di confidenza contenesse zero, non ci sarebbe alcuna relazione tra le variabili. Inoltre, l'intervallo di confidenza significa che ogni 1.000 mq. piedi si traduce in un aumento delle vendite medie da $ 1.328.000 a $ 2.012.000.

Utilizzot -criteri per il coefficiente di correlazione.è stato introdotto il coefficiente di correlazione r, che è una misura della relazione tra due variabili numeriche. Può essere utilizzato per determinare se esiste una relazione statisticamente significativa tra due variabili. Indichiamo il coefficiente di correlazione tra le popolazioni di entrambe le variabili con il simbolo ρ. Le ipotesi nulla e alternativa sono formulate come segue: H 0: ρ = 0 (nessuna correlazione), H 1: ρ ≠ 0 (c'è una correlazione). Verifica dell'esistenza di una correlazione:

dove r = + , Se b 1 > 0, r = – , Se b 1 < 0. Тестовая статистика t Esso ha t- distribuzione con n-2 gradi di libertà.

Nel problema della catena di negozi Sunflowers r2= 0,904, e b 1- +1.670 (vedi Fig. 4). Perché il b 1> 0, il coefficiente di correlazione tra le vendite annuali e la dimensione del negozio è r= +√0.904 = +0.951. Verifichiamo l'ipotesi nulla che non vi sia alcuna correlazione tra queste variabili utilizzando t- statistiche:

A un livello di significatività di α = 0,05, l'ipotesi nulla dovrebbe essere respinta perché t= 10,64 > 2,1788. Pertanto, si può sostenere che esiste una relazione statisticamente significativa tra le vendite annuali e le dimensioni del negozio.

Quando si discutono le inferenze sulle pendenze della popolazione, gli intervalli di confidenza ei criteri per testare le ipotesi sono strumenti intercambiabili. Tuttavia, il calcolo dell'intervallo di confidenza contenente il coefficiente di correlazione risulta essere più difficile, in quanto la forma della distribuzione campionaria della statistica r dipende dal vero coefficiente di correlazione.

Stima e previsione delle aspettative valori individuali

Questa sezione discute i metodi per stimare la risposta attesa Y e previsioni di valori individuali Y per dati valori della variabile X.

Costruzione di un intervallo di confidenza. Nell'esempio 2 (vedere la sezione precedente Metodo dei minimi quadrati) l'equazione di regressione ha permesso di prevedere il valore della variabile Y X. Nel problema della scelta di un posto per presa vendite medie annue in un'area di 4.000 mq. piedi era pari a 7,644 milioni di dollari.Tuttavia, questa stima dell'aspettativa matematica della popolazione generale è un punto. per stimare l'aspettativa matematica della popolazione generale è stato proposto il concetto di intervallo di confidenza. Allo stesso modo, si può introdurre il concetto intervallo di confidenza per l'aspettativa matematica della risposta per un dato valore di una variabile X:

dove , = b 0 + b 1 X i– variabile del valore previsto Y a X = X i, SYXè l'errore quadratico medio, nè la dimensione del campione, Xio- il valore dato della variabile X, µ Y|X = Xiovalore atteso variabile Y a X = Х i,SSX=

L'analisi della formula (13) mostra che l'ampiezza dell'intervallo di confidenza dipende da diversi fattori. Ad un dato livello di significatività, un aumento dell'ampiezza delle fluttuazioni attorno alla linea di regressione, misurata utilizzando l'errore quadratico medio, porta ad un aumento dell'ampiezza dell'intervallo. D'altra parte, come previsto, un aumento della dimensione del campione è accompagnato da un restringimento dell'intervallo. Inoltre, l'ampiezza dell'intervallo cambia a seconda dei valori Xio. Se il valore della variabile Y previsto per le quantità X, vicino al valore medio , l'intervallo di confidenza risulta essere più ristretto rispetto a quando si prevedeva la risposta per valori lontani dalla media.

Diciamo che quando si sceglie una posizione per un negozio, vogliamo costruire un intervallo di confidenza del 95% per le vendite medie annuali in tutti i negozi con una superficie di 4000 metri quadrati. piedi:

Pertanto, il volume medio annuo delle vendite in tutti i negozi con una superficie di 4.000 metri quadrati. piedi, con una probabilità del 95% è compreso tra 6,971 e 8,317 milioni di dollari.

Calcolare l'intervallo di confidenza per il valore previsto. Oltre all'intervallo di confidenza per l'aspettativa matematica della risposta per un dato valore della variabile X, è spesso necessario conoscere l'intervallo di confidenza per il valore previsto. Sebbene la formula per il calcolo di tale intervallo di confidenza sia molto simile alla formula (13), questo intervallo contiene un valore previsto e non una stima del parametro. Intervallo per la risposta prevista YX = Xi per un valore specifico della variabile Xioè determinato dalla formula:

Supponiamo che quando si sceglie una posizione per un punto vendita, si voglia costruire un intervallo di confidenza del 95% per il volume delle vendite annuali previsto in un negozio con una superficie di 4000 metri quadrati. piedi:

Pertanto, il volume di vendite annuo previsto per 4.000 mq. piedi, con una probabilità del 95% si trova nell'intervallo da 5,433 a 9,854 milioni di dollari Come puoi vedere, l'intervallo di confidenza per il valore di risposta previsto è molto più ampio dell'intervallo di confidenza per la sua aspettativa matematica. Questo perché la variabilità nella previsione dei singoli valori è molto maggiore rispetto alla stima del valore atteso.

Insidie ​​e problemi etici associati all'uso della regressione

Difficoltà associate all'analisi di regressione:

  • Trascurando le condizioni di applicabilità del metodo dei minimi quadrati.
  • Una stima errata delle condizioni di applicabilità del metodo dei minimi quadrati.
  • Errata scelta di metodi alternativi in ​​violazione delle condizioni di applicabilità del metodo dei minimi quadrati.
  • Applicazione analisi di regressione senza una conoscenza approfondita dell'oggetto della ricerca.
  • Estrapolazione della regressione oltre il range della variabile esplicativa.
  • Confusione tra relazioni statistiche e causali.

La diffusione di fogli di calcolo e Software per i calcoli statistici ha eliminato i problemi computazionali che impedivano l'uso dell'analisi di regressione. Tuttavia, ciò ha portato al fatto che l'analisi di regressione ha iniziato ad essere utilizzata da utenti che non dispongono di qualifiche e conoscenze sufficienti. Come fanno gli utenti a conoscere metodi alternativi se molti di loro non hanno alcuna idea delle condizioni per l'applicabilità del metodo dei minimi quadrati e non sanno come verificarne l'implementazione?

Il ricercatore non dovrebbe lasciarsi trasportare dalla macinazione dei numeri, calcolando lo spostamento, la pendenza e il coefficiente di correlazione misto. Ha bisogno di una conoscenza più profonda. Illustriamolo con un classico esempio tratto dai libri di testo. Anscombe ha mostrato che tutti e quattro i set di dati mostrati in Fig. 23 hanno gli stessi parametri di regressione (Fig. 24).

Riso. 23. Quattro set di dati artificiali

Riso. 24. Analisi di regressione di quattro set di dati artificiali; fatto con Pacchetto analisi(clicca sull'immagine per ingrandire l'immagine)

Quindi, dal punto di vista dell'analisi di regressione, tutti questi set di dati sono completamente identici. Se le analisi fossero finite su questo, avremmo perso molto informazioni utili. Ciò è evidenziato dai grafici a dispersione (Fig. 25) e dai grafici residui (Fig. 26) costruiti per questi set di dati.

Riso. 25. Grafici a dispersione per quattro set di dati

I grafici a dispersione e i grafici dei residui mostrano che questi dati sono diversi l'uno dall'altro. L'unico insieme distribuito lungo una linea retta è l'insieme A. Il grafico dei residui calcolato dall'insieme A non ha pattern. Lo stesso non si può dire per gli insiemi B, C e D. Il grafico a dispersione tracciato per l'insieme B mostra uno schema quadratico pronunciato. Questa conclusione è confermata dal grafico dei residui, che ha una forma parabolica. Il grafico a dispersione e il grafico residuo mostrano che il set di dati B contiene un valore anomalo. In questa situazione, è necessario escludere l'outlier dal set di dati e ripetere l'analisi. La tecnica per rilevare ed eliminare i valori anomali dalle osservazioni è chiamata analisi dell'influenza. Dopo aver eliminato l'outlier, il risultato della rivalutazione del modello potrebbe essere completamente diverso. Un grafico a dispersione tracciato dal set di dati D illustra una situazione insolita in cui il modello empirico dipende fortemente da una singola risposta ( X 8 = 19, Y 8 = 12,5). Tali modelli di regressione devono essere calcolati con particolare attenzione. Pertanto, i grafici a dispersione e residui sono uno strumento essenziale per l'analisi di regressione e dovrebbero esserne parte integrante. Senza di essi, l'analisi di regressione non è credibile.

Riso. 26. Grafici dei residui per quattro set di dati

Come evitare le insidie ​​nell'analisi di regressione:

  • Analisi delle possibili relazioni tra variabili X e Y inizia sempre con un grafico a dispersione.
  • Prima di interpretare i risultati di un'analisi di regressione, verificare le condizioni per la sua applicabilità.
  • Traccia i residui rispetto alla variabile indipendente. Ciò consentirà di determinare in che modo il modello empirico corrisponde ai risultati dell'osservazione e di rilevare la violazione della costanza della varianza.
  • Utilizzare istogrammi, grafici a stelo e foglia, grafici a scatola e grafici di distribuzione normale per verificare l'ipotesi di una distribuzione normale degli errori.
  • Se le condizioni di applicabilità del metodo dei minimi quadrati non sono soddisfatte, utilizzare metodi alternativi (ad esempio, modelli di regressione quadratica o multipla).
  • Se le condizioni di applicabilità del metodo dei minimi quadrati sono soddisfatte, è necessario verificare l'ipotesi sulla significatività statistica dei coefficienti di regressione e costruire intervalli di confidenza contenenti l'aspettativa matematica e il valore di risposta previsto.
  • Evitare di prevedere valori della variabile dipendente al di fuori dell'intervallo della variabile indipendente.
  • Tieni presente che le dipendenze statistiche non sono sempre causali. Ricorda che la correlazione tra variabili non significa che esista una relazione causale tra di esse.

Riepilogo. Come mostrato nel diagramma a blocchi (Fig. 27), la nota descrive un semplice modello di regressione lineare, le condizioni per la sua applicabilità ei modi per testare queste condizioni. Considerato t-criterio per testare la significatività statistica della pendenza della regressione. È stato utilizzato un modello di regressione per prevedere i valori della variabile dipendente. Un esempio è considerato relativo alla scelta di un luogo per un punto vendita, in cui viene studiata la dipendenza del volume delle vendite annuali dall'area del negozio. Le informazioni ottenute consentono di selezionare con maggiore precisione una posizione per il negozio e prevederne le vendite annuali. Nelle note seguenti, continuerà la discussione sull'analisi di regressione, così come sui modelli di regressione multipla.

Riso. 27. Schema a blocchi di una nota

Vengono utilizzati materiali tratti dal libro Levin et al., Statistiche per manager. - M.: Williams, 2004. - p. 792-872

Se la variabile dipendente è categoriale, dovrebbe essere applicata la regressione logistica.

Durante i loro studi, gli studenti incontrano molto spesso una varietà di equazioni. Uno di questi - l'equazione di regressione - è considerato in questo articolo. Questo tipo di equazione viene utilizzato specificamente per descrivere le caratteristiche della relazione tra parametri matematici. Questo tipo le uguaglianze sono utilizzate in statistica ed econometria.

Definizione di regressione

In matematica, la regressione è intesa come una certa quantità che descrive la dipendenza del valore medio di un set di dati dai valori di un'altra quantità. L'equazione di regressione mostra, in funzione di una particolare caratteristica, il valore medio di un'altra caratteristica. La funzione di regressione ha la forma semplice equazione y \u003d x, in cui y è la variabile dipendente e x è la variabile indipendente (fattore di caratteristica). Infatti, la regressione è espressa come y = f (x).

Quali sono i tipi di relazioni tra le variabili

In generale si distinguono due tipi opposti di relazione: correlazione e regressione.

Il primo è caratterizzato dall'uguaglianza delle variabili condizionali. A questo caso non si sa con certezza quale variabile dipenda dall'altra.

Se non c'è uguaglianza tra le variabili e le condizioni dicono quale variabile è esplicativa e quale è dipendente, allora possiamo parlare della presenza di una connessione del secondo tipo. Per costruire un'equazione di regressione lineare, sarà necessario scoprire quale tipo di relazione si osserva.

Tipi di regressioni

Ad oggi esistono 7 diversi tipi di regressione: iperbolica, lineare, multipla, non lineare, a coppie, inversa, logaritmicamente lineare.

Iperbolico, lineare e logaritmico

L'equazione di regressione lineare viene utilizzata nelle statistiche per spiegare chiaramente i parametri dell'equazione. Sembra che y = c + m * x + E. L'equazione iperbolica ha la forma di un'iperbole regolare y \u003d c + m / x + E. Logaritmicamente equazione lineare esprime la relazione utilizzando una funzione logaritmica: In y \u003d In c + m * In x + In E.

Multiplo e non lineare

ancora due tipi complessi le regressioni sono multiple e non lineari. L'equazione di regressione multipla è espressa dalla funzione y \u003d f (x 1, x 2 ... x c) + E. In questa situazione, y è la variabile dipendente e x è la variabile esplicativa. La variabile E è stocastica e include l'influenza di altri fattori nell'equazione. L'equazione di regressione non lineare è un po' incoerente. Da un lato, rispetto agli indicatori presi in considerazione, non è lineare, e dall'altro, nel ruolo di valutazione degli indicatori, è lineare.

Regressioni inverse e a coppie

Un inverso è un tipo di funzione che deve essere convertita in vista lineare. Nei programmi applicativi più tradizionali, ha la forma di una funzione y \u003d 1 / c + m * x + E. L'equazione di regressione accoppiata mostra la relazione tra i dati in funzione di y = f(x) + E. Proprio come le altre equazioni, y dipende da x ed E è un parametro stocastico.

Il concetto di correlazione

Questo è un indicatore che dimostra l'esistenza di una relazione tra due fenomeni o processi. La forza della relazione è espressa come coefficiente di correlazione. Il suo valore oscilla all'interno dell'intervallo [-1;+1]. Un indicatore negativo indica la presenza feedback, positivo - su una linea retta. Se il coefficiente assume un valore uguale a 0, allora non c'è relazione. Più il valore è vicino a 1, il connessione più forte tra i parametri, più vicino a 0 - più debole.

Metodi

I metodi parametrici di correlazione possono stimare la tenuta della relazione. Sono utilizzati sulla base di stime di distribuzione per studiare parametri che obbediscono alla legge della distribuzione normale.

I parametri dell'equazione di regressione lineare sono necessari per identificare il tipo di dipendenza, la funzione dell'equazione di regressione e valutare gli indicatori della formula di relazione prescelta. Il campo di correlazione viene utilizzato come metodo per identificare una relazione. Per fare ciò, tutti i dati esistenti devono essere rappresentati graficamente. In un sistema di coordinate bidimensionale rettangolare, tutti i dati noti devono essere tracciati. È così che si forma il campo di correlazione. Il valore del fattore descrittivo è segnato lungo l'ascissa, mentre i valori del fattore dipendente sono segnati lungo l'ordinata. Se esiste una relazione funzionale tra i parametri, si allineano sotto forma di una linea.

Se il coefficiente di correlazione di tali dati è inferiore al 30%, possiamo parlare della quasi totale assenza di connessione. Se è compreso tra il 30% e il 70%, indica la presenza di collegamenti di media vicinanza. Un indicatore del 100% è la prova di una connessione funzionale.

Un'equazione di regressione non lineare, proprio come una lineare, deve essere integrata con un indice di correlazione (R).

Correlazione per la regressione multipla

Il coefficiente di determinazione è un indicatore del quadrato della correlazione multipla. Parla della tenuta della relazione del set di indicatori presentato con il tratto in esame. Può anche parlare della natura dell'influenza dei parametri sul risultato. L'equazione di regressione multipla viene valutata utilizzando questo indicatore.

Per calcolare l'indice di correlazione multipla, è necessario calcolare il suo indice.

Metodo dei minimi quadrati

Questo metodo è un modo per stimare i fattori di regressione. La sua essenza sta nel minimizzare la somma delle deviazioni al quadrato ottenute a causa della dipendenza del fattore dalla funzione.

Un'equazione di regressione lineare accoppiata può essere stimata utilizzando tale metodo. Questo tipo di equazioni viene utilizzato in caso di rilevamento tra gli indicatori di una relazione lineare accoppiata.

Opzioni di equazione

Ogni parametro della funzione di regressione lineare ha un significato specifico. L'equazione di regressione lineare accoppiata contiene due parametri: c e m.Il parametro t mostra la variazione media nell'indicatore finale della funzione y, soggetto a una diminuzione (aumento) della variabile x di un'unità convenzionale. Se la variabile x è zero, allora la funzione è uguale al parametro c. Se la variabile x non è zero, allora il fattore c non ha senso economico. L'unica influenza sulla funzione è il segno davanti al fattore c. Se c'è un meno, allora possiamo dire di un lento cambiamento nel risultato rispetto al fattore. Se c'è un vantaggio, questo indica un cambiamento accelerato nel risultato.

Ogni parametro che modifica il valore dell'equazione di regressione può essere espresso in termini di un'equazione. Ad esempio, il fattore c ha la forma c = y - mx.

Dati raggruppati

Esistono tali condizioni dell'attività in cui tutte le informazioni sono raggruppate in base all'attributo x, ma allo stesso tempo, per un determinato gruppo, vengono indicati i corrispondenti valori medi dell'indicatore dipendente. In questo caso, i valori medi caratterizzano come l'indicatore dipende da x. Pertanto, le informazioni raggruppate aiutano a trovare l'equazione di regressione. È usato come analisi delle relazioni. Tuttavia, questo metodo ha i suoi svantaggi. Sfortunatamente, le medie sono spesso soggette a fluttuazioni esterne. Queste fluttuazioni non riflettono gli schemi della relazione, ne mascherano solo il "rumore". Le medie mostrano modelli di relazione molto peggiori di un'equazione di regressione lineare. Tuttavia, possono essere utilizzati come base per trovare un'equazione. Moltiplicando la dimensione di una particolare popolazione per la media corrispondente, puoi ottenere la somma di y all'interno del gruppo. Successivamente, è necessario eliminare tutti gli importi ricevuti e trovare l'indicatore finale y. È un po' più difficile fare calcoli con l'indicatore di somma xy. Nel caso in cui gli intervalli siano piccoli, possiamo condizionalmente prendere l'indicatore x per tutte le unità (all'interno del gruppo) lo stesso. Moltiplicalo per la somma di y per trovare la somma dei prodotti di x e y. Inoltre, tutte le somme vengono messe insieme e si ottiene la somma totale xy.

Regressione di equazioni a coppie multiple: valutazione dell'importanza di una relazione

Come discusso in precedenza, la regressione multipla ha una funzione della forma y \u003d f (x 1, x 2, ..., x m) + E. Molto spesso, tale equazione viene utilizzata per risolvere il problema della domanda e dell'offerta di beni, interessi attivi sulle azioni riacquistate, studiando le cause e il tipo di funzione del costo di produzione. Viene anche utilizzato attivamente in un'ampia varietà di studi e calcoli macroeconomici, ma a livello di microeconomia questa equazione viene utilizzata un po' meno frequentemente.

Il compito principale della regressione multipla è costruire un modello di dati contenente un'enorme quantità di informazioni al fine di determinare ulteriormente quale influenza ciascuno dei fattori individualmente e nella loro totalità ha sull'indicatore da modellare e sui suoi coefficienti. L'equazione di regressione può assumere una varietà di valori. In questo caso, vengono solitamente utilizzati due tipi di funzioni per valutare la relazione: lineare e non lineare.

Una funzione lineare è rappresentata sotto forma di una tale relazione: y \u003d a 0 + a 1 x 1 + a 2 x 2, + ... + a m x m. In questo caso, a2, a m , sono considerati i coefficienti di regressione "pura". Sono necessari per caratterizzare la variazione media del parametro y con una variazione (diminuzione o aumento) di ciascun parametro x corrispondente di un'unità, con la condizione di un valore stabile di altri indicatori.

Le equazioni non lineari hanno, ad esempio, la forma funzione di potenza y=ax 1 b1 x 2 b2 ...x m bm . In questo caso, gli indicatori b 1, b 2 ..... b m - sono chiamati coefficienti di elasticità, dimostrano come il risultato cambierà (di quanto%) con un aumento (diminuzione) dell'indicatore corrispondente x dell'1% e con un indicatore stabile di altri fattori.

Quali fattori dovrebbero essere considerati quando si costruisce una regressione multipla

Per costruire correttamente una regressione multipla, è necessario scoprire a quali fattori prestare particolare attenzione.

È necessario avere una certa comprensione della natura della relazione tra fattori economici e modellato. I fattori da includere devono soddisfare i seguenti criteri:

  • Deve essere misurabile. Per utilizzare un fattore che descriva la qualità di un oggetto, in ogni caso, dovrebbe essere data una forma quantitativa.
  • Non ci dovrebbero essere intercorrelazioni tra fattori o relazioni funzionali. Tali azioni molto spesso portano a conseguenze irreversibili: il sistema di equazioni ordinarie diventa incondizionato e ciò comporta la sua inaffidabilità e stime sfocate.
  • Nel caso di un enorme indicatore di correlazione, non c'è modo di scoprire l'influenza isolata dei fattori sul risultato finale dell'indicatore, pertanto i coefficienti diventano non interpretabili.

Metodi di costruzione

Esistono moltissimi metodi e modi per spiegare come scegliere i fattori per l'equazione. Tuttavia, tutti questi metodi si basano sulla selezione dei coefficienti utilizzando l'indice di correlazione. Tra questi ci sono:

  • Metodo di esclusione.
  • Attiva il metodo.
  • Analisi di regressione graduale.

Il primo metodo prevede l'eliminazione di tutti i coefficienti dall'insieme aggregato. Il secondo metodo prevede l'introduzione di molti fattori aggiuntivi. Bene, il terzo è l'eliminazione dei fattori precedentemente applicati all'equazione. Ciascuno di questi metodi ha il diritto di esistere. Hanno i loro pro e contro, ma possono risolvere il problema dello screening degli indicatori non necessari a modo loro. Di norma, i risultati ottenuti da ogni singolo metodo sono abbastanza vicini.

Metodi di analisi multivariata

Tali metodi per determinare i fattori si basano sulla considerazione di singole combinazioni di caratteristiche correlate. Questi includono l'analisi discriminante, il riconoscimento di pattern, l'analisi delle componenti principali e l'analisi dei cluster. Inoltre, esiste anche l'analisi fattoriale, tuttavia, è apparsa come risultato dello sviluppo del metodo dei componenti. Tutti vengono applicati in determinate circostanze, in determinate condizioni e fattori.

bagno turco regressione lineare è la relazione tra una variabile e la media di un'altra variabile. Molto spesso, il modello è scritto come $y=ax+b+e$, dove $x$ è una variabile fattore, $y$ è la risultante (dipendente), $e$ è una componente casuale (residuo, deviazione).

Nei compiti educativi per statistica matematica comunemente usato è il seguente algoritmo per trovare l'equazione di regressione.

  1. Scelta del modello (equazione). Spesso il modello è predeterminato (trova regressione lineare) o un metodo grafico viene utilizzato per la selezione: viene costruito un grafico a dispersione e la sua forma viene analizzata.
  2. Calcolo dei coefficienti (parametri) dell'equazione di regressione. Questo viene spesso fatto utilizzando il metodo dei minimi quadrati.
  3. Verifica della significatività del coefficiente di correlazione e dei parametri del modello (per essi possono essere costruiti anche intervalli di confidenza), valutazione della qualità del modello mediante il criterio di Fisher.
  4. Analisi residua, calcolo errore standard regressione, previsione del modello (opzionale).

Di seguito troverai soluzioni per la regressione accoppiata (su serie di dati o tabella di correlazione, con vari compiti aggiuntivi) e un paio di compiti per determinare ed esaminare il coefficiente di correlazione.


È piaciuto? Segnalibro

Esempi di soluzioni online: regressione lineare

Selezione semplice

Esempio 1 Esistono dati sulla produzione media per lavoratore Y (migliaia di rubli) e sul fatturato X (migliaia di rubli) in 20 negozi a trimestre. Sulla base dei dati specificati è richiesto:
1) determinare la dipendenza (coefficiente di correlazione) del prodotto medio per addetto dal fatturato,
2) fare l'equazione di regressione diretta di questa dipendenza.

Esempio 2 Al fine di analizzare l'influenza reciproca dei salari e del turnover del lavoro in cinque imprese dello stesso tipo con lo stesso numero di dipendenti, sono state effettuate misurazioni del livello della retribuzione mensile X e del numero di lavoratori che hanno lasciato durante l'anno Y:
X 100 150 200 250 300
Y 60 35 20 20 15
Trova la regressione lineare di Y su X, coefficiente di correlazione del campione.

Esempio 3 Trova Selettivo caratteristiche numeriche e un esempio di equazione di regressione lineare $y_x=ax+b$. Costruisci una retta di regressione e disegna i punti $(x,y)$ dalla tabella sul piano. Calcolare la varianza residua. Verificare l'adeguatezza del modello di regressione lineare in base al coefficiente di determinazione.

Esempio 4 Calcolare i coefficienti dell'equazione di regressione. Determina il coefficiente di correlazione del campione tra la densità del legno di frassino della Manciuria e la sua resistenza.
Risolvendo il problema, è necessario costruire un campo di correlazione, determinare il tipo di dipendenza in base al tipo di campo, scrivere forma generale equazione di regressione Y su X, determinare i coefficienti dell'equazione di regressione e calcolare i coefficienti di correlazione tra i due valori dati.

Esempio 5 Una società di autonoleggio è interessata alla relazione tra il chilometraggio delle auto X e il costo della manutenzione mensile Y. Per determinare la natura di questa relazione, sono state selezionate 15 auto. Costruisci un grafico dei dati iniziali e determina la natura della dipendenza da esso. Calcola la frequenza di campionamento correlazione lineare Pearson, controlla il suo significato a 0,05. Costruisci un'equazione di regressione e dai un'interpretazione dei risultati.

tavola di correlazione

Esempio 6 Trova un esempio di equazione di regressione diretta Y su X data una tabella di correlazione

Esempio 7 Nella tabella 2 sono riportati i dati sulla dipendenza del consumo Y (u.r.) dal reddito X (u.r.) per alcune famiglie.
1. Supponendo che esista una relazione lineare tra X e Y, trovare le stime puntuali per i coefficienti di regressione lineare.
2. Trova la deviazione standard $s$ e il coefficiente di determinazione $R^2$.
3. Assumendo la normalità della componente casuale del modello di regressione, verificare l'ipotesi che non vi sia alcuna relazione lineare tra Y e X.
4. Qual è il consumo previsto domestico con reddito $x_n=7$ arb. unità? Trova l'intervallo di confidenza per la previsione.
Dare un'interpretazione dei risultati ottenuti. Il livello di significatività in tutti i casi è considerato pari a 0,05.

Esempio 8 La distribuzione di 100 nuovi tipi di tariffe per la comunicazione cellulare di tutti i sistemi mobili conosciuti X (unità monetarie) e le entrate da esse Y (unità monetarie) sono riportate nella tabella:
Necessario:
1) Calcolare medie di gruppo e costruire linee di regressione empiriche;
2) Supponendo che esista una correlazione lineare tra le variabili X e Y:
A) trovare le equazioni delle rette di regressione, costruirne i grafici sullo stesso disegno con rette di regressione empiriche e dare un'interpretazione economica delle equazioni ottenute;
B) calcolare il coefficiente di correlazione, valutarne la significatività a un livello di significatività di 0,05 e trarre una conclusione circa la vicinanza e la direzione della relazione tra le variabili X e Y;
C) stimare, utilizzando l'opportuna equazione di regressione, il ricavo medio dei sistemi mobili con 20 nuovi tipi di tariffe.

Per i territori della regione, i dati sono forniti per 200X.

Numero di regione Minimo di sussistenza medio pro capite al giorno per una persona abile, rub., x Stipendio giornaliero medio, rub., a
1 78 133
2 82 148
3 87 134
4 79 154
5 89 162
6 106 195
7 67 139
8 88 158
9 73 152
10 87 162
11 76 159
12 115 173

Esercizio:

1. Costruisci un campo di correlazione e formula un'ipotesi sulla forma della connessione.

2. Calcolare i parametri dell'equazione di regressione lineare

4. Utilizzando il coefficiente di elasticità medio (generale), fornire una valutazione comparativa della forza della relazione tra il fattore e il risultato.

7. Calcolare il valore previsto del risultato se il valore previsto del fattore aumenta del 10% rispetto al suo livello medio. Determinare l'intervallo di confidenza della previsione per il livello di significatività.

Soluzione:

Risolviamo questo problema utilizzando Excel.

1. Confrontando i dati disponibili x e y, ad esempio, ordinandoli in ordine crescente del fattore x, si può osservare una relazione diretta tra i segni quando un aumento del minimo di sussistenza pro capite aumenta il salario medio giornaliero. Sulla base di ciò, si può presumere che la relazione tra i segni sia diretta e possa essere descritta dall'equazione di una retta. La stessa conclusione è confermata sulla base dell'analisi grafica.

Per creare un campo di correlazione, puoi utilizzare Excel PPP. Inserisci i dati iniziali nella sequenza: prima x, poi y.

Seleziona l'area delle celle che contengono i dati.

Quindi scegli: Inserisci / Scatter / Scatter con pennarelli come mostrato in figura 1.

Figura 1 Costruzione del campo di correlazione

L'analisi del campo di correlazione mostra la presenza di una dipendenza prossima a una retta, poiché i punti si trovano quasi in una retta.

2. Calcolare i parametri dell'equazione di regressione lineare
utilizzare la funzione statistica incorporata LINEA.

Per questo:

1) Aprire un file esistente contenente i dati da analizzare;
2) Selezionare un'area di celle vuote 5×2 (5 righe, 2 colonne) per visualizzare i risultati delle statistiche di regressione.
3) Attiva Funzione guidata: nel menu principale selezionare Formule / Inserisci funzione.
4) Alla finestra Categoria tu prendi Statistico, nella finestra della funzione - LINEA. Fare clic sul pulsante OK come mostrato in Figura 2;

Figura 2 Finestra di dialogo Creazione guidata funzione

5) Inserisci gli argomenti della funzione:

Valori noti

Valori x noti

Costante - booleano, che indica la presenza o l'assenza di un termine libero nell'equazione; se Costante = 1, allora il termine libero si calcola nel solito modo, se Costante = 0, allora il termine libero è 0;

Statistiche- un valore booleano che indica se visualizzare o meno informazioni aggiuntive sull'analisi di regressione. Se Statistiche = 1, allora Informazioni aggiuntive viene visualizzato, se Statistiche = 0, vengono visualizzate solo le stime dei parametri dell'equazione.

Fare clic sul pulsante OK;

Figura 3 Finestra di dialogo Argomenti REGR.LIN

6) Il primo elemento del tavolo finale apparirà nella cella in alto a sinistra dell'area selezionata. Per espandere l'intera tabella, premere il pulsante e poi sulla scorciatoia da tastiera ++ .

Verranno emesse ulteriori statistiche di regressione nell'ordine mostrato nello schema seguente:

Il valore del coefficiente b Il valore del coefficiente a
b errore standard errore standard A
errore standard y
Statistica F
Regressione somma dei quadrati

Figura 4 Il risultato del calcolo della funzione REGR.LIN

Abbiamo l'equazione di regressione:

Concludiamo: con un aumento del minimo di sussistenza pro capite di 1 sfregamento. il salario giornaliero medio aumenta in media di 0,92 rubli.

Significa variazione del 52%. salari(y) è spiegato dalla variazione del fattore x - il minimo di sussistenza medio pro capite, e del 48% - dall'azione di altri fattori non inclusi nel modello.

In base al coefficiente di determinazione calcolato, è possibile calcolare il coefficiente di correlazione: .

La relazione è valutata come stretta.

4. Utilizzando il coefficiente di elasticità medio (generale), determiniamo la forza dell'influenza del fattore sul risultato.

Per l'equazione della linea retta, il coefficiente di elasticità medio (generale) è determinato dalla formula:

Troviamo i valori medi selezionando l'area delle celle con valori x e seleziona Formule / Somma automatica / Media, e fai lo stesso con i valori di y.

Figura 5 Calcolo dei valori medi di una funzione e argomento

Pertanto, se il minimo di sussistenza medio pro capite cambia dell'1% rispetto al suo valore medio, il salario giornaliero medio cambierà in media dello 0,51%.

Utilizzo di uno strumento di analisi dei dati Regressione a disposizione:
- risultati delle statistiche di regressione,
- risultati dell'analisi della dispersione,
- risultati intervalli di confidenza,
- grafici dei residui e della linea di regressione,
- residui e probabilità normale.

La procedura è la seguente:

1) controllare l'accesso a Pacchetto analisi. Nel menu principale selezionare in sequenza: File/Impostazioni/Componenti aggiuntivi.

2) Cadere Controllo scegliere oggetto Componenti aggiuntivi di Excel e premere il pulsante Andare.

3) Alla finestra componenti aggiuntivi selezionare la casella Pacchetto analisi, quindi fare clic sul pulsante OK.

Se una Pacchetto analisi mancante dall'elenco dei campi Componenti aggiuntivi disponibili, premi il bottone Revisione cercare.

Se ricevi un messaggio che indica che il pacchetto di analisi non è installato sul tuo computer, fai clic su per installarlo.

4) Nel menù principale selezionare in sequenza: Dati / Analisi dei dati / Strumenti di analisi / Regressione, quindi fare clic sul pulsante OK.

5) Compilare la finestra di dialogo delle opzioni di immissione e output dei dati:

Intervallo di inserimento Y- l'intervallo contenente i dati dell'attributo effettivo;

Intervallo di input X- l'intervallo contenente i dati dell'attributo factor;

Tag- un flag che indica se la prima riga contiene o meno i nomi delle colonne;

Costante - zero- un flag che indica la presenza o l'assenza di un termine libero nell'equazione;

intervallo di uscita- è sufficiente indicare la cella in alto a sinistra dell'intervallo futuro;

6) Nuovo foglio di lavoro: puoi impostare un nome arbitrario per il nuovo foglio.

Quindi premere il pulsante OK.

Figura 6 Finestra di dialogo per l'inserimento dei parametri dello strumento Regressione

I risultati dell'analisi di regressione per i dati del problema sono mostrati nella Figura 7.

Figura 7 Il risultato dell'applicazione dello strumento di regressione

5. Stimiamo la qualità delle equazioni utilizzando l'errore medio di approssimazione. Usiamo i risultati dell'analisi di regressione presentata nella Figura 8.

Figura 8 Il risultato dell'applicazione dello strumento di regressione "Inferenza residua"

Compiliamo una nuova tabella come mostrato in Figura 9. Nella colonna C, calcoliamo l'errore di approssimazione relativo utilizzando la formula:

Figura 9 Calcolo dell'errore medio di approssimazione

L'errore di approssimazione medio è calcolato dalla formula:

La qualità del modello costruito è valutata buona, poiché non supera l'8 - 10%.

6. Dalla tabella con le statistiche di regressione (Figura 4), scriviamo il valore effettivo del test F di Fisher:

Perché il a un livello di significatività del 5%, allora possiamo concludere che l'equazione di regressione è significativa (la relazione è dimostrata).

8. Valuteremo la significatività statistica dei parametri di regressione utilizzando la statistica t di Student e calcolando l'intervallo di confidenza per ciascuno degli indicatori.

Proponiamo l'ipotesi H 0 su una differenza statisticamente insignificante di indicatori da zero:

.

per il numero di gradi di libertà

La Figura 7 ha i valori effettivi della statistica t:

Il test t per il coefficiente di correlazione può essere calcolato in due modi:

io modo:

dove - errore casuale del coefficiente di correlazione.

Prendiamo i dati per il calcolo dalla tabella in Figura 7.

II modo:

I valori effettivi della statistica t sono superiori ai valori della tabella:

Pertanto, l'ipotesi H 0 è rifiutata, cioè i parametri di regressione e il coefficiente di correlazione non sono casualmente diversi da zero, ma sono statisticamente significativi.

L'intervallo di confidenza per il parametro a è definito come

Per il parametro a, i limiti del 95%, come mostrato nella Figura 7, erano:

L'intervallo di confidenza per il coefficiente di regressione è definito come

Per il coefficiente di regressione b, i limiti del 95% come mostrato nella Figura 7 erano:

Un'analisi dei limiti superiore e inferiore degli intervalli di confidenza porta alla conclusione che con una probabilità i parametri a e b, essendo all'interno dei limiti specificati, non assumono valori zero, cioè non sono statisticamente significativi e sono significativamente diversi da zero.

7. Le stime ottenute dell'equazione di regressione ci consentono di utilizzarla per la previsione. Se il valore di previsione del minimo di sussistenza è:

Quindi il valore previsto del minimo di sussistenza sarà:

Calcoliamo l'errore di previsione utilizzando la formula:

dove

Calcoliamo anche la varianza usando Excel PPP. Per questo:

1) Attiva Funzione guidata: nel menu principale selezionare Formule / Inserisci funzione.

3) Compilare l'intervallo contenente i dati numerici della caratteristica del fattore. Clic OK.

Figura 10 Calcolo della varianza

Ottieni il valore della varianza

Per calcolare la varianza residua per un grado di libertà, utilizziamo i risultati dell'analisi della varianza come mostrato nella Figura 7.

Gli intervalli di confidenza per prevedere i singoli valori di ya con una probabilità di 0,95 sono determinati dall'espressione:

L'intervallo è piuttosto ampio, principalmente a causa del piccolo volume di osservazioni. In generale, la previsione soddisfatta dello stipendio mensile medio si è rivelata affidabile.

La condizione del problema è tratta da: Workshop on econometrics: Proc. indennità / I.I. Eliseeva, S.V. Kurysheva, N.M. Gordeenko e altri; ed. io. Eliseeva. - M.: Finanza e statistica, 2003. - 192 p.: riprod.