Aree di sua applicazione.  Approssimazione dei dati sperimentali.  Metodo dei minimi quadrati

Aree di sua applicazione. Approssimazione dei dati sperimentali. Metodo dei minimi quadrati

Metodo minimi quadrati(LSM) consente di stimare varie grandezze utilizzando i risultati di misurazioni multiple contenenti errori casuali.

MNC caratteristica

L'idea principale di questo metodo è che la somma degli errori al quadrato è considerata un criterio per l'accuratezza della soluzione del problema, che si cerca di ridurre al minimo. Quando si utilizza questo metodo, possono essere applicati approcci sia numerici che analitici.

In particolare, come implementazione numerica, il metodo dei minimi quadrati implica effettuare quante più misurazioni possibili di una variabile casuale sconosciuta. Inoltre, più calcoli, più accurata sarà la soluzione. Su questo insieme di calcoli (dati iniziali) si ottiene un altro insieme di soluzioni proposte, da cui poi si seleziona quella migliore. Se l'insieme di soluzioni è parametrizzato, il metodo dei minimi quadrati sarà ridotto alla ricerca del valore ottimale dei parametri.

Come approccio analitico all'implementazione di LSM sull'insieme dei dati iniziali (misure) e sull'insieme proposto di soluzioni, se ne definiscono alcuni (funzionali), che possono essere espressi da una formula ottenuta come una certa ipotesi che deve essere confermata. In questo caso, il metodo dei minimi quadrati si riduce a trovare il minimo di questo funzionale sull'insieme degli errori al quadrato dei dati iniziali.

Nota che non gli errori stessi, ma i quadrati degli errori. Come mai? Il fatto è che spesso deviazioni di misurazioni da valore esatto sono sia positivi che negativi. Quando si determina la media, una semplice somma può portare a una conclusione errata sulla qualità della stima, poiché la reciproca cancellazione di valori positivi e negativi ridurrà la potenza di campionamento dell'insieme di misurazioni. E, di conseguenza, l'accuratezza della valutazione.

Per evitare che ciò accada, le deviazioni al quadrato vengono riassunte. Inoltre, per pareggiare la dimensione del valore misurato e la stima finale, si utilizza la somma degli errori al quadrato per estrarre

Alcune applicazioni delle multinazionali

MNC è ampiamente utilizzato in vari campi. Ad esempio, nella teoria della probabilità e statistica matematica il metodo viene utilizzato per determinare una tale caratteristica di una variabile casuale come la media deviazione standard, che determina l'ampiezza dell'intervallo di valori della variabile casuale.

Metodo dei minimi quadrati (OLS, eng. Ordinary Least Squares, OLS) - metodo matematico, utilizzato per risolvere vari problemi, basato sulla minimizzazione della somma delle deviazioni al quadrato di alcune funzioni dalle variabili desiderate. Può essere utilizzato per "risolvere" sistemi di equazioni sovradeterminati (quando il numero di equazioni supera il numero di incognite), per trovare una soluzione nel caso di sistemi di equazioni non lineari ordinari (non sovradeterminati), per approssimare i valori dei punti di una certa funzione. L'OLS è uno dei metodi di base dell'analisi di regressione per la stima di parametri sconosciuti dei modelli di regressione da dati campione.

YouTube enciclopedico

    1 / 5

    ✪ Metodo dei minimi quadrati. Argomento

    ✪ Mitin I. V. - Elaborazione dei risultati del fisico. esperimento - Metodo dei minimi quadrati (Lezione 4)

    ✪ Minimi quadrati, lezione 1/2. Funzione lineare

    ✪ Econometria. Lezione 5. Metodo dei minimi quadrati

    ✪ Metodo dei minimi quadrati. Risposte

    Sottotitoli

Storia

Fino all'inizio del XIX secolo. gli scienziati non avevano determinate regole per risolvere un sistema di equazioni in cui il numero di incognite è inferiore al numero di equazioni; Fino a quel momento si usavano metodi particolari, a seconda del tipo di equazioni e dell'ingegnosità dei calcolatori, e quindi calcolatori differenti, partendo dagli stessi dati osservativi, arrivavano a conclusioni differenti. Gauss (1795) è accreditato della prima applicazione del metodo e Legendre (1805) lo scoprì e lo pubblicò indipendentemente con il suo nome moderno (fr. Metodo dei moindres quarres). Laplace collegò il metodo con la teoria delle probabilità e il matematico americano Adrain (1808) ne considerò le applicazioni probabilistiche. Il metodo è diffuso e migliorato da ulteriori ricerche di Encke, Bessel, Hansen e altri.

L'essenza del metodo dei minimi quadrati

Permettere x (\ displaystyle x)- corredo n (\ displaystyle n) variabili sconosciute (parametri), f io (x) (\ displaystyle f_ (i) (x)), , m > n (\ displaystyle m> n)- insieme di funzioni da questo insieme di variabili. Il problema è scegliere tali valori x (\ displaystyle x) in modo che i valori di queste funzioni siano il più vicino possibile ad alcuni valori y io (\ displaystyle y_ (i)). Essenzialmente noi stiamo parlando sulla "soluzione" di un sistema di equazioni sovradeterminato f io (x) = y io (\ displaystyle f_ (i) (x) = y_ (i)), io = 1 , ... , m (\ displaystyle i = 1, \ lpunti, m) nell'indicato senso della massima vicinanza della sinistra e parti giuste sistemi. L'essenza di LSM è scegliere come "misura di prossimità" la somma delle deviazioni al quadrato delle parti sinistra e destra | f io (x) − y io | (\ displaystyle |f_(i)(x)-y_(i)|). Pertanto, l'essenza del LSM può essere espressa come segue:

∑ io e io 2 = ∑ io (y io - f io (x)) 2 → min x (\ displaystyle \ sum _(i) e_(i)^(2)=\sum _(i)(y_(i)-f_( i)(x))^(2)\freccia destra \min _(x)).

Se il sistema di equazioni ha una soluzione, il minimo della somma dei quadrati sarà uguale a zero e le soluzioni esatte del sistema di equazioni possono essere trovate analiticamente o, ad esempio, con vari metodi di ottimizzazione numerica. Se il sistema è sovradeterminato, cioè, in parole povere, il numero di equazioni indipendenti più quantità variabili sconosciute, allora il sistema non ha una soluzione esatta e il metodo dei minimi quadrati ci permette di trovare qualche vettore "ottimale" x (\ displaystyle x) nel senso della massima vicinanza dei vettori y (\ displaystyle y) e f (x) (\ displaystyle f (x)) o la massima prossimità del vettore di deviazione e (\ displaystyle e) a zero (la prossimità è intesa nel senso di distanza euclidea).

Esempio - sistema di equazioni lineari

In particolare, il metodo dei minimi quadrati può essere utilizzato per "risolvere" il sistema equazioni lineari

A x = b (\ displaystyle Ax = b),

dove A (\ displaystyle A) matrice di dimensioni rettangolari m × n , m > n (\ displaystyle m \ volte n, m> n)(cioè il numero di righe della matrice A è maggiore del numero di variabili richieste).

Un tale sistema di equazioni in caso generale non ha soluzione. Pertanto, questo sistema può essere "risolto" solo nel senso di scegliere un tale vettore x (\ displaystyle x) per ridurre al minimo la "distanza" tra i vettori A x (\ displaystyle Ax) e b (\ displaystyle b). Per fare ciò, puoi applicare il criterio di minimizzazione della somma delle differenze al quadrato delle parti sinistra e destra delle equazioni del sistema, ovvero (A x - b) T (A x - b) → min (\displaystyle (Ax-b)^(T)(Ax-b)\rightarrow \min). È facile dimostrare che la soluzione di questo problema di minimizzazione porta alla soluzione del seguente sistema di equazioni

A T A x = A T b ⇒ x = (A T A) - 1 A T b (\ displaystyle A ^ (T) Ax = A ^ (T) b \ Freccia destra x = (A ^ (T) A) ^ (-1) A ^ (T)b).

OLS nell'analisi di regressione (approssimazione dei dati)

Lascia che ci sia n (\ displaystyle n) valori di qualche variabile y (\ displaystyle y)(questo può essere il risultato di osservazioni, esperimenti, ecc.) e le variabili corrispondenti x (\ displaystyle x). La sfida è fare il rapporto tra y (\ displaystyle y) e x (\ displaystyle x) approssimato da qualche funzione nota fino ad alcuni parametri sconosciuti b (\ displaystyle b), cioè effettivamente trovare migliori valori parametri b (\ displaystyle b), approssimando al massimo i valori f (x , b) (\ displaystyle f (x, b)) ai valori effettivi y (\ displaystyle y). Ciò si riduce infatti al caso di "soluzione" di un sistema di equazioni sovradeterminato rispetto a b (\ displaystyle b):

F (x t , b) = y t , t = 1 , ... , n (\ displaystyle f (x_(t), b) = y_(t), t=1, \ ldots, n).

Nell'analisi di regressione, e in particolare in econometria, vengono utilizzati modelli probabilistici della relazione tra variabili.

Y t = f (x t , b) + ε t (\ displaystyle y_ (t) = f (x_ (t), b) + \ varepsilon _ (t)),

dove ε t (\ displaystyle \ varepsilon _ (t))- così chiamato errori casuali Modelli.

Di conseguenza, le deviazioni dei valori osservati y (\ displaystyle y) dal modello f (x , b) (\ displaystyle f (x, b)) già assunto nel modello stesso. L'essenza di LSM (ordinario, classico) è trovare tali parametri b (\ displaystyle b), in cui la somma delle deviazioni al quadrato (errori, per i modelli di regressione sono spesso chiamati residui di regressione) e t (\ displaystyle e_ (t)) sarà minimo:

b ^ O L S = arg ⁡ min b R S S (b) (\ displaystyle (\ cappello (b)) _ (OLS) = \ arg \ min _ (b) RSS (b)),

dove RS S (\ displaystyle RSS)- Inglese. La somma residua dei quadrati è definita come:

R S S (b) = e T e = ∑ t = 1 n e t 2 = ∑ t = 1 n (y t - f (x t , b)) 2 (\displaystyle RSS(b)=e^(T)e=\sum _ (t=1)^(n)e_(t)^(2)=\somma _(t=1)^(n)(y_(t)-f(x_(t),b))^(2) ).

Nel caso generale, questo problema può essere risolto con metodi numerici di ottimizzazione (minimizzazione). In questo caso se ne parla minimi quadrati non lineari(NLS o NLLS - ing. Minimi quadrati non lineari). In molti casi è possibile ottenere una soluzione analitica. Per risolvere il problema di minimizzazione, è necessario trovare i punti stazionari della funzione RS S (b) (\ displaystyle RSS (b)), differenziandolo rispetto a parametri sconosciuti b (\ displaystyle b), uguagliando le derivate a zero e risolvendo il sistema di equazioni risultante:

∑ t = 1 n (y t - f (x t , b)) ∂ f (x t , b) ∂ b = 0 (\ displaystyle \ somma _ (t = 1) ^ (n) (y_ (t) -f (x_ (t),b))(\frac (\parziale f(x_(t),b))(\parziale b))=0).

LSM nel caso di regressione lineare

Sia lineare la dipendenza dalla regressione:

y t = ∑ j = 1 k b j x t j + ε = x t T b + ε t (\ displaystyle y_(t)=\sum _(j=1)^(k)b_(j)x_(tj)+\varepsilon =x_( t)^(T)b+\varepsilon _(t)).

Permettere yè il vettore colonna delle osservazioni della variabile spiegata, e X (\ displaystyle X)- questo è (n × k) (\ displaystyle ((n \ volte k)))- matrice delle osservazioni dei fattori (righe della matrice - vettori dei valori dei fattori in una data osservazione, per colonne - vettore dei valori di un dato fattore in tutte le osservazioni). La rappresentazione matriciale del modello lineare ha la forma:

y = Xb + ε (\ displaystyle y = Xb + \ varepsilon ).

Allora il vettore delle stime della variabile spiegata e il vettore dei residui di regressione saranno uguali a

y ^ = X b , e = y - y ^ = y - X b (\ displaystyle (\ cappello (y)) = Xb, \ quad e = y-(\ cappello (y)) = y-Xb).

di conseguenza, la somma dei quadrati dei residui di regressione sarà uguale a

R S S = e T e = (y - X b) T (y - X b) (\ displaystyle RSS=e^(T)e=(y-Xb)^(T)(y-Xb)).

Differenziare questa funzione rispetto al vettore dei parametri b (\ displaystyle b) e uguagliando le derivate a zero, otteniamo un sistema di equazioni (in forma matriciale):

(X T X) b = X T y (\ displaystyle (X ^ (T) X) b = X ^ (T) y).

Nella forma della matrice decifrata, questo sistema di equazioni si presenta così:

(∑ x t 1 2 ∑ x t 1 x t 2 ∑ x t 1 x t 3 … ∑ x t 1 x t k ∑ x t 2 x t 1 ∑ x t 2 2 ∑ x t 2 x t 3 … ∑ x t 2 x t k ∑ x t 3 x t 1 x ∑ x 2 ∑ x t 3 x t k ⋮ ⋮ ⋮ ⋱ ⋮ ∑ x t k x t 1 ∑ x t k x t 2 ∑ x t k x t 3… ∑ x t k 2) (b 1 b 2 b 3 ⋮ b k) = (∑ x t 1 y x t ∑ 3 y t ⋮ ∑ x t k y t), (\ displayStyle (\begin(pmatrix)\sum x_(t1)^(2)&\sum x_(t1)x_(t2)&\sum x_(t1)x_(t3)&\ldots &\sum x_(t1)x_( tk)\\\sum x_(t2)x_(t1)&\sum x_(t2)^(2)&\sum x_(t2)x_(t3)&\ldots &\ sum x_(t2)x_(tk) \\\somma x_(t3)x_(t1)&\somma x_(t3)x_(t2)&\somma x_(t3)^(2)&\lpunti &\somma x_ (t3)x_(tk)\\ \vdots &\vdots &\vdots &\ddots &\vdots \\\sum x_(tk)x_(t1)&\sum x_(tk)x_(t2)&\sum x_ (tk)x_(t3)&\ ldots &\sum x_(tk)^(2)\\\end(pmatrix))(\begin(pmatrix)b_(1)\\b_(2)\\b_(3 )\\\vdots \\b_( k)\\\end(pmatrix))=(\begin(pmatrix)\sum x_(t1)y_(t)\\\sum x_(t2)y_(t)\\ \sum x_(t3)y_(t )\\\vpunti \\\somma x_(tk)y_(t)\\\end(pmatrix))) dove tutte le somme vengono prese su tutto valori consentiti t (\ displaystyle t).

Se una costante è inclusa nel modello (come al solito), allora x t 1 = 1 (\ displaystyle x_(t1)=1) per tutti t (\ displaystyle t), quindi, nell'angolo in alto a sinistra della matrice del sistema di equazioni c'è il numero di osservazioni n (\ displaystyle n), e nei restanti elementi della prima riga e prima colonna - solo la somma dei valori delle variabili: ∑ x t j (\ displaystyle \ somma x_ (tj)) e il primo elemento del lato destro del sistema - ∑ y t (\ displaystyle \ somma y_ (t)).

La soluzione di questo sistema di equazioni fornisce la formula generale per le stime dei minimi quadrati per il modello lineare:

b ^ O L S = (X T X) - 1 X T y = (1 n X T X) - 1 1 n X T y = V x - 1 C x y (\ displaystyle (\ cappello (b)) _ (OLS) = (X ^ (T )X)^(-1)X^(T)y=\sinistra((\frac (1)(n))X^(T)X\destra)^(-1)(\frac (1)(n ))X^(T)y=V_(x)^(-1)C_(xy)).

A fini analitici risulta utile l'ultima rappresentazione di questa formula (nel sistema di equazioni, quando divise per n, al posto delle somme compaiono le medie aritmetiche). Se i dati nel modello di regressione centrato, quindi in questa rappresentazione la prima matrice ha il significato di matrice di covarianza campionaria di fattori, e la seconda è il vettore di covarianze di fattori con variabile dipendente. Se, inoltre, i dati sono anche normalizzato allo SKO (cioè, in definitiva standardizzato), quindi la prima matrice ha il significato della matrice di correlazione campionaria dei fattori, il secondo vettore - il vettore delle correlazioni campionarie dei fattori con la variabile dipendente.

Un'importante proprietà delle stime LLS per i modelli con una costante- la retta della regressione costruita passa per il baricentro dei dati campionari, ovvero l'uguaglianza è soddisfatta:

y ¯ = b 1 ^ + ∑ j = 2 k b ^ j X ¯ j (\ displaystyle (\ bar (y)) = (\ cappello (b_(1))) + \ sum _ (j = 2) ^ (k) (\cappello (b))_(j)(\bar (x))_(j)).

In particolare, nel caso estremo, quando l'unico regressore è una costante, troviamo che la stima OLS di un singolo parametro (la costante stessa) è uguale al valore medio della variabile spiegata. Cioè, la media aritmetica, nota per le sue buone proprietà dalle leggi dei grandi numeri, è anche una stima dei minimi quadrati: soddisfa il criterio per la somma minima delle deviazioni al quadrato da essa.

I casi speciali più semplici

Nel caso di un bagno turco regressione lineare y t = un + b x t + ε t (\ displaystyle y_(t)=a+bx_(t)+\varepsilon _(t)), quando viene stimata la dipendenza lineare di una variabile da un'altra, le formule di calcolo vengono semplificate (si può fare a meno dell'algebra matriciale). Il sistema di equazioni ha la forma:

(1 x ¯ x ¯ x 2 ¯) (un b) = (y ¯ x y ¯) (\ displaystyle (\begin(pmatrix)1&(\bar (x))\\(\bar (x))&(\bar (x^(2)))\\\end(pmatrix))(\begin(pmatrix)a\\b\\\end(pmatrix))=(\begin(pmatrix)(\bar (y))\\ (\overline(xy))\\\end(pmatrix))).

Da qui è facile trovare stime per i coefficienti:

( b ^ = Cov ⁡ (x , y) Var ⁡ (x) = X y ¯ - X ¯ y ¯ X 2 ¯ - X ¯ 2 , un ^ = y ¯ - b X ¯ . (\ displaystyle (\begin (casi) (\hat (b))=(\frac (\mathop (\textrm (Cov)) (x,y))(\mathop (\textrm (Var)) (x))))=(\frac ((\overline (xy))-(\bar (x))(\bar (y)))((\overline (x^(2)))-(\overline (x))^(2))),\\( \hat (a))=(\bar (y))-b(\bar (x)).\end(cases)))

Nonostante il fatto che, in generale, siano preferibili modelli con una costante, in alcuni casi è noto da considerazioni teoriche che la costante un (\ displaystyle a) dovrebbe essere uguale a zero. Ad esempio, in fisica, la relazione tra tensione e corrente ha la forma U = I ⋅ R (\ displaystyle U = I \ cpunto R); misurando tensione e corrente, è necessario stimare la resistenza. In questo caso si tratta di un modello y = b x (\ displaystyle y = bx). In questo caso, invece di un sistema di equazioni, abbiamo l'unica equazione

(∑ x t 2) b = ∑ x t y t (\ displaystyle \ sinistra (\ somma x_(t) ^ (2) \ destra) b = \ somma x_ (t) y_ (t)).

Pertanto, la formula per stimare un singolo coefficiente ha la forma

B ^ = ∑ t = 1 n x t y t ∑ t = 1 n x t 2 = x y ¯ x 2 ¯ (\displaystyle (\hat (b))=(\frac (\sum _(t=1)^(n)x_(t )y_(t))(\sum _(t=1)^(n)x_(t)^(2)))=(\frac (\overline (xy))(\overline (x^(2)) ))).

Il caso di un modello polinomiale

Se i dati sono adattati da una funzione di regressione polinomiale di una variabile f (x) = b 0 + ∑ io = 1 k b io x io (\ displaystyle f(x)=b_(0)+\sum \limits _(i=1)^(k)b_(i)x^(i)), quindi, percepire i gradi x io (\ displaystyle x ^ (i)) come fattori indipendenti per ciascuno io (\ displaystyle i)è possibile stimare i parametri del modello in base alla formula generale per la stima dei parametri del modello lineare. Per fare ciò, è sufficiente tenere conto nella formula generale che con una tale interpretazione x t io x t j = x t io x t j = x t io + j (\displaystyle x_(ti)x_(tj)=x_(t)^(i)x_(t)^(j)=x_(t)^(i+j)) e x t j y t = x t j y t (\ displaystyle x_(tj)y_(t)=x_(t)^(j)y_(t)). Di conseguenza, equazioni matriciali in questo caso assumerà la forma:

(n ∑ n x t ... ∑ n x t k ∑ n x t ∑ n x i 2 ... ∑ m x i k + 1 ⋮ ⋱ ⋮ ∑ ∑ n x t k ∑ n x t k + 1 ... ∑ n x t 2 k) [b 0 b 1 ⋮ b k] = [∑ n y t ∑ n x t y t ⋮ n x t k y t ] . (\ displaystyle (\begin(pmatrix)n&\sum \limits _(n)x_(t)&\ldots &\sum \limits _(n)x_(t)^(k)\\\sum \limits _( n)x_(t)&\sum \limits _(n)x_(i)^(2)&\ldots &\sum \limits _(m)x_(i)^(k+1)\\\vdots & \vdots &\ddots &\vdots \\\sum \limits _(n)x_(t)^(k)&\sum \limits _(n)x_(t)^(k+1)&\ldots &\ sum \limits _(n)x_(t)^(2k)\end(pmatrix))(\begin(bmatrix)b_(0)\\b_(1)\\\vdots \\b_(k)\end( bmatrix))=(\begin(bmatrix)\sum \limits _(n)y_(t)\\\sum \limits _(n)x_(t)y_(t)\\\vdots \\\sum \limits _(n)x_(t)^(k)y_(t)\end(bmatrice)).)

Proprietà statistiche delle stime OLS

Innanzitutto, notiamo che per i modelli lineari, le stime dei minimi quadrati sono stime lineari, come segue dalla formula precedente. Per stimatori imparziali dei minimi quadrati, è necessario e sufficiente condizione essenziale analisi di regressione: condizionata ai fattori, l'aspettativa matematica di un errore casuale deve essere uguale a zero. Tale condizione è soddisfatta, in particolare, se

  1. valore atteso errori casuali è zero, e
  2. i fattori e gli errori casuali sono valori indipendenti casuali .

La seconda condizione - la condizione dei fattori esogeni - è fondamentale. Se questa proprietà non è soddisfatta, allora possiamo presumere che quasi tutte le stime saranno estremamente insoddisfacenti: non saranno nemmeno coerenti (ovvero, anche una quantità molto grande di dati non consente di ottenere stime qualitative in questo caso). Nel caso classico, si fa un'ipotesi più forte sul determinismo dei fattori, in contrasto con un errore casuale, il che significa automaticamente che la condizione esogena è soddisfatta. Nel caso generale, per la coerenza delle stime, è sufficiente soddisfare la condizione di esogeneità unitamente alla convergenza della matrice V x (\ displaystyle V_ (x)) a una matrice non degenerata quando la dimensione del campione aumenta all'infinito.

Affinché, oltre alla coerenza e all'imparzialità, le stime dei (soliti) minimi quadrati siano efficaci (le migliori nella classe delle stime lineari imparziali), è necessario soddisfare ulteriori proprietà di un errore casuale:

Queste ipotesi possono essere formulate per la matrice di covarianza del vettore degli errori casuali V (ε) = σ 2 io (\ displaystyle V (\ varepsilon) = \ sigma ^ (2) I).

Viene chiamato un modello lineare che soddisfa queste condizioni classico. Le stime OLS per la regressione lineare classica sono stime imparziali, coerenti e più efficienti nella classe di tutte le stime imparziali lineari (nella letteratura inglese, a volte viene utilizzata l'abbreviazione blu (Miglior stimatore lineare imparziale) è la migliore stima lineare imparziale; in letteratura domestica più spesso viene fornito il teorema di Gauss-Markov). Come è facile mostrare, la matrice di covarianza del vettore delle stime dei coefficienti sarà uguale a:

V (b ^ O L S) = σ 2 (X T X) - 1 (\ displaystyle V ((\ cappello (b)) _ (OLS)) = \ sigma ^ (2) (X ^ (T) X) ^ (-1 )).

Efficienza significa che questa matrice di covarianza è "minima" (qualsiasi combinazione lineare di coefficienti, e in particolare i coefficienti stessi, hanno una varianza minima), ovvero, nella classe delle stime imparziali lineari, le stime OLS sono le migliori. Gli elementi diagonali di questa matrice - le varianze delle stime dei coefficienti - sono parametri importanti della qualità delle stime ottenute. Tuttavia, non è possibile calcolare la matrice di covarianza perché la varianza dell'errore casuale è sconosciuta. Si può dimostrare che la stima imparziale e coerente (per il modello lineare classico) della varianza degli errori casuali è il valore:

S 2 = R S S / (n - k) (\ displaystyle s ^ (2) = RSS / (n k)).

Sostituendo dato valore nella formula per la matrice di covarianza e ottenere una stima della matrice di covarianza. Anche le stime risultanti sono imparziali e coerenti. È anche importante che la stima della varianza dell'errore (e quindi la varianza dei coefficienti) e le stime dei parametri del modello siano indipendenti. variabili casuali, che consente di ottenere statistiche di test per verificare ipotesi sui coefficienti del modello.

Va notato che se le ipotesi classiche non sono soddisfatte, le stime dei parametri dei minimi quadrati non sono le più efficienti e, dove W (\ displaystyle W)è una matrice di peso definita positiva simmetrica. I minimi quadrati ordinari sono un caso speciale di questo approccio, quando la matrice del peso è proporzionale a matrice identità. Come è noto, per matrici (o operatori) simmetriche c'è una scomposizione W = P T P (\ displaystyle W = P ^ (T) P). Pertanto, questo funzionale può essere rappresentato come segue e T P T P e = (P e) T P e = e ∗ T e ∗ (\ displaystyle e^(T)P^(T)Pe=(Pe)^(T)Pe=e_(*)^(T)e_( *)), cioè questo funzionale può essere rappresentato come la somma dei quadrati di alcuni "residui" trasformati. Pertanto, possiamo distinguere una classe di metodi dei minimi quadrati - metodi LS (Least Squares).

Si dimostra (teorema di Aitken) che per un modello di regressione lineare generalizzato (in cui non sono imposte restrizioni alla matrice di covarianza degli errori casuali), le più efficaci (nella classe delle stime imparziali lineari) sono le stime delle cosiddette. OLS generalizzato (OMNK, GLS - Minimi quadrati generalizzati)- Metodo LS con matrice di peso uguale alla matrice di covarianza inversa degli errori casuali: W = V ε - 1 (\ displaystyle W = V_ (\ varepsilon )^ (-1)).

Si può dimostrare che la formula per le stime GLS dei parametri del modello lineare ha la forma

B ^ G L S = (X T V - 1 X) - 1 X T V - 1 y (\ displaystyle (\ cappello (b)) _ (GLS) = (X ^ (T) V ^ (-1) X) ^ (-1) X^(T)V^(-1)y).

La matrice di covarianza di queste stime, rispettivamente, sarà uguale a

V (b ^ G L S) = (X T V - 1 X) - 1 (\ displaystyle V ((\ cappello (b)) _ (GLS)) = (X ^ (T) V ^ (-1) X) ^ (- uno)).

Infatti, l'essenza dell'OLS sta in una certa trasformazione (lineare) (P) dei dati originali e nell'applicazione dei soliti minimi quadrati ai dati trasformati. Lo scopo di questa trasformazione è che per i dati trasformati, gli errori casuali soddisfano già le ipotesi classiche.

Minimi quadrati ponderati

Nel caso di una matrice di peso diagonale (e quindi della matrice di covarianza degli errori casuali), abbiamo i cosiddetti minimi quadrati pesati (WLS - Weighted Least Squares). In questo caso, la somma pesata dei quadrati dei residui del modello è minimizzata, ovvero ogni osservazione riceve un “peso” che è inversamente proporzionale alla varianza dell'errore casuale in questa osservazione: e T W e = ∑ t = 1 n e t 2 σ t 2 (\displaystyle e^(T)We=\sum _(t=1)^(n)(\frac (e_(t)^(2))(\ sigma _(t)^(2)))). Infatti, i dati vengono trasformati ponderando le osservazioni (dividendo per un importo proporzionale alla deviazione standard ipotizzata degli errori casuali) e ai dati ponderati vengono applicati i minimi quadrati normali.

ISBN 978-5-7749-0473-0.

  • Econometria. Libro di testo / Ed. Eliseeva I. I. - 2a ed. - M.: Finanza e statistica, 2006. - 576 p. - ISBN 5-279-02786-3.
  • Alexandrova N.V. Storia dei termini matematici, concetti, designazioni: un dizionario-libro di consultazione. - 3a ed. - M.: LKI, 2008. - 248 p. - ISBN 978-5-382-00839-4. IV Mitin, Rusakov V.S. Analisi ed elaborazione dei dati sperimentali - 5a edizione - 24p.
  • Dopo l'allineamento, otteniamo una funzione della forma seguente: g (x) = x + 1 3 + 1 .

    Possiamo approssimare questi dati con una relazione lineare y = a x + b calcolando i parametri appropriati. Per fare ciò, dovremo applicare il cosiddetto metodo dei minimi quadrati. Dovrai anche fare un disegno per verificare quale linea allineerà meglio i dati sperimentali.

    Yandex.RTB R-A-339285-1

    Che cos'è esattamente OLS (metodo dei minimi quadrati)

    La cosa principale che dobbiamo fare è trovare tali coefficienti di dipendenza lineare a cui il valore della funzione di due variabili F (a, b) = ∑ i = 1 n (y i - (a x i + b)) 2 sarà il più piccolo. In altre parole, per determinati valori di aeb, la somma delle deviazioni al quadrato dei dati presentati dalla retta risultante avrà un valore minimo. Questo è il significato del metodo dei minimi quadrati. Tutto quello che dobbiamo fare per risolvere l'esempio è trovare l'estremo della funzione di due variabili.

    Come ricavare formule per il calcolo dei coefficienti

    Per ricavare formule per il calcolo dei coefficienti, è necessario comporre e risolvere un sistema di equazioni con due variabili. Per fare ciò, calcoliamo le derivate parziali dell'espressione F (a , b) = ∑ i = 1 n (y i - (a x i + b)) 2 rispetto ad aeb e le uguagliamo a 0 .

    δ F (a , b) δ a = 0 δ F (a , b) δ b = 0 ⇔ - 2 ∑ io = 1 n (y io - (a x io + b)) x io = 0 - 2 ∑ io = 1 n ( y io - (a x io + b)) = 0 ⇔ un ∑ io = 1 n x io 2 + b ∑ io = 1 n x io = ∑ io = 1 n x io y io un ∑ io = 1 n x io + ∑ io = 1 n b = ∑ io = 1 n y io ⇔ un ∑ io = 1 n x io 2 + b ∑ io = 1 n x io = ∑ io = 1 n x io y io un ∑ io = 1 n x io + n b = ∑ io = 1 n y io

    Per risolvere un sistema di equazioni, puoi utilizzare qualsiasi metodo, come la sostituzione o il metodo di Cramer. Di conseguenza, dovremmo ottenere formule che calcolano i coefficienti utilizzando il metodo dei minimi quadrati.

    n ∑ io = 1 n x io y io - ∑ io = 1 n x io ∑ io = 1 n y io n ∑ io = 1 n - ∑ io = 1 n x io 2 b = ∑ io = 1 n y io - un ∑ io = 1 n x io n

    Abbiamo calcolato i valori delle variabili per le quali la funzione
    F (a , b) = ∑ i = 1 n (y i - (a x i + b)) 2 assumerà il valore minimo. Nel terzo paragrafo dimostreremo perché è così.

    Questa è l'applicazione pratica del metodo dei minimi quadrati. La sua formula, che viene utilizzata per trovare il parametro a , include ∑ i = 1 n x i , ∑ i = 1 n y i , ∑ i = 1 n x i y i , ∑ i = 1 n x i 2 e il parametro
    n - indica la quantità di dati sperimentali. Ti consigliamo di calcolare ogni importo separatamente. Il valore del coefficiente b viene calcolato immediatamente dopo a .

    Torniamo all'esempio originale.

    Esempio 1

    Qui abbiamo n uguale a cinque. Per rendere più conveniente calcolare gli importi richiesti inclusi nelle formule dei coefficienti, compiliamo la tabella.

    io = 1 io = 2 io = 3 io = 4 io = 5 ∑ io = 1 5
    x io 0 1 2 4 5 12
    si io 2 , 1 2 , 4 2 , 6 2 , 8 3 12 , 9
    x io e io 0 2 , 4 5 , 2 11 , 2 15 33 , 8
    x io 2 0 1 4 16 25 46

    Soluzione

    La quarta riga contiene i dati ottenuti moltiplicando i valori della seconda riga per i valori della terza per ogni individuo i. La quinta riga contiene i dati del secondo quadrato. L'ultima colonna mostra le somme dei valori delle singole righe.

    Usiamo il metodo dei minimi quadrati per calcolare i coefficienti aeb di cui abbiamo bisogno. Per fare ciò, sostituisci i valori desiderati dall'ultima colonna e calcola le somme:

    n ∑ io = 1 n x io y io - ∑ io = 1 n x io ∑ io = 1 n y io n ∑ io = 1 n - ∑ io = 1 n x io 2 b = ∑ io = 1 n y io - un ∑ io = 1 n x io n ⇒ a = 5 33 , 8 - 12 12, 9 5 46 - 12 2 b = 12, 9 - a 12 5 ⇒ a ≈ 0, 165 b ≈ 2, 184

    Abbiamo ottenuto che la retta approssimata desiderata sarà simile a y = 0, 165 x + 2, 184. Ora dobbiamo determinare quale linea approssima meglio i dati - g (x) = x + 1 3 + 1 o 0 , 165 x + 2 , 184 . Facciamo una stima usando il metodo dei minimi quadrati.

    Per calcolare l'errore, dobbiamo trovare la somma delle deviazioni al quadrato dei dati dalle rette σ 1 = ∑ i = 1 n (y i - (a x i + b i)) 2 e σ 2 = ∑ i = 1 n (y i - g (x i)) 2 , il valore minimo corrisponderà ad una linea più adatta.

    σ 1 = ∑ io = 1 n (y io - (a x io + b io)) 2 = = ∑ io = 1 5 (y io - (0 , 165 x io + 2 , 184)) 2 ≈ 0 , 019 σ 2 = ∑ io = 1 n (y io - g (x io)) 2 = = ∑ io = 1 5 (y io - (x io + 1 3 + 1)) 2 ≈ 0 , 096

    Risposta: poiché σ 1< σ 2 , то прямой, il modo migliore approssimando i dati originali saranno
    y = 0 , 165 x + 2 , 184 .

    Il metodo dei minimi quadrati è mostrato chiaramente nell'illustrazione grafica. La linea rossa indica la retta g (x) = x + 1 3 + 1, la linea blu indica y = 0, 165 x + 2, 184. I dati grezzi sono contrassegnati da punti rosa.

    Spieghiamo perché sono necessarie esattamente approssimazioni di questo tipo.

    Possono essere utilizzati in problemi che richiedono il livellamento dei dati, nonché in quelli in cui i dati devono essere interpolati o estrapolati. Ad esempio, nel problema discusso sopra, si potrebbe trovare il valore della quantità osservata y in x = 3 o in x = 6 . Abbiamo dedicato un articolo separato a tali esempi.

    Dimostrazione del metodo LSM

    Perché la funzione assuma il valore minimo quando si calcolano aeb, è necessario che in un dato punto la matrice della forma quadratica del differenziale della funzione della forma F (a, b) = ∑ i = 1 n (y i - (a x i + b)) 2 essere definito positivo. Ti mostriamo come dovrebbe apparire.

    Esempio 2

    Abbiamo un differenziale del secondo ordine della seguente forma:

    d 2 F (a ; b) = δ 2 F (a ; b) δ un 2 d 2 un + 2 δ 2 F (a ; b) δ un δ b d un d b + δ 2 F (a ; b) δ b 2 d 2b

    Soluzione

    δ 2 F (a ; b) δ un 2 = δ δ F (a ; b) δ un δ un = = δ - 2 ∑ io = 1 n (y io - (a x io + b)) x io δ un = 2 ∑ io = 1 n (x io) 2 δ 2 F (a ; b) δ un δ b = δ δ F (a ; b) δ un δ b = = δ - 2 ∑ io = 1 n (y io - (a x io + b) ) x io δ b = 2 ∑ io = 1 n x io δ 2 F (a ; b) δ b 2 = δ δ F (a ; b) δ b δ b = δ - 2 ∑ io = 1 n (y io - (a x io + b)) δ b = 2 ∑ io = 1 n (1) = 2 n

    In altre parole, può essere scritto come segue: d 2 F (a ; b) = 2 ∑ i = 1 n (x i) 2 d 2 a + 2 2 ∑ x io io = 1 n d a d b + (2 n) d 2 b .

    Abbiamo ottenuto una matrice di forma quadratica M = 2 ∑ i = 1 n (x i) 2 2 ∑ i = 1 n x i 2 ∑ i = 1 n x i 2 n .

    In questo caso, i valori dei singoli elementi non cambieranno a seconda di aeb . Questa matrice è definita positiva? Per rispondere a questa domanda, controlliamo se i suoi minori angolari sono positivi.

    Calcola l'angolo minore del primo ordine: 2 ∑ i = 1 n (x i) 2 > 0 . Poiché i punti x i non coincidono, la disuguaglianza è stretta. Lo terremo presente in ulteriori calcoli.

    Calcoliamo il minore angolare del secondo ordine:

    d e t (M) = 2 ∑ io = 1 n (x io) 2 2 ∑ io = 1 n x io 2 ∑ io = 1 n x io 2 n = 4 n ∑ io = 1 n (x io) 2 - ∑ io = 1 n x io 2

    Successivamente, si procede alla dimostrazione della disuguaglianza n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 utilizzando l'induzione matematica.

    1. Verifichiamo se questa disuguaglianza è valida per n arbitrario. Prendiamo 2 e calcoliamo:

    2 ∑ io = 1 2 (x io) 2 - ∑ io = 1 2 x io 2 = 2 x 1 2 + x 2 2 - x 1 + x 2 2 = = x 1 2 - 2 x 1 x 2 + x 2 2 = x 1 + x 2 2 > 0

    Abbiamo ottenuto l'uguaglianza corretta (se i valori x 1 e x 2 non corrispondono).

    1. Assumiamo che questa disuguaglianza sia vera per n , cioè n ∑ io = 1 n (x io) 2 - ∑ io = 1 n x io 2 > 0 – vero.
    2. Ora dimostriamo la validità per n + 1 , cioè che (n + 1) ∑ io = 1 n + 1 (x io) 2 - ∑ io = 1 n + 1 x io 2 > 0 se n ∑ io = 1 n (x io) 2 - ∑ io = 1 n x io 2 > 0 .

    Calcoliamo:

    (n + 1) ∑ io = 1 n + 1 (x io) 2 - ∑ io = 1 n + 1 x io 2 = = (n + 1) ∑ io = 1 n (x io) 2 + x n + 1 2 - ∑ io = 1 n x io + x n + 1 2 = = n ∑ io = 1 n (x io) 2 + n x n + 1 2 + ∑ io = 1 n (x io) 2 + x n + 1 2 - - ∑ io = 1 n x io 2 + 2 x n + 1 ∑ io = 1 n x io + x n + 1 2 = = ∑ io = 1 n (x io) 2 - ∑ io = 1 n x io 2 + n x n + 1 2 - x n + 1 ∑ io = 1 n x io + ∑ io = 1 n (x io) 2 = = ∑ io = 1 n (x io) 2 - ∑ io = 1 n x io 2 + x n + 1 2 - 2 x n + 1 x 1 + x 1 2 + + x n + 1 2 - 2 x n + 1 x 2 + x 2 2 + . . . + x n + 1 2 - 2 x n + 1 x 1 + x n 2 = = n ∑ io = 1 n (x i) 2 - ∑ i = 1 n x io 2 + + (x n + 1 - x 1) 2 + (x n + 1 - x 2) 2 + . . . + (x n - 1 - x n) 2 > 0

    L'espressione racchiusa tra parentesi graffe sarà maggiore di 0 (in base a quanto ipotizzato nel passaggio 2) e il resto dei termini sarà maggiore di 0 perché sono tutti quadrati di numeri. Abbiamo dimostrato la disuguaglianza.

    Risposta: gli a e b trovati corrisponderanno al valore più piccolo della funzione F (a, b) = ∑ i = 1 n (y i - (a x i + b)) 2, il che significa che sono i parametri richiesti del metodo dei minimi quadrati (LSM).

    Se noti un errore nel testo, evidenzialo e premi Ctrl+Invio

    Esempio.

    Dati sperimentali sui valori delle variabili X e a sono riportati nella tabella.

    Come risultato del loro allineamento, la funzione

    Usando metodo dei minimi quadrati, approssima questi dati con una dipendenza lineare y=ascia+b(trovare parametri un e b). Scopri quale delle due linee è migliore (nel senso del metodo dei minimi quadrati) allinea i dati sperimentali. Fai un disegno.

    L'essenza del metodo dei minimi quadrati (LSM).

    Il problema è trovare i coefficienti di dipendenza lineare per i quali la funzione di due variabili un e b assume il valore più piccolo. Cioè, dati i dati un e b la somma delle deviazioni al quadrato dei dati sperimentali dalla retta trovata sarà la più piccola. Questo è il punto centrale del metodo dei minimi quadrati.

    Pertanto, la soluzione dell'esempio si riduce a trovare l'estremo di una funzione di due variabili.

    Derivazione di formule per il calcolo dei coefficienti.

    Viene compilato e risolto un sistema di due equazioni con due incognite. Trovare derivate parziali di una funzione rispetto a variabili un e b, uguagliamo queste derivate a zero.

    Risolviamo il sistema di equazioni risultante con qualsiasi metodo (ad esempio metodo di sostituzione o ) e ottenere formule per trovare i coefficienti utilizzando il metodo dei minimi quadrati (LSM).

    Con i dati un e b funzione assume il valore più piccolo. La prova di questo fatto è data.

    Questo è l'intero metodo dei minimi quadrati. Formula per trovare il parametro un contiene le somme , , , e il parametro n- quantità di dati sperimentali. Si consiglia di calcolare separatamente i valori di queste somme. Coefficiente b trovato dopo il calcolo un.

    È tempo di ricordare l'esempio originale.

    Soluzione.

    Nel nostro esempio n=5. Compiliamo la tabella per comodità di calcolare gli importi che sono inclusi nelle formule dei coefficienti richiesti.

    I valori della quarta riga della tabella si ottengono moltiplicando i valori della 2a riga per i valori della 3a riga per ogni numero io.

    I valori della quinta riga della tabella si ottengono quadrando i valori della 2a riga per ogni numero io.

    I valori dell'ultima colonna della tabella sono le somme dei valori nelle righe.

    Usiamo le formule del metodo dei minimi quadrati per trovare i coefficienti un e b. Sostituiamo in essi i valori corrispondenti dall'ultima colonna della tabella:

    Di conseguenza, y=0,165x+2,184è la retta approssimata desiderata.

    Resta da scoprire quale delle linee y=0,165x+2,184 o approssima meglio i dati originali, ovvero per effettuare una stima utilizzando il metodo dei minimi quadrati.

    Stima dell'errore del metodo dei minimi quadrati.

    Per fare ciò, è necessario calcolare la somma delle deviazioni quadrate dei dati originali da queste linee e , un valore più piccolo corrisponde a una linea che approssima meglio i dati originali in termini di metodo dei minimi quadrati.

    Dal , quindi la linea y=0,165x+2,184 approssima meglio i dati originali.

    Illustrazione grafica del metodo dei minimi quadrati (LSM).

    Tutto sembra fantastico nelle classifiche. La linea rossa è la linea trovata y=0,165x+2,184, la linea blu è , i punti rosa sono i dati originali.

    A cosa serve, a cosa servono tutte queste approssimazioni?

    Io personalmente lo utilizzo per risolvere problemi di data smoothing, interpolazione ed estrapolazione (nell'esempio originale, ti potrebbe essere chiesto di trovare il valore del valore osservato y a x=3 o quando x=6 secondo il metodo MNC). Ma di questo parleremo più avanti in un'altra sezione del sito.

    Prova.

    In modo che quando trovato un e b funzione assume il valore più piccolo, è necessario che a questo punto la matrice della forma quadratica del differenziale del secondo ordine per la funzione era positivo definitivo. Mostriamolo.

    Metodo dei minimi quadrati

    Metodo dei minimi quadrati ( MNK, OLS, minimi quadrati ordinari) - uno dei metodi di base dell'analisi di regressione per la stima di parametri incogniti di modelli di regressione da dati campionari. Il metodo si basa sulla minimizzazione della somma dei quadrati dei residui di regressione.

    Va notato che lo stesso metodo dei minimi quadrati può essere chiamato metodo per risolvere un problema in qualsiasi area, se la soluzione consiste o soddisfa un certo criterio per minimizzare la somma dei quadrati di alcune funzioni delle variabili incognite. Pertanto, il metodo dei minimi quadrati può essere utilizzato anche per una rappresentazione approssimativa (approssimazione) data funzione altre funzioni (più semplici), quando si trova un insieme di quantità che soddisfano equazioni o restrizioni, il cui numero supera il numero di queste quantità, ecc.

    L'essenza della multinazionale

    Sia qualche modello (parametrico) di dipendenza probabilistica (regressione) tra la variabile (spiegata). y e molti fattori (variabili esplicative) X

    dove è il vettore dei parametri del modello sconosciuti

    - Errore di modello casuale.

    Siano presenti anche osservazioni campionarie dei valori delle variabili indicate. Sia il numero di osservazione (). Quindi sono i valori delle variabili nella -esima osservazione. Quindi, per dati valori dei parametri b, è possibile calcolare i valori teorici (modello) della variabile spiegata y:

    Il valore dei residui dipende dai valori dei parametri b.

    L'essenza di LSM (ordinario, classico) è trovare tali parametri b per i quali la somma dei quadrati dei residui (eng. Somma residua dei quadrati) sarà minimo:

    Nel caso generale, questo problema può essere risolto con metodi numerici di ottimizzazione (minimizzazione). In questo caso se ne parla minimi quadrati non lineari(NLS o NLLS - inglese. Minimi quadrati non lineari). In molti casi è possibile ottenere una soluzione analitica. Per risolvere il problema di minimizzazione, è necessario trovare i punti stazionari della funzione differenziandola rispetto ai parametri incogniti b, eguagliando a zero le derivate e risolvendo il sistema di equazioni risultante:

    Se gli errori casuali del modello sono normalmente distribuiti, hanno la stessa varianza e non sono correlati tra loro, le stime dei parametri dei minimi quadrati sono le stesse delle stime del metodo della massima verosimiglianza (MLM).

    LSM nel caso di un modello lineare

    Sia lineare la dipendenza dalla regressione:

    Permettere y- vettore colonna delle osservazioni della variabile spiegata e - matrice delle osservazioni dei fattori (righe della matrice - vettori dei valori dei fattori in una data osservazione, per colonne - vettore dei valori di un dato fattore in tutte le osservazioni) . La rappresentazione matriciale del modello lineare ha la forma:

    Allora il vettore delle stime della variabile spiegata e il vettore dei residui di regressione saranno uguali a

    di conseguenza, la somma dei quadrati dei residui di regressione sarà uguale a

    Differenziando questa funzione rispetto al vettore dei parametri ed eguagliando a zero le derivate, otteniamo un sistema di equazioni (in forma matriciale):

    .

    La soluzione di questo sistema di equazioni fornisce la formula generale per le stime dei minimi quadrati per il modello lineare:

    A fini analitici risulta utile l'ultima rappresentazione di questa formula. Se i dati nel modello di regressione centrato, quindi in questa rappresentazione la prima matrice ha il significato di matrice di covarianza campionaria di fattori, e la seconda è il vettore di covarianze di fattori con variabile dipendente. Se, inoltre, i dati sono anche normalizzato allo SKO (cioè, in definitiva standardizzato), quindi la prima matrice ha il significato della matrice di correlazione campionaria dei fattori, il secondo vettore - il vettore delle correlazioni campionarie dei fattori con la variabile dipendente.

    Un'importante proprietà delle stime LLS per i modelli con una costante- la retta della regressione costruita passa per il baricentro dei dati campionari, ovvero l'uguaglianza è soddisfatta:

    In particolare, nel caso estremo, quando l'unico regressore è una costante, troviamo che la stima OLS di un singolo parametro (la costante stessa) è uguale al valore medio della variabile spiegata. Cioè, la media aritmetica, nota per le sue buone proprietà dalle leggi dei grandi numeri, è anche una stima dei minimi quadrati: soddisfa il criterio per la somma minima delle deviazioni al quadrato da essa.

    Esempio: regressione semplice (a coppie).

    Nel caso della regressione lineare accoppiata, le formule di calcolo sono semplificate (puoi fare a meno dell'algebra matriciale):

    Proprietà delle stime OLS

    Innanzitutto, notiamo che per i modelli lineari, le stime dei minimi quadrati sono stime lineari, come segue dalla formula precedente. Per stime OLS imparziali, è necessario e sufficiente soddisfare la condizione più importante dell'analisi di regressione: l'aspettativa matematica di un errore casuale condizionato dai fattori deve essere uguale a zero. Tale condizione è soddisfatta, in particolare, se

    1. l'aspettativa matematica di errori casuali è zero, e
    2. fattori ed errori casuali sono variabili casuali indipendenti.

    La seconda condizione - la condizione dei fattori esogeni - è fondamentale. Se questa proprietà non è soddisfatta, allora possiamo presumere che quasi tutte le stime saranno estremamente insoddisfacenti: non saranno nemmeno coerenti (ovvero, anche una quantità molto grande di dati non consente di ottenere stime qualitative in questo caso). Nel caso classico, si fa un'ipotesi più forte sul determinismo dei fattori, in contrasto con un errore casuale, il che significa automaticamente che la condizione esogena è soddisfatta. Nel caso generale, per la coerenza delle stime, è sufficiente soddisfare la condizione di esogeneità unitamente alla convergenza della matrice a qualche matrice non singolare con un aumento della dimensione del campione all'infinito.

    Affinché, oltre alla coerenza e all'imparzialità, le stime dei (soliti) minimi quadrati siano efficaci (le migliori nella classe delle stime lineari imparziali), è necessario soddisfare ulteriori proprietà di un errore casuale:

    Queste ipotesi possono essere formulate per la matrice di covarianza del vettore di errore casuale

    Viene chiamato un modello lineare che soddisfa queste condizioni classico. Le stime OLS per la regressione lineare classica sono stime imparziali, coerenti e più efficienti nella classe di tutte le stime imparziali lineari (nella letteratura inglese, a volte viene utilizzata l'abbreviazione blu (Miglior stimatore lineare non basato) è la migliore stima lineare imparziale; nella letteratura domestica viene citato più spesso il teorema di Gauss-Markov). Come è facile mostrare, la matrice di covarianza del vettore delle stime dei coefficienti sarà uguale a:

    Minimi quadrati generalizzati

    Il metodo dei minimi quadrati consente un'ampia generalizzazione. Invece di minimizzare la somma dei quadrati dei residui, si può minimizzare una forma quadratica definita positiva del vettore residuo, dove c'è una matrice di peso definita positiva simmetrica. I minimi quadrati ordinari sono un caso speciale di questo approccio, quando la matrice di peso è proporzionale alla matrice di identità. Come è noto dalla teoria delle matrici (o operatori) simmetriche, esiste una scomposizione per tali matrici. Pertanto, il funzionale specificato può essere rappresentato come segue, ovvero questo funzionale può essere rappresentato come la somma dei quadrati di alcuni "residui" trasformati. Pertanto, possiamo distinguere una classe di metodi dei minimi quadrati - metodi LS (Least Squares).

    Si dimostra (teorema di Aitken) che per un modello di regressione lineare generalizzato (in cui non sono imposte restrizioni alla matrice di covarianza degli errori casuali), le più efficaci (nella classe delle stime imparziali lineari) sono le stime delle cosiddette. OLS generalizzato (OMNK, GLS - Minimi quadrati generalizzati)- Metodo LS con matrice di peso uguale alla matrice di covarianza inversa degli errori casuali: .

    Si può dimostrare che la formula per le stime GLS dei parametri del modello lineare ha la forma

    La matrice di covarianza di queste stime, rispettivamente, sarà uguale a

    Infatti, l'essenza dell'OLS sta in una certa trasformazione (lineare) (P) dei dati originali e nell'applicazione dei soliti minimi quadrati ai dati trasformati. Lo scopo di questa trasformazione è che per i dati trasformati, gli errori casuali soddisfano già le ipotesi classiche.

    Minimi quadrati ponderati

    Nel caso di una matrice di peso diagonale (e quindi della matrice di covarianza degli errori casuali), abbiamo i cosiddetti minimi quadrati pesati (WLS - Weighted Least Squares). In questo caso la somma pesata dei quadrati dei residui del modello è minimizzata, cioè ogni osservazione riceve un "peso" che è inversamente proporzionale alla varianza dell'errore casuale in questa osservazione: . Infatti, i dati vengono trasformati ponderando le osservazioni (dividendo per un importo proporzionale alla deviazione standard ipotizzata degli errori casuali) e ai dati ponderati vengono applicati i minimi quadrati normali.

    Alcuni casi particolari di applicazione pratica del LSM

    Approssimazione lineare

    Si consideri il caso in cui, come risultato dello studio della dipendenza di una certa quantità scalare da una certa quantità scalare (questa può essere, ad esempio, la dipendenza della tensione dall'intensità della corrente: , dove è un valore costante, la resistenza del conduttore ), sono state misurate queste quantità, a seguito delle quali i valori e i loro valori corrispondenti. I dati di misurazione devono essere registrati in una tabella.

    Tavolo. Risultati di misurazione.

    Misura n.
    1
    2
    3
    4
    5
    6

    La domanda suona così: quale valore del coefficiente può essere scelto per descrivere al meglio la dipendenza? Secondo i minimi quadrati, questo valore dovrebbe essere tale che la somma delle deviazioni al quadrato dei valori dai valori

    era minimo

    La somma delle deviazioni al quadrato ha un estremo, un minimo, che ci consente di utilizzare questa formula. Troviamo il valore del coefficiente da questa formula. Per fare ciò, trasformiamo il suo lato sinistro come segue:

    L'ultima formula ci permette di trovare il valore del coefficiente , che era richiesto nel problema.

    Storia

    Fino all'inizio del XIX secolo. gli scienziati non avevano determinate regole per risolvere un sistema di equazioni in cui il numero di incognite è inferiore al numero di equazioni; Fino a quel momento si usavano metodi particolari, a seconda del tipo di equazioni e dell'ingegnosità dei calcolatori, e quindi calcolatori differenti, partendo dagli stessi dati osservativi, arrivavano a conclusioni differenti. Gauss (1795) è accreditato della prima applicazione del metodo e Legendre (1805) lo scoprì e lo pubblicò indipendentemente con il suo nome moderno (fr. Metodo dei moindres quarres ). Laplace collegò il metodo alla teoria della probabilità e il matematico americano Adrain (1808) ne considerò le applicazioni probabilistiche. Il metodo è diffuso e migliorato da ulteriori ricerche di Encke, Bessel, Hansen e altri.

    Uso alternativo delle multinazionali

    L'idea del metodo dei minimi quadrati può essere utilizzata anche in altri casi non direttamente correlati analisi di regressione. Il fatto è che la somma dei quadrati è una delle misure di prossimità più comuni per i vettori (la metrica euclidea negli spazi a dimensione finita).

    Un'applicazione è la "risoluzione" di sistemi di equazioni lineari in cui il numero di equazioni più numero variabili

    dove la matrice non è quadrata, ma rettangolare.

    Un tale sistema di equazioni, nel caso generale, non ha soluzione (se il rango è effettivamente maggiore del numero di variabili). Pertanto, questo sistema può essere "risolto" solo nel senso di scegliere un tale vettore in modo da ridurre al minimo la "distanza" tra i vettori e . Per fare ciò, puoi applicare il criterio per ridurre al minimo la somma delle differenze al quadrato delle parti sinistra e destra delle equazioni del sistema, ovvero . È facile dimostrare che la soluzione di questo problema di minimizzazione porta alla soluzione del seguente sistema di equazioni