Áreas de sua aplicação.  Aproximação de dados experimentais.  Método dos mínimos quadrados

Áreas de sua aplicação. Aproximação de dados experimentais. Método dos mínimos quadrados

Método mínimos quadrados(LSM) permite estimar várias quantidades usando os resultados de várias medições contendo erros aleatórios.

EMN característica

A ideia principal deste método é que a soma dos erros ao quadrado seja considerada como critério para a precisão da solução do problema, que se busca minimizar. Ao usar este método, abordagens numéricas e analíticas podem ser aplicadas.

Em particular, como uma implementação numérica, o método dos mínimos quadrados implica fazer o maior número possível de medições de uma variável aleatória desconhecida. Além disso, quanto mais cálculos, mais precisa será a solução. Sobre este conjunto de cálculos (dados iniciais), obtém-se outro conjunto de soluções propostas, das quais é então selecionada a melhor. Se o conjunto de soluções for parametrizado, então o método dos mínimos quadrados será reduzido para encontrar o valor ótimo dos parâmetros.

Como abordagem analítica para a implementação do LSM no conjunto de dados iniciais (medidas) e no conjunto de soluções propostas, define-se alguma (funcional), que pode ser expressa por uma fórmula obtida como uma determinada hipótese que precisa ser confirmada. Neste caso, o método dos mínimos quadrados se reduz a encontrar o mínimo deste funcional no conjunto de erros quadráticos dos dados iniciais.

Observe que não os erros em si, mas os quadrados dos erros. Por quê? O fato é que muitas vezes desvios de medidas de valor exato são positivos e negativos. Ao determinar a média, a soma simples pode levar a uma conclusão incorreta sobre a qualidade da estimativa, pois o cancelamento mútuo de valores positivos e negativos reduzirá o poder de amostragem do conjunto de medições. E, consequentemente, a precisão da avaliação.

Para evitar que isso aconteça, os desvios quadrados são somados. Mais do que isso, para equalizar a dimensão do valor medido e a estimativa final, a soma dos erros quadráticos é utilizada para extrair

Algumas aplicações das multinacionais

MNC é amplamente utilizado em vários campos. Por exemplo, na teoria da probabilidade e estatística matemática o método é usado para determinar uma característica de uma variável aleatória como a média desvio padrão, que determina a largura do intervalo de valores da variável aleatória.

Método dos mínimos quadrados (OLS, eng. Mínimos quadrados ordinários, OLS) - método matemático, usado para resolver vários problemas, baseado na minimização da soma dos desvios quadrados de algumas funções das variáveis ​​desejadas. Ele pode ser usado para "resolver" sistemas de equações sobredeterminados (quando o número de equações excede o número de incógnitas), para encontrar uma solução no caso de sistemas de equações não lineares comuns (não sobredeterminados), para aproximar os valores pontuais de uma determinada função. OLS é um dos métodos básicos de análise de regressão para estimar parâmetros desconhecidos de modelos de regressão a partir de dados de amostra.

YouTube enciclopédico

    1 / 5

    ✪ Método dos mínimos quadrados. Tema

    ✪ Mitin I. V. - Processamento dos resultados do exame físico. experimento - Método dos mínimos quadrados (Aula 4)

    ✪ Mínimos quadrados, lição 1/2. Função linear

    ✪ Econometria. Aula 5. Método dos mínimos quadrados

    ✪ Método dos mínimos quadrados. Respostas

    Legendas

História

Até o início do século XIX. os cientistas não tinham certas regras para resolver um sistema de equações em que o número de incógnitas é menor que o número de equações; Até então, métodos particulares eram usados, dependendo do tipo de equações e da engenhosidade das calculadoras, e, portanto, diferentes calculadoras, partindo dos mesmos dados observacionais, chegavam a conclusões diferentes. Gauss (1795) é creditado com a primeira aplicação do método, e Legendre (1805) independentemente descobriu e publicou sob seu nome moderno (fr. Methode des moindres quarres). Laplace conectou o método com a teoria das probabilidades, e o matemático americano Adrain (1808) considerou suas aplicações probabilísticas. O método é difundido e melhorado por mais pesquisas de Encke, Bessel, Hansen e outros.

A essência do método dos mínimos quadrados

Deixar x (\displaystyle x)- conjunto n (\displaystyle n) variáveis ​​desconhecidas (parâmetros), f i (x) (\displaystyle f_(i)(x)), , m > n (\displaystyle m>n)- conjunto de funções deste conjunto de variáveis. O problema é escolher tais valores x (\displaystyle x) para que os valores dessas funções sejam o mais próximo possível de alguns valores y i (\displaystyle y_(i)). Essencialmente nós estamos falando sobre a "solução" de um sistema de equações sobredeterminado f i (x) = y i (\displaystyle f_(i)(x)=y_(i)), i = 1 , … , m (\displaystyle i=1,\ldots ,m) no sentido indicado da máxima proximidade da esquerda e partes certas sistemas. A essência do LSM é escolher como "medida de proximidade" a soma dos desvios quadrados das partes esquerda e direita | f i (x) − y i | (\displaystyle |f_(i)(x)-y_(i)|). Assim, a essência do LSM pode ser expressa da seguinte forma:

∑ i e i 2 = ∑ i (y i − f i (x)) 2 → min x (\displaystyle \sum _(i)e_(i)^(2)=\sum _(i)(y_(i)-f_( i)(x))^(2)\rightarrow \min _(x)).

Se o sistema de equações tiver uma solução, então o mínimo da soma dos quadrados será igual a zero e as soluções exatas do sistema de equações podem ser encontradas analiticamente ou, por exemplo, por vários métodos de otimização numérica. Se o sistema for superdeterminado, isto é, falando de modo geral, o número de equações independentes mais quantidade variáveis ​​desconhecidas, então o sistema não tem uma solução exata e o método dos mínimos quadrados nos permite encontrar algum vetor "ótimo" x (\displaystyle x) no sentido da máxima proximidade dos vetores y (\displaystyle y) e f (x) (\displaystyle f(x)) ou a proximidade máxima do vetor de desvio e (\displaystyle e) a zero (a proximidade é entendida no sentido de distância euclidiana).

Exemplo - sistema de equações lineares

Em particular, o método dos mínimos quadrados pode ser usado para "resolver" o sistema equações lineares

A x = b (\displaystyle Ax=b),

Onde A (\estilo de exibição A) matriz de tamanho retangular m × n , m > n (\displaystyle m\times n,m>n)(ou seja, o número de linhas da matriz A é maior que o número de variáveis ​​necessárias).

Esse sistema de equações em caso Geral não tem solução. Portanto, este sistema pode ser "resolvido" apenas no sentido de escolher tal vetor x (\displaystyle x) para minimizar a "distância" entre vetores A x (\displaystyle Ax) e b (\displaystyle b). Para fazer isso, você pode aplicar o critério para minimizar a soma das diferenças quadradas das partes esquerda e direita das equações do sistema, que é (A x − b) T (A x − b) → min (\displaystyle (Ax-b)^(T)(Ax-b)\rightarrow \min ). É fácil mostrar que a solução deste problema de minimização leva à solução do seguinte sistema de equações

A T A x = A T b ⇒ x = (A T A) − 1 A T b (\displaystyle A^(T)Ax=A^(T)b\Rightarrow x=(A^(T)A)^(-1)A^ (Tb).

OLS em análise de regressão (aproximação de dados)

Deixe estar n (\displaystyle n) valores de alguma variável y (\displaystyle y)(estes podem ser os resultados de observações, experimentos, etc.) e as variáveis ​​correspondentes x (\displaystyle x). O desafio é fazer a relação entre y (\displaystyle y) e x (\displaystyle x) aproximado por alguma função conhecida até alguns parâmetros desconhecidos b (\displaystyle b), ou seja, realmente encontrar melhores valores parâmetros b (\displaystyle b), aproximando ao máximo os valores f (x , b) (\displaystyle f(x,b)) para valores reais y (\displaystyle y). De fato, isso se reduz ao caso de "solução" de um sistema de equações sobredeterminado em relação a b (\displaystyle b):

F (x t , b) = y t , t = 1 , … , n (\displaystyle f(x_(t),b)=y_(t),t=1,\ldots ,n).

Na análise de regressão, e em particular na econometria, são utilizados modelos probabilísticos da relação entre as variáveis.

Y t = f (x t , b) + ε t (\displaystyle y_(t)=f(x_(t),b)+\varepsilon _(t)),

Onde ε t (\displaystyle \varepsilon _(t))- assim chamado erros aleatórios modelos.

Assim, os desvios dos valores observados y (\displaystyle y) do modelo f (x , b) (\displaystyle f(x,b)) já assumido no próprio modelo. A essência do LSM (comum, clássico) é encontrar tais parâmetros b (\displaystyle b), em que a soma dos desvios quadrados (erros, para modelos de regressão são frequentemente chamados de resíduos de regressão) e t (\displaystyle e_(t)) será mínimo:

b ^ O L S = arg ⁡ min b R S S (b) (\displaystyle (\hat (b))_(OLS)=\arg \min _(b)RSS(b)),

Onde R S S (\displaystyle RSS)- Inglês. A soma residual dos quadrados é definida como:

R S S (b) = e T e = ∑ t = 1 n e t 2 = ∑ t = 1 n (y t − f (x t , b)) 2 (\displaystyle RSS(b)=e^(T)e=\sum _ (t=1)^(n)e_(t)^(2)=\soma _(t=1)^(n)(y_(t)-f(x_(t),b))^(2) ).

No caso geral, este problema pode ser resolvido por métodos numéricos de otimização (minimização). Neste caso, fala-se de mínimos quadrados não lineares(NLS ou NLLS - eng. Mínimos quadrados não lineares). Em muitos casos, uma solução analítica pode ser obtida. Para resolver o problema de minimização, é necessário encontrar os pontos estacionários da função R S S (b) (\displaystyle RSS(b)), diferenciando-o em relação a parâmetros desconhecidos b (\displaystyle b), igualando as derivadas a zero e resolvendo o sistema de equações resultante:

∑ t = 1 n (y t − f (x t , b)) ∂ f (x t , b) ∂ b = 0 (\displaystyle \sum _(t=1)^(n)(y_(t)-f(x_) (t),b))(\frac (\partial f(x_(t),b))(\partial b))=0).

LSM no caso de regressão linear

Seja a dependência da regressão linear:

y t = ∑ j = 1 k b j x t j + ε = x t T b + ε t (\displaystyle y_(t)=\sum _(j=1)^(k)b_(j)x_(tj)+\varepsilon =x_( t)^(T)b+\varepsilon _(t)).

Deixar yé o vetor coluna de observações da variável que está sendo explicada, e X (\displaystyle X)- isto é (n × k) (\displaystyle ((n\vezes k)))- matriz de observações de fatores (linhas da matriz - vetores de valores de fatores em uma determinada observação, por colunas - vetor de valores de um determinado fator em todas as observações). A representação matricial do modelo linear tem a forma:

y = Xb + ε (\displaystyle y=Xb+\varepsilon ).

Então o vetor de estimativas da variável explicada e o vetor de resíduos de regressão serão iguais a

y ^ = X b , e = y − y ^ = y − X b (\displaystyle (\hat (y))=Xb,\quad e=y-(\hat (y))=y-Xb).

consequentemente, a soma dos quadrados dos resíduos da regressão será igual a

R S S = e T e = (y − X b) T (y − X b) (\displaystyle RSS=e^(T)e=(y-Xb)^(T)(y-Xb)).

Diferenciando esta função em relação ao vetor de parâmetros b (\displaystyle b) e igualando as derivadas a zero, obtemos um sistema de equações (em forma de matriz):

(X T X) b = X T y (\displaystyle (X^(T)X)b=X^(T)y).

Na forma de matriz decifrada, esse sistema de equações se parece com isso:

(∑ x t 1 2 ∑ x t 1 x t 2 ∑ x t 1 x t 3 … ∑ x t 1 x t k ∑ x t 2 x t 1 ∑ x t 2 2 ∑ x t 2 x t 3 … ∑ x t 2 x t k ∑ x t 3 x t 1 ∑ x t 1 ∑ x t 2 x t k ∑ x t 3 x t 1 ∑ x t 1 ∑ ∑ x t 3 x t k ⋮ ⋮ ⋮ ∑ ∑ x t k x t 1 ∑ x t k x t 2 ∑ x t k x t 3… ∑ x t k 2) (b 1 b 2 b 3 ⋮ b k) = (∑ x t 1 y x t ∑ 3 y t ∑ x t k y t), (\ drama (\begin(pmatrix)\soma x_(t1)^(2)&\sum x_(t1)x_(t2)&\soma x_(t1)x_(t3)&\ldots &\sum x_(t1)x_( tk)\\\soma x_(t2)x_(t1)&\soma x_(t2)^(2)&\soma x_(t2)x_(t3)&\ldots &\ soma x_(t2)x_(tk) \\\soma x_(t3)x_(t1)&\soma x_(t3)x_(t2)&\soma x_(t3)^(2)&\ldots &\soma x_ (t3)x_(tk)\\ \vdots &\vdots &\vdots &\ddots &\vdots \\\soma x_(tk)x_(t1)&\sum x_(tk)x_(t2)&\sum x_ (tk)x_(t3)&\ ldots &\sum x_(tk)^(2)\\\end(pmatrix))(\begin(pmatrix)b_(1)\\b_(2)\\b_(3 )\\\vdots \\b_( k)\\\end(pmatrix))=(\begin(pmatrix)\sum x_(t1)y_(t)\\\sum x_(t2)y_(t)\\ \sum x_(t3)y_(t) )\\\vdots \\\soma x_(tk)y_(t)\\\end(pmatrix))) onde todas as somas são tomadas sobre todos valores permitidos t (\displaystyle t).

Se uma constante for incluída no modelo (como de costume), então x t 1 = 1 (\displaystyle x_(t1)=1) para todos t (\displaystyle t), portanto, no canto superior esquerdo da matriz do sistema de equações está o número de observações n (\displaystyle n), e nos demais elementos da primeira linha e primeira coluna - apenas a soma dos valores das variáveis: ∑ x t j (\displaystyle \sum x_(tj)) e o primeiro elemento do lado direito do sistema - ∑ y t (\displaystyle \sum y_(t)).

A solução deste sistema de equações dá a fórmula geral para as estimativas de mínimos quadrados para o modelo linear:

b ^ O L S = (X T X) − 1 X T y = (1 n X T X) − 1 1 n X T y = V x − 1 C x y (\displaystyle (\hat (b))_(OLS)=(X^(T) )X)^(-1)X^(T)y=\left((\frac (1)(n))X^(T)X\right)^(-1)(\frac (1)(n ))X^(T)y=V_(x)^(-1)C_(xy)).

Para fins analíticos, a última representação desta fórmula acaba por ser útil (no sistema de equações quando dividido por n, aparecem médias aritméticas em vez de somas). Se os dados no modelo de regressão centrado, então nesta representação a primeira matriz tem o significado da matriz de covariâncias amostral de fatores, e a segunda é o vetor de covariâncias de fatores com variável dependente. Se, além disso, os dados também forem normalizado no SKO (ou seja, em última análise, padronizado), então a primeira matriz tem o significado da matriz de correlação amostral de fatores, o segundo vetor - o vetor de correlações amostrais de fatores com a variável dependente.

Uma propriedade importante das estimativas LLS para modelos com uma constante- a linha da regressão construída passa pelo centro de gravidade dos dados da amostra, ou seja, a igualdade é cumprida:

y ¯ = b 1 ^ + ∑ j = 2 k b ^ j x ¯ j (\displaystyle (\bar (y))=(\hat (b_(1)))+\sum _(j=2)^(k) (\hat (b))_(j)(\bar (x))_(j)).

Em particular, no caso extremo, quando o único regressor é uma constante, verificamos que a estimativa OLS de um único parâmetro (a própria constante) é igual ao valor médio da variável explicada. Ou seja, a média aritmética, conhecida por suas boas propriedades das leis dos grandes números, também é uma estimativa de mínimos quadrados - ela satisfaz o critério da soma mínima dos desvios quadrados dela.

Os casos especiais mais simples

No caso de uma sala de vapor regressão linear y t = a + b x t + ε t (\displaystyle y_(t)=a+bx_(t)+\varepsilon _(t)), quando a dependência linear de uma variável em outra é estimada, as fórmulas de cálculo são simplificadas (você pode prescindir da álgebra matricial). O sistema de equações tem a forma:

(1 x ¯ x ¯ x 2 ¯) (a b) = (y ¯ x y ¯) (\displaystyle (\begin(pmatrix)1&(\bar (x))\\(\bar (x))&(\bar (x^(2)))\\\end(pmatrix))(\begin(pmatrix)a\\b\\\end(pmatrix))=(\begin(pmatrix)(\bar (y))\\ (\overline(xy))\\\end(pmatrix))).

A partir daqui é fácil encontrar estimativas para os coeficientes:

( b ^ = Cov ⁡ (x , y) Var ⁡ (x) = x y ¯ − x ¯ y ¯ x 2 ¯ − x ¯ 2 , a ^ = y ¯ − b x ¯ . (\displaystyle (\begin(cases) (\hat (b))=(\frac (\mathop (\textrm (Cov)) (x,y))(\mathop (\textrm (Var)) (x)))=(\frac ((\overline) (xy))-(\bar (x))(\bar (y)))((\overline (x^(2)))-(\overline (x))^(2))),\\( \hat (a))=(\bar (y))-b(\bar (x)).\end(cases)))

Apesar do fato de que, em geral, os modelos com uma constante são preferíveis, em alguns casos sabe-se a partir de considerações teóricas que a constante a (\displaystyle a) deve ser igual a zero. Por exemplo, na física, a relação entre tensão e corrente tem a forma U = I ⋅ R (\displaystyle U=I\cdot R); medir tensão e corrente, é necessário estimar a resistência. Neste caso, estamos falando de um modelo y = b x (\displaystyle y=bx). Neste caso, em vez de um sistema de equações, temos a única equação

(∑ x t 2) b = ∑ x t y t (\displaystyle \left(\sum x_(t)^(2)\right)b=\sum x_(t)y_(t)).

Portanto, a fórmula para estimar um único coeficiente tem a forma

B ^ = ∑ t = 1 n x t y t ∑ t = 1 n x t 2 = x y ¯ x 2 ¯ (\displaystyle (\hat (b))=(\frac (\sum _(t=1)^(n)x_(t) )y_(t))(\sum _(t=1)^(n)x_(t)^(2)))=(\frac (\overline (xy))(\overline (x^(2))) ))).

O caso de um modelo polinomial

Se os dados forem ajustados por uma função de regressão polinomial de uma variável f (x) = b 0 + ∑ i = 1 k b i x i (\displaystyle f(x)=b_(0)+\sum \limits _(i=1)^(k)b_(i)x^(i)), então, percebendo graus x i (\displaystyle x^(i)) como fatores independentes para cada i (\displaystyle i)é possível estimar os parâmetros do modelo com base na fórmula geral de estimação dos parâmetros do modelo linear. Para isso, basta levar em conta na fórmula geral que com tal interpretação x t i x t j = x t i x t j = x t i + j (\displaystyle x_(ti)x_(tj)=x_(t)^(i)x_(t)^(j)=x_(t)^(i+j)) e x t j y t = x t j y t (\displaystyle x_(tj)y_(t)=x_(t)^(j)y_(t)). Consequentemente, equações matriciais dentro este caso terá a forma:

(n ∑ n x t ... ∑ n x t k ∑ n x t ∑ n x i 2 ... ∑ m x i k + 1 ⋮ ⋱ ⋮ ∑ ∑ n x t k ∑ n x t k + 1 ... ∑ n x t 2 k) [b 0 b 1 ⋮ b k] = [∑ 0 b 1 ⋮ b k] n y t ∑ n x t y t ⋮ n x t k y t ] . (\displaystyle (\begin(pmatrix)n&\sum \limits _(n)x_(t)&\ldots &\sum \limits _(n)x_(t)^(k)\\\sum \limits _( n)x_(t)&\soma \limits _(n)x_(i)^(2)&\ldots &\soma \limits _(m)x_(i)^(k+1)\\\vdots & \vdots &\ddots &\vdots \\\sum \limits _(n)x_(t)^(k)&\sum \limits _(n)x_(t)^(k+1)&\ldots &\ soma \limits _(n)x_(t)^(2k)\end(pmatrix))(\begin(bmatrix)b_(0)\\b_(1)\\\vdots \\b_(k)\end( bmatrix))=(\begin(bmatrix)\sum \limits _(n)y_(t)\\\sum \limits _(n)x_(t)y_(t)\\\vdots \\\sum \limits _(n)x_(t)^(k)y_(t)\end(bmatrix)).)

Propriedades estatísticas das estimativas de OLS

Em primeiro lugar, notamos que para modelos lineares, as estimativas de mínimos quadrados são estimativas lineares, como segue a fórmula acima. Para estimadores de mínimos quadrados imparciais, é necessário e suficiente que condição essencial análise de regressão: condicionada aos fatores, a expectativa matemática de um erro aleatório deve ser igual a zero. Esta condição é satisfeita, em particular, se

  1. valor esperado erros aleatórios é zero, e
  2. fatores e erros aleatórios são valores independentes aleatórios .

A segunda condição - a condição dos fatores exógenos - é fundamental. Se essa propriedade não for satisfeita, podemos supor que quase todas as estimativas serão extremamente insatisfatórias: elas nem serão consistentes (ou seja, mesmo uma quantidade muito grande de dados não permite obter estimativas qualitativas nesse caso). No caso clássico, é feita uma suposição mais forte sobre o determinismo dos fatores, em contraste com um erro aleatório, que automaticamente significa que a condição exógena é satisfeita. No caso geral, para a consistência das estimativas, é suficiente satisfazer a condição de exogeneidade juntamente com a convergência da matriz V x (\displaystyle V_(x)) a alguma matriz não degenerada à medida que o tamanho da amostra aumenta até o infinito.

Para que, além de consistência e imparcialidade, as estimativas dos mínimos quadrados (usuais) também sejam eficazes (as melhores na classe de estimativas lineares não tendenciosas), é necessário preencher propriedades adicionais de um erro aleatório:

Essas suposições podem ser formuladas para a matriz de covariância  do vetor de erros aleatórios V (ε) = σ 2 I (\displaystyle V(\varepsilon)=\sigma ^(2)I).

Um modelo linear que satisfaça essas condições é chamado clássico. As estimativas OLS para a regressão linear clássica são estimativas imparciais, consistentes e mais eficientes na classe de todas as estimativas lineares imparciais (na literatura inglesa, a abreviatura às vezes é usada azul (Melhor estimador linear imparcial) é a melhor estimativa linear imparcial; dentro literatura doméstica mais frequentemente o teorema de Gauss-Markov é dado). Como é fácil mostrar, a matriz de covariância do vetor de estimativas de coeficientes será igual a:

V (b ^ O L S) = σ 2 (X T X) − 1 (\displaystyle V((\hat (b))_(OLS))=\sigma ^(2)(X^(T)X)^(-1 )).

Eficiência significa que essa matriz de covariância é "mínima" (qualquer combinação linear de coeficientes, e em particular os próprios coeficientes, tem uma variância mínima), ou seja, na classe de estimativas lineares não enviesadas, as estimativas OLS são as melhores. Os elementos diagonais desta matriz - as variâncias das estimativas dos coeficientes - são parâmetros importantes da qualidade das estimativas obtidas. No entanto, não é possível calcular a matriz de covariância porque a variância do erro aleatório é desconhecida. Pode-se provar que a estimativa imparcial e consistente (para o modelo linear clássico) da variância dos erros aleatórios é o valor:

S 2 = R S S / (n − k) (\displaystyle s^(2)=RSS/(n-k)).

Substituindo dado valor na fórmula para a matriz de covariância e obter uma estimativa da matriz de covariância. As estimativas resultantes também são imparciais e consistentes. Também é importante que a estimativa da variância do erro (e, portanto, a variância dos coeficientes) e as estimativas dos parâmetros do modelo sejam independentes. variáveis ​​aleatórias, que permite obter estatísticas de teste para testar hipóteses sobre os coeficientes do modelo.

Deve-se notar que se as premissas clássicas não forem atendidas, as estimativas dos parâmetros de mínimos quadrados não são as mais eficientes e, onde W (\displaystyle W)é uma matriz de peso definida positiva simétrica. Mínimos quadrados ordinários é um caso especial desta abordagem, quando a matriz de pesos é proporcional a matriz de identidade. Como se sabe, para matrizes simétricas (ou operadores) há uma decomposição W = P T P (\estilo de exibição W=P^(T)P). Portanto, este funcional pode ser representado da seguinte forma e T P T P e = (P e) T P e = e ∗ T e ∗ (\displaystyle e^(T)P^(T)Pe=(Pe)^(T)Pe=e_(*)^(T)e_( *)), ou seja, este funcional pode ser representado como a soma dos quadrados de alguns "resíduos" transformados. Assim, podemos distinguir uma classe de métodos de mínimos quadrados - métodos LS (Least Squares).

Está provado (teorema de Aitken) que para um modelo de regressão linear generalizado (no qual não são impostas restrições à matriz de covariância de erros aleatórios), os mais eficazes (na classe de estimativas lineares não enviesadas) são as estimativas das chamadas. OLS generalizado (OMNK, GLS - Mínimos Quadrados Generalizados)- Método LS com uma matriz de peso igual à matriz de covariância inversa de erros aleatórios: W = V ε − 1 (\displaystyle W=V_(\varepsilon )^(-1)).

Pode ser mostrado que a fórmula para as estimativas GLS dos parâmetros do modelo linear tem a forma

B ^ G L S = (X T V − 1 X) − 1 X T V − 1 y (\displaystyle (\hat (b))_(GLS)=(X^(T)V^(-1)X)^(-1) X^(T)V^(-1)y).

A matriz de covariância dessas estimativas, respectivamente, será igual a

V (b ^ G L S) = (X T V − 1 X) − 1 (\displaystyle V((\hat (b))_(GLS))=(X^(T)V^(-1)X)^(- 1)).

De fato, a essência do OLS está em uma certa transformação (linear) (P) dos dados originais e na aplicação dos mínimos quadrados usuais aos dados transformados. O objetivo dessa transformação é que, para os dados transformados, os erros aleatórios já satisfaçam as suposições clássicas.

Mínimos quadrados ponderados

No caso de uma matriz de peso diagonal (e, portanto, a matriz de covariância de erros aleatórios), temos os chamados mínimos quadrados ponderados (WLS - Weighted Least Squares). Nesse caso, a soma dos quadrados ponderada dos resíduos do modelo é minimizada, ou seja, cada observação recebe um “peso” que é inversamente proporcional à variância do erro aleatório nesta observação: e T W e = ∑ t = 1 n e t 2 σ t 2 (\displaystyle e^(T)We=\sum _(t=1)^(n)(\frac (e_(t)^(2))(\ sigma _(t)^(2)))). De fato, os dados são transformados ponderando as observações (dividindo por um valor proporcional ao desvio padrão assumido dos erros aleatórios), e os mínimos quadrados normais são aplicados aos dados ponderados.

ISBN 978-5-7749-0473-0.

  • Econometria. Livro didático / Ed. Eliseeva I.I. - 2ª ed. - M. : Finanças e estatísticas, 2006. - 576 p. - ISBN 5-279-02786-3.
  • Alexandrova N. V. História de termos matemáticos, conceitos, designações: um livro de referência de dicionário. - 3ª ed. - M. : LKI, 2008. - 248 p. - ISBN 978-5-382-00839-4. I.V. Mitin, Rusakov V.S. Análise e tratamento de dados experimentais - 5ª edição - 24p.
  • Após o alinhamento, obtemos uma função da seguinte forma: g (x) = x + 1 3 + 1 .

    Podemos aproximar esses dados com uma relação linear y = a x + b calculando os parâmetros apropriados. Para fazer isso, precisaremos aplicar o chamado método dos mínimos quadrados. Você também precisará fazer um desenho para verificar qual linha alinhará melhor os dados experimentais.

    Yandex.RTB R-A-339285-1

    O que exatamente é OLS (método dos mínimos quadrados)

    A principal coisa que precisamos fazer é encontrar tais coeficientes de dependência linear em que o valor da função de duas variáveis ​​F (a, b) = ∑ i = 1 n (y i - (a x i + b)) 2 será o menor. Em outras palavras, para determinados valores de a e b, a soma dos quadrados dos desvios dos dados apresentados da reta resultante terá um valor mínimo. Este é o significado do método dos mínimos quadrados. Tudo o que precisamos fazer para resolver o exemplo é encontrar o extremo da função de duas variáveis.

    Como derivar fórmulas para calcular coeficientes

    Para derivar fórmulas de cálculo dos coeficientes, é necessário compor e resolver um sistema de equações com duas variáveis. Para fazer isso, calculamos as derivadas parciais da expressão F (a , b) = ∑ i = 1 n (y i - (a x i + b)) 2 em relação a aeb e as igualamos a 0 .

    δ F (a , b) δ a = 0 δ F (a , b) δ b = 0 ⇔ - 2 ∑ i = 1 n (y i - (a x i + b)) x i = 0 - 2 ∑ i = 1 n ( y i - (a x i + b)) = 0 ⇔ a ∑ i = 1 n x i 2 + b ∑ i = 1 n x i = ∑ i = 1 n x i y i a ∑ i = 1 n x i + ∑ i = 1 n b = ∑ i = 1 n y i ⇔ a ∑ i = 1 n x i 2 + b ∑ i = 1 n x i = ∑ i = 1 n x i y i a ∑ i = 1 n x i + n b = ∑ i = 1 n y i

    Para resolver um sistema de equações, você pode usar qualquer método, como substituição ou método de Cramer. Como resultado, devemos obter fórmulas que calculam os coeficientes usando o método dos mínimos quadrados.

    n ∑ i = 1 n x i y i - ∑ i = 1 n x i ∑ i = 1 n y i n ∑ i = 1 n - ∑ i = 1 n x i 2 b = ∑ i = 1 n y i - a ∑ i = 1 n x i n

    Calculamos os valores das variáveis ​​para as quais a função
    F (a , b) = ∑ i = 1 n (y i - (a x i + b)) 2 assumirá o valor mínimo. No terceiro parágrafo, vamos provar porque é assim.

    Esta é a aplicação do método dos mínimos quadrados na prática. Sua fórmula, que é usada para encontrar o parâmetro a , inclui ∑ i = 1 n x i , ∑ i = 1 n y i , ∑ i = 1 n x i y i , ∑ i = 1 n x i 2 , e o parâmetro
    n - denota a quantidade de dados experimentais. Aconselhamos que calcule cada valor separadamente. O valor do coeficiente b é calculado imediatamente após a .

    Voltemos ao exemplo original.

    Exemplo 1

    Aqui temos n igual a cinco. Para facilitar o cálculo dos valores necessários incluídos nas fórmulas dos coeficientes, preenchemos a tabela.

    eu = 1 eu = 2 eu = 3 eu = 4 eu = 5 ∑ i = 1 5
    XI 0 1 2 4 5 12
    eu 2 , 1 2 , 4 2 , 6 2 , 8 3 12 , 9
    x eu eu 0 2 , 4 5 , 2 11 , 2 15 33 , 8
    x e 2 0 1 4 16 25 46

    Solução

    A quarta linha contém os dados obtidos multiplicando os valores da segunda linha pelos valores da terceira para cada indivíduo i. A quinta linha contém os dados do segundo quadrado. A última coluna mostra as somas dos valores das linhas individuais.

    Vamos usar o método dos mínimos quadrados para calcular os coeficientes aeb que precisamos. Para isso, substitua os valores desejados da última coluna e calcule as somas:

    n ∑ i = 1 n x i y i - ∑ i = 1 n x i ∑ i = 1 n y i n ∑ i = 1 n - ∑ i = 1 n x i 2 b = ∑ i = 1 n y i - a ∑ i = 1 n x i n ⇒ a = 5 33, 8 - 12 12, 9 5 46 - 12 2 b = 12, 9 - a 12 5 ⇒ a ≈ 0, 165 b ≈ 2, 184

    Temos que a linha reta de aproximação desejada será y = 0 , 165 x + 2 , 184 . Agora precisamos determinar qual linha irá aproximar melhor os dados - g (x) = x + 1 3 + 1 ou 0 , 165 x + 2 , 184 . Vamos fazer uma estimativa usando o método dos mínimos quadrados.

    Para calcular o erro, precisamos encontrar as somas dos desvios quadrados dos dados das linhas σ 1 = ∑ i = 1 n (y i - (a x i + b i)) 2 e σ 2 = ∑ i = 1 n (y i - g (x i)) 2 , o valor mínimo corresponderá a uma linha mais adequada.

    σ 1 = ∑ i = 1 n (y i - (a x i + b i)) 2 = = ∑ i = 1 5 (y i - (0 , 165 x i + 2 , 184)) 2 ≈ 0 , 019 σ 2 = ∑ i = 1 n (y i - g (x i)) 2 = = ∑ i = 1 5 (y i - (x i + 1 3 + 1)) 2 ≈ 0 , 096

    Responda: desde σ 1< σ 2 , то прямой, a melhor maneira aproximar os dados originais será
    y = 0, 165 x + 2, 184.

    O método dos mínimos quadrados é claramente mostrado na ilustração gráfica. A linha vermelha marca a linha reta g (x) = x + 1 3 + 1, a linha azul marca y = 0, 165 x + 2, 184. Os dados brutos são marcados com pontos rosa.

    Vamos explicar por que exatamente são necessárias aproximações desse tipo.

    Eles podem ser usados ​​em problemas que exigem suavização de dados, bem como naqueles em que os dados precisam ser interpolados ou extrapolados. Por exemplo, no problema discutido acima, pode-se encontrar o valor da quantidade observada y em x = 3 ou em x = 6 . Dedicamos um artigo separado a esses exemplos.

    Prova do método LSM

    Para que a função tome o valor mínimo quando a e b são calculados, é necessário que em um dado ponto a matriz da forma quadrática da diferencial da função da forma F(a, b) = ∑ i = 1 n (y i - (a x i + b)) 2 seja positivo definido. Vamos mostrar como deve ser.

    Exemplo 2

    Temos um diferencial de segunda ordem da seguinte forma:

    d 2 F (a ; b) = δ 2 F (a ; b) δ a 2 d 2 a + 2 δ 2 F (a ; b) δ a δ b d a d b + δ 2 F (a ; b) δ b 2 d 2b

    Solução

    δ 2 F (a ; b) δ a 2 = δ δ F (a ; b) δ a δ a = = δ - 2 ∑ i = 1 n (y i - (a x i + b)) x i δ a = 2 ∑ i = 1 n (x i) 2 δ 2 F (a ; b) δ a δ b = δ δ F (a ; b) δ a δ b = = δ - 2 ∑ i = 1 n (y i - (a x i + b) ) x i δ b = 2 ∑ i = 1 n x i δ 2 F (a ; b) δ b 2 = δ δ F (a ; b) δ b δ b = δ - 2 ∑ i = 1 n (y i - (a x i + b)) δ b = 2 ∑ i = 1 n (1) = 2 n

    Em outras palavras, pode ser escrito da seguinte forma: d 2 F (a ; b) = 2 ∑ i = 1 n (x i) 2 d 2 a + 2 2 ∑ x i i = 1 n d a d b + (2 n) d 2 b .

    Obtivemos uma matriz de forma quadrática M = 2 ∑ i = 1 n (x i) 2 2 ∑ i = 1 n x i 2 ∑ i = 1 n x i 2 n .

    Nesse caso, os valores dos elementos individuais não serão alterados dependendo de a e b . Essa matriz é positiva definida? Para responder a esta pergunta, vamos verificar se seus menores angulares são positivos.

    Calcule o menor angular de primeira ordem: 2 ∑ i = 1 n (x i) 2 > 0 . Como os pontos x i não coincidem, a desigualdade é estrita. Vamos manter isso em mente em cálculos posteriores.

    Calculamos o menor angular de segunda ordem:

    d e t (M) = 2 ∑ i = 1 n (x i) 2 2 ∑ i = 1 n x i 2 ∑ i = 1 n x i 2 n = 4 n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2

    Em seguida, procedemos à prova da desigualdade n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 por indução matemática.

    1. Vamos verificar se esta desigualdade é válida para n arbitrário. Vamos pegar 2 e calcular:

    2 ∑ i = 1 2 (x i) 2 - ∑ i = 1 2 x i 2 = 2 x 1 2 + x 2 2 - x 1 + x 2 2 = = x 1 2 - 2 x 1 x 2 + x 2 2 = x 1 + x 2 2 > 0

    Obtivemos a igualdade correta (se os valores x 1 e x 2 não corresponderem).

    1. Vamos supor que essa desigualdade será verdadeira para n , ou seja. n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 – verdadeiro.
    2. Agora vamos provar a validade para n + 1 , ou seja. que (n + 1) ∑ i = 1 n + 1 (x i) 2 - ∑ i = 1 n + 1 x i 2 > 0 se n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 > 0 .

    Calculamos:

    (n + 1) ∑ i = 1 n + 1 (x i) 2 - ∑ i = 1 n + 1 x i 2 = = (n + 1) ∑ i = 1 n (x i) 2 + x n + 1 2 - ∑ i = 1 n x i + x n + 1 2 = = n ∑ i = 1 n (x i) 2 + n x n + 1 2 + ∑ i = 1 n (x i) 2 + x n + 1 2 - - ∑ i = 1 n x i 2 + 2 x n + 1 ∑ i = 1 n x i + x n + 1 2 = = ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 + n x n + 1 2 - x n + 1 ∑ i = 1 n x i + ∑ i = 1 n (x i) 2 = = ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 + x n + 1 2 - 2 x n + 1 x 1 + x 1 2 + + x n + 1 2 - 2 x n + 1 x 2 + x 2 2 + . . . + x n + 1 2 - 2 x n + 1 x 1 + x n 2 = = n ∑ i = 1 n (x i) 2 - ∑ i = 1 n x i 2 + + (x n + 1 - x 1) 2 + (x n + 1 - x 2) 2 + . . . + (x n - 1 - x n) 2 > 0

    A expressão entre chaves será maior que 0 (com base no que presumimos na etapa 2), e o restante dos termos será maior que 0 porque são todos quadrados de números. Provamos a desigualdade.

    Responda: os a e b encontrados corresponderão ao menor valor da função F (a, b) = ∑ i = 1 n (y i - (a x i + b)) 2, o que significa que eles são os parâmetros necessários do método dos mínimos quadrados (LSM).

    Se você notar um erro no texto, destaque-o e pressione Ctrl+Enter

    Exemplo.

    Dados experimentais sobre os valores das variáveis X e no são dados na tabela.

    Como resultado de seu alinhamento, a função

    Usando método dos mínimos quadrados, aproxime esses dados com uma dependência linear y=ax+b(encontrar opções uma e b). Descubra qual das duas linhas é melhor (no sentido do método dos mínimos quadrados) alinha os dados experimentais. Faça um desenho.

    A essência do método dos mínimos quadrados (LSM).

    O problema é encontrar os coeficientes de dependência linear para os quais a função de duas variáveis uma e b assume o menor valor. Ou seja, dados os dados uma e b a soma dos desvios quadrados dos dados experimentais da linha reta encontrada será a menor. Este é o ponto principal do método dos mínimos quadrados.

    Assim, a solução do exemplo é reduzida a encontrar o extremo de uma função de duas variáveis.

    Derivação de fórmulas para encontrar coeficientes.

    Um sistema de duas equações com duas incógnitas é compilado e resolvido. Encontrando derivadas parciais de uma função em relação a variáveis uma e b, igualamos essas derivadas a zero.

    Resolvemos o sistema de equações resultante por qualquer método (por exemplo método de substituição ou ) e obter fórmulas para encontrar coeficientes usando o método dos mínimos quadrados (LSM).

    Com dados uma e b função assume o menor valor. A prova deste fato está dada.

    Esse é todo o método dos mínimos quadrados. Fórmula para encontrar o parâmetro uma contém as somas , , , e o parâmetro n- quantidade de dados experimentais. Recomenda-se que os valores dessas somas sejam calculados separadamente. Coeficiente b encontrado após o cálculo uma.

    É hora de lembrar o exemplo original.

    Solução.

    Em nosso exemplo n=5. Preenchemos a tabela para a conveniência de calcular os valores incluídos nas fórmulas dos coeficientes necessários.

    Os valores da quarta linha da tabela são obtidos multiplicando os valores da 2ª linha pelos valores da 3ª linha para cada número eu.

    Os valores da quinta linha da tabela são obtidos elevando ao quadrado os valores da 2ª linha para cada número eu.

    Os valores da última coluna da tabela são as somas dos valores nas linhas.

    Usamos as fórmulas do método dos mínimos quadrados para encontrar os coeficientes uma e b. Substituímos neles os valores correspondentes da última coluna da tabela:

    Consequentemente, y=0,165x+2,184é a linha reta de aproximação desejada.

    Resta saber qual das linhas y=0,165x+2,184 ou aproxima melhor os dados originais, ou seja, para fazer uma estimativa usando o método dos mínimos quadrados.

    Estimativa do erro do método dos mínimos quadrados.

    Para fazer isso, você precisa calcular as somas dos desvios quadrados dos dados originais dessas linhas e , um valor menor corresponde a uma linha que melhor se aproxima dos dados originais em termos do método dos mínimos quadrados.

    Desde , então a linha y=0,165x+2,184 aproxima melhor os dados originais.

    Ilustração gráfica do método dos mínimos quadrados (LSM).

    Tudo parece ótimo nas paradas. A linha vermelha é a linha encontrada y=0,165x+2,184, a linha azul é , os pontos rosa são os dados originais.

    Para que serve, para que servem todas essas aproximações?

    Eu pessoalmente uso para resolver problemas de suavização de dados, problemas de interpolação e extrapolação (no exemplo original, você pode ser solicitado a encontrar o valor do valor observado y no x=3 ou quando x=6 de acordo com o método MNC). Mas falaremos mais sobre isso posteriormente em outra seção do site.

    Prova.

    Para que quando encontrado uma e b função assume o menor valor, é necessário que neste ponto a matriz da forma quadrática do diferencial de segunda ordem para a função foi definido positivo. Vamos mostrar.

    Método dos mínimos quadrados

    Método dos mínimos quadrados ( MNK, OLS, Mínimos Quadrados Ordinários) - um dos métodos básicos de análise de regressão para estimar parâmetros desconhecidos de modelos de regressão a partir de dados amostrais. O método baseia-se na minimização da soma dos quadrados dos resíduos da regressão.

    Deve-se notar que o próprio método dos mínimos quadrados pode ser chamado de método para resolver um problema em qualquer área, se a solução consiste ou satisfaz um determinado critério para minimizar a soma dos quadrados de algumas funções das variáveis ​​desconhecidas. Portanto, o método dos mínimos quadrados também pode ser usado para uma representação aproximada (aproximação) determinada função outras funções (mais simples), ao encontrar um conjunto de quantidades que satisfaçam equações ou restrições, cujo número excede o número dessas quantidades, etc.

    A essência da MN

    Deixe algum modelo (paramétrico) de dependência probabilística (regressão) entre a variável (explicada) y e muitos fatores (variáveis ​​explicativas) x

    onde é o vetor de parâmetros de modelo desconhecidos

    - Erro de modelo aleatório.

    Que haja também observações amostrais dos valores das variáveis ​​indicadas. Let Ser o número de observação (). Então estão os valores das variáveis ​​na -th observação. Então, para determinados valores dos parâmetros b, é possível calcular os valores teóricos (modelo) da variável explicada y:

    O valor dos resíduos depende dos valores dos parâmetros b.

    A essência do LSM (comum, clássico) é encontrar tais parâmetros b para os quais a soma dos quadrados dos resíduos (eng. Soma Residual de Quadrados) será mínimo:

    No caso geral, este problema pode ser resolvido por métodos numéricos de otimização (minimização). Neste caso, fala-se de mínimos quadrados não lineares(NLS ou NLLS - inglês. Mínimos Quadrados Não Lineares). Em muitos casos, uma solução analítica pode ser obtida. Para resolver o problema de minimização, é necessário encontrar os pontos estacionários da função diferenciando-a em relação aos parâmetros desconhecidos b, igualando as derivadas a zero e resolvendo o sistema de equações resultante:

    Se os erros aleatórios do modelo são normalmente distribuídos, têm a mesma variância e não estão correlacionados entre si, as estimativas dos parâmetros de mínimos quadrados são as mesmas que as estimativas do método de máxima verossimilhança (MLM).

    LSM no caso de um modelo linear

    Seja a dependência da regressão linear:

    Deixar y- vetor coluna de observações da variável explicada, e - matriz de observações de fatores (linhas da matriz - vetores de valores de fatores em uma determinada observação, por colunas - vetor de valores de um determinado fator em todas as observações) . A representação matricial do modelo linear tem a forma:

    Então o vetor de estimativas da variável explicada e o vetor de resíduos de regressão serão iguais a

    consequentemente, a soma dos quadrados dos resíduos da regressão será igual a

    Diferenciando esta função em relação ao vetor de parâmetros e igualando as derivadas a zero, obtemos um sistema de equações (em forma de matriz):

    .

    A solução deste sistema de equações dá a fórmula geral para as estimativas de mínimos quadrados para o modelo linear:

    Para fins analíticos, a última representação dessa fórmula acaba sendo útil. Se os dados no modelo de regressão centrado, então nesta representação a primeira matriz tem o significado da matriz de covariâncias amostral de fatores, e a segunda é o vetor de covariâncias de fatores com variável dependente. Se, além disso, os dados também forem normalizado no SKO (ou seja, em última análise, padronizado), então a primeira matriz tem o significado da matriz de correlação amostral de fatores, o segundo vetor - o vetor de correlações amostrais de fatores com a variável dependente.

    Uma propriedade importante das estimativas LLS para modelos com uma constante- a linha da regressão construída passa pelo centro de gravidade dos dados da amostra, ou seja, a igualdade é cumprida:

    Em particular, no caso extremo, quando o único regressor é uma constante, verificamos que a estimativa OLS de um único parâmetro (a própria constante) é igual ao valor médio da variável explicada. Ou seja, a média aritmética, conhecida por suas boas propriedades das leis dos grandes números, também é uma estimativa de mínimos quadrados - ela satisfaz o critério da soma mínima dos desvios quadrados dela.

    Exemplo: regressão simples (em pares)

    No caso de regressão linear pareada, as fórmulas de cálculo são simplificadas (você pode prescindir da álgebra matricial):

    Propriedades das estimativas OLS

    Em primeiro lugar, notamos que para modelos lineares, as estimativas de mínimos quadrados são estimativas lineares, como segue a fórmula acima. Para estimativas OLS imparciais, é necessário e suficiente cumprir a condição mais importante da análise de regressão: a expectativa matemática de um erro aleatório condicional aos fatores deve ser igual a zero. Esta condição é satisfeita, em particular, se

    1. a expectativa matemática de erros aleatórios é zero, e
    2. fatores e erros aleatórios são variáveis ​​aleatórias independentes.

    A segunda condição - a condição dos fatores exógenos - é fundamental. Se essa propriedade não for satisfeita, podemos supor que quase todas as estimativas serão extremamente insatisfatórias: elas nem serão consistentes (ou seja, mesmo uma quantidade muito grande de dados não permite obter estimativas qualitativas nesse caso). No caso clássico, é feita uma suposição mais forte sobre o determinismo dos fatores, em contraste com um erro aleatório, que automaticamente significa que a condição exógena é satisfeita. No caso geral, para a consistência das estimativas, basta preencher a condição de exogeneidade juntamente com a convergência da matriz para alguma matriz não singular com aumento do tamanho da amostra ao infinito.

    Para que, além de consistência e imparcialidade, as estimativas dos mínimos quadrados (usuais) também sejam eficazes (as melhores na classe de estimativas lineares não tendenciosas), é necessário preencher propriedades adicionais de um erro aleatório:

    Essas suposições podem ser formuladas para a matriz de covariância do vetor de erro aleatório

    Um modelo linear que satisfaça essas condições é chamado clássico. As estimativas OLS para a regressão linear clássica são estimativas imparciais, consistentes e mais eficientes na classe de todas as estimativas lineares imparciais (na literatura inglesa, a abreviatura às vezes é usada azul (Melhor estimador linear não baseado) é a melhor estimativa linear imparcial; na literatura nacional, o teorema de Gauss-Markov é mais frequentemente citado). Como é fácil mostrar, a matriz de covariância do vetor de estimativas de coeficientes será igual a:

    Mínimos quadrados generalizados

    O método dos mínimos quadrados permite uma ampla generalização. Em vez de minimizar a soma dos quadrados dos resíduos, pode-se minimizar alguma forma quadrática definida positiva do vetor residual , onde é uma matriz de peso definida positiva simétrica. Mínimos quadrados ordinários é um caso especial dessa abordagem, quando a matriz de pesos é proporcional à matriz identidade. Como se sabe da teoria das matrizes simétricas (ou operadores), existe uma decomposição para tais matrizes. Portanto, o funcional especificado pode ser representado da seguinte forma, ou seja, este funcional pode ser representado como a soma dos quadrados de alguns "resíduos" transformados. Assim, podemos distinguir uma classe de métodos de mínimos quadrados - métodos LS (Least Squares).

    Está provado (teorema de Aitken) que para um modelo de regressão linear generalizado (no qual não são impostas restrições à matriz de covariância de erros aleatórios), os mais eficazes (na classe de estimativas lineares não enviesadas) são as estimativas das chamadas. OLS generalizado (OMNK, GLS - Mínimos Quadrados Generalizados)- Método LS com uma matriz de pesos igual à matriz de covariância inversa de erros aleatórios: .

    Pode ser mostrado que a fórmula para as estimativas GLS dos parâmetros do modelo linear tem a forma

    A matriz de covariância dessas estimativas, respectivamente, será igual a

    De fato, a essência do OLS está em uma certa transformação (linear) (P) dos dados originais e na aplicação dos mínimos quadrados usuais aos dados transformados. O objetivo dessa transformação é que, para os dados transformados, os erros aleatórios já satisfaçam as suposições clássicas.

    Mínimos quadrados ponderados

    No caso de uma matriz de peso diagonal (e, portanto, a matriz de covariância de erros aleatórios), temos os chamados mínimos quadrados ponderados (WLS - Weighted Least Squares). Nesse caso, a soma dos quadrados ponderada dos resíduos do modelo é minimizada, ou seja, cada observação recebe um "peso" que é inversamente proporcional à variância do erro aleatório nesta observação: . De fato, os dados são transformados ponderando as observações (dividindo por um valor proporcional ao desvio padrão assumido dos erros aleatórios), e os mínimos quadrados normais são aplicados aos dados ponderados.

    Alguns casos especiais de aplicação do LSM na prática

    Aproximação linear

    Considere o caso em que, como resultado do estudo da dependência de uma certa quantidade escalar em uma certa quantidade escalar (isso pode ser, por exemplo, a dependência da tensão na intensidade da corrente: , onde é um valor constante, a resistência do condutor ), essas quantidades foram medidas, como resultado da banda os valores e seus valores correspondentes. Os dados de medição devem ser registrados em uma tabela.

    Mesa. Resultados de medição.

    Nº de medição
    1
    2
    3
    4
    5
    6

    A questão soa assim: qual valor do coeficiente pode ser escolhido para melhor descrever a dependência? De acordo com os mínimos quadrados, esse valor deve ser tal que a soma dos desvios quadrados dos valores dos valores

    foi mínimo

    A soma dos desvios quadrados tem um extremo - um mínimo, o que nos permite usar esta fórmula. Vamos encontrar o valor do coeficiente desta fórmula. Para fazer isso, transformamos seu lado esquerdo da seguinte forma:

    A última fórmula permite encontrar o valor do coeficiente , que foi requerido no problema.

    História

    Até o início do século XIX. os cientistas não tinham certas regras para resolver um sistema de equações em que o número de incógnitas é menor que o número de equações; Até então, métodos particulares eram usados, dependendo do tipo de equações e da engenhosidade das calculadoras, e, portanto, diferentes calculadoras, partindo dos mesmos dados observacionais, chegavam a conclusões diferentes. Gauss (1795) é creditado com a primeira aplicação do método, e Legendre (1805) independentemente descobriu e publicou sob seu nome moderno (fr. Methode des moindres quarres ). Laplace relacionou o método com a teoria da probabilidade, e o matemático americano Adrain (1808) considerou suas aplicações probabilísticas. O método é difundido e melhorado por mais pesquisas de Encke, Bessel, Hansen e outros.

    Uso alternativo de multinacionais

    A ideia do método dos mínimos quadrados também pode ser usada em outros casos não diretamente relacionados a análise de regressão. O fato é que a soma dos quadrados é uma das medidas de proximidade mais comuns para vetores (a métrica euclidiana em espaços de dimensão finita).

    Uma aplicação é "resolver" sistemas de equações lineares em que o número de equações mais número variáveis

    onde a matriz não é quadrada, mas retangular.

    Tal sistema de equações, no caso geral, não tem solução (se o posto for realmente maior que o número de variáveis). Portanto, este sistema pode ser "resolvido" apenas no sentido de escolher tal vetor para minimizar a "distância" entre os vetores e . Para fazer isso, você pode aplicar o critério para minimizar a soma das diferenças quadradas das partes esquerda e direita das equações do sistema, ou seja, . É fácil mostrar que a solução deste problema de minimização leva à solução do seguinte sistema de equações