Regressão linear simples.  Noções básicas de regressão linear

Regressão linear simples. Noções básicas de regressão linear

Os conceitos de correlação e regressão estão diretamente relacionados. Existem muitas técnicas computacionais comuns em análise de correlação e regressão. Eles são usados ​​para identificar relações de causa e efeito entre fenômenos e processos. No entanto, se análise de correlação nos permite estimar a força e a direção da conexão estocástica, então análise de regressão- também uma forma de vício.

A regressão pode ser:

a) dependendo do número de fenômenos (variáveis):

Simples (regressão entre duas variáveis);

Múltipla (regressão entre a variável dependente (y) e diversas variáveis ​​explicativas (x1, x2...xn);

b) dependendo da forma:

Linear (exibido por uma função linear, e existem relações lineares entre as variáveis ​​​​em estudo);

Não linear (exibido por uma função não linear; a relação entre as variáveis ​​em estudo é não linear);

c) pela natureza da relação entre as variáveis ​​incluídas na contraprestação:

Positivo (um aumento no valor da variável explicativa leva a um aumento no valor da variável dependente e vice-versa);

Negativo (à medida que o valor da variável explicativa aumenta, o valor da variável explicada diminui);

d) por tipo:

Direto (neste caso, a causa tem impacto direto no efeito, ou seja, as variáveis ​​dependentes e explicativas estão diretamente relacionadas entre si);

Indireto (a variável explicativa tem efeito indireto por meio de uma terceira ou de uma série de outras variáveis ​​​​sobre a variável dependente);

Falso (regressão sem sentido) - pode surgir com uma abordagem superficial e formal dos processos e fenômenos em estudo. Um exemplo de absurdo é uma regressão que estabelece uma ligação entre a diminuição da quantidade de álcool consumido em nosso país e a diminuição da venda de sabão em pó.

Ao conduzir análise de regressão As seguintes tarefas principais são resolvidas:

1. Determinação da forma de dependência.

2. Definição da função de regressão. Para isso, utiliza-se uma equação matemática de um tipo ou de outro, que permite, em primeiro lugar, estabelecer tendência geral mudanças na variável dependente e, em segundo lugar, calcular o efeito da variável explicativa (ou diversas variáveis) na variável dependente.

3. Estimativa de valores desconhecidos da variável dependente. A relação matemática resultante (equação de regressão) permite determinar o valor da variável dependente tanto dentro do intervalo de valores especificados das variáveis ​​​​explicativas quanto além dele. Neste último caso, a análise de regressão funciona como uma ferramenta útil na previsão de mudanças nos processos e fenómenos socioeconómicos (desde que as tendências e relações existentes sejam mantidas). Normalmente, a duração do período para o qual a previsão é realizada é selecionada para não ser superior a metade do intervalo de tempo durante o qual as observações dos indicadores iniciais foram realizadas. É possível realizar tanto uma previsão passiva, resolvendo o problema de extrapolação, quanto uma previsão ativa, raciocinando segundo o conhecido esquema “se..., então” e substituindo vários valores em uma ou mais variáveis ​​explicativas de regressão .



Para construção de regressão um método especial chamado método mínimos quadrados . Este método tem vantagens sobre outros métodos de suavização: uma determinação matemática relativamente simples dos parâmetros necessários e uma boa justificativa teórica do ponto de vista probabilístico.

Na escolha de um modelo de regressão, um dos requisitos essenciais para o mesmo é garantir a maior simplicidade possível, permitindo obter uma solução com suficiente precisão. Portanto, para estabelecer relações estatísticas, primeiro, via de regra, consideramos um modelo da classe de funções lineares (como a mais simples de todas as classes de funções possíveis):

onde bi, b2...bj são coeficientes que determinam a influência das variáveis ​​independentes xij no valor yi; ai – membro gratuito; ei - desvio aleatório, que reflete a influência de fatores não contabilizados na variável dependente; n - número de variáveis ​​independentes; N é o número de observações e a condição (N . n+1) deve ser atendida.

Modelo linear pode descrever uma classe muito ampla de problemas diferentes. Contudo, na prática, em particular nos sistemas socioeconómicos, é por vezes difícil utilizar modelos lineares devido a grandes erros de aproximação. Portanto, funções de regressão múltipla não linear que podem ser linearizadas são frequentemente utilizadas. Estes incluem, por exemplo, a função de produção ( Função liga-desliga Cobb-Douglas), que encontrou aplicação em vários estudos socioeconômicos. Parece:

onde b 0 é o fator de normalização, b 1 ...b j são coeficientes desconhecidos, e i é um desvio aleatório.

Usando logaritmos naturais, você pode transformar esta equação em forma linear:

O modelo resultante permite o uso de procedimentos padrão regressão linear, descrito acima. Ao construir modelos de dois tipos (aditivo e multiplicativo), você pode selecionar o melhor e realizar pesquisas adicionais com erros de aproximação menores.

Existe um sistema bem desenvolvido para selecionar funções de aproximação - método de contabilização de argumentos em grupo(MGUA).

A correção do modelo selecionado pode ser avaliada pelos resultados do estudo dos resíduos, que são as diferenças entre os valores observados y i e os valores correspondentes y i previstos usando a equação de regressão. Nesse caso para verificar a adequação do modelo calculado erro médio de aproximação:

O modelo é considerado adequado se e não ultrapassar 15%.

Enfatizamos especialmente que em relação aos sistemas socioeconómicos, as condições básicas para a adequação do modelo de regressão clássico nem sempre são cumpridas.

Sem nos determos em todas as razões da inadequação que surge, apenas nomearemos multicolinearidade- o problema mais difícil aplicação eficaz procedimentos de análise de regressão ao estudar dependências estatísticas. Sob multicolinearidade entende-se que existe uma relação linear entre as variáveis ​​explicativas.

Este fenômeno:

a) distorce o significado dos coeficientes de regressão ao interpretá-los de forma significativa;

b) reduz a precisão da avaliação (aumenta a dispersão das avaliações);

c) aumenta a sensibilidade das estimativas dos coeficientes aos dados amostrais (aumentar o tamanho da amostra pode afetar significativamente as estimativas).

Existem várias técnicas para reduzir a multicolinearidade. Maioria maneira acessível- eliminação de uma das duas variáveis ​​se o coeficiente de correlação entre elas ultrapassar um valor igual em valor absoluto a 0,8. Qual das variáveis ​​manter é decidida com base em considerações substantivas. Em seguida, os coeficientes de regressão são calculados novamente.

O uso de um algoritmo de regressão passo a passo permite incluir sequencialmente uma variável independente no modelo e analisar a significância dos coeficientes de regressão e da multicolinearidade das variáveis. Por fim, permanecem na relação em estudo apenas aquelas variáveis ​​que fornecem a significância necessária dos coeficientes de regressão e influência mínima da multicolinearidade.

Características das dependências causais

Relações de causa e efeito- esta é uma ligação entre fenômenos e processos, quando uma mudança em um deles - a causa - leva a uma mudança no outro - o efeito.

Os sinais de acordo com sua importância para o estudo do relacionamento são divididos em duas classes.

Sinais que causam alterações em outros sinais associados são chamados fatorial (ou fatores).

Os sinais que mudam sob a influência dos sinais dos fatores são eficaz.

Distinguir seguintes formulários conexões: funcionais e estocásticas. Funcionalé uma relação em que um determinado valor de uma característica fatorial corresponde a um e apenas um valor da característica resultante. A ligação funcional manifesta-se em todos os casos de observação e para cada unidade específica da população em estudo.

A relação funcional pode ser representada pela seguinte equação:
y eu =f(x eu), onde: sim eu - sinal resultante; f(x eu) - uma função conhecida da relação entre as características resultantes e fatoriais; XI - sinal do fator.
Na natureza real não existem conexões funcionais. São apenas abstrações, úteis na análise de fenômenos, mas que simplificam a realidade.

Estocástico (estatístico ou aleatório)conexão representa uma relação entre quantidades em que uma delas reage a uma mudança em outra quantidade ou outras quantidades alterando a lei de distribuição. Em outras palavras, com esta conexão Significados diferentes uma variável corresponde a diferentes distribuições de outra variável. Isto se deve ao fato de que a variável dependente, além das independentes em consideração, é influenciada por uma série de fatores aleatórios não contabilizados ou não controlados, bem como por alguns erros inevitáveis ​​​​na medição das variáveis. Devido ao fato de os valores da variável dependente estarem sujeitos a dispersão aleatória, eles não podem ser previstos com precisão suficiente, mas só podem ser indicados com uma certa probabilidade.

Devido à ambiguidade da dependência estocástica entre Y e X, em particular, o esquema de dependência calculado em média sobre x é de interesse, ou seja, um padrão na mudança no valor médio - a expectativa matemática condicional Mx(Y) (a expectativa matemática de uma variável aleatória Y, encontrada desde que a variável X assuma o valor x) dependendo de x.

Um caso especial de comunicação estocástica é a comunicação de correlação. Correlação(de lat. correlação- correlação, relacionamento). Definição direta do termo correlação - estocástico, provável, possível conexão entre dois (par) ou vários (múltiplos) variáveis ​​aleatórias.

Uma dependência de correlação entre duas variáveis ​​​​também é chamada de relação estatística entre essas variáveis, em que cada valor de uma variável corresponde a um determinado valor médio, ou seja, a expectativa matemática condicional é diferente. A dependência de correlação é um caso especial de dependência estocástica, em que uma mudança nos valores das características dos fatores (x 1 x 2..., x n) acarreta uma mudança no valor médio da característica resultante.



É habitual distinguir os seguintes tipos de correlação:

1. Correlação de pares – conexão entre duas características (resultativa e fator ou dois fatores).

2. Correlação parcial - a dependência entre a resultante e as características de um fator com um valor fixo das demais características dos fatores incluídos no estudo.

3. Correlação múltipla - dependência da resultante e de duas ou mais características fatoriais incluídas no estudo.

Objetivo da análise de regressão

A forma analítica de representar as relações de causa e efeito são os modelos de regressão. A validade científica e a popularidade da análise de regressão fazem dela uma das principais ferramentas matemáticas para modelar o fenômeno em estudo. Este método é utilizado para suavizar dados experimentais e obter estimativas quantitativas da influência comparativa de vários fatores na variável resultante.

A análise de regressão é na definição de uma expressão analítica de um relacionamento em que uma mudança em um valor (variável dependente ou característica resultante) se deve à influência de um ou mais valores independentes (fatores ou preditores), e ao conjunto de todos os outros fatores que também influenciam o valor dependente são considerados valores constantes e médios.

Objetivos da análise de regressão:

Avaliação da dependência funcional do valor médio condicional da característica resultante y dos fatores fatoriais (x 1, x 2, ..., x n);

Prever o valor de uma variável dependente usando a(s) variável(is) independente(s).

Determinação da contribuição das variáveis ​​independentes individuais para a variação da variável dependente.

A análise de regressão não pode ser utilizada para determinar se existe relação entre as variáveis, uma vez que a presença de tal relação é um pré-requisito para a aplicação da análise.

Na análise de regressão, assume-se antecipadamente que existem relações de causa e efeito entre a resultante (U) e as características do fator x 1, x 2..., x n.

Função , operação A dependência determinante do indicador nos parâmetros é chamada de equação de regressão (função) 1. A equação de regressão mostra o valor esperado da variável dependente dados determinados valores das variáveis ​​independentes.
Dependendo do número de fatores incluídos no modelo X os modelos são divididos em monofatorial (modelo de regressão de pares) e multifatorial (modelo de regressão múltipla). Dependendo do tipo de função, os modelos são divididos em lineares e não lineares.

Modelo de regressão pareado

Devido à influência de fatores e causas aleatórias não contabilizadas, as observações individuais y se desviarão em maior ou menor grau da função de regressão f(x). Neste caso, a equação para a relação entre duas variáveis ​​(modelo de regressão pareada) pode ser apresentada como:

Y=f(X) + ɛ,

onde ɛ é uma variável aleatória que caracteriza o desvio da função de regressão. Essa variável é chamada de perturbação ou perturbação (residual ou erro). Assim, no modelo de regressão a variável dependente S existe alguma função f(X) até perturbação aleatória ɛ.

Vamos considerar o modelo clássico de regressão linear pareada (CLMPR). Ela parece

y eu =β 0 +β 1 x eu +ɛ eu (eu=1,2, …, n),(1)

Onde sim, eu– explicada (variável resultante, dependente, endógena); XI– variável explicativa (preditora, fator, exógena); β0, β1– coeficientes numéricos; eu– componente aleatório (estocástico) ou erro.

Condições básicas (pré-requisitos, hipóteses) do KLMPR:

1) XI– uma quantidade determinística (não aleatória), e assume-se que entre os valores x i - nem todos são iguais.

2) Valor esperado(valor médio) perturbações eué igual a zero:

М[ɛ i ]=0 (i=1,2,…, n).

3) A dispersão da perturbação é constante para quaisquer valores de i (condição de homocedasticidade):

D[ɛ i ]=σ 2 (i=1,2, …, n).

4) As perturbações para diferentes observações não são correlacionadas:

cov[ɛ i , ɛ j ]=M[ɛ i , ɛ j ]=0 para i≠j,

onde cov[ɛ i , ɛ j ] é o coeficiente de covariância (momento de correlação).

5) Os distúrbios são variáveis ​​aleatórias normalmente distribuídas com média zero e variância σ 2:

ɛ eu ≈ N(0, σ 2).

Para obter uma equação de regressão, as primeiras quatro premissas são suficientes. A exigência de cumprimento do quinto pré-requisito é necessária para avaliar a precisão da equação de regressão e seus parâmetros.

Comente: O foco nas relações lineares é explicado pela variação limitada das variáveis ​​e pelo fato de que na maioria dos casos formas não lineares de relações são convertidas (por logaritmo ou substituição de variáveis) em uma forma linear para realizar cálculos.

Método tradicional de mínimos quadrados (OLS)

A estimativa do modelo da amostra é a equação

ŷ i = a 0 + a 1 x i(eu=1,2,…,n), (2)

onde ŷ i – valores teóricos (aproximados) da variável dependente obtidos a partir da equação de regressão; a 0 , a 1 - coeficientes (parâmetros) da equação de regressão (amostras de estimativas dos coeficientes β 0, β 1, respectivamente).

De acordo com os mínimos quadrados, os parâmetros desconhecidos a 0 , a 1 são escolhidos de modo que a soma dos desvios quadrados dos valores ŷ i dos valores empíricos y i (soma residual dos quadrados) seja mínima:

Q e =∑e eu 2 = ∑(y i – ŷ i) 2 = ∑(yi – (a 0 + a 1 x i)) 2 → min, (3)

onde e i = y i - ŷ i – estimativa amostral da perturbação ɛ i, ou resíduo de regressão.

O problema se resume a encontrar os valores dos parâmetros a 0 e a 1 nos quais a função Q e assume o menor valor. Observe que a função Q e = Q e (a 0 , a 1) é uma função de duas variáveis ​​a 0 e a 1 até encontrarmos e então fixarmos seus “melhores” valores (no sentido do método dos mínimos quadrados), a x i , y i são números constantes encontrados experimentalmente.

As condições necessárias os extremos (3) são encontrados igualando as derivadas parciais desta função de duas variáveis ​​a zero. Como resultado, obtemos um sistema de duas equações lineares, que é chamado de sistema de equações normais:

(4)

O coeficiente a 1 é um coeficiente de regressão amostral de y sobre x, que mostra quantas unidades em média a variável y muda quando a variável x muda em uma unidade de sua medida, ou seja, a variação em y por unidade de variação em x. Sinal um 1 indica a direção dessa mudança. Coeficiente a 0 - deslocamento, conforme (2) é igual ao valor de ŷ i em x = 0 e pode não ter uma interpretação significativa. Por esse motivo, a variável dependente às vezes é chamada de resposta.

Propriedades estatísticas das estimativas dos coeficientes de regressão:

O coeficiente estima a 0 e a 1 são imparciais;

As variâncias das estimativas a 0 , a 1 diminuem (a precisão das estimativas aumenta) com o aumento do tamanho da amostra n;

Variância de estimativa declive a 1 diminui com o aumento e portanto é aconselhável escolher x i para que seu spread em torno do valor médio seja grande;

Para x¯ > 0 (que é de maior interesse), existe uma relação estatística negativa entre 0 e 1 (um aumento em 1 leva a uma diminuição em 0).

CONCLUSÃO DOS RESULTADOS

Tabela 8.3a. Estatísticas de regressão
Estatísticas de regressão
Plural R 0,998364
R-quadrado 0,99673
R-quadrado normalizado 0,996321
Erro padrão 0,42405
Observações 10

Primeiro, vejamos a parte superior dos cálculos, apresentada na tabela 8.3a – estatísticas de regressão.

O valor R-quadrado, também chamado de medida de certeza, caracteriza a qualidade da linha de regressão resultante. Esta qualidade é expressa pelo grau de correspondência entre os dados iniciais e o modelo de regressão (dados calculados). A medida de certeza está sempre dentro do intervalo.

Na maioria dos casos, o valor de R ao quadrado fica entre esses valores, chamados de valores extremos, ou seja, entre zero e um.

Se o valor do R ao quadrado for próximo de um, significa que o modelo construído explica quase toda a variabilidade nas variáveis ​​relevantes. Por outro lado, um valor de R ao quadrado próximo de zero significa má qualidade modelo construído.

No nosso exemplo, a medida de certeza é 0,99673, o que indica um ajuste muito bom da linha de regressão aos dados originais.

Plural R- coeficiente de correlação múltipla R - expressa o grau de dependência das variáveis ​​independentes (X) e da variável dependente (Y).

Múltiplo R é igual a raiz quadrada do coeficiente de determinação, essa quantidade assume valores na faixa de zero a um.

Na análise de regressão linear simples, o R múltiplo é igual ao coeficiente de correlação de Pearson. Na verdade, o múltiplo R no nosso caso é igual ao coeficiente de correlação de Pearson do exemplo anterior (0,998364).

Tabela 8.3b. Coeficientes de regressão
Chances Erro padrão estatística t
Intersecção Y 2,694545455 0,33176878 8,121757129
Variável X 1 2,305454545 0,04668634 49,38177965
*É fornecida uma versão truncada dos cálculos

Consideremos agora a parte intermediária dos cálculos, apresentada na tabela 8.3b. Aqui são dados o coeficiente de regressão b (2,305454545) e o deslocamento ao longo do eixo das ordenadas, ou seja, constante a (2,694545455).

Com base nos cálculos, podemos escrever a equação de regressão da seguinte forma:

Y = x*2,305454545+2,694545455

A direção da relação entre as variáveis ​​​​é determinada com base nos sinais (negativos ou positivos) coeficientes de regressão(coeficiente b).

Se o sinal em Coeficiente de regressão- positivo, a relação entre a variável dependente e a variável independente será positiva. No nosso caso, o sinal do coeficiente de regressão é positivo, portanto a relação também é positiva.

Se o sinal em Coeficiente de regressão- negativo, a relação entre a variável dependente e a variável independente é negativa (inversa).

Na tabela 8.3c. Os resultados da derivação dos resíduos são apresentados. Para que esses resultados apareçam no relatório, é necessário ativar a caixa de seleção “Resíduos” ao executar a ferramenta “Regressão”.

RETIRADA DO RESTO

Tabela 8.3c. Sobras
Observação Y previsto Sobras Saldos padrão
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

Utilizando esta parte do relatório, podemos ver os desvios de cada ponto da linha de regressão construída. Maior valor absoluto

O método de análise de regressão é utilizado para determinar os parâmetros técnicos e econômicos de produtos pertencentes a uma série paramétrica específica, a fim de construir e alinhar relações de valor. Este método é utilizado para analisar e justificar as relações de nível e preço de produtos caracterizados pela presença de um ou mais parâmetros técnicos e económicos que refletem as principais propriedades de consumo. A análise de regressão permite encontrar uma fórmula empírica que descreve a dependência do preço dos parâmetros técnicos e econômicos dos produtos:

P=f(X1X2,...,Xn),

onde P é o valor do preço unitário do produto, esfregue; (X1, X2, ... Xn) - parâmetros técnicos e econômicos dos produtos.

O método de análise de regressão - o mais avançado dos métodos normativo-paramétricos utilizados - é eficaz na realização de cálculos baseados na utilização de modernos tecnologias de informação e sistemas. A sua aplicação inclui as seguintes etapas principais:

  • determinação de grupos paramétricos de classificação de produtos;
  • seleção dos parâmetros que mais influenciam o preço do produto;
  • seleção e justificativa da forma de ligação entre as variações de preços quando os parâmetros mudam;
  • construção de um sistema de equações normais e cálculo de coeficientes de regressão.

O principal grupo de qualificação de produtos, cujo preço está sujeito a equalização, é uma série paramétrica, dentro da qual os produtos podem ser agrupados em diferentes designs dependendo de sua aplicação, condições de operação e requisitos, etc. podem ser utilizados, que permitem distinguir grupos homogêneos da massa total de produtos. A seleção dos parâmetros técnicos e econômicos é feita com base nos seguintes requisitos básicos:

  • os parâmetros selecionados incluem parâmetros registrados em normas e especificações técnicas; além do mais Parâmetros técnicos(potência, capacidade de carga, velocidade, etc.) são utilizados indicadores de serialização do produto, coeficientes de complexidade, unificação, etc.;
  • o conjunto de parâmetros selecionados deve caracterizar de forma suficientemente completa o design, as propriedades tecnológicas e operacionais dos produtos incluídos na série e ter uma correlação bastante estreita com o preço;
  • os parâmetros não devem ser interdependentes.

Para selecionar parâmetros técnicos e econômicos que afetam significativamente o preço, é calculada uma matriz de coeficientes de correlação de pares. Com base na magnitude dos coeficientes de correlação entre os parâmetros, pode-se avaliar a proximidade de sua ligação. Ao mesmo tempo, uma correlação próxima de zero mostra uma influência insignificante do parâmetro no preço. A seleção final dos parâmetros técnicos e econômicos é realizada no processo de análise de regressão passo a passo utilizando tecnologia computacional e programas padrão apropriados.

Na prática de precificação, o seguinte conjunto de funções é usado:

linear

P = ao + alXl + ... + antXn,

potência linear

P = ao + a1X1 + ... + anXn + (an+1Xn) (an+1Xn) +... + (an+nXn2) (an+nXn2)

logaritmo inverso

P = a0 + a1: Em X1 + ... + an: Em Xn,

poder

P = a0 (X1^a1) (X2^a2) .. (Xn^an)

indicativo

P = e^(a1+a1X1+...+anXn)

hiperbólico

P = ao + a1:X1 + a2:X2 + ... + ap:Xn,

onde P é a equalização de preços; X1 X2,..., Xn - valor dos parâmetros técnicos e econômicos dos produtos da série; a0, a1..., an - coeficientes calculados da equação de regressão.

EM trabalho prático para a precificação, dependendo da forma de ligação entre os preços e os parâmetros técnicos e econômicos, outras equações de regressão podem ser utilizadas. O tipo de função de ligação entre o preço e um conjunto de parâmetros técnicos e económicos pode ser predefinido ou selecionado automaticamente durante o processamento informático. A proximidade da correlação entre o preço e o conjunto de parâmetros é avaliada pelo valor do coeficiente de correlação múltipla. Sua proximidade com um indica uma conexão estreita. Usando a equação de regressão, são obtidos valores de preços equalizados (calculados) para produtos de uma determinada série paramétrica. Para avaliar os resultados da equalização, são calculados os valores relativos do desvio dos valores de preços calculados dos reais:

Tsr = Rf - Rr: R x 100

onde Рф, Рр - preços reais e calculados.

O valor de CR não deve exceder 8-10%. Em caso de desvios significativos dos valores calculados em relação aos reais, é necessário investigar:

  • a correção da formação de uma série paramétrica, pois pode conter produtos que, em seus parâmetros, diferem acentuadamente dos demais produtos da série. Devem ser excluídos;
  • seleção correta de parâmetros técnicos e econômicos. É possível um conjunto de parâmetros fracamente correlacionados com o preço. Neste caso é necessário continuar pesquisando e selecionando parâmetros.

O procedimento e metodologia para conduzir análise de regressão, encontrar parâmetros desconhecidos da equação e avaliação económica os resultados obtidos são realizados de acordo com os requisitos da estatística matemática.

O principal objetivo da análise de regressão consiste em determinar a forma analítica de comunicação em que a mudança na característica efetiva se deve à influência de uma ou mais características fatoriais, e o conjunto de todos os demais fatores que também influenciam a característica efetiva são tomados como valores constantes e médios.
Problemas de análise de regressão:
a) Estabelecer a forma de dependência. Quanto à natureza e forma da relação entre os fenômenos, é feita uma distinção entre regressão linear positiva e não linear e regressão linear e não linear negativa.
b) Determinar a função de regressão na forma de uma equação matemática de um tipo ou de outro e estabelecer a influência das variáveis ​​​​explicativas na variável dependente.
c) Estimativa de valores desconhecidos da variável dependente. Usando a função de regressão, você pode reproduzir os valores da variável dependente dentro do intervalo de valores especificados das variáveis ​​​​explicativas (ou seja, resolver o problema de interpolação) ou avaliar o curso do processo fora do intervalo especificado (ou seja, resolver o problema de extrapolação). O resultado é uma estimativa do valor da variável dependente.

A regressão pareada é uma equação para a relação entre duas variáveis ​​y e x: , onde y é a variável dependente (atributo resultante); x é uma variável explicativa independente (fator de característica).

Existem regressões lineares e não lineares.
Regressão linear: y = a + bx + ε
As regressões não lineares são divididas em duas classes: regressões não lineares em relação às variáveis ​​explicativas incluídas na análise, mas lineares em relação aos parâmetros estimados, e regressões não lineares em relação aos parâmetros estimados.
Regressões não lineares em variáveis ​​explicativas:

Regressões não lineares em relação aos parâmetros estimados: A construção de uma equação de regressão se resume a estimar seus parâmetros. Para estimar os parâmetros das regressões lineares em parâmetros, utiliza-se o método dos mínimos quadrados (MQO). O método dos mínimos quadrados permite obter estimativas de parâmetros nas quais a soma dos desvios quadrados dos valores reais da característica resultante y dos teóricos é mínima, ou seja,
.
Para equações lineares e não lineares redutíveis a lineares, o seguinte sistema é resolvido para a e b:

Você pode usar fórmulas prontas que seguem este sistema:

A proximidade da conexão entre os fenômenos em estudo é avaliada pelo coeficiente linear de correlação de pares para regressão linear:

e índice de correlação - para regressão não linear:

A qualidade do modelo construído será avaliada pelo coeficiente (índice) de determinação, bem como pelo erro médio de aproximação.
Erro médio de aproximação - desvio médio dos valores calculados dos reais:
.
O limite permitido de valores não é superior a 8-10%.
O coeficiente de elasticidade médio mostra em que porcentagem, em média, o resultado total mudará em relação ao seu tamanho médio quando o fator x muda 1% em relação ao seu valor médio:
.

O objetivo da análise de variância é analisar a variância da variável dependente:
,
onde está a soma total dos desvios quadrados;
- a soma dos desvios quadrados devido à regressão (“explicado” ou “fatorial”);
- soma residual dos desvios quadrados.
A parcela da variância explicada pela regressão na variância total da característica resultante y é caracterizada pelo coeficiente (índice) de determinação R2:

O coeficiente de determinação é o quadrado do coeficiente ou índice de correlação.

O teste F – que avalia a qualidade da equação de regressão – consiste em testar a hipótese Não sobre a insignificância estatística da equação de regressão e o indicador de proximidade do relacionamento. Para fazer isso, é feita uma comparação entre o fato F real e os valores críticos (tabulares) da tabela F do critério F de Fisher. O fato F é determinado a partir da razão entre os valores das variâncias fatoriais e residuais calculadas por grau de liberdade:
,
onde n é o número de unidades populacionais; m é o número de parâmetros para variáveis ​​x.
A tabela F é o valor máximo possível do critério sob a influência de fatores aleatórios em determinados graus de liberdade e nível de significância a. O nível de significância a é a probabilidade de rejeitar a hipótese correta, desde que seja verdadeira. Normalmente a é considerado igual a 0,05 ou 0,01.
Se tabela F< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >F fato, então a hipótese H o não é rejeitada e a insignificância estatística e a falta de confiabilidade da equação de regressão são reconhecidas.
Para avaliar a significância estatística da regressão e dos coeficientes de correlação, são calculados o teste t de Student e os intervalos de confiança para cada indicador. É apresentada uma hipótese sobre a natureza aleatória dos indicadores, ou seja, sobre sua diferença insignificante de zero. A avaliação da significância dos coeficientes de regressão e correlação usando o teste t de Student é realizada comparando seus valores com a magnitude do erro aleatório:
; ; .
Erros aleatórios dos parâmetros de regressão linear e do coeficiente de correlação são determinados pelas fórmulas:



Comparando os valores reais e críticos (tabulares) das estatísticas t - tabela t e fato t - aceitamos ou rejeitamos a hipótese H o.
A relação entre o teste F de Fisher e a estatística t de Student é expressa pela igualdade

Se t mesa< t факт то H o отклоняется, т.е. a, b и не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t é fato que a hipótese H o não é rejeitada e o caráter aleatório da formação de a, b ou é reconhecido.
Para calcular o intervalo de confiança, determinamos o erro máximo D para cada indicador:
, .
As fórmulas para calcular intervalos de confiança são as seguintes:
; ;
; ;
Se zero estiver dentro do intervalo de confiança, ou seja, Se o limite inferior for negativo e o limite superior for positivo, então o parâmetro estimado é considerado zero, uma vez que não pode assumir simultaneamente valores positivos e negativos.
O valor previsto é determinado substituindo o valor correspondente (previsão) na equação de regressão. A média é calculada erro padrão previsão:
,
Onde
e está sendo construído intervalo de confiança previsão:
; ;
Onde .

Solução de exemplo

Tarefa nº 1. Para sete territórios da região dos Urais em 199X, são conhecidos os valores de duas características.
Tabela 1.
Obrigatório: 1. Para caracterizar a dependência de y em x, calcule os parâmetros das seguintes funções:
a) linear;
b) potência (deve-se primeiro realizar o procedimento de linearização das variáveis ​​tomando o logaritmo de ambas as partes);
c) demonstrativo;
d) uma hipérbole equilátera (você também precisa descobrir como pré-linearizar este modelo).
2. Avalie cada modelo utilizando o erro médio de aproximação e o teste F de Fisher.

Solução (opção nº 1)

Para calcular os parâmetros aeb da regressão linear (o cálculo pode ser feito com calculadora).
resolver um sistema de equações normais para A E b:
Com base nos dados iniciais, calculamos :
sim x sim x 2 e 2 Um eu
eu 68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Total 405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
Qua. significado (Total/n) 57,89 54,90 3166,05 3048,34 3383,68 X X 8,1
é 5,74 5,86 X X X X X X
s 2 32,92 34,34 X X X X X X


Equação de regressão: você = 76,88 - 0,35X. Com o aumento da média diária remunerações por 1 fricção. a participação das despesas com aquisição de produtos alimentares diminui em média 0,35 pontos percentuais.
Vamos calcular o coeficiente de correlação linear do par:

A conexão é moderada, inversa.
Vamos determinar o coeficiente de determinação:

A variação de 12,7% no resultado é explicada pela variação do fator x. Substituindo valores reais na equação de regressão X, vamos determinar os valores teóricos (calculados) . Vamos encontrar o valor do erro médio de aproximação:

Em média, os valores calculados divergem dos reais em 8,1%.
Vamos calcular o critério F:

desde 1< F < ¥ , deve ser considerado F -1 .
O valor resultante indica a necessidade de aceitar a hipótese Mas ah a natureza aleatória da dependência identificada e a insignificância estatística dos parâmetros da equação e do indicador de proximidade da ligação.
1b. A construção de um modelo de poder é precedida do procedimento de linearização das variáveis. No exemplo, a linearização é realizada tomando logaritmos de ambos os lados da equação:


OndeY=lg(y), X=lg(x), C=lg(a).

Para cálculos usamos os dados da tabela. 1.3.

Tabela 1.3

S X YX A2 X 2 Um eu
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Total 12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Valor médio 1,7605 1,7370 3,0572 3,1011 3,0194 X X 28,27 8,0
σ 0,0425 0,0484 X X X X X X X
σ2 0,0018 0,0023 X X X X X X X

Vamos calcular C e b:


Nós temos equação linear:.
Tendo realizado sua potencialização, obtemos:

Substituindo valores reais nesta equação X, obtemos valores teóricos do resultado. Utilizando-os, calcularemos os indicadores: estanqueidade da conexão - índice de correlação e erro médio de aproximação

As características do modelo power-law indicam que ele descreve a relação um pouco melhor do que a função linear.

1c. Construindo a equação de uma curva exponencial

precedido por um procedimento de linearização de variáveis ​​tomando logaritmos de ambos os lados da equação:

Para cálculos usamos os dados da tabela.

S x Yx A2 x 2 Um eu
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Total 12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
Qua. zn. 1,7605 54,9 96,5711 3,1011 3048,34 X X 28,68 8,0
σ 0,0425 5,86 X X X X X X X
σ2 0,0018 34,339 X X X X X X X

Valores dos parâmetros de regressão A e EM totalizando:


A equação linear resultante é: . Vamos potencializar a equação resultante e escrevê-la na forma usual:

Avaliaremos a proximidade da conexão através do índice de correlação: