Equação de regressão.  Fundamentos da Regressão Linear

Equação de regressão. Fundamentos da Regressão Linear

Conforme mencionado acima, no caso de uma relação linear, a equação de regressão é uma equação de linha reta.

Distinguir

Y = um u/x + b u/x x

X = um x/y + b x/y Y

Aqui uma e b- coeficientes, ou parâmetros, que são determinados por fórmulas. Valor do coeficiente b calculado

Pode ser visto nas fórmulas que os coeficientes de regressão b u/x e b x/y têm o mesmo sinal do coeficiente de correlação, a dimensão é igual à razão das dimensões dos indicadores estudados x e No, e estão relacionados pela relação:

Para calcular o coeficiente uma basta substituir os valores médios das variáveis ​​correlacionadas nas equações de regressão



O gráfico das linhas de regressão teóricas (Fig. 17) se parece com:

Fig. 17. Linhas de regressão teóricas

Pelas fórmulas acima, é fácil provar que fatores de inclinação regressões diretas são iguais respectivamente


Porque
, então
. Isso significa que a regressão direta Y no x tem uma inclinação menor para o eixo x do que a linha de regressão x no Y.

O mais perto à unidade, menor o ângulo entre as linhas de regressão. Essas linhas se fundem apenas quando
.

No
regressões diretas são descritas pelas equações
,
.

Assim, as equações de regressão permitem:

    determinar o quanto um valor muda em relação a outro;

    prever resultados.

2. Metodologia para realização de assentamento e trabalho gráfico nº 2

Liquidação e trabalho gráfico contém 4 seções.

Na primeira seção:

    O tema é formulado;

    O objetivo do trabalho é formulado.

Na segunda seção:

    A condição do problema é formulada;

    A tabela de dados da amostra inicial é preenchida.

Na terceira seção:

    Os resultados da medição são apresentados como uma série de variação;

    Uma representação gráfica da série de variação é dada.

    A conclusão é formulada.

Na quarta seção:

    As principais características estatísticas de várias medições são calculadas;

    Com base nos resultados dos cálculos, uma conclusão é formulada.

Formulário de trabalho:

    O trabalho é feito em caderno separado ou em folhas de formato.

    A página de título é preenchida de acordo com a amostra.

Universidade Estatal Russa

cultura física, esportes, juventude e turismo

Departamento de Ciências Naturais

Análises de correlação e regressão

Liquidação e obra gráfica nº 2

Na matemática

Concluído: aluno 1 K. 1 suor. 1gr.

Ivanov S.M.

Professora:

Associado Departamento de UND e TI

Moscou - 2012

(Exemplo de design da página de título)

Um exemplo de execução de liquidação e trabalho gráfico nº 2.

Tema de trabalho: Análises de correlação e regressão.

Objetivo: Determine a relação entre os indicadores das duas amostras.

Progresso de trabalho:

    Crie duas amostras do seu esporte com o mesmo tamanho n.

    Desenhe um campo de correlação, tire uma conclusão preliminar.

    Determine a confiabilidade do coeficiente de correlação e tire uma conclusão final.

    Construa linhas de regressão teóricas no campo de correlação e mostre o ponto de sua interseção.

1. Condição do problema: Um grupo de atletas determinou os resultados nos 100 m com barreiras x eu(c) e salto em distância Y eu(m) (tabela). Verifique se existe uma correlação entre as características estudadas e determine a confiabilidade do coeficiente de correlação.

Tabela de dados de amostra inicial: Os resultados são apresentados na tabela de dados iniciais.

Tabela 6

Resultados de corrida e salto

p/n

x eu, Com

Y eu , m

p/n

x eu, Com

Y eu, m

Solução:

2 . Construímos um campo de correlação (scatterplot) e tiramos uma conclusão preliminar sobre a relação entre as feições estudadas.

Fig. 18. Campo de correlação

Conclusão preliminar:

Relação entre indicadores de desempenho nos 100m com barreiras x eu(c) e salto em distância Y eu(cm):

    linear;

    negativo;

3 . Calculemos o coeficiente de correlação linear pareado de Bravais-Pearson, calculando previamente os principais indicadores estatísticos das duas amostras. Para calculá-los, compilaremos uma tabela na qual a penúltima e a última coluna são necessárias para calcular os desvios padrão, caso sejam desconhecidos. Para o nosso exemplo, esses valores foram calculados no primeiro cálculo e trabalho gráfico, mas para maior clareza, mostraremos o cálculo adicionalmente.

Tabela 7

Tabela auxiliar para cálculo do coeficiente

Correlações de Bravais-Pearson

x eu , Com

Y eu, cm

13,59

x =
,

y =
,

.

O valor obtido do coeficiente de correlação permite confirmar a conclusão preliminar e fazer a conclusão final - a relação entre as características estudadas:

    linear;

    negativo;

4 . Vamos determinar a confiabilidade do coeficiente de correlação.

Suponha que não haja relação entre o resultado na corrida de 100m e no salto em distância ( H cerca de : r= 0).

Conclusão: há um forte, negativo estatisticamente significativo ( R\u003d 0,95) a relação entre 100 m com barreiras e salto em distância. Isso significa que, com a melhora do resultado no salto em distância, o tempo para percorrer uma distância de 100 m diminui.

5 . Vamos calcular o coeficiente de determinação:

Consequentemente, apenas 96% da relação entre os resultados nos 100m com barreiras e no salto em distância é explicada por sua influência mútua, e o restante, ou seja, 4%, é explicado pela influência de outros fatores não contabilizados.

6. Calculamos os coeficientes das equações de regressão direta e inversa usando as fórmulas, substituímos os valores dos coeficientes calculados na fórmula correspondente e anotamos as equações de regressão direta e inversa:

Y= um 1 + b 1 x- equação de regressão direta;

X = um 2 + b 2 Y - equação inversa regressão.

Vamos usar os resultados do cálculo fornecidos acima:

x =
; y =
;
;
13,59;
6,4,

Calcule o coeficiente b 1 usando a fórmula:

Para calcular o coeficiente uma 1 b 1 x e Y

uma 1 e b 1

Y = 22 - 1,15x

Calcule o coeficiente b 2 usando a fórmula:

Para calcular o coeficiente uma 2 substituir na equação de regressão direta em vez de b 2 valor calculado e, em vez de x e Y valores médios aritméticos de duas amostras da tabela:

Substituímos os valores obtidos dos coeficientes uma 1 e b 1 em uma equação de regressão direta e escreva a equação de uma reta:

X = 18,92 - 0,83Y

Assim, obtivemos as equações de regressão direta e inversa:

Y = 22 - 1,15x- equação de regressão direta;

X = 18,92 - 0,83Yé a equação de regressão inversa.

Para verificar a exatidão dos cálculos, basta substituir o valor médio na equação direta e determine o valor Y. valor recebido Y deve ser próximo ou igual à média .

Y = 22 - 1,15 = 22 - 1,15 13,59 = 6,4 =.

Ao substituir na equação de regressão inversa da média , valor recebido x deve ser próximo ou igual à média .

X = 18,92 - 0,83= 18,92 - 0,83 6,4 = 13,6 = .

7. Vamos construir linhas de regressão no campo de correlação.

Para plotagem gráfica de linhas de regressão teórica, bem como para plotagem de qualquer linha reta, é necessário ter dois pontos da faixa de valores x e Y.

Além disso, na equação de regressão direta, a variável independente x, e dependente Y, e no caso oposto, a variável independente Y, e dependente X.

Y = 22 - 1,15x

x

Y

X = 18,92 - 0,83Y

Y

x

As coordenadas do ponto de interseção das linhas das equações de regressão direta e inversa são os valores da média aritmética de duas amostras (levando em consideração erros de arredondamento em cálculos aproximados).

Conclusão: sabendo o resultado da corrida de obstáculos a uma distância de 100 m, equação direta regressão, é possível determinar teoricamente o resultado do salto em distância; e vice-versa, conhecendo o resultado do salto em distância pela equação de regressão inversa, é possível determinar o resultado da corrida com obstáculos.

Nas notas anteriores, a análise geralmente se concentrou em uma única variável numérica, como retornos de fundos mútuos, tempo de carregamento da página da Web ou consumo. Refrigerantes. Nesta e nas notas seguintes, consideraremos métodos para prever os valores de uma variável numérica, dependendo dos valores de uma ou mais outras variáveis ​​numéricas.

O material será ilustrado com um exemplo completo. Previsão de volume de vendas em uma loja de roupas. A rede de lojas de roupas com desconto Sunflowers está em constante expansão há 25 anos. No entanto, a empresa não possui atualmente uma abordagem sistemática para selecionar novos pontos de venda. O local onde a empresa pretende abrir uma nova loja é determinado com base em considerações subjetivas. Os critérios de seleção são termos lucrativos aluguel ou a ideia do gerente de um local de loja ideal. Imagine que você é o chefe do Departamento de Projetos Especiais e Planejamento. Você foi designado para desenvolver plano estratégico abertura de novas lojas. Este plano deve conter uma previsão de vendas anuais nas lojas recém-inauguradas. Você acredita que a venda de espaço está diretamente relacionada à receita e deseja levar esse fato em consideração em seu processo de tomada de decisão. Como você desenvolve um modelo estatístico que prevê as vendas anuais com base no tamanho da nova loja?

Normalmente, a análise de regressão é usada para prever os valores de uma variável. Seu objetivo é desenvolver um modelo estatístico que preveja os valores da variável dependente, ou resposta, a partir dos valores de pelo menos uma variável independente, ou explicativa. Nesta nota, vamos considerar uma regressão linear simples - um método estatístico que permite prever os valores da variável dependente Y pelos valores da variável independente x. As notas a seguir irão descrever um modelo de regressão múltipla projetado para prever os valores da variável independente Y pelos valores de várias variáveis ​​dependentes ( X 1 , X 2 , …, X k).

Baixar nota em formato ou, exemplos em formato

Tipos de modelos de regressão

Onde ρ 1 é o coeficiente de autocorrelação; E se ρ 1 = 0 (sem autocorrelação), D≈ 2; E se ρ 1 ≈ 1 (autocorrelação positiva), D≈ 0; E se ρ 1 = -1 (autocorrelação negativa), D ≈ 4.

Na prática, a aplicação do critério de Durbin-Watson baseia-se na comparação do valor D com valores teóricos críticos dL e d você para um determinado número de observações n, o número de variáveis ​​independentes do modelo k(para regressão linear simples k= 1) e nível de significância α. Se um D< d L , a hipótese de independência dos desvios aleatórios é rejeitada (portanto, há uma autocorrelação positiva); E se D > d U, a hipótese não é rejeitada (ou seja, não há autocorrelação); E se d L< D < d U não há razão suficiente para tomar uma decisão. Quando o valor calculado D excede 2, então dL e d você não é o coeficiente em si que está sendo comparado D, e a expressão (4 – D).

Para calcular as estatísticas de Durbin-Watson no Excel, vamos para a tabela inferior na Fig. quatorze Retirada de saldo. O numerador na expressão (10) é calculado usando a função = SUMMQDIFF(array1, array2) e o denominador = SUMMQ(array) (Fig. 16).

Arroz. 16. Fórmulas para calcular as estatísticas de Durbin-Watson

Em nosso exemplo D= 0,883. A questão principal é: qual valor da estatística de Durbin-Watson deve ser considerado pequeno o suficiente para concluir que existe uma autocorrelação positiva? É necessário correlacionar o valor de D com os valores críticos ( dL e d você) dependendo do número de observações n e nível de significância α (Fig. 17).

Arroz. 17. Valores críticos das estatísticas Durbin-Watson (fragmento da tabela)

Assim, no problema do volume de vendas em uma loja que entrega mercadorias em sua casa, existe uma variável independente ( k= 1), 15 observações ( n= 15) e nível de significância α = 0,05. Consequentemente, dL= 1,08 e dvocê= 1,36. Porque o D = 0,883 < dL= 1,08, existe uma autocorrelação positiva entre os resíduos, o método mínimos quadrados não pode ser aplicado.

Testando hipóteses sobre inclinação e coeficiente de correlação

A regressão acima foi aplicada apenas para previsão. Para determinar coeficientes de regressão e prever o valor de uma variável Y para um determinado valor variável x foi utilizado o método dos mínimos quadrados. Além disso, consideramos o erro padrão da estimativa e o coeficiente de correlação mista. Se a análise dos resíduos confirmar que as condições de aplicabilidade do método dos mínimos quadrados não são violadas, e o modelo de regressão linear simples é adequado, com base nos dados da amostra, pode-se argumentar que entre as variáveis ​​em população existe uma relação linear.

Inscriçãot -critérios de inclinação. Ao verificar se a inclinação populacional β 1 é igual a zero, pode-se determinar se existe uma relação estatisticamente significativa entre as variáveis x e Y. Se esta hipótese for rejeitada, pode-se argumentar que entre as variáveis x e Y existe uma relação linear. As hipóteses nula e alternativa são formuladas da seguinte forma: H 0: β 1 = 0 (nenhuma relação linear), H1: β 1 ≠ 0 (há uma relação linear). Por definição t-estatística é igual à diferença entre a inclinação da amostra e a inclinação da população hipotética, dividida pelo erro padrão da estimativa da inclinação:

(11) t = (b 1 β 1 ) / Sb 1

Onde b 1 é a inclinação da regressão direta com base nos dados da amostra, β1 é a inclinação hipotética da população geral direta, e estatísticas de teste t Tem t- distribuição com n-2 graus de liberdade.

Vamos verificar se existe uma relação estatisticamente significativa entre o tamanho da loja e as vendas anuais em α = 0,05. t-criteria é exibido junto com outros parâmetros ao usar pacote de análise(opção Regressão). Os resultados completos do Pacote de Análise são mostrados na Fig. 4, um fragmento relacionado com as estatísticas t - na fig. dezoito.

Arroz. 18. Resultados da aplicação t

Porque o número de lojas n= 14 (ver Fig. 3), valor crítico t-estatísticas em um nível de significância α = 0,05 podem ser encontradas pela fórmula: t L=ALUNO.INV(0,025;12) = -2,1788 onde 0,025 é metade do nível de significância e 12 = n – 2; você\u003d STUDENT.INV (0,975, 12) \u003d +2,1788.

Porque o t-estatística = 10,64 > você= 2,1788 (Fig. 19), hipótese nula H 0é rejeitado. Por outro lado, R-valor para x\u003d 10,6411, calculado pela fórmula \u003d 1-ALUNO.DIST (D3, 12, VERDADEIRO), é aproximadamente igual a zero, então a hipótese H 0é rejeitado novamente. O fato de que R-valor é quase zero, o que significa que, se não houvesse uma relação linear real entre o tamanho da loja e as vendas anuais, seria quase impossível encontrá-la usando regressão linear. Portanto, existe uma relação linear estatisticamente significativa entre as vendas médias anuais da loja e o tamanho da loja.

Arroz. 19. Testando a hipótese sobre a inclinação da população geral em um nível de significância de 0,05 e 12 graus de liberdade

InscriçãoF -critérios de inclinação. Uma abordagem alternativa para testar hipóteses sobre a inclinação de uma regressão linear simples é usar F-critério. Lembre-se que F-criterion é usado para testar a relação entre duas variâncias (ver detalhes). Ao testar a hipótese da inclinação, a medida dos erros aleatórios é a variância do erro (a soma dos erros ao quadrado dividida pelo número de graus de liberdade), então F-test usa a razão da variância explicada pela regressão (ou seja, os valores SSR dividido pelo número de variáveis ​​independentes k), para a variância do erro ( MSE=SYx 2 ).

Por definição F-estatística é igual aos desvios quadrados médios devido à regressão (MSR) dividido pela variância do erro (MSE): F = MSR/ MSE, Onde MSR =SSR / k, MSE =SSE/(n– k – 1), ké o número de variáveis ​​independentes no modelo de regressão. estatísticas de teste F Tem F- distribuição com k e n– k – 1 graus de liberdade.

Para um dado nível de significância α, a regra de decisão é formulada da seguinte forma: se F > Fvocê, a hipótese nula é rejeitada; caso contrário, não é rejeitado. Os resultados, apresentados em forma de quadro resumo da análise de variância, são apresentados na fig. vinte.

Arroz. 20. Tabela de análise de variância para testar a hipótese da significância estatística do coeficiente de regressão

De forma similar t-critério F-critérios são exibidos na tabela ao usar pacote de análise(opção Regressão). Resultados completos do trabalho pacote de análise mostrado na fig. 4, fragmento relacionado a F-estatísticas - na fig. 21.

Arroz. 21. Resultados da aplicação F- Critérios obtidos usando o Excel Analysis ToolPack

A estatística F é 113,23 e R-valor próximo de zero (célula SignificadoF). Se o nível de significância α for 0,05, determine o valor crítico F-distribuições com um e 12 graus de liberdade podem ser obtidas a partir da fórmula F U\u003d F. OBR (1-0,05; 1; 12) \u003d 4,7472 (Fig. 22). Porque o F = 113,23 > F U= 4,7472, e R-valor próximo a 0< 0,05, нулевая гипотеза H 0 desvia, ou seja O tamanho de uma loja está intimamente relacionado ao seu volume de vendas anual.

Arroz. 22. Testando a hipótese sobre a inclinação da população geral a um nível de significância de 0,05, com um e 12 graus de liberdade

Intervalo de confiança contendo inclinação β 1 . Para testar a hipótese da existência de uma relação linear entre as variáveis, você pode construir um intervalo de confiança contendo a inclinação β 1 e verificar se o valor hipotético β 1 = 0 pertence a esse intervalo. O centro do intervalo de confiança contendo a inclinação β 1 é a inclinação da amostra b 1 , e seus limites são as quantidades b 1 ±t n –2 Sb 1

Como mostrado na fig. dezoito, b 1 = +1,670, n = 14, Sb 1 = 0,157. t 12 \u003d STUDENT.OBR (0,975, 12) \u003d 2,1788. Consequentemente, b 1 ±t n –2 Sb 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342, ou + 1,328 ≤ β 1 ≤ +2,012. Assim, a inclinação da população com uma probabilidade de 0,95 situa-se na faixa de +1,328 a +2,012 (ou seja, de US$ 1.328.000 a US$ 2.012.000). Como esses valores são maiores que zero, existe uma relação linear estatisticamente significativa entre as vendas anuais e a área da loja. Se o intervalo de confiança contivesse zero, não haveria relação entre as variáveis. Além disso, o intervalo de confiança significa que a cada 1.000 pés quadrados pés resulta em um aumento nas vendas médias de US$ 1.328.000 para US$ 2.012.000.

Usot -critérios para o coeficiente de correlação. coeficiente de correlação foi introduzido r, que é uma medida da relação entre duas variáveis ​​numéricas. Pode ser usado para determinar se existe uma relação estatisticamente significativa entre duas variáveis. Denotemos o coeficiente de correlação entre as populações de ambas as variáveis ​​pelo símbolo ρ. As hipóteses nula e alternativa são formuladas da seguinte forma: H 0: ρ = 0 (sem correlação), H 1: ρ ≠ 0 (há correlação). Verificando a existência de uma correlação:

Onde r = + , E se b 1 > 0, r = – , E se b 1 < 0. Тестовая статистика t Tem t- distribuição com n-2 graus de liberdade.

No problema da rede de lojas Girassóis r2= 0,904, e b 1- +1,670 (ver Fig. 4). Porque o b 1> 0, o coeficiente de correlação entre as vendas anuais e o tamanho da loja é r= +√0,904 = +0,951. Vamos testar a hipótese nula de que não há correlação entre essas variáveis ​​usando t- Estatisticas:

Em um nível de significância de α = 0,05, a hipótese nula deve ser rejeitada porque t= 10,64 > 2,1788. Assim, pode-se argumentar que existe uma relação estatisticamente significativa entre as vendas anuais e o tamanho da loja.

Ao discutir inferências sobre inclinações populacionais, intervalos de confiança e critérios para testar hipóteses são ferramentas intercambiáveis. Porém, o cálculo do intervalo de confiança contendo o coeficiente de correlação acaba sendo mais difícil, pois a forma de distribuição amostral da estatística r depende do verdadeiro coeficiente de correlação.

Estimativa de Expectativa e Previsão valores individuais

Esta seção discute métodos para estimar a resposta esperada Y e previsões de valores individuais Y para valores dados da variável x.

Construção de um intervalo de confiança. No exemplo 2 (veja a seção acima método dos mínimos quadrados) a equação de regressão permitiu prever o valor da variável Y x. No problema de escolher um lugar para tomada vendas anuais médias em um parque de 4.000 pés quadrados. pés era igual a 7,644 milhões de dólares.No entanto, essa estimativa da expectativa matemática da população em geral é um ponto. para estimar a expectativa matemática da população em geral, foi proposto o conceito de intervalo de confiança. Da mesma forma, pode-se introduzir o conceito intervalo de confiança para a expectativa matemática da resposta para um dado valor de uma variável x:

Onde , = b 0 + b 1 XI– variável de valor previsto Y no x = XI, S YXé o erro quadrático médio, né o tamanho da amostra, xeu- o valor dado da variável x, µ Y|x = xeuvalor esperado variável Y no x = Х eu,SSX=

A análise da fórmula (13) mostra que a largura do intervalo de confiança depende de vários fatores. Em um determinado nível de significância, um aumento na amplitude das flutuações em torno da linha de regressão, medida pelo erro quadrático médio, leva a um aumento na largura do intervalo. Por outro lado, como esperado, um aumento no tamanho da amostra é acompanhado por um estreitamento do intervalo. Além disso, a largura do intervalo muda dependendo dos valores xeu. Se o valor da variável Y previsto para quantidades x, próximo ao valor médio , o intervalo de confiança acaba sendo mais estreito do que ao prever a resposta para valores distantes da média.

Digamos que ao escolher um local para uma loja, queremos construir um intervalo de confiança de 95% para a média anual de vendas em todas as lojas com área de 4.000 metros quadrados. pés:

Portanto, o volume médio anual de vendas em todas as lojas com área de 4.000 metros quadrados. pés, com uma probabilidade de 95% situa-se na faixa de 6,971 a 8,317 milhões de dólares.

Calcule o intervalo de confiança para o valor previsto. Além do intervalo de confiança para a expectativa matemática da resposta para um determinado valor da variável x, muitas vezes é necessário saber o intervalo de confiança para o valor previsto. Embora a fórmula para calcular esse intervalo de confiança seja muito semelhante à fórmula (13), esse intervalo contém um valor previsto e não uma estimativa do parâmetro. Intervalo para resposta prevista Yx = XI para um valor específico da variável xeué determinado pela fórmula:

Vamos supor que, ao escolher um local para um ponto de venda, queremos construir um intervalo de confiança de 95% para o volume de vendas anual previsto em uma loja com área de 4.000 metros quadrados. pés:

Portanto, o volume de vendas anual previsto para uma área de 4.000 pés quadrados. pés, com 95% de probabilidade, situa-se na faixa de 5,433 a 9,854 milhões de dólares Como você pode ver, o intervalo de confiança para o valor da resposta prevista é muito mais amplo do que o intervalo de confiança para sua expectativa matemática. Isso ocorre porque a variabilidade na previsão de valores individuais é muito maior do que na estimativa do valor esperado.

Armadilhas e questões éticas associadas ao uso da regressão

Dificuldades associadas à análise de regressão:

  • Ignorando as condições de aplicabilidade do método dos mínimos quadrados.
  • Uma estimativa errônea das condições de aplicabilidade do método dos mínimos quadrados.
  • Escolha errada de métodos alternativos em violação das condições de aplicabilidade do método dos mínimos quadrados.
  • Inscrição análise de regressão sem conhecimento profundo sobre o assunto da pesquisa.
  • Extrapolação da regressão além do intervalo da variável explicativa.
  • Confusão entre relações estatísticas e causais.

A disseminação de planilhas e Programas para cálculos estatísticos eliminou os problemas computacionais que impediam o uso da análise de regressão. No entanto, isso levou ao fato de que a análise de regressão passou a ser utilizada por usuários que não possuem qualificação e conhecimento suficientes. Como os usuários conhecem os métodos alternativos se muitos deles não têm nenhuma ideia sobre as condições de aplicabilidade do método dos mínimos quadrados e não sabem como verificar sua implementação?

O pesquisador não deve se deixar levar pela trituração de números - calculando o deslocamento, a inclinação e o coeficiente de correlação mista. Ele precisa de um conhecimento mais profundo. Vamos ilustrar isso com um exemplo clássico retirado de livros didáticos. Anscombe mostrou que todos os quatro conjuntos de dados mostrados na Fig. 23 têm os mesmos parâmetros de regressão (Fig. 24).

Arroz. 23. Quatro conjuntos de dados artificiais

Arroz. 24. Análise de regressão de quatro conjuntos de dados artificiais; feito com pacote de análise(clique na imagem para ampliar a imagem)

Portanto, do ponto de vista da análise de regressão, todos esses conjuntos de dados são completamente idênticos. Se a análise terminasse nisso, teríamos perdido muito informação útil. Isso é evidenciado pelos gráficos de dispersão (Fig. 25) e gráficos de resíduos (Fig. 26) construídos para esses conjuntos de dados.

Arroz. 25. Gráficos de dispersão para quatro conjuntos de dados

Gráficos de dispersão e gráficos residuais mostram que esses dados são diferentes uns dos outros. O único conjunto distribuído ao longo de uma linha reta é o conjunto A. O gráfico dos resíduos calculados a partir do conjunto A não tem padrão. O mesmo não pode ser dito para os conjuntos B, C e D. O gráfico de dispersão traçado para o conjunto B mostra um padrão quadrático pronunciado. Esta conclusão é confirmada pelo gráfico de resíduos, que tem uma forma parabólica. O gráfico de dispersão e o gráfico residual mostram que o conjunto de dados B contém um outlier. Nesta situação, é necessário excluir o outlier do conjunto de dados e repetir a análise. A técnica para detectar e eliminar outliers de observações é chamada de análise de influência. Após a eliminação do outlier, o resultado da reavaliação do modelo pode ser completamente diferente. Um gráfico de dispersão plotado a partir do conjunto de dados D ilustra uma situação incomum na qual o modelo empírico é altamente dependente de uma única resposta ( x 8 = 19, Y 8 = 12,5). Esses modelos de regressão precisam ser calculados com especial cuidado. Portanto, os gráficos de dispersão e resíduos são uma ferramenta essencial para a análise de regressão e devem ser parte integrante dela. Sem eles, a análise de regressão não é confiável.

Arroz. 26. Gráficos de resíduos para quatro conjuntos de dados

Como evitar armadilhas na análise de regressão:

  • Análise da possível relação entre variáveis x e Y sempre comece com um gráfico de dispersão.
  • Antes de interpretar os resultados de uma análise de regressão, verifique as condições de sua aplicabilidade.
  • Plote os resíduos versus a variável independente. Isso permitirá determinar como o modelo empírico corresponde aos resultados da observação e detectar a violação da constância da variância.
  • Use histogramas, gráficos de caule e folha, gráficos de caixa e gráficos de distribuição normal para testar a suposição de uma distribuição normal de erros.
  • Se as condições de aplicabilidade do método dos mínimos quadrados não forem atendidas, use métodos alternativos (por exemplo, modelos quadráticos ou de regressão múltipla).
  • Se as condições de aplicabilidade do método dos mínimos quadrados forem atendidas, é necessário testar a hipótese sobre a significância estatística dos coeficientes de regressão e construir intervalos de confiança contendo a expectativa matemática e o valor da resposta prevista.
  • Evite prever valores da variável dependente fora do intervalo da variável independente.
  • Lembre-se de que as dependências estatísticas nem sempre são causais. Lembre-se de que a correlação entre as variáveis ​​não significa que haja uma relação causal entre elas.

Resumo. Conforme mostrado no diagrama de blocos (Fig. 27), a nota descreve um modelo de regressão linear simples, as condições para sua aplicabilidade e formas de testar essas condições. considerado t-critério para testar a significância estatística da inclinação da regressão. Um modelo de regressão foi usado para prever os valores da variável dependente. Considera-se um exemplo relacionado com a escolha de um local para um ponto de venda, em que se estuda a dependência do volume de vendas anual com a área da loja. As informações obtidas permitem selecionar com mais precisão um local para a loja e prever suas vendas anuais. Nas notas seguintes, a discussão da análise de regressão continuará, bem como modelos de regressão múltipla.

Arroz. 27. Diagrama de bloco de uma nota

Materiais do livro Levin et al.. Estatísticas para gerentes são usados. - M.: Williams, 2004. - p. 792–872

Se a variável dependente for categórica, a regressão logística deve ser aplicada.

Durante seus estudos, os alunos muitas vezes encontram uma variedade de equações. Uma delas - a equação de regressão - é considerada neste artigo. Este tipo de equação é usado especificamente para descrever as características da relação entre parâmetros matemáticos. Esse tipo igualdades são usadas em estatística e econometria.

Definição de regressão

Na matemática, a regressão é entendida como uma certa quantidade que descreve a dependência do valor médio de um conjunto de dados dos valores de outra quantidade. A equação de regressão mostra, em função de uma determinada feição, o valor médio de outra feição. A função de regressão tem a forma equação simples y \u003d x, em que y é a variável dependente e x é a variável independente (fator de recurso). Na verdade, a regressão é expressa como y = f (x).

Quais são os tipos de relacionamento entre variáveis

Em geral, distinguem-se dois tipos opostos de relação: correlação e regressão.

A primeira é caracterizada pela igualdade das variáveis ​​condicionais. NO este caso não se sabe ao certo qual variável depende da outra.

Se não há igualdade entre as variáveis ​​e as condições dizem qual variável é explicativa e qual é dependente, então podemos falar sobre a presença de uma conexão do segundo tipo. Para construir uma equação de regressão linear, será necessário descobrir que tipo de relação é observada.

Tipos de regressões

Até o momento, existem 7 tipos diferentes de regressão: hiperbólica, linear, múltipla, não linear, par a par, inversa, linear logarítmica.

Hiperbólica, linear e logarítmica

A equação de regressão linear é usada em estatística para explicar claramente os parâmetros da equação. Parece que y = c + m * x + E. A equação hiperbólica tem a forma de uma hipérbole regular y \u003d c + m / x + E. Logaritmicamente equação linear expressa a relação usando uma função logarítmica: In y \u003d In c + m * In x + In E.

Múltiplos e não lineares

mais dois tipos complexos as regressões são múltiplas e não lineares. A equação de regressão múltipla é expressa pela função y \u003d f (x 1, x 2 ... x c) + E. Nesta situação, y é a variável dependente ex é a variável explicativa. A variável E é estocástica e inclui a influência de outros fatores na equação. A equação de regressão não linear é um pouco inconsistente. Por um lado, no que diz respeito aos indicadores considerados, não é linear e, por outro lado, no papel de avaliar os indicadores, é linear.

Regressões Inversas e Pareadas

Uma inversa é um tipo de função que precisa ser convertida em visão linear. Nos programas aplicativos mais tradicionais, tem a forma de uma função y \u003d 1 / c + m * x + E. A equação de regressão pareada mostra a relação entre os dados como uma função de y = f(x) + E. Assim como as outras equações, y depende de x e E é um parâmetro estocástico.

O conceito de correlação

Este é um indicador que demonstra a existência de uma relação entre dois fenômenos ou processos. A força da relação é expressa como um coeficiente de correlação. Seu valor flutua dentro do intervalo [-1;+1]. Um indicador negativo indica a presença retorno, positivo - sobre uma linha reta. Se o coeficiente assume um valor igual a 0, não há relação. Quanto mais próximo o valor estiver de 1, conexão mais forte entre os parâmetros, quanto mais próximo de 0 - mais fraco.

Métodos

Métodos paramétricos de correlação podem estimar a rigidez do relacionamento. Eles são usados ​​com base em estimativas de distribuição para estudar parâmetros que obedecem à lei de distribuição normal.

Os parâmetros da equação de regressão linear são necessários para identificar o tipo de dependência, a função da equação de regressão e avaliar os indicadores da fórmula de relação escolhida. O campo de correlação é usado como um método para identificar um relacionamento. Para fazer isso, todos os dados existentes devem ser representados graficamente. Em um sistema de coordenadas retangulares bidimensionais, todos os dados conhecidos devem ser plotados. É assim que o campo de correlação é formado. O valor do fator descritor é marcado ao longo da abcissa, enquanto os valores do fator dependente são marcados ao longo da ordenada. Se houver uma relação funcional entre os parâmetros, eles se alinham na forma de uma linha.

Se o coeficiente de correlação desses dados for inferior a 30%, podemos falar sobre a quase total ausência de conexão. Se estiver entre 30% e 70%, isso indica a presença de links de estanqueidade média. Um indicador de 100% é evidência de uma conexão funcional.

Uma equação de regressão não linear, assim como uma linear, deve ser complementada com um índice de correlação (R).

Correlação para Regressão Múltipla

O coeficiente de determinação é um indicador do quadrado da correlação múltipla. Ele fala sobre o estreitamento da relação do conjunto de indicadores apresentado com a característica em estudo. Também pode falar sobre a natureza da influência dos parâmetros no resultado. A equação de regressão múltipla é avaliada usando este indicador.

Para calcular o índice de correlação múltipla, é necessário calcular o seu índice.

método dos mínimos quadrados

Este método é uma forma de estimar fatores de regressão. Sua essência está em minimizar a soma dos desvios quadrados obtidos devido à dependência do fator com a função.

Uma equação de regressão linear emparelhada pode ser estimada usando esse método. Este tipo de equações é usado em caso de detecção entre os indicadores de uma relação linear pareada.

Opções de equação

Cada parâmetro da função de regressão linear tem um significado específico. A equação de regressão linear pareada contém dois parâmetros: c e m.O parâmetro t mostra a variação média no indicador final da função y, sujeito a uma diminuição (aumento) na variável x em uma unidade convencional. Se a variável x for zero, então a função é igual ao parâmetro c. Se a variável x não for zero, então o fator c não faz sentido econômico. A única influência na função é o sinal antes do fator c. Se houver menos, podemos dizer sobre uma mudança lenta no resultado em comparação com o fator. Se houver um sinal de mais, isso indica uma mudança acelerada no resultado.

Cada parâmetro que altera o valor da equação de regressão pode ser expresso em termos de uma equação. Por exemplo, o fator c tem a forma c = y - mx.

dados agrupados

Existem tais condições da tarefa em que todas as informações são agrupadas de acordo com o atributo x, mas ao mesmo tempo, para um determinado grupo, são indicados os valores médios correspondentes do indicador dependente. Nesse caso, os valores médios caracterizam como o indicador depende de x. Assim, as informações agrupadas ajudam a encontrar a equação de regressão. É usado como uma análise de relacionamento. No entanto, este método tem suas desvantagens. Infelizmente, as médias estão frequentemente sujeitas a flutuações externas. Essas flutuações não refletem os padrões do relacionamento, apenas mascaram seu "ruído". As médias mostram padrões de relacionamento muito piores do que uma equação de regressão linear. No entanto, eles podem ser usados ​​como base para encontrar uma equação. Multiplicando o tamanho de uma determinada população pela média correspondente, você pode obter a soma de y dentro do grupo. Em seguida, você precisa eliminar todos os valores recebidos e encontrar o indicador final y. É um pouco mais difícil fazer cálculos com o indicador de soma xy. Caso os intervalos sejam pequenos, podemos tomar condicionalmente o indicador x para todas as unidades (dentro do grupo) iguais. Multiplique pela soma de y para encontrar a soma dos produtos de x e y. Além disso, todas as somas são combinadas e a soma total xy é obtida.

Regressão de equações de pares múltiplos: avaliando a importância de um relacionamento

Conforme discutido anteriormente, a regressão múltipla tem uma função da forma y \u003d f (x 1, x 2, ..., x m) + E. Na maioria das vezes, essa equação é usada para resolver o problema de oferta e demanda de mercadorias, receita de juros sobre ações recompradas, estudando as causas e o tipo de função de custo de produção. Também é usado ativamente em uma ampla variedade de estudos e cálculos macroeconômicos, mas no nível da microeconomia, essa equação é usada com menos frequência.

A principal tarefa da regressão múltipla é construir um modelo de dados contendo uma grande quantidade de informações para determinar melhor qual a influência de cada um dos fatores individualmente e em sua totalidade sobre o indicador a ser modelado e seus coeficientes. A equação de regressão pode assumir uma variedade de valores. Nesse caso, dois tipos de funções costumam ser usados ​​para avaliar a relação: lineares e não lineares.

Uma função linear é representada na forma de tal relação: y \u003d a 0 + a 1 x 1 + a 2 x 2, + ... + a m x m. Neste caso, a2, a m , são considerados os coeficientes da regressão "pura". Eles são necessários para caracterizar a mudança média do parâmetro y com uma mudança (diminuição ou aumento) em cada parâmetro x correspondente em uma unidade, com a condição de um valor estável de outros indicadores.

As equações não lineares têm, por exemplo, a forma Função liga-desliga y=ax 1 b1 x 2 b2 ...x m bm . Nesse caso, os indicadores b 1, b 2 ..... b m - são chamados de coeficientes de elasticidade, eles demonstram como o resultado vai mudar (em quanto%) com um aumento (diminuição) no indicador x correspondente em 1% e com um indicador estável de outros fatores.

Quais fatores devem ser considerados ao construir uma regressão múltipla

Para construir corretamente uma regressão múltipla, é necessário descobrir quais fatores devem receber atenção especial.

É necessário ter algum entendimento da natureza da relação entre fatores ECONOMICOS e modelado. Os fatores a serem incluídos devem atender aos seguintes critérios:

  • Deve ser mensurável. Para usar um fator que descreva a qualidade de um objeto, em qualquer caso, ele deve receber uma forma quantitativa.
  • Não deve haver intercorrelação fatorial ou relação funcional. Tais ações geralmente levam a consequências irreversíveis - o sistema de equações comuns torna-se incondicionado e isso acarreta sua falta de confiabilidade e estimativas difusas.
  • No caso de um indicador de correlação enorme, não há como saber a influência isolada de fatores no resultado final do indicador, portanto, os coeficientes tornam-se ininterpretáveis.

Métodos de construção

Há um grande número de métodos e maneiras de explicar como você pode escolher os fatores para a equação. No entanto, todos esses métodos são baseados na seleção de coeficientes usando o índice de correlação. Entre eles estão:

  • Método de exclusão.
  • Ligue o método.
  • Análise de regressão passo a passo.

O primeiro método envolve peneirar todos os coeficientes do conjunto agregado. O segundo método envolve a introdução de muitos fatores adicionais. Bom, a terceira é a eliminação dos fatores que antes eram aplicados na equação. Cada um desses métodos tem o direito de existir. Eles têm seus prós e contras, mas podem resolver o problema de filtrar indicadores desnecessários à sua maneira. Como regra, os resultados obtidos por cada método individual são bastante próximos.

Métodos de análise multivariada

Tais métodos para determinar fatores são baseados na consideração de combinações individuais de recursos inter-relacionados. Isso inclui análise discriminante, reconhecimento de padrões, análise de componentes principais e análise de cluster. Além disso, também existe a análise fatorial, porém, surgiu como resultado do desenvolvimento do método de componentes. Todos eles são aplicados em certas circunstâncias, sob certas condições e fatores.

sauna a vapor regressão linear é a relação entre uma variável e a média de outra variável. Na maioria das vezes, o modelo é escrito como $y=ax+b+e$, onde $x$ é uma variável de fator, $y$ é o resultante (dependente), $e$ é um componente aleatório (residual, desvio).

Em tarefas educativas para estatísticas matemáticas comumente usado é o seguinte algoritmo para encontrar a equação de regressão.

  1. Escolha do modelo (equação). Freqüentemente, o modelo é predeterminado (encontre regressão linear) ou um método gráfico é usado para seleção: um gráfico de dispersão é construído e sua forma é analisada.
  2. Cálculo dos coeficientes (parâmetros) da equação de regressão. Isso geralmente é feito usando o método dos mínimos quadrados.
  3. Verificando a significância do coeficiente de correlação e parâmetros do modelo (intervalos de confiança também podem ser construídos para eles), avaliando a qualidade do modelo usando o critério de Fisher.
  4. Análise residual, cálculo erro padrão regressão, modelo de previsão (opcional).

Abaixo você encontrará soluções para regressão pareada (em séries de dados ou tabela de correlação, com várias tarefas adicionais) e algumas tarefas para determinar e examinar o coeficiente de correlação.


Apreciado? marca páginas

Exemplo de soluções online: regressão linear

Seleção simples

Exemplo 1 Existem dados sobre a produção média por trabalhador Y (mil rublos) e volume de negócios X (mil rublos) em 20 lojas por trimestre. Com base nos dados especificados, é necessário:
1) determinar a dependência (coeficiente de correlação) da produção média por trabalhador no volume de negócios,
2) fazer a equação de regressão direta dessa dependência.

Exemplo 2 Para analisar a influência mútua dos salários e da rotatividade do trabalho em cinco empresas do mesmo tipo com o mesmo número de funcionários, foram feitas medições do nível de salário mensal X e do número de trabalhadores que saíram durante o ano Y:
X 100 150 200 250 300
A 60 35 20 20 15
Encontre a regressão linear de Y em X, coeficiente de correlação de amostra.

Exemplo 3 Encontrar seletivo características numéricas e exemplo de equação de regressão linear $y_x=ax+b$. Construa uma linha de regressão e desenhe pontos $(x,y)$ da tabela no plano. Calcule a variância residual. Verificar a adequação do modelo de regressão linear pelo coeficiente de determinação.

Exemplo 4 Calcule os coeficientes da equação de regressão. Determine o coeficiente de correlação da amostra entre a densidade da madeira de freixo da Manchúria e sua resistência.
Resolvendo o problema, é necessário construir um campo de correlação, determinar o tipo de dependência pelo tipo de campo, escrever Forma geral equação de regressão Y em X, determine os coeficientes da equação de regressão e calcule os coeficientes de correlação entre os dois valores dados.

Exemplo 5 Uma empresa de aluguel de carros está interessada na relação entre a quilometragem dos carros X e o custo de manutenção mensal Y. Para determinar a natureza dessa relação, foram selecionados 15 carros. Construa um gráfico dos dados iniciais e determine a natureza da dependência deles. Calcular a taxa de amostragem correlação linear Pearson, verifique sua significância em 0,05. Construa uma equação de regressão e dê uma interpretação dos resultados.

tabela de correlação

Exemplo 6 Encontre uma equação de regressão direta de amostra Y em X dada uma tabela de correlação

Exemplo 7 A Tabela 2 mostra os dados sobre a dependência do consumo Y (r.u.) da renda X (r.u.) para alguns domicílios.
1. Supondo que haja uma relação linear entre X e Y, encontre as estimativas pontuais para os coeficientes de regressão linear.
2. Encontre o desvio padrão $s$ e o coeficiente de determinação $R^2$.
3. Assumindo a normalidade do componente aleatório do modelo de regressão, teste a hipótese de que não há relação linear entre Y e X.
4. Qual é o consumo esperado doméstico com renda $x_n=7$ arb. unidades? Encontre o intervalo de confiança para a previsão.
Dê uma interpretação dos resultados obtidos. O nível de significância em todos os casos é considerado igual a 0,05.

Exemplo 8 A distribuição de 100 novos tipos de tarifas para comunicação celular de todos os sistemas móveis conhecidos X (unidades monetárias) e receita deles Y (unidades monetárias) é dada na tabela:
Necessário:
1) Calcular médias de grupo e construir linhas de regressão empíricas;
2) Assumindo que existe uma correlação linear entre as variáveis ​​X e Y:
A) encontrar as equações das retas de regressão, construir seus gráficos no mesmo desenho com retas de regressão empíricas e dar uma interpretação econômica das equações obtidas;
B) calcular o coeficiente de correlação, avaliar sua significância a um nível de significância de 0,05 e concluir sobre a proximidade e direção da relação entre as variáveis ​​X e Y;
C) usando a equação de regressão apropriada, estimar a receita média dos sistemas móveis com 20 novos tipos de tarifas.

Para os territórios da região, os dados são fornecidos para 200X.

Número da região Mínimo de subsistência média per capita por dia para uma pessoa fisicamente apta, rub., x Salário médio diário, rub., em
1 78 133
2 82 148
3 87 134
4 79 154
5 89 162
6 106 195
7 67 139
8 88 158
9 73 152
10 87 162
11 76 159
12 115 173

Exercício:

1. Construa um campo de correlação e formule uma hipótese sobre a forma da conexão.

2. Calcule os parâmetros da equação de regressão linear

4. Usando o coeficiente médio (geral) de elasticidade, faça uma avaliação comparativa da força da relação entre o fator e o resultado.

7. Calcule o valor previsto do resultado se o valor previsto do fator aumentar em 10% de seu nível médio. Determine o intervalo de confiança da previsão para o nível de significância.

Solução:

Vamos resolver este problema usando o Excel.

1. Comparando os dados disponíveis x e y, por exemplo, ordenando-os em ordem crescente do fator x, observa-se uma relação direta entre os sinais quando um aumento do mínimo de subsistência per capita aumenta o salário médio diário. Com base nisso, pode-se supor que a relação entre os sinais é direta e pode ser descrita pela equação de uma reta. A mesma conclusão é confirmada com base na análise gráfica.

Para construir um campo de correlação, você pode usar o Excel PPP. Insira os dados iniciais na sequência: primeiro x, depois y.

Selecione a área de células que contém os dados.

Então escolha: Inserir / Dispersar / Dispersar com marcadores como mostrado na figura 1.

Figura 1 Construção do campo de correlação

Uma análise do campo de correlação mostra a presença de uma dependência próxima a uma linha reta, pois os pontos estão localizados quase em linha reta.

2. Calcular os parâmetros da equação de regressão linear
use a função estatística integrada PROJ.LIN.

Por esta:

1) Abra um arquivo existente contendo os dados a serem analisados;
2) Selecione uma área de células vazias 5×2 (5 linhas, 2 colunas) para exibir os resultados das estatísticas de regressão.
3) Ative assistente de função: no menu principal, selecione Fórmulas / Inserir Função.
4) Na janela Categoria você toma estatístico, na janela de funções - PROJ.LIN. Clique no botão OK como mostrado na Figura 2;

Figura 2 Caixa de Diálogo do Assistente de Função

5) Preencha os argumentos da função:

valores conhecidos

Valores x conhecidos

Constante - boleano, que indica a presença ou ausência de um termo livre na equação; se Constant = 1, então o termo livre é calculado da maneira usual, se Constant = 0, então o termo livre é 0;

Estatisticas- um valor booleano que indica se deve ou não exibir informações adicionais sobre a análise de regressão. Se Estatística = 1, então informação adicionalé exibido, se Estatística = 0, então apenas as estimativas dos parâmetros da equação são exibidas.

Clique no botão OK;

Figura 3 Caixa de diálogo de argumentos PROJ.LIN

6) O primeiro elemento da mesa final aparecerá na célula superior esquerda da área selecionada. Para expandir toda a tabela, pressione o botão e depois no atalho de teclado ++ .

Estatísticas de regressão adicionais serão geradas na ordem mostrada no seguinte esquema:

O valor do coeficiente b O valor do coeficiente a
b erro padrão erro padrão a
erro padrão y
F-estatística
Soma de quadrados de regressão

Figura 4 O resultado do cálculo da função PROJ.LIN

Temos a equação de regressão:

Concluímos: Com um aumento no mínimo de subsistência per capita em 1 rublo. o salário médio diário aumenta em média 0,92 rublos.

Significa variação de 52% remunerações(y) é explicado pela variação do fator x - o mínimo per capita médio de subsistência, e 48% - pela ação de outros fatores não incluídos no modelo.

De acordo com o coeficiente de determinação calculado, é possível calcular o coeficiente de correlação: .

O relacionamento é classificado como próximo.

4. Usando o coeficiente médio (geral) de elasticidade, determinamos a força da influência do fator no resultado.

Para a equação da linha reta, o coeficiente de elasticidade médio (geral) é determinado pela fórmula:

Encontramos os valores médios selecionando a área de células com valores x e selecionamos Fórmulas / AutoSoma / Média, e faça o mesmo com os valores de y.

Figura 5 Cálculo dos valores médios de uma função e argumento

Assim, se o mínimo de subsistência médio per capita mudar em 1% de seu valor médio, o salário médio diário mudará em média 0,51%.

Usando uma ferramenta de análise de dados Regressão acessível:
- resultados das estatísticas de regressão,
- resultados da análise de dispersão,
- resultados intervalos de confiança,
- gráficos de ajuste de linha de resíduos e regressão,
- resíduos e probabilidade normal.

O procedimento é o seguinte:

1) verifique o acesso a pacote de análise. No menu principal, selecione na sequência: Arquivo/Configurações/Complementos.

2) Soltar Ao controle Selecionar item Suplementos do Excel e pressione o botão Vai.

3) Na janela complementos Verifica a caixa pacote de análise e, em seguida, clique no botão OK.

Se um pacote de análise faltando na lista de campos Complementos disponíveis, aperte o botão Análise procurar.

Se você receber uma mensagem informando que o pacote de análise não está instalado em seu computador, clique em Sim para instalá-lo.

4) No menu principal, selecione na sequência: Dados / Análise de dados / Ferramentas de análise / Regressão e, em seguida, clique no botão OK.

5) Preencha a caixa de diálogo de opções de entrada e saída de dados:

Intervalo de entrada Y- o intervalo que contém os dados do atributo efetivo;

Intervalo de entrada X- o intervalo que contém os dados do atributo fator;

Tag- um sinalizador que indica se a primeira linha contém os nomes das colunas ou não;

Constante - zero- uma bandeira indicando a presença ou ausência de um termo livre na equação;

intervalo de saída- basta indicar a célula superior esquerda do intervalo futuro;

6) Nova planilha - você pode definir um nome arbitrário para a nova planilha.

Em seguida, pressione o botão OK.

Figura 6 Caixa de diálogo para inserir parâmetros da ferramenta Regressão

Os resultados da análise de regressão para os dados do problema são mostrados na Figura 7.

Figura 7 O resultado da aplicação da ferramenta de regressão

5. Vamos estimar a qualidade das equações usando o erro médio de aproximação. Vamos usar os resultados da análise de regressão apresentados na Figura 8.

Figura 8 O resultado da aplicação da ferramenta de regressão "Inferência Residual"

Vamos compilar uma nova tabela conforme mostrado na Figura 9. Na coluna C, calculamos o erro de aproximação relativo usando a fórmula:

Figura 9 Cálculo do erro médio de aproximação

O erro médio de aproximação é calculado pela fórmula:

A qualidade do modelo construído é avaliada como boa, desde que não ultrapasse 8 - 10%.

6. Na tabela com estatísticas de regressão (Figura 4), escrevemos o valor real do teste F de Fisher:

Porque o a um nível de significância de 5%, podemos concluir que a equação de regressão é significativa (a relação é comprovada).

8. Avaliaremos a significância estatística dos parâmetros de regressão usando a estatística t de Student e calculando o intervalo de confiança para cada um dos indicadores.

Apresentamos a hipótese H 0 sobre uma diferença estatisticamente insignificante de indicadores de zero:

.

para o número de graus de liberdade

A Figura 7 tem os valores reais da estatística t:

O teste t para o coeficiente de correlação pode ser calculado de duas maneiras:

Eu caminho:

Onde - erro aleatório do coeficiente de correlação.

Tomamos os dados para cálculo da tabela na Figura 7.

II maneira:

Os valores reais da estatística t são superiores aos valores da tabela:

Portanto, rejeita-se a hipótese H 0, ou seja, os parâmetros da regressão e o coeficiente de correlação não são aleatoriamente diferentes de zero, mas são estatisticamente significativos.

O intervalo de confiança para o parâmetro a é definido como

Para o parâmetro a, os limites de 95%, conforme mostrado na Figura 7, foram:

O intervalo de confiança para o coeficiente de regressão é definido como

Para o coeficiente de regressão b, os limites de 95%, conforme mostrado na Figura 7, foram:

Uma análise dos limites superior e inferior dos intervalos de confiança leva à conclusão de que com uma probabilidade os parâmetros a e b, estando dentro dos limites especificados, não assumem valores zero, ou seja, não são estatisticamente significantes e são significativamente diferentes de zero.

7. As estimativas obtidas da equação de regressão nos permitem usá-la para previsão. Se o valor previsto do mínimo de subsistência for:

Então o valor previsto do mínimo de subsistência será:

Calculamos o erro de previsão usando a fórmula:

Onde

Também calculamos a variância usando o Excel PPP. Por esta:

1) Ativar assistente de função: no menu principal, selecione Fórmulas / Inserir Função.

3) Preencha o intervalo contendo os dados numéricos da característica do fator. Clique OK.

Figura 10 Cálculo de variância

Obter o valor da variância

Para calcular a variância residual por um grau de liberdade, usamos os resultados da análise de variância conforme mostrado na Figura 7.

Os intervalos de confiança para prever valores individuais de y com uma probabilidade de 0,95 são determinados pela expressão:

O intervalo é bastante amplo, principalmente devido ao pequeno volume de observações. Em geral, a previsão cumprida do salário médio mensal revelou-se confiável.

A condição do problema é retirada de: Workshop de econometria: Proc. subsídio / I.I. Eliseeva, S. V. Kurysheva, N.M. Gordeenko e outros; Ed. eu Eliseeva. - M.: Finanças e estatísticas, 2003. - 192 p.: il.