Tabela de correlação no excel.  Um exemplo de cálculo da correlação, construindo uma regressão linear e testando a hipótese da dependência de dois VRs pelo nosso serviço

Tabela de correlação no excel. Um exemplo de cálculo da correlação, construindo uma regressão linear e testando a hipótese da dependência de dois VRs pelo nosso serviço

regressão e análise de correlação– métodos de pesquisa estatística. Essas são as formas mais comuns de mostrar a dependência de um parâmetro em uma ou mais variáveis ​​independentes.

Abaixo em específico exemplos práticos Vamos considerar essas duas análises muito populares entre os economistas. Também daremos um exemplo de obtenção de resultados quando eles são combinados.

Análise de Regressão no Excel

Mostra a influência de alguns valores (independente, independente) na variável dependente. Por exemplo, como o número de população economicamente ativa depende do número de empresas, salários e outros parâmetros. Ou: como os investimentos estrangeiros, os preços da energia, etc. afetam o nível do PIB.

O resultado da análise permite que você priorize. E com base nos principais fatores, prever, planejar o desenvolvimento áreas prioritárias para tomar decisões gerenciais.

A regressão acontece:

  • linear (y = a + bx);
  • parabólica (y = a + bx + cx 2);
  • exponencial (y = a * exp(bx));
  • potência (y = a*x^b);
  • hiperbólica (y = b/x + a);
  • logarítmico (y = b * 1n(x) + a);
  • exponencial (y = a * b^x).

Considere o exemplo de construção de um modelo de regressão no Excel e interpretação dos resultados. Vamos pegar um tipo linear de regressão.

Uma tarefa. Em 6 empresas, a média mensal remuneração e o número de aposentados. É necessário determinar a dependência do número de aposentados do salário médio.

Modelo regressão linear tem a seguinte forma:

Y \u003d a 0 + a 1 x 1 + ... + a k x k.

Onde a são os coeficientes de regressão, x são as variáveis ​​de influência e k é o número de fatores.

Em nosso exemplo, Y é o indicador de trabalhadores demitidos. O fator de influência é o salário (x).

O Excel possui funções internas que podem ser usadas para calcular os parâmetros de um modelo de regressão linear. Mas o suplemento Analysis ToolPak fará isso mais rápido.

Ative uma poderosa ferramenta analítica:

Depois de ativado, o complemento estará disponível na guia Dados.

Agora vamos lidar diretamente com a análise de regressão.



Em primeiro lugar, prestamos atenção ao quadrado R e aos coeficientes.

R-quadrado é o coeficiente de determinação. No nosso exemplo, é 0,755 ou 75,5%. Isso significa que os parâmetros calculados do modelo explicam a relação entre os parâmetros estudados em 75,5%. Quanto maior o coeficiente de determinação, melhor o modelo. Bom - acima de 0,8. Ruim - menos de 0,5 (essa análise dificilmente pode ser considerada razoável). No nosso exemplo - "nada mal".

O coeficiente 64,1428 mostra o que Y será se todas as variáveis ​​do modelo considerado forem iguais a 0. Ou seja, outros fatores que não estão descritos no modelo também afetam o valor do parâmetro analisado.

O coeficiente -0,16285 mostra o peso da variável X sobre Y. Ou seja, o salário médio mensal dentro desse modelo afeta o número de desistentes com peso de -0,16285 (este é um pequeno grau de influência). O sinal “-” indica um impacto negativo: quanto maior o salário, menos desistência. O que é justo.



Análise de correlação no Excel

A análise de correlação ajuda a estabelecer se existe uma relação entre os indicadores em uma ou duas amostras. Por exemplo, entre o tempo de operação da máquina e o custo dos reparos, o preço do equipamento e a duração da operação, a altura e o peso das crianças, etc.

Se houver uma relação, então se um aumento em um parâmetro leva a um aumento (correlação positiva) ou a uma diminuição (negativa) no outro. A análise de correlação ajuda o analista a determinar se o valor de um indicador pode prever o possível valor de outro.

O coeficiente de correlação é denotado r. Varia de +1 a -1. Classificação de correlações para Áreas diferentes será diferente. Quando o valor do coeficiente é 0, não há relação linear entre as amostras.

Considere como usar o Excel para encontrar o coeficiente de correlação.

A função CORREL é usada para encontrar os coeficientes pareados.

Tarefa: Determinar se existe uma relação entre o tempo de trabalho torno e o custo de sua manutenção.

Coloque o cursor em qualquer célula e pressione o botão fx.

  1. Na categoria "Estatística", selecione a função CORREL.
  2. Argumento "Array 1" - o primeiro intervalo de valores - o tempo da máquina: A2: A14.
  3. Argumento "Array 2" - a segunda faixa de valores - o custo dos reparos: B2:B14. Clique OK.

Para determinar o tipo de conexão, é necessário observar o número absoluto do coeficiente (cada campo de atividade possui sua própria escala).

Para análise de correlação de vários parâmetros (mais de 2), é mais conveniente usar "Análise de dados" (complemento "Pacote de análise"). Na lista, você precisa selecionar uma correlação e designar uma matriz. Tudo.

Os coeficientes resultantes serão exibidos na matriz de correlação. Como este:

Análise de correlação-regressão

Na prática, essas duas técnicas costumam ser usadas juntas.

Exemplo:


Agora os dados da análise de regressão estão visíveis.

"Correlação" em latim significa "correlação", "relação". Uma característica quantitativa da relação pode ser obtida calculando o coeficiente de correlação. Este popular em análises estatísticas o coeficiente mostra se algum parâmetro está relacionado entre si (por exemplo, altura e peso; nível de inteligência e desempenho acadêmico; número de lesões e horas de trabalho).

Usando Correlação

O cálculo de correlação é especialmente amplamente utilizado em economia, pesquisa sociológica, medicina e biometria - sempre que você pode obter dois conjuntos de dados entre os quais uma relação pode ser encontrada.

Você pode calcular a correlação manualmente executando operações aritméticas simples. No entanto, o processo de cálculo é muito demorado se o conjunto de dados for grande. A peculiaridade do método é que requer a coleta um grande número dados de origem para exibir com mais precisão se há uma relação entre os recursos. Portanto, o uso sério da análise de correlação é impossível sem o uso da tecnologia de computador. Um dos programas mais populares e acessíveis para resolver esse problema é.

Como realizar a correlação no Excel?

A etapa mais demorada na determinação da correlação é o conjunto de dados. Os dados a serem comparados geralmente são organizados em duas colunas ou linhas. A tabela deve ser feita sem lacunas nas células. Versões modernas O Excel (a partir de 2007) não requer configurações adicionais para cálculos estatísticos; manipulações necessárias podem ser feitas:

  1. Selecione uma célula vazia na qual o resultado do cálculo será exibido.
  2. Clique no item "Fórmulas" no menu principal do Excel.
  3. Entre os botões agrupados na "Biblioteca de funções", selecione "Outras funções".
  4. Nas listas suspensas, selecione a função de cálculo de correlação (Estatística - CORREL).
  5. O Excel abre o painel Argumentos da função. "Array 1" e "Array 2" são os intervalos dos dados que estão sendo comparados. Para preencher automaticamente esses campos, basta selecionar as células da tabela desejadas.
  6. Clique em OK para fechar a janela de argumentos da função. O coeficiente de correlação calculado aparecerá na célula.

A correlação pode ser direta (se o coeficiente for maior que zero) e inversa (de -1 a 0).

A primeira significa que conforme um parâmetro aumenta, o outro também aumenta. Uma correlação inversa (negativa) reflete o fato de que, à medida que uma variável aumenta, a outra diminui.

A correlação pode ser próxima de zero. Isso geralmente indica que os parâmetros estudados não estão relacionados entre si. Mas, às vezes, ocorre uma correlação zero se for feita uma amostra malsucedida que não reflita a relação ou se a relação tiver uma natureza não linear complexa.

Se o coeficiente apresentar uma relação média ou forte (de ±0,5 a ±0,99), deve-se lembrar que esta é apenas uma relação estatística, o que não garante de forma alguma a influência de um parâmetro sobre o outro. Também é impossível excluir a situação em que ambos os parâmetros são independentes um do outro, mas são afetados por algum terceiro fator não contabilizado. O Excel ajuda você a calcular instantaneamente o coeficiente de correlação, mas geralmente apenas Métodos Quantitativos insuficiente para estabelecer relações causais em amostras comparáveis.

O coeficiente de correlação (ou coeficiente de correlação linear) é denotado como "r" (em casos raros como "ρ") e caracteriza uma correlação linear (ou seja, uma relação que se dá por algum valor e direção) de duas ou mais variáveis. O valor do coeficiente fica entre -1 e +1, ou seja, a correlação pode ser tanto positiva quanto negativa. Se o coeficiente de correlação for -1, existe uma correlação negativa perfeita; se o coeficiente de correlação for +1, existe uma correlação positiva perfeita. Em outros casos, há uma correlação positiva, uma correlação negativa ou nenhuma correlação entre as duas variáveis. O coeficiente de correlação pode ser calculado manualmente, com calculadoras online gratuitas ou com uma boa calculadora gráfica.

Passos

Calculando o coeficiente de correlação manualmente

    Reunir dados. Antes de começar a calcular o coeficiente de correlação, examine o par de números fornecido. É melhor escrevê-los em uma tabela que pode ser disposta verticalmente ou horizontalmente. Rotule cada linha ou coluna como um "x" e um "y".

    • Por exemplo, dados quatro pares de valores (números) das variáveis ​​"x" e "y". Você pode criar a seguinte tabela:
      • x || y
      • 1 || 1
      • 2 || 3
      • 4 || 5
      • 5 || 7
  1. Calcule a média aritmética "x". Para fazer isso, some todos os valores de "x" e divida o resultado pelo número de valores.

    • Em nosso exemplo, temos quatro valores para a variável "x". Para calcular a média aritmética "x", some esses valores e depois divida a soma por 4. Os cálculos serão escritos da seguinte forma:
    • μ x = (1 + 2 + 4 + 5) / 4 (\displaystyle \mu _(x)=(1+2+4+5)/4)
    • μ x = 12/4 (\displaystyle \mu _(x)=12/4)
    • μ x = 3 (\displaystyle \mu _(x)=3)
  2. Encontre a média aritmética "y". Para fazer isso, siga os mesmos passos, ou seja, some todos os valores de “y” e depois divida a soma pelo número de valores.

    • Em nosso exemplo, recebemos quatro valores para a variável "y". Adicione esses valores e, em seguida, divida a soma por 4. Os cálculos serão escritos da seguinte forma:
    • μ y = (1 + 3 + 5 + 7) / 4 (\displaystyle \mu _(y)=(1+3+5+7)/4)
    • μ y = 16/4 (\displaystyle \mu _(y)=16/4)
    • μ y = 4 (\displaystyle \mu _(y)=4)
  3. Calcule o desvio padrão de "x". Depois de calcular as médias de x e y, encontre os desvios padrão dessas variáveis. O desvio padrão é calculado usando a seguinte fórmula:

    • σ x = 1 n − 1 Σ (x − μ x) 2 (\displaystyle \sigma _(x)=(\sqrt ((\frac (1)(n-1))\Sigma (x-\mu _( x))^(2))))
    • σ x = 1 4 − 1 ∗ ((1 − 3) 2 + (2 − 3) 2 + (4 − 3) 2 + (5 − 3) 2) (\displaystyle \sigma _(x)=(\sqrt ((\frac (1)(4-1))*((1-3)^(2)+(2-3)^(2)+(4-3)^(2)+(5-3) ^(2))))
    • σ x = 1 3 ∗ (4 + 1 + 1 + 4) (\displaystyle \sigma _(x)=(\sqrt ((\frac (1)(3))*(4+1+1+4)) ))
    • σ x = 1 3 ∗ (10) (\displaystyle \sigma _(x)=(\sqrt ((\frac (1)(3))*(10))))
    • σ x = 10 3 (\displaystyle \sigma _(x)=(\sqrt (\frac (10)(3))))
    • σ x = 1 , 83 (\displaystyle \sigma _(x)=1,83)
  4. Calcule o desvio padrão "y". Siga as etapas na etapa anterior. Use a mesma fórmula, mas substitua os valores "y" nela.

    • No nosso exemplo, os cálculos serão escritos da seguinte forma:
    • σ y = 1 4 − 1 ∗ ((1 − 4) 2 + (3 − 4) 2 + (5 − 4) 2 + (7 − 4) 2) (\displaystyle \sigma _(y)=(\sqrt ((\frac (1)(4-1))*((1-4)^(2)+(3-4)^(2)+(5-4)^(2)+(7-4) ^(2))))
    • σ y = 1 3 ∗ (9 + 1 + 1 + 9) (\displaystyle \sigma _(y)=(\sqrt ((\frac (1)(3))*(9+1+1+9)) ))
    • σ y = 1 3 ∗ (20) (\displaystyle \sigma _(y)=(\sqrt ((\frac (1)(3))*(20))))
    • σ y = 20 3 (\displaystyle \sigma _(y)=(\sqrt (\frac (20)(3))))
    • σ y = 2 , 58 (\displaystyle \sigma _(y)=2.58)
  5. Escreva a fórmula básica para calcular o coeficiente de correlação. Essa fórmula inclui médias, desvios padrão e o número (n) de pares de números de ambas as variáveis. O coeficiente de correlação é denotado como "r" (em casos raros, como "ρ"). Este artigo usa a fórmula para calcular o coeficiente de correlação de Pearson.

    • Aqui e em outras fontes, as quantidades podem ser denotadas de maneiras diferentes. Por exemplo, algumas fórmulas têm "ρ" e "σ", enquanto outras têm "r" e "s". Alguns livros fornecem outras fórmulas, mas são o equivalente matemático da fórmula acima.
  6. Você calculou as médias e os desvios padrão de ambas as variáveis, portanto, pode usar a fórmula para calcular o coeficiente de correlação. Lembre-se de que "n" é o número de pares de valores de ambas as variáveis. O valor de outras quantidades foram calculados anteriormente.

    • No nosso exemplo, os cálculos serão escritos da seguinte forma:
    • ρ = (1 n − 1) Σ (x − μ x σ x) ∗ (y − μ y σ y) (\displaystyle \rho =\left((\frac (1)(n-1))\right) \Sigma \left((\frac (x-\mu _(x))(\sigma _(x)))\right)*\left((\frac (y-\mu _(y))(\sigma _(s)))\direita))
    • ρ = (1 3) ∗ (\displaystyle \rho =\left((\frac (1)(3))\right)*)[ (1 − 3 1 , 83) ∗ (1 − 4 2 , 58) + (2 − 3 1 , 83) ∗ (3 − 4 2 , 58) (\displaystyle \left((\frac (1-3)( 1,83))\direita)*\esquerda((\frac (1-4)(2,58))\direita)+\esquerda((\frac (2-3)(1,83))\direita) *\esquerda((\ frac (3-4)(2,58))\direita))
      + (4 − 3 1 , 83) ∗ (5 − 4 2 , 58) + (5 − 3 1 , 83) ∗ (7 − 4 2 , 58) (\displaystyle +\left((\frac (4-3 )(1,83))\direita)*\esquerda((\frac (5-4)(2,58))\direita)+\esquerda((\frac (5-3)(1,83))\ direita)*\esquerda( (\frac (7-4)(2,58))\direita))]
    • ρ = (1 3) ∗ (6 + 1 + 1 + 6 4 , 721) (\displaystyle \rho =\left((\frac (1)(3))\right)*\left((\frac (6) +1+1+6)(4.721))\direita))
    • ρ = (1 3) ∗ 2 , 965 (\displaystyle \rho =\left((\frac (1)(3))\right)*2,965)
    • ρ = (2 , 965 3) (\displaystyle \rho =\left((\frac (2,965)(3))\right))
    • ρ = 0,988 (\displaystyle \rho =0,988)
  7. Analise o resultado. Em nosso exemplo, o coeficiente de correlação é 0,988. Esse valor de alguma forma caracteriza um determinado conjunto de pares de números. Preste atenção no sinal e na magnitude do valor.

    • Como o valor do coeficiente de correlação é positivo, existe uma correlação positiva entre as variáveis ​​"x" e "y". Ou seja, quando o valor de "x" aumenta, o valor de "y" também aumenta.
    • Como o valor do coeficiente de correlação é muito próximo de +1, os valores das variáveis ​​x e y são altamente correlacionados. Se você colocar pontos plano coordenado, eles estarão localizados perto de alguma linha reta.

    Usando calculadoras on-line para calcular o coeficiente de correlação

    1. Encontre uma calculadora na Internet para calcular o coeficiente de correlação. Este coeficiente é frequentemente calculado em estatísticas. Se houver muitos pares de números, é praticamente impossível calcular o coeficiente de correlação manualmente. Portanto, existem calculadoras online para calcular o coeficiente de correlação. No mecanismo de pesquisa, digite "calculadora do coeficiente de correlação" (sem aspas).

    2. Inserir dados. Leia as instruções do site para inserir os dados corretamente (pares de números). É extremamente importante inserir os pares de números apropriados; caso contrário, você obterá um resultado errado. Lembre-se de que diferentes sites têm diferentes formatos de entrada de dados.

      • Por exemplo, no site http://ncalculators.com/statistics/correlation-coeficiente-calculator.htm, os valores das variáveis ​​"x" e "y" são inseridos em duas linhas horizontais. Os valores são separados por vírgulas. Ou seja, no nosso exemplo, os valores de "x" são inseridos assim: 1,2,4,5, e os valores de "y" são assim: 1,3,5,7.
      • Em outro site, http://www.alcula.com/calculators/statistics/correlation-coeficiente/ , os dados são inseridos verticalmente; neste caso, não confunda os pares de números correspondentes.
    3. Calcule o coeficiente de correlação. Após inserir os dados, basta clicar no botão "Calcular", "Calcular" ou similar para obter o resultado.

      Usando uma calculadora gráfica

      1. Inserir dados. Pegue uma calculadora gráfica, mude para o modo de cálculo estatístico e selecione o comando Editar.

        • Em calculadoras diferentes, você precisa pressionar teclas diferentes. Este artigo se concentra na calculadora Texas Instruments TI-86.
        • Para mudar para o modo de cálculo estatístico, pressione - Stat (acima da tecla "+"). Em seguida, pressione F2 - Editar (Editar).
      2. Excluir dados salvos anteriores. A maioria das calculadoras mantém as estatísticas inseridas até que você as limpe. Para evitar confundir dados antigos com dados novos, exclua primeiro todas as informações armazenadas.

        • Use as teclas de seta para mover o cursor e destacar o cabeçalho "xStat". Em seguida, pressione Clear e Enter para limpar todos os valores inseridos na coluna xStat.
        • Use as teclas de seta para realçar o cabeçalho "yStat". Em seguida, pressione Clear e Enter para limpar todos os valores inseridos na coluna yStat.
      3. Digite os dados iniciais. Use as teclas de seta para mover o cursor para a primeira célula sob o cabeçalho "xStat". Insira o primeiro valor e pressione Enter. Na parte inferior da tela, "xStat (1) = __" será exibido, com o valor inserido em vez de um espaço. Depois de pressionar Enter, o valor inserido aparecerá na tabela e o cursor se moverá para a próxima linha; isso exibirá "xStat(2) = __" na parte inferior da tela.

        • Digite todos os valores da variável "x".
        • Depois de inserir todos os valores para a variável x, use as teclas de seta para navegar até a coluna yStat e insira os valores para a variável y.
        • Depois de inserir todos os pares de números, pressione Sair para limpar a tela e sair do modo de agregação.
      4. Calcule o coeficiente de correlação. Caracteriza o quão próximo os dados estão de alguma linha reta. A calculadora gráfica pode determinar rapidamente a linha reta apropriada e calcular o coeficiente de correlação.

        • Clique em Stat (estatísticas) - Calc (cálculos). Na TI-86, pressione - - .
        • Selecione a função "Regressão Linear". Na TI-86, pressione , que está identificado como "LinR". A linha “LinR _” será exibida na tela com um cursor piscando.
        • Agora insira os nomes de duas variáveis: xStat e yStat.
          • Na TI-86, abra a lista de nomes; para fazer isso, pressione – – .
          • As variáveis ​​disponíveis são exibidas na linha inferior da tela. Selecione (provavelmente pressionando F1 ou F2), insira uma vírgula e selecione .
          • Pressione Enter para processar os dados inseridos.
      5. Analise os resultados. Ao pressionar Enter, as seguintes informações serão exibidas na tela:

        • y = a + b x (\displaystyle y=a+bx): é uma função que descreve uma linha reta. Observe que a função não é escrita na forma padrão (y = kx + b).
        • a = (\displaystyle a=). Esta é a coordenada y do ponto onde a linha cruza com o eixo y.
        • b = (\displaystyle b=). isto declive direto.
        • corr = (\displaystyle (\text(corr))=). Este é o coeficiente de correlação.
        • n = (\displaystyle n=). Este é o número de pares de números que foram usados ​​nos cálculos.

Um utilitário que é amplamente utilizado em muitas empresas e empreendimentos. A realidade é que quase todo funcionário deve ser proficiente em Excel até certo ponto, já que esse programa é usado para resolver uma gama muito ampla de tarefas. Ao trabalhar com tabelas, muitas vezes é necessário determinar se certas variáveis ​​estão relacionadas entre si. Para isso, utiliza-se a chamada correlação. Neste artigo, veremos detalhadamente como calcular o coeficiente de correlação no Excel. Vamos descobrir. Vai!

Vamos começar com o que é o coeficiente de correlação em geral. Indica o grau de relacionamento entre dois elementos e sempre varia de -1 (forte relação inversa) a 1 (forte relação direta). Se o coeficiente for 0, isso indica que não há relação entre os valores.

Agora, tendo lidado com a teoria, vamos à prática. Para encontrar a relação entre as variáveis ​​e y, use a função interna do Microsoft Excel "CORREL". Para fazer isso, clique no botão do assistente de função (localizado ao lado do campo da fórmula). Na janela que se abre, selecione "CORREL" na lista de funções. Depois disso, defina o intervalo nos campos "Array1" e "Array2". Por exemplo, para "Array1" selecione os valores y e para "Array2" selecione os valores x. Como resultado, você obterá o coeficiente de correlação calculado pelo programa.

O método a seguir será relevante para os alunos que precisam encontrar uma dependência usando uma determinada fórmula. Antes de tudo, você precisa saber os valores médios das variáveis ​​x e y. Para fazer isso, selecione os valores da variável e use a função "MÉDIA". Em seguida, você precisa calcular a diferença entre cada x e x avg e y avg. Nas células selecionadas, escreva fórmulas x-x, y-. Não se esqueça de fixar células com valores médios. Em seguida, arraste a fórmula para baixo para que ela se aplique ao restante dos números.

Agora que temos todos os dados necessários, podemos calcular a correlação. Multiplique as diferenças resultantes desta forma: (x-x avg) * (y-y avg). Depois de obter o resultado de cada uma das variáveis, some os números resultantes usando a função de soma automática. É assim que o numerador é calculado.

Agora vamos passar para o denominador. As diferenças calculadas devem ser elevadas ao quadrado. Para fazer isso, em uma coluna separada, insira as fórmulas: (x-x avg) 2 e (y-y avg) 2 . Em seguida, estique as fórmulas ao máximo. Em seguida, usando o botão "AutoSoma", encontre a soma de todas as colunas (para x e para y). Resta multiplicar as somas encontradas e extrair delas Raiz quadrada. O último passo é dividir o numerador pelo denominador. O resultado obtido será o coeficiente de correlação desejado.

Como você pode ver, sabendo trabalhar corretamente com as funções do Microsoft Excel, você pode simplificar significativamente a tarefa de calcular expressões matemáticas complexas. Graças às ferramentas implementadas no programa, você pode facilmente fazer uma análise de correlação no Excel em apenas alguns minutos, economizando tempo e esforço. Escreva nos comentários se o artigo te ajudou a entender o assunto, pergunte sobre tudo que te interessou sobre o tema discutido.

Perceber! A solução para o seu problema específico será semelhante este exemplo, incluindo todas as tabelas e textos explicativos abaixo, mas levando em consideração seus dados iniciais...

Uma tarefa:
Existe uma amostra relacionada de 26 pares de valores (x k ,y k ):

k 1 2 3 4 5 6 7 8 9 10
x k 25.20000 26.40000 26.00000 25.80000 24.90000 25.70000 25.70000 25.70000 26.10000 25.80000
y k 30.80000 29.40000 30.20000 30.50000 31.40000 30.30000 30.40000 30.50000 29.90000 30.40000

k 11 12 13 14 15 16 17 18 19 20
x k 25.90000 26.20000 25.60000 25.40000 26.60000 26.20000 26.00000 22.10000 25.90000 25.80000
y k 30.30000 30.50000 30.60000 31.00000 29.60000 30.40000 30.70000 31.60000 30.50000 30.60000

k 21 22 23 24 25 26
x k 25.90000 26.30000 26.10000 26.00000 26.40000 25.80000
y k 30.70000 30.10000 30.60000 30.50000 30.70000 30.80000

É necessário calcular/construir:
- coeficiente de correlação;
- testar a hipótese de dependência das variáveis ​​aleatórias X e Y, a um nível de significância α = 0,05;
- coeficientes da equação de regressão linear;
- diagrama de dispersão (campo de correlação) e gráfico de linha de regressão;

SOLUÇÃO:

1. Calcule o coeficiente de correlação.

O coeficiente de correlação é um indicador da influência probabilística mútua de duas variáveis ​​aleatórias. Coeficiente de correlação R pode tirar valores de -1 antes da +1 . Se o valor absoluto estiver mais próximo de 1 , então isso é evidência conexão forte entre os valores, e se mais próximo 0 - então, indica uma conexão fraca ou sua ausência. Se o valor absoluto R igual a um, então podemos falar de uma relação funcional entre quantidades, ou seja, uma quantidade pode ser expressa em termos de outra usando uma função matemática.


Você pode calcular o coeficiente de correlação usando as seguintes fórmulas:
n
Σ
k = 1
(x k -M x) 2 , y 2 =
Mx =
1
n
n
Σ
k = 1
x k , Meu =

ou de acordo com a fórmula

Rx,y =
M xy - M x M y
SxSy
(1.4), onde:
Mx =
1
n
n
Σ
k = 1
x k , Meu =
1
n
n
Σ
k = 1
e k , Mxy =
1
n
n
Σ
k = 1
x k y k (1,5)
P x 2 =
1
n
n
Σ
k = 1
x k 2 - M x 2, S e 2 =
1
n
n
Σ
k = 1
y k 2 - M y 2 (1,6)

Na prática, a fórmula (1.4) é mais usada para calcular o coeficiente de correlação, pois requer menos computação. No entanto, se a covariância foi previamente calculada cov(X,Y), então é mais vantajoso usar a fórmula (1.1), pois além do valor real da covariância, você também pode usar os resultados de cálculos intermediários.

1.1 Calcule o coeficiente de correlação usando a fórmula (1.4), para isso calculamos os valores x k 2 , y k 2 e x k y k e os inserimos na tabela 1.

tabela 1


k
x k y k x k 2 y k 2 x ky k
1 2 3 4 5 6
1 25.2 30.8 635.04000 948.64000 776.16000
2 26.4 29.4 696.96000 864.36000 776.16000
3 26.0 30.2 676.00000 912.04000 785.20000
4 25.8 30.5 665.64000 930.25000 786.90000
5 24.9 31.4 620.01000 985.96000 781.86000
6 25.7 30.3 660.49000 918.09000 778.71000
7 25.7 30.4 660.49000 924.16000 781.28000
8 25.7 30.5 660.49000 930.25000 783.85000
9 26.1 29.9 681.21000 894.01000 780.39000
10 25.8 30.4 665.64000 924.16000 784.32000
11 25.9 30.3 670.81000 918.09000 784.77000
12 26.2 30.5 686.44000 930.25000 799.10000
13 25.6 30.6 655.36000 936.36000 783.36000
14 25.4 31 645.16000 961.00000 787.40000
15 26.6 29.6 707.56000 876.16000 787.36000
16 26.2 30.4 686.44000 924.16000 796.48000
17 26 30.7 676.00000 942.49000 798.20000
18 22.1 31.6 488.41000 998.56000 698.36000
19 25.9 30.5 670.81000 930.25000 789.95000
20 25.8 30.6 665.64000 936.36000 789.48000
21 25.9 30.7 670.81000 942.49000 795.13000
22 26.3 30.1 691.69000 906.01000 791.63000
23 26.1 30.6 681.21000 936.36000 798.66000
24 26 30.5 676.00000 930.25000 793.00000
25 26.4 30.7 696.96000 942.49000 810.48000
26 25.8 30.8 665.64000 948.64000 794.64000


1.2. Calculamos M x pela fórmula (1,5).

1.2.1. x k

x 1 + x 2 + ... + x 26 = 25,20000 + 26,40000 + ... + 25,80000 = 669,500000

1.2.2.

669.50000 / 26 = 25.75000

M x = 25,750000

1.3. Da mesma forma, calculamos M y.

1.3.1. Vamos adicionar todos os elementos em sequência y k

y 1 + y 2 + … + y 26 = 30,80000 + 29,40000 + ... + 30,80000 = 793,000000

1.3.2. Divida a soma resultante pelo número de elementos da amostra

793.00000 / 26 = 30.50000

M y = 30,500000

1.4. Da mesma forma, calculamos M xy.

1.4.1. Adicionamos sequencialmente todos os elementos da 6ª coluna da tabela 1

776.16000 + 776.16000 + ... + 794.64000 = 20412.830000

1.4.2. Divida a soma resultante pelo número de elementos

20412.83000 / 26 = 785.10885

M xy = 785,108846

1.5. Calcule o valor de S x 2 usando a fórmula (1.6.).

1.5.1. Adicionamos sequencialmente todos os elementos da 4ª coluna da tabela 1

635.04000 + 696.96000 + ... + 665.64000 = 17256.910000

1.5.2. Divida a soma resultante pelo número de elementos

17256.91000 / 26 = 663.72731

1.5.3. Subtraia do último número o quadrado do valor M x obtemos o valor para S x 2

P x 2 = 663.72731 - 25.75000 2 = 663.72731 - 663.06250 = 0.66481

1.6. Calcule o valor de S y 2 pela fórmula (1.6.).

1.6.1. Adicionamos sequencialmente todos os elementos da 5ª coluna da tabela 1

948.64000 + 864.36000 + ... + 948.64000 = 24191.840000

1.6.2. Divida a soma resultante pelo número de elementos

24191.84000 / 26 = 930.45538

1.6.3. Subtraia do último número o quadrado de My , obtemos o valor de S y 2

S e 2 = 930.45538 - 30.50000 2 = 930.45538 - 930.25000 = 0.20538

1.7. Vamos calcular o produto de S x 2 e S y 2.

S x 2 S y 2 = 0,66481 0,20538 = 0,136541

1.8. Extraímos a raiz quadrada do último número, obtemos o valor S x S y.

S x S y = 0,36951

1.9. Calcule o valor do coeficiente de correlação de acordo com a fórmula (1.4.).

R = (785,10885 - 25,75000 30,50000) / 0,36951 = (785,10885 - 785,37500) / 0,36951 = -0,72028

RESPOSTA: Rx,y = -0,720279

2. Verificamos a significância do coeficiente de correlação (verificamos a hipótese de dependência).

Como a estimativa do coeficiente de correlação é calculada sobre uma amostra finita e, portanto, pode divergir de seu valor geral, é necessário verificar a significância do coeficiente de correlação. A verificação é feita usando o critério t:

t =
Rx,y
n-2
1 - R 2 x,y
(2.1)

valor aleatório t segue a distribuição t de Student e de acordo com a tabela de distribuição t é necessário encontrar o valor crítico do critério (t cr.α) em um dado nível de significância α . Se o módulo t calculado pela fórmula (2.1) for menor que tcr.α , então as dependências entre variáveis ​​aleatórias X e Y não são. Caso contrário, os dados experimentais não contradizem a hipótese sobre a dependência de variáveis ​​aleatórias.


2.1. Calculando o valor do critério t de acordo com a fórmula (2.1) obtemos:
t =
-0.72028
26 - 2
1 - (-0.72028) 2
= -5.08680

2.2. Vamos determinar o valor crítico do parâmetro t cr.α da tabela de distribuição t

O valor desejado t kr.α está localizado na interseção da linha correspondente ao número de graus de liberdade e a coluna correspondente a um dado nível de significância α .
No nosso caso, o número de graus de liberdade é n - 2 = 26 - 2 = 24 e α = 0.05 , que corresponde ao valor crítico do critério t cr.α = 2.064 (ver tabela 2)

mesa 2 distribuição t

Número de graus de liberdade
(n-2)
α = 0,1 α = 0,05 α = 0,02 α = 0,01 α = 0,002 α = 0,001
1 6.314 12.706 31.821 63.657 318.31 636.62
2 2.920 4.303 6.965 9.925 22.327 31.598
3 2.353 3.182 4.541 5.841 10.214 12.924
4 2.132 2.776 3.747 4.604 7.173 8.610
5 2.015 2.571 3.365 4.032 5.893 6.869
6 1.943 2.447 3.143 3.707 5.208 5.959
7 1.895 2.365 2.998 3.499 4.785 5.408
8 1.860 2.306 2.896 3.355 4.501 5.041
9 1.833 2.262 2.821 3.250 4.297 4.781
10 1.812 2.228 2.764 3.169 4.144 4.587
11 1.796 2.201 2.718 3.106 4.025 4.437
12 1.782 2.179 2.681 3.055 3.930 4.318
13 1.771 2.160 2.650 3.012 3.852 4.221
14 1.761 2.145 2.624 2.977 3.787 4.140
15 1.753 2.131 2.602 2.947 3.733 4.073
16 1.746 2.120 2.583 2.921 3.686 4.015
17 1.740 2.110 2.567 2.898 3.646 3.965
18 1.734 2.101 2.552 2.878 3.610 3.922
19 1.729 2.093 2.539 2.861 3.579 3.883
20 1.725 2.086 2.528 2.845 3.552 3.850
21 1.721 2.080 2.518 2.831 3.527 3.819
22 1.717 2.074 2.508 2.819 3.505 3.792
23 1.714 2.069 2.500 2.807 3.485 3.767
24 1.711 2.064 2.492 2.797 3.467 3.745
25 1.708 2.060 2.485 2.787 3.450 3.725
26 1.706 2.056 2.479 2.779 3.435 3.707
27 1.703 2.052 2.473 2.771 3.421 3.690
28 1.701 2.048 2.467 2.763 3.408 3.674
29 1.699 2.045 2.462 2.756 3.396 3.659
30 1.697 2.042 2.457 2.750 3.385 3.646
40 1.684 2.021 2.423 2.704 3.307 3.551
60 1.671 2.000 2.390 2.660 3.232 3.460
120 1.658 1.980 2.358 2.617 3.160 3.373
1.645 1.960 2.326 2.576 3.090 3.291


2.2. Vamos comparar o valor absoluto do critério t e t cr.α

O valor absoluto do critério t não é menor que o crítico t = 5,08680, tcr.α = 2,064, portanto dados experimentais, com uma probabilidade de 0,95(1 - α ), não contradiz a hipótese na dependência das variáveis ​​aleatórias X e Y.

3. Calculamos os coeficientes da equação de regressão linear.

A equação de regressão linear é uma equação de uma linha reta que aproxima (descreve aproximadamente) a relação entre as variáveis ​​aleatórias X e Y. Se assumirmos que X é livre e Y é dependente de X, então a equação de regressão será escrita da seguinte forma


Y = a + b X (3.1), onde:

b=Rx,y
y
σ x
= Rx,y
Sy
S x
(3.2),
a = M y - b M x (3.3)

O coeficiente calculado pela fórmula (3.2) bé chamado de coeficiente de regressão linear. Em algumas fontes uma chamado coeficiente constante regressão e b de acordo com as variáveis.

Os erros de previsão Y para um determinado valor X são calculados pelas fórmulas:

O valor σ y/x (fórmula 3.4) também é chamado desvio padrão residual, caracteriza o afastamento de Y da linha de regressão descrita pela equação (3.1) em um valor fixo (dado) de X.

.
S y 2 / S x 2 = 0,20538 / 0,66481 = 0,30894. Extraímos a raiz quadrada do último número - obtemos:
S y / S x = 0,55582

3.3 Calcular o coeficiente b pela fórmula (3.2)

b = -0.72028 0.55582 = -0.40035

3.4 Calcule o coeficiente a pela fórmula (3.3)

uma = 30.50000 - (-0.40035 25.75000) = 40.80894

3.5 Estimar os erros da equação de regressão.

3.5.1 Extraímos a raiz quadrada de S y 2 e obtemos:

= 0.31437
3.5.4 Vamos calcular o erro relativo pela fórmula (3.5)

δy/x = (0,31437 / 30,50000) 100% = 1,03073%

4. Construímos um gráfico de dispersão (campo de correlação) e um gráfico da linha de regressão.

Um gráfico de dispersão é uma representação gráfica dos pares correspondentes (x k , y k ) como pontos em um plano, em coordenadas retangulares com os eixos X e Y. O campo de correlação é uma das representações gráficas de uma amostra vinculada (pareada). No mesmo sistema de coordenadas, o gráfico da linha de regressão também é plotado. As escalas e os pontos iniciais dos eixos devem ser escolhidos com cuidado para que o diagrama seja o mais claro possível.

4.1. Encontramos o elemento mínimo e máximo da amostra X é o 18º e 15º elementos, respectivamente, x min = 22,10000 e x max = 26,60000.

4.2. Encontramos o elemento mínimo e máximo da amostra Y é o 2º e 18º elementos, respectivamente, y min = 29,40000 ey max = 31,60000.

4.3. No eixo das abcissas, selecionamos o ponto inicial logo à esquerda do ponto x 18 = 22,10000, e uma escala tal que o ponto x 15 = 26,60000 caiba no eixo e os demais pontos sejam claramente distinguidos.

4.4. No eixo y, selecionamos o ponto inicial logo à esquerda do ponto y 2 = 29,40000, e uma escala tal que o ponto y 18 = 31,60000 caiba no eixo e os outros pontos sejam claramente distinguidos.

4.5. No eixo das abcissas colocamos os valores x k , e no eixo das ordenadas colocamos os valores y k .

4.6. Colocamos pontos (x 1, y 1), (x 2, y 2), ..., (x 26, y 26) no plano de coordenadas. Obtemos um gráfico de dispersão (campo de correlação), mostrado na figura abaixo.

4.7. Vamos desenhar uma linha de regressão.

Para fazer isso, encontramos dois pontos diferentes com coordenadas (x r1 , y r1) e (x r2 , y r2) satisfazendo a equação (3.6), os colocamos no plano de coordenadas e traçamos uma linha através deles. Vamos tomar x min = 22,10000 como a abcissa do primeiro ponto. Substituindo o valor de x min na equação (3.6), obtemos a ordenada do primeiro ponto. Assim, temos um ponto com coordenadas (22.10000, 31.96127). Da mesma forma, obtemos as coordenadas do segundo ponto, definindo o valor x max = 26,60000 como abscissa. O segundo ponto será: (26.60000, 30.15970).

A linha de regressão é mostrada na figura abaixo em vermelho

Observe que a linha de regressão sempre passa pelo ponto dos valores médios de X e Y, ou seja, com coordenadas (M x , My y).