Tabela de correlação no excel. Um exemplo de cálculo da correlação, construindo uma regressão linear e testando a hipótese da dependência de dois VRs pelo nosso serviço

regressão e análise de correlação– métodos de pesquisa estatística. Essas são as formas mais comuns de mostrar a dependência de um parâmetro em uma ou mais variáveis independentes.

Abaixo em específico exemplos práticos Vamos considerar essas duas análises muito populares entre os economistas. Também daremos um exemplo de obtenção de resultados quando eles são combinados.

Análise de Regressão no Excel

Mostra a influência de alguns valores (independente, independente) na variável dependente. Por exemplo, como o número de população economicamente ativa depende do número de empresas, salários e outros parâmetros. Ou: como os investimentos estrangeiros, os preços da energia, etc. afetam o nível do PIB.

O resultado da análise permite que você priorize. E com base nos principais fatores, prever, planejar o desenvolvimento áreas prioritárias para tomar decisões gerenciais.

A regressão acontece:

linear (y = a + bx);
parabólica (y = a + bx + cx 2);
exponencial (y = a * exp(bx));
potência (y = a*x^b);
hiperbólica (y = b/x + a);
logarítmico (y = b * 1n(x) + a);
exponencial (y = a * b^x).

Considere o exemplo de construção de um modelo de regressão no Excel e interpretação dos resultados. Vamos pegar um tipo linear de regressão.

Uma tarefa. Em 6 empresas, a média mensal remuneração e o número de aposentados. É necessário determinar a dependência do número de aposentados do salário médio.

Modelo regressão linear tem a seguinte forma:

Y \u003d a 0 + a 1 x 1 + ... + a k x k.

Onde a são os coeficientes de regressão, x são as variáveis de influência e k é o número de fatores.

Em nosso exemplo, Y é o indicador de trabalhadores demitidos. O fator de influência é o salário (x).

O Excel possui funções internas que podem ser usadas para calcular os parâmetros de um modelo de regressão linear. Mas o suplemento Analysis ToolPak fará isso mais rápido.

Ative uma poderosa ferramenta analítica:

Depois de ativado, o complemento estará disponível na guia Dados.

Agora vamos lidar diretamente com a análise de regressão.

Em primeiro lugar, prestamos atenção ao quadrado R e aos coeficientes.

R-quadrado é o coeficiente de determinação. No nosso exemplo, é 0,755 ou 75,5%. Isso significa que os parâmetros calculados do modelo explicam a relação entre os parâmetros estudados em 75,5%. Quanto maior o coeficiente de determinação, melhor o modelo. Bom - acima de 0,8. Ruim - menos de 0,5 (essa análise dificilmente pode ser considerada razoável). No nosso exemplo - "nada mal".

O coeficiente 64,1428 mostra o que Y será se todas as variáveis do modelo considerado forem iguais a 0. Ou seja, outros fatores que não estão descritos no modelo também afetam o valor do parâmetro analisado.

O coeficiente -0,16285 mostra o peso da variável X sobre Y. Ou seja, o salário médio mensal dentro desse modelo afeta o número de desistentes com peso de -0,16285 (este é um pequeno grau de influência). O sinal “-” indica um impacto negativo: quanto maior o salário, menos desistência. O que é justo.

Análise de correlação no Excel

A análise de correlação ajuda a estabelecer se existe uma relação entre os indicadores em uma ou duas amostras. Por exemplo, entre o tempo de operação da máquina e o custo dos reparos, o preço do equipamento e a duração da operação, a altura e o peso das crianças, etc.

Se houver uma relação, então se um aumento em um parâmetro leva a um aumento (correlação positiva) ou a uma diminuição (negativa) no outro. A análise de correlação ajuda o analista a determinar se o valor de um indicador pode prever o possível valor de outro.

O coeficiente de correlação é denotado r. Varia de +1 a -1. Classificação de correlações para Áreas diferentes será diferente. Quando o valor do coeficiente é 0, não há relação linear entre as amostras.

Considere como usar o Excel para encontrar o coeficiente de correlação.

A função CORREL é usada para encontrar os coeficientes pareados.

Tarefa: Determinar se existe uma relação entre o tempo de trabalho torno e o custo de sua manutenção.

Coloque o cursor em qualquer célula e pressione o botão fx.

Na categoria "Estatística", selecione a função CORREL.
Argumento "Array 1" - o primeiro intervalo de valores - o tempo da máquina: A2: A14.
Argumento "Array 2" - a segunda faixa de valores - o custo dos reparos: B2:B14. Clique OK.

Para determinar o tipo de conexão, é necessário observar o número absoluto do coeficiente (cada campo de atividade possui sua própria escala).

Para análise de correlação de vários parâmetros (mais de 2), é mais conveniente usar "Análise de dados" (complemento "Pacote de análise"). Na lista, você precisa selecionar uma correlação e designar uma matriz. Tudo.

Os coeficientes resultantes serão exibidos na matriz de correlação. Como este:

Análise de correlação-regressão

Na prática, essas duas técnicas costumam ser usadas juntas.

Exemplo:

Agora os dados da análise de regressão estão visíveis.

"Correlação" em latim significa "correlação", "relação". Uma característica quantitativa da relação pode ser obtida calculando o coeficiente de correlação. Este popular em análises estatísticas o coeficiente mostra se algum parâmetro está relacionado entre si (por exemplo, altura e peso; nível de inteligência e desempenho acadêmico; número de lesões e horas de trabalho).

Usando Correlação

O cálculo de correlação é especialmente amplamente utilizado em economia, pesquisa sociológica, medicina e biometria - sempre que você pode obter dois conjuntos de dados entre os quais uma relação pode ser encontrada.

Você pode calcular a correlação manualmente executando operações aritméticas simples. No entanto, o processo de cálculo é muito demorado se o conjunto de dados for grande. A peculiaridade do método é que requer a coleta um grande número dados de origem para exibir com mais precisão se há uma relação entre os recursos. Portanto, o uso sério da análise de correlação é impossível sem o uso da tecnologia de computador. Um dos programas mais populares e acessíveis para resolver esse problema é.

Como realizar a correlação no Excel?

A etapa mais demorada na determinação da correlação é o conjunto de dados. Os dados a serem comparados geralmente são organizados em duas colunas ou linhas. A tabela deve ser feita sem lacunas nas células. Versões modernas O Excel (a partir de 2007) não requer configurações adicionais para cálculos estatísticos; manipulações necessárias podem ser feitas:

Selecione uma célula vazia na qual o resultado do cálculo será exibido.
Clique no item "Fórmulas" no menu principal do Excel.
Entre os botões agrupados na "Biblioteca de funções", selecione "Outras funções".
Nas listas suspensas, selecione a função de cálculo de correlação (Estatística - CORREL).
O Excel abre o painel Argumentos da função. "Array 1" e "Array 2" são os intervalos dos dados que estão sendo comparados. Para preencher automaticamente esses campos, basta selecionar as células da tabela desejadas.
Clique em OK para fechar a janela de argumentos da função. O coeficiente de correlação calculado aparecerá na célula.

A correlação pode ser direta (se o coeficiente for maior que zero) e inversa (de -1 a 0).

A primeira significa que conforme um parâmetro aumenta, o outro também aumenta. Uma correlação inversa (negativa) reflete o fato de que, à medida que uma variável aumenta, a outra diminui.

A correlação pode ser próxima de zero. Isso geralmente indica que os parâmetros estudados não estão relacionados entre si. Mas, às vezes, ocorre uma correlação zero se for feita uma amostra malsucedida que não reflita a relação ou se a relação tiver uma natureza não linear complexa.

Se o coeficiente apresentar uma relação média ou forte (de ±0,5 a ±0,99), deve-se lembrar que esta é apenas uma relação estatística, o que não garante de forma alguma a influência de um parâmetro sobre o outro. Também é impossível excluir a situação em que ambos os parâmetros são independentes um do outro, mas são afetados por algum terceiro fator não contabilizado. O Excel ajuda você a calcular instantaneamente o coeficiente de correlação, mas geralmente apenas Métodos Quantitativos insuficiente para estabelecer relações causais em amostras comparáveis.

O coeficiente de correlação (ou coeficiente de correlação linear) é denotado como "r" (em casos raros como "ρ") e caracteriza uma correlação linear (ou seja, uma relação que se dá por algum valor e direção) de duas ou mais variáveis. O valor do coeficiente fica entre -1 e +1, ou seja, a correlação pode ser tanto positiva quanto negativa. Se o coeficiente de correlação for -1, existe uma correlação negativa perfeita; se o coeficiente de correlação for +1, existe uma correlação positiva perfeita. Em outros casos, há uma correlação positiva, uma correlação negativa ou nenhuma correlação entre as duas variáveis. O coeficiente de correlação pode ser calculado manualmente, com calculadoras online gratuitas ou com uma boa calculadora gráfica.

Passos

Calculando o coeficiente de correlação manualmente

Reunir dados. Antes de começar a calcular o coeficiente de correlação, examine o par de números fornecido. É melhor escrevê-los em uma tabela que pode ser disposta verticalmente ou horizontalmente. Rotule cada linha ou coluna como um "x" e um "y".

Por exemplo, dados quatro pares de valores (números) das variáveis "x" e "y". Você pode criar a seguinte tabela:
- x || y
- 1 || 1
- 2 || 3
- 4 || 5
- 5 || 7

Calcule a média aritmética "x". Para fazer isso, some todos os valores de "x" e divida o resultado pelo número de valores.
- Em nosso exemplo, temos quatro valores para a variável "x". Para calcular a média aritmética "x", some esses valores e depois divida a soma por 4. Os cálculos serão escritos da seguinte forma:
- μ x = (1 + 2 + 4 + 5) / 4 (\displaystyle \mu _(x)=(1+2+4+5)/4)
- μ x = 12/4 (\displaystyle \mu _(x)=12/4)
- μ x = 3 (\displaystyle \mu _(x)=3)
Encontre a média aritmética "y". Para fazer isso, siga os mesmos passos, ou seja, some todos os valores de “y” e depois divida a soma pelo número de valores.
- Em nosso exemplo, recebemos quatro valores para a variável "y". Adicione esses valores e, em seguida, divida a soma por 4. Os cálculos serão escritos da seguinte forma:
- μ y = (1 + 3 + 5 + 7) / 4 (\displaystyle \mu _(y)=(1+3+5+7)/4)
- μ y = 16/4 (\displaystyle \mu _(y)=16/4)
- μ y = 4 (\displaystyle \mu _(y)=4)
Calcule o desvio padrão de "x". Depois de calcular as médias de x e y, encontre os desvios padrão dessas variáveis. O desvio padrão é calculado usando a seguinte fórmula:
- σ x = 1 n − 1 Σ (x − μ x) 2 (\displaystyle \sigma _(x)=(\sqrt ((\frac (1)(n-1))\Sigma (x-\mu _( x))^(2))))
- σ x = 1 4 − 1 ∗ ((1 − 3) 2 + (2 − 3) 2 + (4 − 3) 2 + (5 − 3) 2) (\displaystyle \sigma _(x)=(\sqrt ((\frac (1)(4-1))*((1-3)^(2)+(2-3)^(2)+(4-3)^(2)+(5-3) ^(2))))
- σ x = 1 3 ∗ (4 + 1 + 1 + 4) (\displaystyle \sigma _(x)=(\sqrt ((\frac (1)(3))*(4+1+1+4)) ))
- σ x = 1 3 ∗ (10) (\displaystyle \sigma _(x)=(\sqrt ((\frac (1)(3))*(10))))
- σ x = 10 3 (\displaystyle \sigma _(x)=(\sqrt (\frac (10)(3))))
- σ x = 1 , 83 (\displaystyle \sigma _(x)=1,83)
Calcule o desvio padrão "y". Siga as etapas na etapa anterior. Use a mesma fórmula, mas substitua os valores "y" nela.
- No nosso exemplo, os cálculos serão escritos da seguinte forma:
- σ y = 1 4 − 1 ∗ ((1 − 4) 2 + (3 − 4) 2 + (5 − 4) 2 + (7 − 4) 2) (\displaystyle \sigma _(y)=(\sqrt ((\frac (1)(4-1))*((1-4)^(2)+(3-4)^(2)+(5-4)^(2)+(7-4) ^(2))))
- σ y = 1 3 ∗ (9 + 1 + 1 + 9) (\displaystyle \sigma _(y)=(\sqrt ((\frac (1)(3))*(9+1+1+9)) ))
- σ y = 1 3 ∗ (20) (\displaystyle \sigma _(y)=(\sqrt ((\frac (1)(3))*(20))))
- σ y = 20 3 (\displaystyle \sigma _(y)=(\sqrt (\frac (20)(3))))
- σ y = 2 , 58 (\displaystyle \sigma _(y)=2.58)
Escreva a fórmula básica para calcular o coeficiente de correlação. Essa fórmula inclui médias, desvios padrão e o número (n) de pares de números de ambas as variáveis. O coeficiente de correlação é denotado como "r" (em casos raros, como "ρ"). Este artigo usa a fórmula para calcular o coeficiente de correlação de Pearson.
- Aqui e em outras fontes, as quantidades podem ser denotadas de maneiras diferentes. Por exemplo, algumas fórmulas têm "ρ" e "σ", enquanto outras têm "r" e "s". Alguns livros fornecem outras fórmulas, mas são o equivalente matemático da fórmula acima.
Você calculou as médias e os desvios padrão de ambas as variáveis, portanto, pode usar a fórmula para calcular o coeficiente de correlação. Lembre-se de que "n" é o número de pares de valores de ambas as variáveis. O valor de outras quantidades foram calculados anteriormente.
- No nosso exemplo, os cálculos serão escritos da seguinte forma:
- ρ = (1 n − 1) Σ (x − μ x σ x) ∗ (y − μ y σ y) (\displaystyle \rho =\left((\frac (1)(n-1))\right) \Sigma \left((\frac (x-\mu _(x))(\sigma _(x)))\right)*\left((\frac (y-\mu _(y))(\sigma _(s)))\direita))
- ρ = (1 3) ∗ (\displaystyle \rho =\left((\frac (1)(3))\right)*)[ (1 − 3 1 , 83) ∗ (1 − 4 2 , 58) + (2 − 3 1 , 83) ∗ (3 − 4 2 , 58) (\displaystyle \left((\frac (1-3)( 1,83))\direita)*\esquerda((\frac (1-4)(2,58))\direita)+\esquerda((\frac (2-3)(1,83))\direita) *\esquerda((\ frac (3-4)(2,58))\direita))
  + (4 − 3 1 , 83) ∗ (5 − 4 2 , 58) + (5 − 3 1 , 83) ∗ (7 − 4 2 , 58) (\displaystyle +\left((\frac (4-3 )(1,83))\direita)*\esquerda((\frac (5-4)(2,58))\direita)+\esquerda((\frac (5-3)(1,83))\ direita)*\esquerda( (\frac (7-4)(2,58))\direita))]
- ρ = (1 3) ∗ (6 + 1 + 1 + 6 4 , 721) (\displaystyle \rho =\left((\frac (1)(3))\right)*\left((\frac (6) +1+1+6)(4.721))\direita))
- ρ = (1 3) ∗ 2 , 965 (\displaystyle \rho =\left((\frac (1)(3))\right)*2,965)
- ρ = (2 , 965 3) (\displaystyle \rho =\left((\frac (2,965)(3))\right))
- ρ = 0,988 (\displaystyle \rho =0,988)
Analise o resultado. Em nosso exemplo, o coeficiente de correlação é 0,988. Esse valor de alguma forma caracteriza um determinado conjunto de pares de números. Preste atenção no sinal e na magnitude do valor.
- Como o valor do coeficiente de correlação é positivo, existe uma correlação positiva entre as variáveis "x" e "y". Ou seja, quando o valor de "x" aumenta, o valor de "y" também aumenta.
- Como o valor do coeficiente de correlação é muito próximo de +1, os valores das variáveis x e y são altamente correlacionados. Se você colocar pontos plano coordenado, eles estarão localizados perto de alguma linha reta.
Usando calculadoras on-line para calcular o coeficiente de correlação
1. Encontre uma calculadora na Internet para calcular o coeficiente de correlação. Este coeficiente é frequentemente calculado em estatísticas. Se houver muitos pares de números, é praticamente impossível calcular o coeficiente de correlação manualmente. Portanto, existem calculadoras online para calcular o coeficiente de correlação. No mecanismo de pesquisa, digite "calculadora do coeficiente de correlação" (sem aspas).
2. Inserir dados. Leia as instruções do site para inserir os dados corretamente (pares de números). É extremamente importante inserir os pares de números apropriados; caso contrário, você obterá um resultado errado. Lembre-se de que diferentes sites têm diferentes formatos de entrada de dados.
  - Por exemplo, no site http://ncalculators.com/statistics/correlation-coeficiente-calculator.htm, os valores das variáveis "x" e "y" são inseridos em duas linhas horizontais. Os valores são separados por vírgulas. Ou seja, no nosso exemplo, os valores de "x" são inseridos assim: 1,2,4,5, e os valores de "y" são assim: 1,3,5,7.
  - Em outro site, http://www.alcula.com/calculators/statistics/correlation-coeficiente/ , os dados são inseridos verticalmente; neste caso, não confunda os pares de números correspondentes.
3. Calcule o coeficiente de correlação. Após inserir os dados, basta clicar no botão "Calcular", "Calcular" ou similar para obter o resultado.
  
  Usando uma calculadora gráfica
  1. Inserir dados. Pegue uma calculadora gráfica, mude para o modo de cálculo estatístico e selecione o comando Editar.
    - Em calculadoras diferentes, você precisa pressionar teclas diferentes. Este artigo se concentra na calculadora Texas Instruments TI-86.
    - Para mudar para o modo de cálculo estatístico, pressione - Stat (acima da tecla "+"). Em seguida, pressione F2 - Editar (Editar).
  2. Excluir dados salvos anteriores. A maioria das calculadoras mantém as estatísticas inseridas até que você as limpe. Para evitar confundir dados antigos com dados novos, exclua primeiro todas as informações armazenadas.
    - Use as teclas de seta para mover o cursor e destacar o cabeçalho "xStat". Em seguida, pressione Clear e Enter para limpar todos os valores inseridos na coluna xStat.
    - Use as teclas de seta para realçar o cabeçalho "yStat". Em seguida, pressione Clear e Enter para limpar todos os valores inseridos na coluna yStat.
  3. Digite os dados iniciais. Use as teclas de seta para mover o cursor para a primeira célula sob o cabeçalho "xStat". Insira o primeiro valor e pressione Enter. Na parte inferior da tela, "xStat (1) = __" será exibido, com o valor inserido em vez de um espaço. Depois de pressionar Enter, o valor inserido aparecerá na tabela e o cursor se moverá para a próxima linha; isso exibirá "xStat(2) = __" na parte inferior da tela.
    - Digite todos os valores da variável "x".
    - Depois de inserir todos os valores para a variável x, use as teclas de seta para navegar até a coluna yStat e insira os valores para a variável y.
    - Depois de inserir todos os pares de números, pressione Sair para limpar a tela e sair do modo de agregação.
  4. Calcule o coeficiente de correlação. Caracteriza o quão próximo os dados estão de alguma linha reta. A calculadora gráfica pode determinar rapidamente a linha reta apropriada e calcular o coeficiente de correlação.
    - Clique em Stat (estatísticas) - Calc (cálculos). Na TI-86, pressione - - .
    - Selecione a função "Regressão Linear". Na TI-86, pressione , que está identificado como "LinR". A linha “LinR _” será exibida na tela com um cursor piscando.
    - Agora insira os nomes de duas variáveis: xStat e yStat.
      - Na TI-86, abra a lista de nomes; para fazer isso, pressione – – .
      - As variáveis disponíveis são exibidas na linha inferior da tela. Selecione (provavelmente pressionando F1 ou F2), insira uma vírgula e selecione .
      - Pressione Enter para processar os dados inseridos.
  5. Analise os resultados. Ao pressionar Enter, as seguintes informações serão exibidas na tela:
    - y = a + b x (\displaystyle y=a+bx): é uma função que descreve uma linha reta. Observe que a função não é escrita na forma padrão (y = kx + b).
    - a = (\displaystyle a=). Esta é a coordenada y do ponto onde a linha cruza com o eixo y.
    - b = (\displaystyle b=). isto declive direto.
    - corr = (\displaystyle (\text(corr))=). Este é o coeficiente de correlação.
    - n = (\displaystyle n=). Este é o número de pares de números que foram usados nos cálculos.

Um utilitário que é amplamente utilizado em muitas empresas e empreendimentos. A realidade é que quase todo funcionário deve ser proficiente em Excel até certo ponto, já que esse programa é usado para resolver uma gama muito ampla de tarefas. Ao trabalhar com tabelas, muitas vezes é necessário determinar se certas variáveis estão relacionadas entre si. Para isso, utiliza-se a chamada correlação. Neste artigo, veremos detalhadamente como calcular o coeficiente de correlação no Excel. Vamos descobrir. Vai!

Vamos começar com o que é o coeficiente de correlação em geral. Indica o grau de relacionamento entre dois elementos e sempre varia de -1 (forte relação inversa) a 1 (forte relação direta). Se o coeficiente for 0, isso indica que não há relação entre os valores.

Agora, tendo lidado com a teoria, vamos à prática. Para encontrar a relação entre as variáveis e y, use a função interna do Microsoft Excel "CORREL". Para fazer isso, clique no botão do assistente de função (localizado ao lado do campo da fórmula). Na janela que se abre, selecione "CORREL" na lista de funções. Depois disso, defina o intervalo nos campos "Array1" e "Array2". Por exemplo, para "Array1" selecione os valores y e para "Array2" selecione os valores x. Como resultado, você obterá o coeficiente de correlação calculado pelo programa.

O método a seguir será relevante para os alunos que precisam encontrar uma dependência usando uma determinada fórmula. Antes de tudo, você precisa saber os valores médios das variáveis x e y. Para fazer isso, selecione os valores da variável e use a função "MÉDIA". Em seguida, você precisa calcular a diferença entre cada x e x avg e y avg. Nas células selecionadas, escreva fórmulas x-x, y-. Não se esqueça de fixar células com valores médios. Em seguida, arraste a fórmula para baixo para que ela se aplique ao restante dos números.

Agora que temos todos os dados necessários, podemos calcular a correlação. Multiplique as diferenças resultantes desta forma: (x-x avg) * (y-y avg). Depois de obter o resultado de cada uma das variáveis, some os números resultantes usando a função de soma automática. É assim que o numerador é calculado.

Agora vamos passar para o denominador. As diferenças calculadas devem ser elevadas ao quadrado. Para fazer isso, em uma coluna separada, insira as fórmulas: (x-x avg) 2 e (y-y avg) 2 . Em seguida, estique as fórmulas ao máximo. Em seguida, usando o botão "AutoSoma", encontre a soma de todas as colunas (para x e para y). Resta multiplicar as somas encontradas e extrair delas Raiz quadrada. O último passo é dividir o numerador pelo denominador. O resultado obtido será o coeficiente de correlação desejado.

Como você pode ver, sabendo trabalhar corretamente com as funções do Microsoft Excel, você pode simplificar significativamente a tarefa de calcular expressões matemáticas complexas. Graças às ferramentas implementadas no programa, você pode facilmente fazer uma análise de correlação no Excel em apenas alguns minutos, economizando tempo e esforço. Escreva nos comentários se o artigo te ajudou a entender o assunto, pergunte sobre tudo que te interessou sobre o tema discutido.

Perceber! A solução para o seu problema específico será semelhante este exemplo, incluindo todas as tabelas e textos explicativos abaixo, mas levando em consideração seus dados iniciais...

Uma tarefa:
Existe uma amostra relacionada de 26 pares de valores (x k ,y k ):

k	1	2	3	4	5	6	7	8	9	10
*x k*	25.20000	26.40000	26.00000	25.80000	24.90000	25.70000	25.70000	25.70000	26.10000	25.80000
*y k*	30.80000	29.40000	30.20000	30.50000	31.40000	30.30000	30.40000	30.50000	29.90000	30.40000

k	11	12	13	14	15	16	17	18	19	20
*x k*	25.90000	26.20000	25.60000	25.40000	26.60000	26.20000	26.00000	22.10000	25.90000	25.80000
*y k*	30.30000	30.50000	30.60000	31.00000	29.60000	30.40000	30.70000	31.60000	30.50000	30.60000

k	21	22	23	24	25	26
*x k*	25.90000	26.30000	26.10000	26.00000	26.40000	25.80000
*y k*	30.70000	30.10000	30.60000	30.50000	30.70000	30.80000

É necessário calcular/construir:
- coeficiente de correlação;
- testar a hipótese de dependência das variáveis aleatórias X e Y, a um nível de significância α = 0,05;
- coeficientes da equação de regressão linear;
- diagrama de dispersão (campo de correlação) e gráfico de linha de regressão;

SOLUÇÃO:

1. Calcule o coeficiente de correlação.

O coeficiente de correlação é um indicador da influência probabilística mútua de duas variáveis aleatórias. Coeficiente de correlação R pode tirar valores de -1 antes da +1 . Se o valor absoluto estiver mais próximo de 1 , então isso é evidência conexão forte entre os valores, e se mais próximo 0 - então, indica uma conexão fraca ou sua ausência. Se o valor absoluto R igual a um, então podemos falar de uma relação funcional entre quantidades, ou seja, uma quantidade pode ser expressa em termos de outra usando uma função matemática.

Você pode calcular o coeficiente de correlação usando as seguintes fórmulas:

k = 1

(x k -M x) 2 , y 2 =

k = 1

x k ,

Meu

ou de acordo com a fórmula

Rx,y

M xy - M x M y

SxSy

(1.4), onde:

k = 1

x k ,

Meu

k = 1

e k ,

Mxy

k = 1

x k y k (1,5)

P x 2

k = 1

x k 2 - M x 2,

S e 2

k = 1

y k 2 - M y 2 (1,6)

Na prática, a fórmula (1.4) é mais usada para calcular o coeficiente de correlação, pois requer menos computação. No entanto, se a covariância foi previamente calculada cov(X,Y), então é mais vantajoso usar a fórmula (1.1), pois além do valor real da covariância, você também pode usar os resultados de cálculos intermediários.

1.1 Calcule o coeficiente de correlação usando a fórmula (1.4), para isso calculamos os valores x k 2 , y k 2 e x k y k e os inserimos na tabela 1.

tabela 1

k	*x k*	*y k*	x k 2	y k 2	*x ky k*
1	2	3	4	5	6
1	25.2	30.8	635.04000	948.64000	776.16000
2	26.4	29.4	696.96000	864.36000	776.16000
3	26.0	30.2	676.00000	912.04000	785.20000
4	25.8	30.5	665.64000	930.25000	786.90000
5	24.9	31.4	620.01000	985.96000	781.86000
6	25.7	30.3	660.49000	918.09000	778.71000
7	25.7	30.4	660.49000	924.16000	781.28000
8	25.7	30.5	660.49000	930.25000	783.85000
9	26.1	29.9	681.21000	894.01000	780.39000
10	25.8	30.4	665.64000	924.16000	784.32000
11	25.9	30.3	670.81000	918.09000	784.77000
12	26.2	30.5	686.44000	930.25000	799.10000
13	25.6	30.6	655.36000	936.36000	783.36000
14	25.4	31	645.16000	961.00000	787.40000
15	26.6	29.6	707.56000	876.16000	787.36000
16	26.2	30.4	686.44000	924.16000	796.48000
17	26	30.7	676.00000	942.49000	798.20000
18	22.1	31.6	488.41000	998.56000	698.36000
19	25.9	30.5	670.81000	930.25000	789.95000
20	25.8	30.6	665.64000	936.36000	789.48000
21	25.9	30.7	670.81000	942.49000	795.13000
22	26.3	30.1	691.69000	906.01000	791.63000
23	26.1	30.6	681.21000	936.36000	798.66000
24	26	30.5	676.00000	930.25000	793.00000
25	26.4	30.7	696.96000	942.49000	810.48000
26	25.8	30.8	665.64000	948.64000	794.64000

1.2. Calculamos M x pela fórmula (1,5).

1.2.1. x k

x 1 + x 2 + ... + x 26 = 25,20000 + 26,40000 + ... + 25,80000 = 669,500000

1.2.2.

669.50000 / 26 = 25.75000

M x = 25,750000

1.3. Da mesma forma, calculamos M y.

1.3.1. Vamos adicionar todos os elementos em sequência y k

y 1 + y 2 + … + y 26 = 30,80000 + 29,40000 + ... + 30,80000 = 793,000000

1.3.2. Divida a soma resultante pelo número de elementos da amostra

793.00000 / 26 = 30.50000

M y = 30,500000

1.4. Da mesma forma, calculamos M xy.

1.4.1. Adicionamos sequencialmente todos os elementos da 6ª coluna da tabela 1

776.16000 + 776.16000 + ... + 794.64000 = 20412.830000

1.4.2. Divida a soma resultante pelo número de elementos

20412.83000 / 26 = 785.10885

M xy = 785,108846

1.5. Calcule o valor de S x 2 usando a fórmula (1.6.).

1.5.1. Adicionamos sequencialmente todos os elementos da 4ª coluna da tabela 1

635.04000 + 696.96000 + ... + 665.64000 = 17256.910000

1.5.2. Divida a soma resultante pelo número de elementos

17256.91000 / 26 = 663.72731

1.5.3. Subtraia do último número o quadrado do valor M x obtemos o valor para S x 2

P x 2 = 663.72731 - 25.75000 2 = 663.72731 - 663.06250 = 0.66481

1.6. Calcule o valor de S y 2 pela fórmula (1.6.).

1.6.1. Adicionamos sequencialmente todos os elementos da 5ª coluna da tabela 1

948.64000 + 864.36000 + ... + 948.64000 = 24191.840000

1.6.2. Divida a soma resultante pelo número de elementos

24191.84000 / 26 = 930.45538

1.6.3. Subtraia do último número o quadrado de My , obtemos o valor de S y 2

S e 2 = 930.45538 - 30.50000 2 = 930.45538 - 930.25000 = 0.20538

1.7. Vamos calcular o produto de S x 2 e S y 2.

S x 2 S y 2 = 0,66481 0,20538 = 0,136541

1.8. Extraímos a raiz quadrada do último número, obtemos o valor S x S y.

S x S y = 0,36951

1.9. Calcule o valor do coeficiente de correlação de acordo com a fórmula (1.4.).

R = (785,10885 - 25,75000 30,50000) / 0,36951 = (785,10885 - 785,37500) / 0,36951 = -0,72028

RESPOSTA: Rx,y = -0,720279

2. Verificamos a significância do coeficiente de correlação (verificamos a hipótese de dependência).

Como a estimativa do coeficiente de correlação é calculada sobre uma amostra finita e, portanto, pode divergir de seu valor geral, é necessário verificar a significância do coeficiente de correlação. A verificação é feita usando o critério t:

t =

Rx,y


√	n-2


√	1 - R 2 x,y

(2.1)

valor aleatório t segue a distribuição t de Student e de acordo com a tabela de distribuição t é necessário encontrar o valor crítico do critério (t cr.α) em um dado nível de significância α . Se o módulo t calculado pela fórmula (2.1) for menor que tcr.α , então as dependências entre variáveis aleatórias X e Y não são. Caso contrário, os dados experimentais não contradizem a hipótese sobre a dependência de variáveis aleatórias.

2.1. Calculando o valor do critério t de acordo com a fórmula (2.1) obtemos:

t =

-0.72028


√	26 - 2


√	1 - (-0.72028) 2

= -5.08680

2.2. Vamos determinar o valor crítico do parâmetro t cr.α da tabela de distribuição t

O valor desejado t kr.α está localizado na interseção da linha correspondente ao número de graus de liberdade e a coluna correspondente a um dado nível de significância α .
No nosso caso, o número de graus de liberdade é n - 2 = 26 - 2 = 24 e α = 0.05 , que corresponde ao valor crítico do critério t cr.α = 2.064 (ver tabela 2)

mesa 2 distribuição t

Número de graus de liberdade (n-2)	α = 0,1	α = 0,05	α = 0,02	α = 0,01	α = 0,002	α = 0,001
1	6.314	12.706	31.821	63.657	318.31	636.62
2	2.920	4.303	6.965	9.925	22.327	31.598
3	2.353	3.182	4.541	5.841	10.214	12.924
4	2.132	2.776	3.747	4.604	7.173	8.610
5	2.015	2.571	3.365	4.032	5.893	6.869
6	1.943	2.447	3.143	3.707	5.208	5.959
7	1.895	2.365	2.998	3.499	4.785	5.408
8	1.860	2.306	2.896	3.355	4.501	5.041
9	1.833	2.262	2.821	3.250	4.297	4.781
10	1.812	2.228	2.764	3.169	4.144	4.587
11	1.796	2.201	2.718	3.106	4.025	4.437
12	1.782	2.179	2.681	3.055	3.930	4.318
13	1.771	2.160	2.650	3.012	3.852	4.221
14	1.761	2.145	2.624	2.977	3.787	4.140
15	1.753	2.131	2.602	2.947	3.733	4.073
16	1.746	2.120	2.583	2.921	3.686	4.015
17	1.740	2.110	2.567	2.898	3.646	3.965
18	1.734	2.101	2.552	2.878	3.610	3.922
19	1.729	2.093	2.539	2.861	3.579	3.883
20	1.725	2.086	2.528	2.845	3.552	3.850
21	1.721	2.080	2.518	2.831	3.527	3.819
22	1.717	2.074	2.508	2.819	3.505	3.792
23	1.714	2.069	2.500	2.807	3.485	3.767
24	1.711	2.064	2.492	2.797	3.467	3.745
25	1.708	2.060	2.485	2.787	3.450	3.725
26	1.706	2.056	2.479	2.779	3.435	3.707
27	1.703	2.052	2.473	2.771	3.421	3.690
28	1.701	2.048	2.467	2.763	3.408	3.674
29	1.699	2.045	2.462	2.756	3.396	3.659
30	1.697	2.042	2.457	2.750	3.385	3.646
40	1.684	2.021	2.423	2.704	3.307	3.551
60	1.671	2.000	2.390	2.660	3.232	3.460
120	1.658	1.980	2.358	2.617	3.160	3.373
∞	1.645	1.960	2.326	2.576	3.090	3.291

2.2. Vamos comparar o valor absoluto do critério t e t cr.α

O valor absoluto do critério t não é menor que o crítico t = 5,08680, tcr.α = 2,064, portanto dados experimentais, com uma probabilidade de 0,95(1 - α ), não contradiz a hipótese na dependência das variáveis aleatórias X e Y.

3. Calculamos os coeficientes da equação de regressão linear.

A equação de regressão linear é uma equação de uma linha reta que aproxima (descreve aproximadamente) a relação entre as variáveis aleatórias X e Y. Se assumirmos que X é livre e Y é dependente de X, então a equação de regressão será escrita da seguinte forma

Y = a + b X (3.1), onde:

Rx,y

σ x

Rx,y

S x

(3.2),

a = M y - b M x (3.3)

O coeficiente calculado pela fórmula (3.2) bé chamado de coeficiente de regressão linear. Em algumas fontes uma chamado coeficiente constante regressão e b de acordo com as variáveis.

Os erros de previsão Y para um determinado valor X são calculados pelas fórmulas:

O valor σ y/x (fórmula 3.4) também é chamado desvio padrão residual, caracteriza o afastamento de Y da linha de regressão descrita pela equação (3.1) em um valor fixo (dado) de X.

S y 2 / S x 2 = 0,20538 / 0,66481 = 0,30894. Extraímos a raiz quadrada do último número - obtemos:
S y / S x = 0,55582

3.3 Calcular o coeficiente b pela fórmula (3.2)

b = -0.72028 0.55582 = -0.40035

3.4 Calcule o coeficiente a pela fórmula (3.3)

uma = 30.50000 - (-0.40035 25.75000) = 40.80894

3.5 Estimar os erros da equação de regressão.

3.5.1 Extraímos a raiz quadrada de S y 2 e obtemos:

= 0.31437
3.5.4 Vamos calcular o erro relativo pela fórmula (3.5)

δy/x = (0,31437 / 30,50000) 100% = 1,03073%

4. Construímos um gráfico de dispersão (campo de correlação) e um gráfico da linha de regressão.

Um gráfico de dispersão é uma representação gráfica dos pares correspondentes (x k , y k ) como pontos em um plano, em coordenadas retangulares com os eixos X e Y. O campo de correlação é uma das representações gráficas de uma amostra vinculada (pareada). No mesmo sistema de coordenadas, o gráfico da linha de regressão também é plotado. As escalas e os pontos iniciais dos eixos devem ser escolhidos com cuidado para que o diagrama seja o mais claro possível.

4.1. Encontramos o elemento mínimo e máximo da amostra X é o 18º e 15º elementos, respectivamente, x min = 22,10000 e x max = 26,60000.

4.2. Encontramos o elemento mínimo e máximo da amostra Y é o 2º e 18º elementos, respectivamente, y min = 29,40000 ey max = 31,60000.

4.3. No eixo das abcissas, selecionamos o ponto inicial logo à esquerda do ponto x 18 = 22,10000, e uma escala tal que o ponto x 15 = 26,60000 caiba no eixo e os demais pontos sejam claramente distinguidos.

4.4. No eixo y, selecionamos o ponto inicial logo à esquerda do ponto y 2 = 29,40000, e uma escala tal que o ponto y 18 = 31,60000 caiba no eixo e os outros pontos sejam claramente distinguidos.

4.5. No eixo das abcissas colocamos os valores x k , e no eixo das ordenadas colocamos os valores y k .

4.6. Colocamos pontos (x 1, y 1), (x 2, y 2), ..., (x 26, y 26) no plano de coordenadas. Obtemos um gráfico de dispersão (campo de correlação), mostrado na figura abaixo.

4.7. Vamos desenhar uma linha de regressão.

Para fazer isso, encontramos dois pontos diferentes com coordenadas (x r1 , y r1) e (x r2 , y r2) satisfazendo a equação (3.6), os colocamos no plano de coordenadas e traçamos uma linha através deles. Vamos tomar x min = 22,10000 como a abcissa do primeiro ponto. Substituindo o valor de x min na equação (3.6), obtemos a ordenada do primeiro ponto. Assim, temos um ponto com coordenadas (22.10000, 31.96127). Da mesma forma, obtemos as coordenadas do segundo ponto, definindo o valor x max = 26,60000 como abscissa. O segundo ponto será: (26.60000, 30.15970).

A linha de regressão é mostrada na figura abaixo em vermelho

Observe que a linha de regressão sempre passa pelo ponto dos valores médios de X e Y, ou seja, com coordenadas (M x , My y).