regressão e análise de correlação– métodos de pesquisa estatística. Essas são as formas mais comuns de mostrar a dependência de um parâmetro em uma ou mais variáveis independentes.
Abaixo em específico exemplos práticos Vamos considerar essas duas análises muito populares entre os economistas. Também daremos um exemplo de obtenção de resultados quando eles são combinados.
Mostra a influência de alguns valores (independente, independente) na variável dependente. Por exemplo, como o número de população economicamente ativa depende do número de empresas, salários e outros parâmetros. Ou: como os investimentos estrangeiros, os preços da energia, etc. afetam o nível do PIB.
O resultado da análise permite que você priorize. E com base nos principais fatores, prever, planejar o desenvolvimento áreas prioritárias para tomar decisões gerenciais.
A regressão acontece:
Considere o exemplo de construção de um modelo de regressão no Excel e interpretação dos resultados. Vamos pegar um tipo linear de regressão.
Uma tarefa. Em 6 empresas, a média mensal remuneração e o número de aposentados. É necessário determinar a dependência do número de aposentados do salário médio.
Modelo regressão linear tem a seguinte forma:
Y \u003d a 0 + a 1 x 1 + ... + a k x k.
Onde a são os coeficientes de regressão, x são as variáveis de influência e k é o número de fatores.
Em nosso exemplo, Y é o indicador de trabalhadores demitidos. O fator de influência é o salário (x).
O Excel possui funções internas que podem ser usadas para calcular os parâmetros de um modelo de regressão linear. Mas o suplemento Analysis ToolPak fará isso mais rápido.
Ative uma poderosa ferramenta analítica:
Depois de ativado, o complemento estará disponível na guia Dados.
Agora vamos lidar diretamente com a análise de regressão.
Em primeiro lugar, prestamos atenção ao quadrado R e aos coeficientes.
R-quadrado é o coeficiente de determinação. No nosso exemplo, é 0,755 ou 75,5%. Isso significa que os parâmetros calculados do modelo explicam a relação entre os parâmetros estudados em 75,5%. Quanto maior o coeficiente de determinação, melhor o modelo. Bom - acima de 0,8. Ruim - menos de 0,5 (essa análise dificilmente pode ser considerada razoável). No nosso exemplo - "nada mal".
O coeficiente 64,1428 mostra o que Y será se todas as variáveis do modelo considerado forem iguais a 0. Ou seja, outros fatores que não estão descritos no modelo também afetam o valor do parâmetro analisado.
O coeficiente -0,16285 mostra o peso da variável X sobre Y. Ou seja, o salário médio mensal dentro desse modelo afeta o número de desistentes com peso de -0,16285 (este é um pequeno grau de influência). O sinal “-” indica um impacto negativo: quanto maior o salário, menos desistência. O que é justo.
A análise de correlação ajuda a estabelecer se existe uma relação entre os indicadores em uma ou duas amostras. Por exemplo, entre o tempo de operação da máquina e o custo dos reparos, o preço do equipamento e a duração da operação, a altura e o peso das crianças, etc.
Se houver uma relação, então se um aumento em um parâmetro leva a um aumento (correlação positiva) ou a uma diminuição (negativa) no outro. A análise de correlação ajuda o analista a determinar se o valor de um indicador pode prever o possível valor de outro.
O coeficiente de correlação é denotado r. Varia de +1 a -1. Classificação de correlações para Áreas diferentes será diferente. Quando o valor do coeficiente é 0, não há relação linear entre as amostras.
Considere como usar o Excel para encontrar o coeficiente de correlação.
A função CORREL é usada para encontrar os coeficientes pareados.
Tarefa: Determinar se existe uma relação entre o tempo de trabalho torno e o custo de sua manutenção.
Coloque o cursor em qualquer célula e pressione o botão fx.
Para determinar o tipo de conexão, é necessário observar o número absoluto do coeficiente (cada campo de atividade possui sua própria escala).
Para análise de correlação de vários parâmetros (mais de 2), é mais conveniente usar "Análise de dados" (complemento "Pacote de análise"). Na lista, você precisa selecionar uma correlação e designar uma matriz. Tudo.
Os coeficientes resultantes serão exibidos na matriz de correlação. Como este:
Na prática, essas duas técnicas costumam ser usadas juntas.
Exemplo:
Agora os dados da análise de regressão estão visíveis.
"Correlação" em latim significa "correlação", "relação". Uma característica quantitativa da relação pode ser obtida calculando o coeficiente de correlação. Este popular em análises estatísticas o coeficiente mostra se algum parâmetro está relacionado entre si (por exemplo, altura e peso; nível de inteligência e desempenho acadêmico; número de lesões e horas de trabalho).
O cálculo de correlação é especialmente amplamente utilizado em economia, pesquisa sociológica, medicina e biometria - sempre que você pode obter dois conjuntos de dados entre os quais uma relação pode ser encontrada.
Você pode calcular a correlação manualmente executando operações aritméticas simples. No entanto, o processo de cálculo é muito demorado se o conjunto de dados for grande. A peculiaridade do método é que requer a coleta um grande número dados de origem para exibir com mais precisão se há uma relação entre os recursos. Portanto, o uso sério da análise de correlação é impossível sem o uso da tecnologia de computador. Um dos programas mais populares e acessíveis para resolver esse problema é.
A etapa mais demorada na determinação da correlação é o conjunto de dados. Os dados a serem comparados geralmente são organizados em duas colunas ou linhas. A tabela deve ser feita sem lacunas nas células. Versões modernas O Excel (a partir de 2007) não requer configurações adicionais para cálculos estatísticos; manipulações necessárias podem ser feitas:
A correlação pode ser direta (se o coeficiente for maior que zero) e inversa (de -1 a 0).
A primeira significa que conforme um parâmetro aumenta, o outro também aumenta. Uma correlação inversa (negativa) reflete o fato de que, à medida que uma variável aumenta, a outra diminui.
A correlação pode ser próxima de zero. Isso geralmente indica que os parâmetros estudados não estão relacionados entre si. Mas, às vezes, ocorre uma correlação zero se for feita uma amostra malsucedida que não reflita a relação ou se a relação tiver uma natureza não linear complexa.
Se o coeficiente apresentar uma relação média ou forte (de ±0,5 a ±0,99), deve-se lembrar que esta é apenas uma relação estatística, o que não garante de forma alguma a influência de um parâmetro sobre o outro. Também é impossível excluir a situação em que ambos os parâmetros são independentes um do outro, mas são afetados por algum terceiro fator não contabilizado. O Excel ajuda você a calcular instantaneamente o coeficiente de correlação, mas geralmente apenas Métodos Quantitativos insuficiente para estabelecer relações causais em amostras comparáveis.
O coeficiente de correlação (ou coeficiente de correlação linear) é denotado como "r" (em casos raros como "ρ") e caracteriza uma correlação linear (ou seja, uma relação que se dá por algum valor e direção) de duas ou mais variáveis. O valor do coeficiente fica entre -1 e +1, ou seja, a correlação pode ser tanto positiva quanto negativa. Se o coeficiente de correlação for -1, existe uma correlação negativa perfeita; se o coeficiente de correlação for +1, existe uma correlação positiva perfeita. Em outros casos, há uma correlação positiva, uma correlação negativa ou nenhuma correlação entre as duas variáveis. O coeficiente de correlação pode ser calculado manualmente, com calculadoras online gratuitas ou com uma boa calculadora gráfica.
Reunir dados. Antes de começar a calcular o coeficiente de correlação, examine o par de números fornecido. É melhor escrevê-los em uma tabela que pode ser disposta verticalmente ou horizontalmente. Rotule cada linha ou coluna como um "x" e um "y".
Calcule a média aritmética "x". Para fazer isso, some todos os valores de "x" e divida o resultado pelo número de valores.
Encontre a média aritmética "y". Para fazer isso, siga os mesmos passos, ou seja, some todos os valores de “y” e depois divida a soma pelo número de valores.
Calcule o desvio padrão de "x". Depois de calcular as médias de x e y, encontre os desvios padrão dessas variáveis. O desvio padrão é calculado usando a seguinte fórmula:
Calcule o desvio padrão "y". Siga as etapas na etapa anterior. Use a mesma fórmula, mas substitua os valores "y" nela.
Escreva a fórmula básica para calcular o coeficiente de correlação. Essa fórmula inclui médias, desvios padrão e o número (n) de pares de números de ambas as variáveis. O coeficiente de correlação é denotado como "r" (em casos raros, como "ρ"). Este artigo usa a fórmula para calcular o coeficiente de correlação de Pearson.
Você calculou as médias e os desvios padrão de ambas as variáveis, portanto, pode usar a fórmula para calcular o coeficiente de correlação. Lembre-se de que "n" é o número de pares de valores de ambas as variáveis. O valor de outras quantidades foram calculados anteriormente.
Analise o resultado. Em nosso exemplo, o coeficiente de correlação é 0,988. Esse valor de alguma forma caracteriza um determinado conjunto de pares de números. Preste atenção no sinal e na magnitude do valor.
Encontre uma calculadora na Internet para calcular o coeficiente de correlação. Este coeficiente é frequentemente calculado em estatísticas. Se houver muitos pares de números, é praticamente impossível calcular o coeficiente de correlação manualmente. Portanto, existem calculadoras online para calcular o coeficiente de correlação. No mecanismo de pesquisa, digite "calculadora do coeficiente de correlação" (sem aspas).
Inserir dados. Leia as instruções do site para inserir os dados corretamente (pares de números). É extremamente importante inserir os pares de números apropriados; caso contrário, você obterá um resultado errado. Lembre-se de que diferentes sites têm diferentes formatos de entrada de dados.
Calcule o coeficiente de correlação. Após inserir os dados, basta clicar no botão "Calcular", "Calcular" ou similar para obter o resultado.
Inserir dados. Pegue uma calculadora gráfica, mude para o modo de cálculo estatístico e selecione o comando Editar.
Excluir dados salvos anteriores. A maioria das calculadoras mantém as estatísticas inseridas até que você as limpe. Para evitar confundir dados antigos com dados novos, exclua primeiro todas as informações armazenadas.
Digite os dados iniciais. Use as teclas de seta para mover o cursor para a primeira célula sob o cabeçalho "xStat". Insira o primeiro valor e pressione Enter. Na parte inferior da tela, "xStat (1) = __" será exibido, com o valor inserido em vez de um espaço. Depois de pressionar Enter, o valor inserido aparecerá na tabela e o cursor se moverá para a próxima linha; isso exibirá "xStat(2) = __" na parte inferior da tela.
Calcule o coeficiente de correlação. Caracteriza o quão próximo os dados estão de alguma linha reta. A calculadora gráfica pode determinar rapidamente a linha reta apropriada e calcular o coeficiente de correlação.
Analise os resultados. Ao pressionar Enter, as seguintes informações serão exibidas na tela:
Um utilitário que é amplamente utilizado em muitas empresas e empreendimentos. A realidade é que quase todo funcionário deve ser proficiente em Excel até certo ponto, já que esse programa é usado para resolver uma gama muito ampla de tarefas. Ao trabalhar com tabelas, muitas vezes é necessário determinar se certas variáveis estão relacionadas entre si. Para isso, utiliza-se a chamada correlação. Neste artigo, veremos detalhadamente como calcular o coeficiente de correlação no Excel. Vamos descobrir. Vai!
Vamos começar com o que é o coeficiente de correlação em geral. Indica o grau de relacionamento entre dois elementos e sempre varia de -1 (forte relação inversa) a 1 (forte relação direta). Se o coeficiente for 0, isso indica que não há relação entre os valores.
Agora, tendo lidado com a teoria, vamos à prática. Para encontrar a relação entre as variáveis e y, use a função interna do Microsoft Excel "CORREL". Para fazer isso, clique no botão do assistente de função (localizado ao lado do campo da fórmula). Na janela que se abre, selecione "CORREL" na lista de funções. Depois disso, defina o intervalo nos campos "Array1" e "Array2". Por exemplo, para "Array1" selecione os valores y e para "Array2" selecione os valores x. Como resultado, você obterá o coeficiente de correlação calculado pelo programa.
O método a seguir será relevante para os alunos que precisam encontrar uma dependência usando uma determinada fórmula. Antes de tudo, você precisa saber os valores médios das variáveis x e y. Para fazer isso, selecione os valores da variável e use a função "MÉDIA". Em seguida, você precisa calcular a diferença entre cada x e x avg e y avg. Nas células selecionadas, escreva fórmulas x-x, y-. Não se esqueça de fixar células com valores médios. Em seguida, arraste a fórmula para baixo para que ela se aplique ao restante dos números.
Agora que temos todos os dados necessários, podemos calcular a correlação. Multiplique as diferenças resultantes desta forma: (x-x avg) * (y-y avg). Depois de obter o resultado de cada uma das variáveis, some os números resultantes usando a função de soma automática. É assim que o numerador é calculado.
Agora vamos passar para o denominador. As diferenças calculadas devem ser elevadas ao quadrado. Para fazer isso, em uma coluna separada, insira as fórmulas: (x-x avg) 2 e (y-y avg) 2 . Em seguida, estique as fórmulas ao máximo. Em seguida, usando o botão "AutoSoma", encontre a soma de todas as colunas (para x e para y). Resta multiplicar as somas encontradas e extrair delas Raiz quadrada. O último passo é dividir o numerador pelo denominador. O resultado obtido será o coeficiente de correlação desejado.
Como você pode ver, sabendo trabalhar corretamente com as funções do Microsoft Excel, você pode simplificar significativamente a tarefa de calcular expressões matemáticas complexas. Graças às ferramentas implementadas no programa, você pode facilmente fazer uma análise de correlação no Excel em apenas alguns minutos, economizando tempo e esforço. Escreva nos comentários se o artigo te ajudou a entender o assunto, pergunte sobre tudo que te interessou sobre o tema discutido.
Perceber! A solução para o seu problema específico será semelhante este exemplo, incluindo todas as tabelas e textos explicativos abaixo, mas levando em consideração seus dados iniciais...Uma tarefa:
Existe uma amostra relacionada de 26 pares de valores (x k ,y k ):
k | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
x k | 25.20000 | 26.40000 | 26.00000 | 25.80000 | 24.90000 | 25.70000 | 25.70000 | 25.70000 | 26.10000 | 25.80000 |
y k | 30.80000 | 29.40000 | 30.20000 | 30.50000 | 31.40000 | 30.30000 | 30.40000 | 30.50000 | 29.90000 | 30.40000 |
k | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 |
x k | 25.90000 | 26.20000 | 25.60000 | 25.40000 | 26.60000 | 26.20000 | 26.00000 | 22.10000 | 25.90000 | 25.80000 |
y k | 30.30000 | 30.50000 | 30.60000 | 31.00000 | 29.60000 | 30.40000 | 30.70000 | 31.60000 | 30.50000 | 30.60000 |
k | 21 | 22 | 23 | 24 | 25 | 26 |
x k | 25.90000 | 26.30000 | 26.10000 | 26.00000 | 26.40000 | 25.80000 |
y k | 30.70000 | 30.10000 | 30.60000 | 30.50000 | 30.70000 | 30.80000 |
É necessário calcular/construir:
- coeficiente de correlação;
- testar a hipótese de dependência das variáveis aleatórias X e Y, a um nível de significância α = 0,05;
- coeficientes da equação de regressão linear;
- diagrama de dispersão (campo de correlação) e gráfico de linha de regressão;
SOLUÇÃO:
O coeficiente de correlação é um indicador da influência probabilística mútua de duas variáveis aleatórias. Coeficiente de correlação R pode tirar valores de -1 antes da +1 . Se o valor absoluto estiver mais próximo de 1 , então isso é evidência conexão forte entre os valores, e se mais próximo 0 - então, indica uma conexão fraca ou sua ausência. Se o valor absoluto R igual a um, então podemos falar de uma relação funcional entre quantidades, ou seja, uma quantidade pode ser expressa em termos de outra usando uma função matemática.
n |
Σ |
k = 1 |
Mx | = |
|
| x k , | Meu | = | ou de acordo com a fórmula
Na prática, a fórmula (1.4) é mais usada para calcular o coeficiente de correlação, pois requer menos computação. No entanto, se a covariância foi previamente calculada cov(X,Y), então é mais vantajoso usar a fórmula (1.1), pois além do valor real da covariância, você também pode usar os resultados de cálculos intermediários. 1.1 Calcule o coeficiente de correlação usando a fórmula (1.4), para isso calculamos os valores x k 2 , y k 2 e x k y k e os inserimos na tabela 1. tabela 1
1.2. Calculamos M x pela fórmula (1,5). 1.2.1. x k x 1 + x 2 + ... + x 26 = 25,20000 + 26,40000 + ... + 25,80000 = 669,500000 1.2.2. 669.50000 / 26 = 25.75000 M x = 25,750000 1.3. Da mesma forma, calculamos M y. 1.3.1. Vamos adicionar todos os elementos em sequência y k y 1 + y 2 + … + y 26 = 30,80000 + 29,40000 + ... + 30,80000 = 793,000000 1.3.2. Divida a soma resultante pelo número de elementos da amostra 793.00000 / 26 = 30.50000 M y = 30,500000 1.4. Da mesma forma, calculamos M xy. 1.4.1. Adicionamos sequencialmente todos os elementos da 6ª coluna da tabela 1 776.16000 + 776.16000 + ... + 794.64000 = 20412.830000 1.4.2. Divida a soma resultante pelo número de elementos 20412.83000 / 26 = 785.10885 M xy = 785,108846 1.5. Calcule o valor de S x 2 usando a fórmula (1.6.). 1.5.1. Adicionamos sequencialmente todos os elementos da 4ª coluna da tabela 1 635.04000 + 696.96000 + ... + 665.64000 = 17256.910000 1.5.2. Divida a soma resultante pelo número de elementos 17256.91000 / 26 = 663.72731 1.5.3. Subtraia do último número o quadrado do valor M x obtemos o valor para S x 2 P x 2 = 663.72731 - 25.75000 2 = 663.72731 - 663.06250 = 0.66481 1.6. Calcule o valor de S y 2 pela fórmula (1.6.). 1.6.1. Adicionamos sequencialmente todos os elementos da 5ª coluna da tabela 1 948.64000 + 864.36000 + ... + 948.64000 = 24191.840000 1.6.2. Divida a soma resultante pelo número de elementos 24191.84000 / 26 = 930.45538 1.6.3. Subtraia do último número o quadrado de My , obtemos o valor de S y 2 S e 2 = 930.45538 - 30.50000 2 = 930.45538 - 930.25000 = 0.20538 1.7. Vamos calcular o produto de S x 2 e S y 2. S x 2 S y 2 = 0,66481 0,20538 = 0,136541 1.8. Extraímos a raiz quadrada do último número, obtemos o valor S x S y. S x S y = 0,36951 1.9. Calcule o valor do coeficiente de correlação de acordo com a fórmula (1.4.). R = (785,10885 - 25,75000 30,50000) / 0,36951 = (785,10885 - 785,37500) / 0,36951 = -0,72028 RESPOSTA: Rx,y = -0,720279 2. Verificamos a significância do coeficiente de correlação (verificamos a hipótese de dependência).Como a estimativa do coeficiente de correlação é calculada sobre uma amostra finita e, portanto, pode divergir de seu valor geral, é necessário verificar a significância do coeficiente de correlação. A verificação é feita usando o critério t:
valor aleatório t segue a distribuição t de Student e de acordo com a tabela de distribuição t é necessário encontrar o valor crítico do critério (t cr.α) em um dado nível de significância α . Se o módulo t calculado pela fórmula (2.1) for menor que tcr.α , então as dependências entre variáveis aleatórias X e Y não são. Caso contrário, os dados experimentais não contradizem a hipótese sobre a dependência de variáveis aleatórias. 2.1. Calculando o valor do critério t de acordo com a fórmula (2.1) obtemos:
2.2. Vamos determinar o valor crítico do parâmetro t cr.α da tabela de distribuição t O valor desejado t kr.α está localizado na interseção da linha correspondente ao número de graus de liberdade e a coluna correspondente a um dado nível de significância α . mesa 2 distribuição t
2.2. Vamos comparar o valor absoluto do critério t e t cr.α O valor absoluto do critério t não é menor que o crítico t = 5,08680, tcr.α = 2,064, portanto dados experimentais, com uma probabilidade de 0,95(1 - α ), não contradiz a hipótese na dependência das variáveis aleatórias X e Y. 3. Calculamos os coeficientes da equação de regressão linear.A equação de regressão linear é uma equação de uma linha reta que aproxima (descreve aproximadamente) a relação entre as variáveis aleatórias X e Y. Se assumirmos que X é livre e Y é dependente de X, então a equação de regressão será escrita da seguinte forma Y = a + b X (3.1), onde:
O coeficiente calculado pela fórmula (3.2) bé chamado de coeficiente de regressão linear. Em algumas fontes uma chamado coeficiente constante regressão e b de acordo com as variáveis. Os erros de previsão Y para um determinado valor X são calculados pelas fórmulas: O valor σ y/x (fórmula 3.4) também é chamado desvio padrão residual, caracteriza o afastamento de Y da linha de regressão descrita pela equação (3.1) em um valor fixo (dado) de X. | . |
3.3 Calcular o coeficiente b pela fórmula (3.2)
b = -0.72028 0.55582 = -0.40035
3.4 Calcule o coeficiente a pela fórmula (3.3)
uma = 30.50000 - (-0.40035 25.75000) = 40.80894
3.5 Estimar os erros da equação de regressão.
3.5.1 Extraímos a raiz quadrada de S y 2 e obtemos:
δy/x = (0,31437 / 30,50000) 100% = 1,03073%
4.1. Encontramos o elemento mínimo e máximo da amostra X é o 18º e 15º elementos, respectivamente, x min = 22,10000 e x max = 26,60000.
4.2. Encontramos o elemento mínimo e máximo da amostra Y é o 2º e 18º elementos, respectivamente, y min = 29,40000 ey max = 31,60000.
4.3. No eixo das abcissas, selecionamos o ponto inicial logo à esquerda do ponto x 18 = 22,10000, e uma escala tal que o ponto x 15 = 26,60000 caiba no eixo e os demais pontos sejam claramente distinguidos.
4.4. No eixo y, selecionamos o ponto inicial logo à esquerda do ponto y 2 = 29,40000, e uma escala tal que o ponto y 18 = 31,60000 caiba no eixo e os outros pontos sejam claramente distinguidos.
4.5. No eixo das abcissas colocamos os valores x k , e no eixo das ordenadas colocamos os valores y k .
4.6. Colocamos pontos (x 1, y 1), (x 2, y 2), ..., (x 26, y 26) no plano de coordenadas. Obtemos um gráfico de dispersão (campo de correlação), mostrado na figura abaixo.
4.7. Vamos desenhar uma linha de regressão.
Para fazer isso, encontramos dois pontos diferentes com coordenadas (x r1 , y r1) e (x r2 , y r2) satisfazendo a equação (3.6), os colocamos no plano de coordenadas e traçamos uma linha através deles. Vamos tomar x min = 22,10000 como a abcissa do primeiro ponto. Substituindo o valor de x min na equação (3.6), obtemos a ordenada do primeiro ponto. Assim, temos um ponto com coordenadas (22.10000, 31.96127). Da mesma forma, obtemos as coordenadas do segundo ponto, definindo o valor x max = 26,60000 como abscissa. O segundo ponto será: (26.60000, 30.15970).
A linha de regressão é mostrada na figura abaixo em vermelho
Observe que a linha de regressão sempre passa pelo ponto dos valores médios de X e Y, ou seja, com coordenadas (M x , My y).