회귀 방정식.  선형 회귀의 기초

회귀 방정식. 선형 회귀의 기초

위에서 언급한 바와 같이 선형 관계의 경우 회귀 방정식은 직선 방정식입니다.

구별하다

와이 = 에이 u/x + u/x 엑스

X = 에이 x/y + x/y 와이

여기 그리고 - 공식에 의해 결정되는 계수 또는 매개변수. 계수 값 계획된

회귀계수는 공식에서 알 수 있습니다. u/x그리고 x/y상관 계수와 동일한 부호를 가지며 차원은 연구 지표 차원의 비율과 같습니다. 엑스그리고 ~에, 및 다음 관계로 관련됩니다.

계수를 계산하려면 상관 변수의 평균값을 회귀 방정식으로 대체하는 것으로 충분합니다.



이론적 회귀선 그래프(그림 17)는 다음과 같습니다.

그림 17. 이론적 회귀선

위의 공식을 통해 쉽게 증명할 수 있습니다. 기울기 요인직접 회귀는 각각 동일합니다.


왜냐하면
, 그 다음에
. 이는 직접 회귀를 의미합니다. 와이엑스회귀선보다 x축에 대한 기울기가 더 작습니다. 엑스와이.

더 가까이 단일화하려면 회귀선 사이의 각도가 작아집니다. 이 라인은 다음과 같은 경우에만 병합됩니다.
.

~에
직접 회귀는 방정식으로 설명됩니다.
,
.

따라서 회귀 방정식은 다음을 허용합니다.

    한 값이 다른 값에 비해 얼마나 많이 변하는지 결정합니다.

    결과를 예측합니다.

2. 정산 수행 방법론 및 그래픽 작업 2번

합의 및 그래픽 작업에는 4개의 섹션이 포함됩니다.

첫 번째 섹션에서:

    테마가 공식화되었습니다.

    작업의 목적이 공식화됩니다.

두 번째 섹션에서:

    문제의 조건이 공식화됩니다.

    초기 샘플 데이터 테이블이 채워집니다.

세 번째 섹션에서:

    측정 결과는 변형 시리즈로 표시됩니다.

    변형 시리즈의 그래픽 표현이 제공됩니다.

    결론이 공식화되었습니다.

네 번째 섹션:

    여러 측정의 주요 통계 특성이 계산됩니다.

    계산 결과에 따라 결론이 공식화됩니다.

작업 형태:

    작업은 별도의 노트북이나 형식 시트에서 수행됩니다.

    제목 페이지는 샘플에 따라 채워집니다.

러시아 주립 대학

체육, 스포츠, 청소년 및 관광

자연과학과

상관 및 회귀 분석

정산 및 그래픽 작업 2

수학에서

완료: 학생 1k.1 땀. 1g

이바노프 S.M.

선생님:

협회 UND와 IT학과

모스크바 - 2012

(제목 페이지 디자인의 예)

정착 및 그래픽 작업 수행 예 2 번.

작업 주제:상관 및 회귀 분석.

목적:두 샘플의 지표 간의 관계를 결정합니다.

작업 과정:

    동일한 크기 n으로 스포츠에서 두 개의 샘플을 생각해보십시오.

    상관 관계 필드를 그리고 예비 결론을 도출합니다.

    상관 계수의 신뢰도를 결정하고 최종 결론을 도출합니다.

    상관 필드에 이론적 회귀선을 만들고 교차점을 표시합니다.

1. 문제의 조건:선수 그룹이 100m 허들에서 결과를 결정했습니다. 엑스 (c) 멀리뛰기 와이 (엠) (표). 연구된 특징들 사이에 상관관계가 있는지 확인하고 상관계수의 신뢰도를 결정합니다.

초기 샘플 데이터 표:결과는 초기 데이터 표에 나와 있습니다.

표 6

실행 및 점프 결과

부품 번호

엑스 , 와 함께

와이 ,

부품 번호

엑스 , 와 함께

와이 , 중

해결책:

2 . 상관 필드(산점도)를 구성하고 연구된 기능 간의 관계에 대한 예비 결론을 도출합니다.

그림 18. 상관 필드

예비 결론:

100m 허들에서 성과 지표 간의 관계 엑스 (c) 멀리뛰기 와이 (센티미터):

    선의;

    부정적인;

3 . 이전에 두 샘플의 주요 통계 지표를 계산한 Bravais-Pearson 쌍 선형 상관 계수를 계산해 보겠습니다. 이를 계산하기 위해 표준 편차를 알 수 없는 경우 두 번째 열과 마지막 열이 표준 편차를 계산하는 데 필요한 테이블을 작성합니다. 이 예에서는 첫 번째 계산 및 그래픽 작업에서 이러한 값을 계산했지만 명확성을 위해 계산을 추가로 표시합니다.

표 7

계수 계산을 위한 보조 테이블

Bravais–Pearson 상관관계

엑스 , 와 함께

와이 , 센티미터

13,59

엑스 =
,

와이 =
,

.

얻은 상관 계수 값을 통해 예비 결론을 확인하고 최종 결론을 내릴 수 있습니다. 즉, 연구된 기능 간의 관계입니다.

    선의;

    부정적인;

4 . 상관 계수의 신뢰도를 결정합시다.

100m 달리기와 멀리뛰기의 결과 사이에 관계가 없다고 가정합니다( 시간 ~에 대한 : 아르 자형= 0).

결론:강력하고 통계적으로 유의미한 음수( 아르 자형\u003d 0.95) 100m 허들과 멀리뛰기의 관계. 이것은 멀리뛰기 결과가 향상되면 100m 거리를 달리는 시간이 줄어드는 것을 의미합니다.

5 . 결정 계수를 계산해 봅시다.

결과적으로 100m 허들과 멀리뛰기의 결과 간의 관계는 96%만이 상호 영향으로 설명되고 나머지 4%는 설명되지 않은 다른 요인의 영향으로 설명됩니다.

6. 공식을 사용하여 직접 및 역 회귀 방정식의 계수를 계산하고 계산된 계수의 값을 해당 공식에 대입하고 직접 및 역 회귀 방정식을 작성합니다.

와이= 1 + 1 엑스- 직접 회귀 방정식;

X = 에이 2 + 2 와이 - 역 방정식회귀.

위에 주어진 계산 결과를 사용합시다.

엑스 =
; 와이 =
;
;
13,59;
6,4,

계수 계산 1 공식을 사용하여:

계수를 계산하려면 1 1 엑스그리고 와이

1 그리고 1

와이 = 22 - 1,15엑스

계수 계산 2 공식을 사용하여:

계수를 계산하려면 2 대신 직접 회귀 방정식으로 대체 2 계산된 값 대신 엑스그리고 와이표에서 두 샘플의 산술 평균값:

얻은 계수 값을 대체합니다. 1 그리고 1 직접 회귀 방정식으로 직선의 방정식을 작성하십시오.

엑스 = 18,92 - 0,83와이

따라서 직접 및 역 회귀 방정식을 얻었습니다.

와이 = 22 - 1,15엑스- 직접 회귀 방정식;

엑스 = 18,92 - 0,83와이역 회귀 방정식입니다.

계산의 정확성을 확인하려면 평균값을 직접 방정식으로 대체하면 충분합니다. 값을 결정하고 와이. 받은 값 와이 평균과 비슷하거나 같아야 합니다. .

와이 = 22 - 1,15 = 22 - 1,15 13,59 = 6,4 =.

평균의 역회귀식에 대입하면 , 받은 값 엑스평균과 비슷하거나 같아야 합니다. .

엑스 = 18,92 - 0,83= 18,92 - 0,83 6,4 = 13,6 = .

7. 상관관계 필드에 회귀선을 만들어 봅시다.

이론적 회귀선의 그래픽 플로팅 및 직선 플로팅의 경우 값 범위에서 두 점이 필요합니다. 엑스그리고 와이.

또한 직접회귀식에서 독립변수는 엑스, 및 종속 와이, 반대의 경우 독립 변수 와이, 및 종속 엑스.

와이 = 22 - 1,15엑스

엑스

와이

엑스 = 18,92 - 0,83와이

와이

엑스

직접 및 역 회귀 방정식의 교차점 좌표는 두 샘플의 산술 평균 값입니다 (대략적인 계산에서 반올림 오류 고려).

결론: 100m 거리에서 허들 레이스의 결과를 알고, 직접 방정식회귀, 멀리뛰기의 결과를 이론적으로 결정할 수 있습니다. 역회귀 방정식에 따라 멀리뛰기의 결과를 알면 장애물 경주의 결과를 결정할 수 있습니다.

이전 노트에서 분석은 종종 뮤추얼 펀드 수익, 웹 페이지 로드 시간 또는 소비와 같은 단일 수치 변수에 초점을 맞췄습니다. 청량 음료. 이 노트와 다음 노트에서는 하나 이상의 다른 숫자 변수 값에 따라 숫자 변수 값을 예측하는 방법을 고려할 것입니다.

재료는 예를 통해 설명됩니다. 옷가게의 판매량 예측. Sunflowers 할인 의류 매장 체인은 25년 동안 지속적으로 확장해 왔습니다. 그러나 회사는 현재 새로운 매장을 선택하는 체계적인 접근 방식을 가지고 있지 않습니다. 회사가 새 매장을 열려는 위치는 주관적인 고려 사항에 따라 결정됩니다. 선정기준은 수익성 있는 조건이상적인 매장 위치에 대한 임대 또는 관리자의 아이디어. 당신이 특별 프로젝트 및 기획 부서의 책임자라고 상상해보십시오. 개발에 배정되었습니다. 전략 계획신규 매장 오픈. 이 계획에는 새로 오픈한 매장의 연간 매출 예측이 포함되어야 합니다. 당신은 공간 판매가 수익과 직접적으로 관련이 있다고 믿고 그 사실을 의사 결정 과정에 반영하기를 원합니다. 새 매장 규모를 기반으로 연간 매출을 예측하는 통계 모델을 어떻게 개발합니까?

일반적으로 회귀 분석은 변수 값을 예측하는 데 사용됩니다. 그 목표는 적어도 하나의 독립 변수 또는 설명 변수의 값에서 종속 변수 또는 응답의 값을 예측하는 통계 모델을 개발하는 것입니다. 이 노트에서는 종속 변수의 값을 예측할 수 있는 통계적 방법인 간단한 선형 회귀를 고려할 것입니다. 와이독립 변수의 값으로 엑스. 다음 노트는 독립 변수의 값을 예측하도록 설계된 다중 회귀 모델에 대해 설명합니다. 와이여러 종속 변수의 값으로 ( X1, X2, …, Xk).

노트 또는 형식 다운로드, 형식의 예

회귀 모델의 유형

어디 ρ 1 자기 상관 계수입니다. 만약에 ρ 1 = 0(자기 상관 없음), ≈ 2; 만약에 ρ 1 ≈ 1(양의 자기 상관), ≈ 0; 만약에 ρ 1 = -1(음의 자기상관), ≈ 4.

실제로 Durbin-Watson 기준의 적용은 다음 값의 비교를 기반으로 합니다. 중요한 이론적 가치 dL그리고 d 유주어진 관찰 횟수에 대해 N, 모델의 독립 변수 수 케이(단순 선형 회귀의 경우 케이= 1) 및 유의 수준 α. 만약 디< d L , 무작위 편차의 독립성 가설이 기각됩니다(따라서 양의 자기 상관이 있음). 만약에 디 > 디 유, 가설이 기각되지 않습니다(즉, 자기 상관이 없음). 만약에 디 패< D < d U 결정을 내릴 충분한 이유가 없습니다. 계산된 값일 때 2를 초과하면 dL그리고 d 유비교 대상은 계수 자체가 아닙니다. , 및 식 (4 – ).

Excel에서 Durbin-Watson 통계를 계산하기 위해 그림의 하단 테이블로 이동합니다. 십사 잔액 인출. 식 (10)의 분자는 함수 = SUMMQDIFF(array1, array2), 분모 = SUMMQ(array)를 사용하여 계산됩니다(그림 16).

쌀. 16. Durbin-Watson 통계 계산 공식

우리의 예에서 = 0.883. 주요 질문은 Durbin-Watson 통계의 어떤 값이 양의 자기 상관이 있다고 결론을 내릴 만큼 충분히 작은 것으로 간주되어야 하는가입니다. D 값을 임계 값과 연관시킬 필요가 있습니다. dL그리고 d 유) 관측치 수에 따라 N및 유의 수준 α(그림 17).

쌀. 17. Durbin-Watson 통계의 임계값(표 조각)

따라서 집으로 상품을 배달하는 상점의 판매량 문제에는 하나의 독립 변수( 케이= 1), 15개의 관측치( N= 15) 및 유의 수준 α = 0.05. 따라서, dL= 1.08 및 = 1.36. 때문에 = 0,883 < dL= 1.08, 잔차 사이에 양의 자기 상관이 있습니다. 최소 제곱적용할 수 없습니다.

기울기와 상관 계수에 대한 가설 테스트

위의 회귀는 예측에만 적용되었습니다. 회귀 계수를 결정하고 변수 값을 예측하려면 와이주어진 변수 값에 대해 엑스최소자승법을 사용하였다. 또한 추정치의 표준오차와 혼합상관계수를 고려하였다. 잔차분석 결과 최소자승법의 적용조건이 위배되지 않고 단순선형회귀모형이 적합하다는 것이 표본자료를 바탕으로 확인된다면 인구선형 관계가 있습니다.

신청 - 기울기에 대한 기준.모집단 기울기 β1이 0인지 여부를 확인하여 변수 간에 통계적으로 유의한 관계가 있는지 여부를 확인할 수 있습니다. 엑스그리고 와이. 이 가설이 기각되면 변수 사이에 엑스그리고 와이선형 관계가 있습니다. 귀무 가설과 대립 가설은 다음과 같이 공식화됩니다. H 0: β 1 = 0(선형 관계 없음), H1: β 1 ≠ 0(선형 관계 있음). 정의상 -통계는 표본 기울기와 가상 모집단 기울기의 차이를 기울기 추정치의 표준 오차로 나눈 값과 같습니다.

(11) = ( 1 β 1 ) / Sb 1

어디 1 는 표본 데이터를 기반으로 한 직접 회귀의 기울기, β1은 직접 일반 모집단의 가상 기울기, , 테스트 통계 그것은 가지고있다 - 배포 n-2자유도.

α = 0.05에서 점포 규모와 연간 매출 사이에 통계적으로 유의한 관계가 있는지 확인해보자. - 기준은 사용할 때 다른 매개변수와 함께 표시됩니다. 분석 패키지(옵션 회귀). 분석 패키지의 전체 결과는 그림 1에 나와 있습니다. 4, t-통계와 관련된 단편 - 그림에서. 십팔.

쌀. 18. 지원 결과

점포 수가 많기 때문에 N= 14(그림 3 참조), 임계값 -유의 수준 α = 0.05의 통계는 다음 공식으로 찾을 수 있습니다. 티엘=STUDENT.INV(0.025;12) = -2.1788 여기서 0.025는 유의 수준의 절반이고 12 = N – 2; 티 유\u003d STUDENT.INV (0.975, 12) \u003d +2.1788.

때문에 -통계 = 10.64 > 티 유= 2.1788(그림 19), 귀무가설 시간 0거부됩니다. 반면에, 아르 자형-값 엑스공식 \u003d 1-STUDENT.DIST (D3, 12, TRUE)로 계산되는 \u003d 10.6411은 대략 0과 같으므로 가설 시간 0다시 거부됩니다. 사실 그 아르 자형-값은 거의 0입니다. 즉, 매장 규모와 연간 매출 사이에 실제 선형 관계가 없다면 선형 회귀를 사용하여 찾는 것이 거의 불가능합니다. 따라서 평균 연간 매장 매출과 매장 규모 간에는 통계적으로 유의미한 선형 관계가 있습니다.

쌀. 19. 유의수준 0.05와 자유도 12에서 일반 모집단의 기울기에 대한 가설 검증

신청에프 - 기울기에 대한 기준.단순 선형 회귀의 기울기에 대한 가설을 테스트하는 다른 방법은 다음을 사용하는 것입니다. 에프-기준. 기억해 에프-기준은 두 분산 사이의 관계를 테스트하는 데 사용됩니다(세부 사항 참조). 기울기 가설을 테스트할 때 무작위 오차의 측정값은 오차 분산(자유도 수로 나눈 제곱 오차의 합)이므로 에프-test는 회귀에 의해 설명되는 분산의 비율을 사용합니다(즉, 값 SSR독립 변수의 수로 나눈 값 케이), 오차 분산( MSE=SY엑스 2 ).

정의상 에프-통계는 회귀로 인한 평균 제곱 편차(MSR)를 오차 분산(MSE)으로 나눈 값과 같습니다. 에프 = MSR/ MSE, 어디 MSR=SSR / 케이, MSE =SSE/(N– 케이 – 1), 케이회귀 모델의 독립 변수 수입니다. 테스트 통계 에프그것은 가지고있다 에프- 배포 케이그리고 N– k – 1자유도.

주어진 유의 수준 α에 대해 결정 규칙은 다음과 같이 공식화됩니다. 에프 > 에프, 귀무 가설이 기각됩니다. 그렇지 않으면 거부되지 않습니다. 분산 분석의 요약표 형식으로 제시된 결과는 그림에 나와 있습니다. 이십.

쌀. 20. 회귀계수의 통계적 유의성에 대한 가설을 검증하기 위한 분산분석표

비슷하게 -표준 에프- 사용시 기준이 표에 표시됩니다. 분석 패키지(옵션 회귀). 작업의 전체 결과 분석 패키지그림에 나와 있습니다. 4, 관련 단편 에프-통계 - 그림에서. 21.

쌀. 21. 지원 결과 에프- Excel Analysis ToolPack을 사용하여 얻은 기준

F-통계량은 113.23이고 아르 자형-0에 가까운 값(셀 중요성에프). 유의 수준 α가 0.05인 경우 임계값 결정 에프- 자유도가 1 및 12인 분포는 다음 공식에서 얻을 수 있습니다. 푸 유\u003d F. OBR (1-0.05; 1; 12) \u003d 4.7472 (그림 22). 때문에 에프 = 113,23 > 푸 유= 4.7472, 아르 자형-0에 가까운 값< 0,05, нулевая гипотеза 시간 0일탈, 즉 매장의 규모는 연간 판매량과 밀접한 관련이 있습니다.

쌀. 22. 일반 모집단의 기울기에 대한 가설을 1과 12 자유도에서 유의 수준 0.05로 검정

기울기 β 1 을 포함하는 신뢰 구간.변수 사이에 선형 관계가 존재한다는 가설을 테스트하기 위해 기울기 β 1을 포함하는 신뢰 구간을 만들고 가상 값 β 1 = 0이 이 구간에 속하는지 확인할 수 있습니다. 기울기 β 1을 포함하는 신뢰 구간의 중심은 표본 기울기입니다. 1 , 그 경계는 수량 b 1 ±티엔 –2 Sb 1

그림과 같이. 십팔, 1 = +1,670, N = 14, Sb 1 = 0,157. 12 \u003d STUDENT.OBR (0.975, 12) \u003d 2.1788. 따라서, b 1 ±티엔 –2 Sb 1 = +1.670 ± 2.1788 * 0.157 = +1.670 ± 0.342 또는 + 1.328 ≤ β 1 ≤ +2.012. 따라서 확률이 0.95인 모집단의 기울기는 +1.328에서 +2.012(즉, $1,328,000에서 $2,012,000) 범위에 있습니다. 이 값은 0보다 크기 때문에 연간 매출과 매장 면적 사이에 통계적으로 유의미한 선형 관계가 있습니다. 신뢰 구간에 0이 포함되어 있으면 변수 간에 관계가 없습니다. 또한 신뢰 구간은 1,000제곱미터마다 피트는 평균 매출이 $1,328,000에서 $2,012,000로 증가합니다.

용법 -상관 계수에 대한 기준.상관계수 도입 아르 자형, 두 숫자 변수 간의 관계 측정입니다. 두 변수 사이에 통계적으로 유의한 관계가 있는지 여부를 확인하는 데 사용할 수 있습니다. 두 변수의 모집단 사이의 상관 계수를 기호 ρ로 표시해 보겠습니다. 귀무가설과 대립가설은 다음과 같이 공식화됩니다. 시간 0: ρ = 0(상관 없음), H1: ρ ≠ 0(상관관계 있음). 상관 관계가 있는지 확인:

어디 아르 자형 = + , 만약에 1 > 0, 아르 자형 = – , 만약에 1 < 0. Тестовая статистика 그것은 가지고있다 - 배포 n-2자유도.

해바라기 가게 체인의 문제에 r2= 0.904, b1- +1.670(그림 4 참조). 때문에 b1> 0, 연간 매출과 매장 규모 간의 상관 계수는 아르 자형= +√0.904 = +0.951. 다음을 사용하여 이러한 변수 사이에 상관관계가 없다는 귀무가설을 테스트해 보겠습니다. - 통계:

α = 0.05의 유의 수준에서 귀무 가설은 기각되어야 합니다. = 10.64 > 2.1788. 따라서 연간 매출액과 점포 규모 간에는 통계적으로 유의한 관계가 있다고 주장할 수 있다.

모집단 기울기에 대한 추론을 논의할 때 가설 검정을 위한 신뢰 구간과 기준은 상호 교환 가능한 도구입니다. 그러나 상관계수를 포함하는 신뢰구간 계산은 통계량의 표본분포 형태가 복잡하기 때문에 더 어려운 것으로 나타났다. 아르 자형실제 상관 계수에 따라 달라집니다.

기대치 추정 및 예측 개별 가치

이 섹션에서는 예상 응답을 추정하는 방법에 대해 설명합니다. 와이개별 값의 예측 와이변수의 주어진 값에 대해 엑스.

신뢰 구간의 구성.예 2에서(위 섹션 참조 최소제곱법) 회귀 방정식을 통해 변수의 값을 예측할 수 있음 와이 엑스. 장소를 선택하는 문제에서 콘센트 4,000평방미터의 연평균 매출 피트는 7,644,000달러에 해당하지만 일반 인구의 수학적 기대치에 대한 이 추정치는 포인트입니다. 일반 인구의 수학적 기대치를 추정하기 위해 신뢰 구간의 개념이 제안되었습니다. 마찬가지로 개념을 도입할 수 있습니다. 반응의 수학적 기대치에 대한 신뢰 구간변수의 주어진 값에 대해 엑스:

어디 , = 0 + 1 X 나는– 예측값 변수 와이~에 엑스 = X 나는, S YX평균 제곱 오차, N샘플 크기입니다. 엑스- 주어진 변수 값 엑스, µ 와이|엑스 = 엑스기대값변하기 쉬운 와이~에 엑스 = Х 나는,SSX=

공식 (13)의 분석은 신뢰 구간의 폭이 여러 요인에 따라 달라진다는 것을 보여줍니다. 주어진 유의 수준에서 평균 제곱 오차를 사용하여 측정된 회귀선 주변의 변동 진폭이 증가하면 구간의 폭이 증가합니다. 한편, 예상대로 표본 크기의 증가는 간격의 축소를 동반합니다. 또한 값에 따라 간격의 폭이 변경됩니다. 엑스. 변수의 값이라면 와이수량 예측 엑스, 평균값에 근접 , 신뢰 구간은 평균에서 멀리 떨어진 값에 대한 응답을 예측할 때보다 좁은 것으로 판명되었습니다.

매장 위치를 ​​선택할 때 4000제곱미터 면적의 모든 매장의 연평균 매출에 대해 95% 신뢰 구간을 구축하려고 한다고 가정해 보겠습니다. 피트:

따라서 면적이 4,000㎡인 모든 점포의 연평균 판매량은 95% 확률로 6,971에서 8,317,000달러 범위에 있습니다.

예측 값에 대한 신뢰 구간을 계산합니다.주어진 변수 값에 대한 반응의 수학적 기대치에 대한 신뢰 구간 외에도 엑스, 예측 값에 대한 신뢰 구간을 알아야 하는 경우가 많습니다. 이러한 신뢰구간을 계산하는 공식은 공식(13)과 매우 유사하지만 이 구간에는 매개변수의 추정치가 아닌 예측값이 포함됩니다. 예상 반응의 간격 와이엑스 = 사이변수의 특정 값에 대해 엑스공식에 의해 결정됩니다.

소매점 위치를 선택할 때 면적이 4000제곱미터인 매장의 예상 연간 판매량에 대해 95% 신뢰 구간을 구축하려고 한다고 가정해 보겠습니다. 피트:

따라서 4,000평방미터당 예상 연간 판매량은 피트, 95% 확률은 543만3300만~985만4000달러 범위에 있습니다. 보시다시피 예측 응답 값에 대한 신뢰 구간은 수학적 기대치에 대한 신뢰 구간보다 훨씬 넓습니다. 개별 값을 예측할 때의 변동성이 기대값을 추정할 때보다 훨씬 크기 때문입니다.

회귀 사용과 관련된 함정 및 윤리적 문제

회귀 분석과 관련된 어려움:

  • 최소 제곱법의 적용 조건을 무시합니다.
  • 최소 제곱 방법의 적용 가능성에 대한 조건의 잘못된 추정.
  • 최소 제곱법의 적용 조건을 위반하는 잘못된 대체 방법 선택.
  • 신청 회귀 분석연구 주제에 대한 깊은 지식 없이.
  • 설명 변수의 범위를 벗어난 회귀의 외삽.
  • 통계적 관계와 인과 관계 사이의 혼란.

스프레드시트의 확산과 소프트웨어통계 계산을 위해 회귀 분석 사용을 방해하는 계산 문제를 제거했습니다. 그러나 이로 인해 자격과 지식이 부족한 사용자가 회귀 분석을 사용하기 시작했습니다. 많은 사람들이 최소 제곱법의 적용 조건에 대해 전혀 모르고 구현을 확인하는 방법을 모르는 경우 사용자가 대체 방법에 대해 어떻게 알 수 있습니까?

연구원은 이동, 기울기 및 혼합 상관 계수를 계산하는 연삭 숫자에 휩쓸려서는 안됩니다. 그는 더 깊은 지식이 필요합니다. 교과서에서 가져온 고전적인 예를 들어 이것을 설명하겠습니다. Anscombe는 그림에 표시된 네 가지 데이터 세트 모두가 23은 동일한 회귀 매개변수를 가집니다(그림 24).

쌀. 23. 4개의 인공 데이터 세트

쌀. 24. 4개의 인공 데이터 세트의 회귀 분석 완료 분석 패키지(이미지를 클릭하면 이미지가 커집니다)

따라서 회귀 분석의 관점에서 볼 때 이러한 모든 데이터 세트는 완전히 동일합니다. 이것으로 분석이 끝났다면 우리는 많은 것을 잃었을 것입니다. 유용한 정보. 이것은 이러한 데이터 세트에 대해 구성된 산점도(그림 25)와 잔차 그림(그림 26)에 의해 입증됩니다.

쌀. 25. 4개의 데이터 세트에 대한 산점도

산점도와 잔차도는 이러한 데이터가 서로 다르다는 것을 보여줍니다. 직선을 따라 분포된 유일한 집합은 집합 A입니다. 집합 A에서 계산된 잔차의 그림에는 패턴이 없습니다. 세트 B, C 및 D에 대해서도 마찬가지입니다. 세트 B에 대해 플롯된 산점도는 뚜렷한 2차 패턴을 보여줍니다. 이 결론은 포물선 모양의 잔차 플롯으로 확인됩니다. 산점도와 잔차 도표는 데이터 세트 B에 이상값이 포함되어 있음을 보여줍니다. 이 경우 데이터셋에서 이상값을 제외하고 분석을 반복해야 한다. 관찰에서 이상값을 탐지하고 제거하는 기술을 영향 분석이라고 합니다. 이상값을 제거한 후 모델을 재평가한 결과는 완전히 다를 수 있습니다. 데이터 세트 D에서 플롯된 산점도는 경험적 모델이 단일 응답에 크게 의존하는 비정상적인 상황을 보여줍니다( × 8 = 19, 와이 8 = 12.5). 이러한 회귀 모델은 특히 신중하게 계산해야 합니다. 따라서 산점도 및 잔차 도표는 회귀 분석의 필수 도구이며 필수적인 부분이어야 합니다. 그것들이 없으면 회귀 분석을 신뢰할 수 없습니다.

쌀. 26. 4개의 데이터 세트에 대한 잔차 도표

회귀 분석에서 함정을 피하는 방법:

  • 변수 간의 가능한 관계 분석 엑스그리고 와이항상 산점도로 시작하십시오.
  • 회귀 분석 결과를 해석하기 전에 적용 가능한 조건을 확인하십시오.
  • 잔차 대 독립 변수를 플로팅합니다. 이를 통해 경험적 모델이 관찰 결과와 어떻게 일치하는지 확인하고 분산의 불변성 위반을 감지할 수 있습니다.
  • 히스토그램, 줄기 및 잎 그림, 상자 그림 및 정규 분포 그림을 사용하여 오류의 정규 분포 가정을 테스트합니다.
  • 최소 제곱법의 적용 조건이 충족되지 않으면 대체 방법(예: 2차 또는 다중 회귀 모델)을 사용하십시오.
  • 최소자승법의 적용조건을 만족한다면 회귀계수의 통계적 유의성에 대한 가설을 검증하고 수학적 기대치와 예측반응값을 포함하는 신뢰구간을 구축할 필요가 있다.
  • 독립 변수의 범위를 벗어난 종속 변수의 값을 예측하지 마십시오.
  • 통계적 종속성이 항상 인과 관계인 것은 아니라는 점을 명심하십시오. 변수 사이의 상관관계가 변수 사이에 인과관계가 있음을 의미하지는 않는다는 점을 기억하십시오.

요약.블록 다이어그램(그림 27)에 표시된 대로 노트에는 간단한 선형 회귀 모델, 적용 조건 및 이러한 조건을 테스트하는 방법이 설명되어 있습니다. 존경받는 -회귀 기울기의 통계적 유의성을 테스트하기 위한 기준. 종속 변수의 값을 예측하기 위해 회귀 모델을 사용했습니다. 매장 면적에 대한 연간 판매량의 의존성을 연구하는 소매점의 장소 선택과 관련된 예가 고려됩니다. 얻은 정보를 통해 매장의 위치를 ​​보다 정확하게 선택하고 연간 매출을 예측할 수 있습니다. 다음 노트에서는 회귀 분석과 다중 회귀 모델에 대한 논의가 계속됩니다.

쌀. 27. 노트의 블록 다이어그램

책 Levin et al.의 자료 관리자를 위한 통계가 사용됩니다. - M.: Williams, 2004. - p. 792–872

종속변수가 범주형이면 로지스틱 회귀를 적용해야 합니다.

공부하는 동안 학생들은 매우 자주 다양한 방정식을 접하게 됩니다. 그 중 하나인 회귀 방정식이 이 기사에서 고려됩니다. 이 유형의 방정식은 특히 수학적 매개변수 간의 관계 특성을 설명하는 데 사용됩니다. 이 유형평등은 통계 및 계량 경제학에서 사용됩니다.

회귀의 정의

수학에서 회귀는 다른 수량의 값에 대한 데이터 세트의 평균값의 의존성을 설명하는 특정 수량으로 이해됩니다. 회귀 방정식은 특정 기능의 함수로 다른 기능의 평균값을 보여줍니다. 회귀 함수의 형식은 다음과 같습니다. 간단한 방정식 y \u003d x, 여기서 y는 종속 변수이고 x는 독립 변수(특성 요소)입니다. 실제로 회귀는 y = f(x)로 표현됩니다.

변수 간의 관계 유형은 무엇입니까

일반적으로 상관 관계와 회귀라는 두 가지 반대 유형의 관계가 구별됩니다.

첫 번째는 조건부 변수의 동일성을 특징으로 합니다. 에 이 경우어떤 변수가 다른 변수에 의존하는지 확실하지 않습니다.

변수 사이에 평등이 없고 어떤 변수가 설명적이고 어떤 변수가 종속적이라는 조건이 있으면 두 번째 유형의 연결이 있다고 말할 수 있습니다. 선형 회귀 방정식을 구축하려면 어떤 유형의 관계가 관찰되는지 알아낼 필요가 있습니다.

회귀 유형

현재까지 쌍곡선, 선형, 다중, 비선형, 쌍별, 역, 대수 선형의 7가지 유형의 회귀가 있습니다.

쌍곡선, 선형 및 대수

선형 회귀 방정식은 방정식의 매개 변수를 명확하게 설명하기 위해 통계에 사용됩니다. y = c + m * x + E처럼 보입니다. 쌍곡선 방정식은 정규 쌍곡선 y \u003d c + m / x + E의 형태를 갖습니다. 대수적으로 일차 방정식대수 함수를 사용하여 관계를 표현합니다. In y \u003d In c + m * In x + In E.

다중 및 비선형

두개 더 복잡한 유형회귀는 다중적이고 비선형적입니다. 다중 회귀 방정식은 함수 y \u003d f (x 1, x 2 ... x c) + E로 표현됩니다. 이 상황에서 y는 종속 변수이고 x는 설명 변수입니다. 변수 E는 확률적이며 방정식의 다른 요인의 영향을 포함합니다. 비선형 회귀 방정식은 약간 일관성이 없습니다. 한편으로 고려되는 지표에 관해서는 선형적이지 않고 다른 한편으로는 지표를 평가하는 역할에서 선형적입니다.

역회귀 및 쌍별 회귀

역함수는 다음과 같이 변환해야 하는 일종의 함수입니다. 선형 보기. 가장 전통적인 응용 프로그램에서는 함수 y \u003d 1 / c + m * x + E의 형식을 갖습니다. 쌍 회귀 방정식은 데이터 간의 관계를 y = f(x) + E의 함수로 보여줍니다. 다른 방정식과 마찬가지로 y는 x에 의존하고 E는 확률적 매개변수입니다.

상관관계의 개념

이것은 두 가지 현상이나 과정 사이에 관계가 있음을 나타내는 지표입니다. 관계의 강도는 상관 계수로 표현됩니다. 값은 [-1;+1] 간격 내에서 변동합니다. 음수 표시기는 존재를 나타냅니다. 피드백, 긍정적 - 직선에 대해. 계수가 0과 같은 값을 취하면 관계가 없습니다. 값이 1에 가까울수록 더 강한 연결매개 변수 사이에서 0에 가까울수록 약해집니다.

행동 양식

상관 매개변수 방법은 관계의 견고성을 추정할 수 있습니다. 그들은 정규 분포 법칙을 따르는 모수를 연구하기 위해 분포 추정치를 기반으로 사용됩니다.

선형 회귀 방정식의 매개 변수는 종속 유형, 회귀 방정식의 기능을 식별하고 선택한 관계 공식의 지표를 평가하는 데 필요합니다. 상관 필드는 관계를 식별하는 방법으로 사용됩니다. 이를 위해서는 모든 기존 데이터를 그래픽으로 표시해야 합니다. 직사각형 2차원 좌표계에서는 알려진 모든 데이터를 플롯해야 합니다. 이것이 상관 필드가 형성되는 방식입니다. 설명 요소의 값은 가로 좌표를 따라 표시되고 종속 요소의 값은 세로 좌표를 따라 표시됩니다. 매개변수 사이에 기능적 관계가 있는 경우 라인 형태로 정렬됩니다.

이러한 데이터의 상관 계수가 30% 미만이면 연결이 거의 없다고 말할 수 있습니다. 30%에서 70% 사이이면 중간 수준의 연결이 있음을 나타냅니다. 100% 지표는 기능적 연결의 증거입니다.

비선형 회귀 방정식은 선형 회귀 방정식과 마찬가지로 상관 지수(R)로 보완해야 합니다.

다중 회귀에 대한 상관관계

결정 계수는 다중 상관의 제곱을 나타내는 지표입니다. 그는 제시된 지표 세트와 연구 중인 특성의 관계가 긴밀하다고 말합니다. 또한 매개변수가 결과에 미치는 영향의 특성에 대해서도 설명할 수 있습니다. 다중 회귀 방정식은 이 지표를 사용하여 평가됩니다.

다중상관지수를 계산하기 위해서는 그 지수를 계산해야 한다.

최소제곱법

이 방법은 회귀 요인을 추정하는 방법입니다. 그 본질은 함수에 대한 요인의 의존성으로 인해 얻은 제곱 편차의 합을 최소화하는 데 있습니다.

이러한 방법을 사용하여 대응 선형 회귀 방정식을 추정할 수 있습니다. 이 유형의 방정식은 쌍을 이루는 선형 관계의 지표 사이에서 감지되는 경우에 사용됩니다.

방정식 옵션

선형 회귀 함수의 각 매개변수에는 특정한 의미가 있습니다. 쌍을 이룬 선형 회귀 방정식에는 c와 m의 두 매개변수가 포함되어 있습니다. 매개변수 t는 변수 x가 하나의 기존 단위만큼 감소(증가)될 때 함수 y의 최종 지표의 평균 변화를 보여줍니다. 변수 x가 0이면 함수는 매개변수 c와 같습니다. 변수 x가 0이 아니면 인수 c는 경제적 의미가 없습니다. 함수에 대한 유일한 영향은 인수 c 앞의 부호입니다. 마이너스가 있으면 요인에 비해 결과의 느린 변화에 대해 말할 수 있습니다. 플러스가 있으면 결과의 급격한 변화를 나타냅니다.

회귀 방정식의 값을 변경하는 각 매개변수는 방정식으로 표현될 수 있습니다. 예를 들어 인수 c의 형식은 c = y - mx입니다.

그룹화된 데이터

모든 정보가 속성 x에 따라 그룹화되는 작업 조건이 있지만 동시에 특정 그룹에 대해 종속 지표의 해당 평균값이 표시됩니다. 이 경우 평균값은 지표가 x에 의존하는 방식을 나타냅니다. 따라서 그룹화된 정보는 회귀 방정식을 찾는 데 도움이 됩니다. 관계 분석으로 사용됩니다. 그러나 이 방법에는 단점이 있습니다. 불행히도 평균은 종종 외부 변동의 영향을 받습니다. 이러한 변동은 관계의 패턴을 반영하는 것이 아니라 "노이즈"를 가릴 뿐입니다. 평균은 선형 회귀 방정식보다 훨씬 나쁜 관계 패턴을 보여줍니다. 그러나 방정식을 찾는 기초로 사용할 수 있습니다. 특정 모집단의 크기에 해당 평균을 곱하면 그룹 내에서 y의 합을 얻을 수 있습니다. 다음으로 받은 금액을 모두 제거하고 최종 표시기 y를 찾아야 합니다. 합계 표시기 xy로 계산하는 것은 조금 더 어렵습니다. 간격이 작은 경우 조건부로 모든 단위(그룹 내)에 대해 동일한 지표 x를 사용할 수 있습니다. x와 y의 곱의 합을 찾기 위해 y의 합을 곱합니다. 또한, 모든 합계가 함께 노크되고 전체 합계 xy가 구해집니다.

다중 쌍 방정식 회귀: 관계의 중요성 평가

앞에서 설명한 것처럼 다중 회귀에는 y \u003d f (x 1, x 2, ..., x m) + E 형식의 함수가 있습니다. 대부분의 경우 이러한 방정식은 상품의 수요와 공급 문제, 환매 주식에 대한이자 수입, 생산 비용 함수의 원인 및 유형을 연구하는 데 사용됩니다. 또한 다양한 거시경제 연구 및 계산에도 활발하게 사용되지만 미시경제 수준에서는 이 방정식이 조금 덜 사용됩니다.

다중 회귀의 주요 작업은 각 요소가 개별적으로 그리고 전체적으로 모델링할 지표와 그 계수에 어떤 영향을 미치는지 추가로 결정하기 위해 엄청난 양의 정보를 포함하는 데이터 모델을 구축하는 것입니다. 회귀 방정식은 다양한 값을 가질 수 있습니다. 이 경우 일반적으로 선형 및 비선형의 두 가지 유형의 함수가 관계를 평가하는 데 사용됩니다.

선형 함수는 y \u003d a 0 + a 1 x 1 + a 2 x 2, + ... + a m x m과 같은 관계의 형태로 묘사됩니다. 이 경우 a2, a m 은 "순수한" 회귀 계수로 간주됩니다. 다른 지표의 안정적인 값 조건과 함께 각 해당 매개 변수 x의 변화 (감소 또는 증가)로 매개 변수 y의 평균 변화를 한 단위 씩 특성화하는 데 필요합니다.

비선형 방정식은 예를 들어 다음과 같은 형식을 갖습니다. 전원 함수 y=ax 1 b1 x 2 b2 ...x m bm . 이 경우 지표 b 1, b 2 ..... b m -탄성 계수라고하며 해당 지표 x가 1 % 증가 (감소)하면 결과가 어떻게 변하는지 (얼마나 %만큼) 보여줍니다 다른 요인에 대한 안정적인 지표가 있습니다.

다중 회귀를 구축할 때 고려해야 할 요소

다중회귀를 올바르게 구성하기 위해서는 어떤 요인에 특별히 주의를 기울여야 하는지를 알아내야 합니다.

관계의 본질에 대한 이해가 필요하다. 경제적 요인그리고 모델링했습니다. 포함할 요소는 다음 기준을 충족해야 합니다.

  • 측정 가능해야 합니다. 물체의 품질을 기술하는 요소를 사용하기 위해서는 어떠한 경우에도 정량적 형식이 주어져야 한다.
  • 요인 상호 상관 또는 기능적 관계가 없어야 합니다. 이러한 조치는 가장 자주 돌이킬 수없는 결과를 초래합니다. 일반 방정식 시스템은 무조건화되며 이는 신뢰할 수없고 모호한 추정치를 수반합니다.
  • 거대한 상관 지표의 경우 지표의 최종 결과에 대한 요인의 고립된 영향을 알아낼 방법이 없으므로 계수를 해석할 수 없게 됩니다.

공법

방정식의 인수를 선택하는 방법을 설명하는 방법과 방법은 무수히 많습니다. 그러나 이러한 모든 방법은 상관 지수를 사용한 계수 선택을 기반으로 합니다. 그 중에는 다음이 있습니다.

  • 제외 방법.
  • 방법을 켜십시오.
  • 단계적 회귀 분석.

첫 번째 방법은 집계 집합에서 모든 계수를 선별하는 것입니다. 두 번째 방법은 많은 추가 요소를 도입하는 것입니다. 음, 세 번째는 이전에 방정식에 적용된 요소를 제거하는 것입니다. 이러한 각 방법은 존재할 권리가 있습니다. 장단점이 있지만 불필요한 지표를 걸러내는 문제는 나름의 방식으로 해결할 수 있다. 일반적으로 각 개별 방법으로 얻은 결과는 매우 유사합니다.

다변량 분석 방법

요소를 결정하는 이러한 방법은 상호 관련된 기능의 개별 조합을 고려하는 데 기반합니다. 여기에는 판별 분석, 패턴 인식, 주성분 분석 및 클러스터 분석이 포함됩니다. 또한 요인분석도 있으나 성분분석법의 발달로 나타난 것이다. 그들 모두는 특정 상황과 특정 조건 및 요인에 따라 적용됩니다.

사우나 선형 회귀 한 변수와 다른 변수의 평균 사이의 관계입니다. 대부분의 경우 모델은 $y=ax+b+e$로 작성됩니다. 여기서 $x$는 요인 변수, $y$는 결과(종속), $e$는 임의 구성 요소(잔차, 편차)입니다.

에 대한 교육 작업에서 수학 통계일반적으로 사용되는 것은 다음과 같습니다 연산회귀 방정식을 찾을 수 있습니다.

  1. 모델 선택(방정식). 종종 모델이 미리 결정됩니다(찾을 선형 회귀) 또는 그래픽 방법이 선택에 사용됩니다. 산점도가 작성되고 모양이 분석됩니다.
  2. 회귀 방정식의 계수(매개변수) 계산. 이것은 종종 최소 제곱법을 사용하여 수행됩니다.
  3. 상관 계수 및 모델 매개변수의 중요성을 확인하고(신뢰 구간도 만들 수 있음) 피셔 기준을 사용하여 모델의 품질을 평가합니다.
  4. 잔차 분석, 계산 표준 에러회귀, 모델 예측(선택 사항).

아래에서 쌍 회귀(데이터 계열 또는 상관관계 표, 다양한 추가 작업 포함)에 대한 솔루션과 상관 계수를 결정하고 검사하기 위한 몇 가지 작업을 찾을 수 있습니다.


좋아요? 서표

온라인 예제 솔루션: 선형 회귀

단순 선택

예 1분기당 20개 점포의 직원 Y(천 루블)당 평균 생산량과 회전율 X(천 루블)에 대한 데이터가 있습니다. 지정된 데이터를 기반으로 다음이 필요합니다.
1) 이직률에 대한 근로자 1인당 평균 생산량의 종속성(상관 계수)을 결정합니다.
2) 이 종속성의 직접 회귀 방정식을 만듭니다.

예 2같은 유형, 같은 수의 직원 수를 가진 5개 회사에서 임금과 이직률의 상호 영향을 분석하기 위해 월급 X 수준과 Y년에 퇴사한 직원 수를 측정했습니다.
X 100 150 200 250 300
Y 60 35 20 20 15
X에서 Y의 선형 회귀, 샘플 상관 계수를 찾습니다.

예 3선택적 찾기 수치적 특성샘플 선형 회귀 방정식 $y_x=ax+b$. 회귀선을 만들고 평면의 테이블에서 점 $(x,y)$를 그립니다. 잔차 분산을 계산합니다. 결정계수로 선형회귀모형의 적합성을 확인한다.

예 4회귀 방정식의 계수를 계산합니다. 만주 물푸레나무의 밀도와 강도 사이의 샘플 상관 계수를 결정합니다.
문제를 해결하려면 상관 필드를 구축하고 필드 유형별로 종속 유형을 결정하고 작성해야합니다. 일반적인 형태회귀 방정식 Y on X, 회귀 방정식의 계수를 결정하고 주어진 두 값 사이의 상관 계수를 계산합니다.

실시예 5렌터카 회사는 자동차 X의 주행 거리와 월 유지비 Y 간의 관계에 관심이 있습니다. 이 관계의 특성을 확인하기 위해 15대의 자동차를 선택했습니다. 초기 데이터의 그래프를 작성하고 이에 대한 종속성의 특성을 결정합니다. 샘플링 속도 계산 선형 상관 Pearson, 0.05에서 그 중요성을 확인하십시오. 회귀 방정식을 만들고 결과를 해석하십시오.

상관 테이블

실시예 6상관관계 테이블이 주어진 X에서 샘플 직접 회귀 방정식 Y를 찾습니다.

실시예 7표 2는 일부 가구의 소득 X(r.u.)에 대한 소비 Y(r.u.)의 종속성에 대한 데이터를 보여줍니다.
1. X와 Y 사이에 선형 관계가 있다고 가정하고 선형 회귀 계수에 대한 점 추정치를 찾습니다.
2. 표준 편차 $s$와 결정 계수 $R^2$를 구하십시오.
3. 회귀 모델의 랜덤 구성 요소의 정규성을 가정하고 Y와 X 사이에 선형 관계가 없다는 가설을 테스트합니다.
4. 예상 소비량은 얼마입니까? 가정소득 $x_n=7$ arb. 단위? 예측에 대한 신뢰 구간을 찾습니다.
얻은 결과에 대한 해석을 제공하십시오. 모든 경우의 유의 수준은 0.05로 간주됩니다.

실시예 8알려진 모든 모바일 시스템 X(화폐 단위)의 셀룰러 통신에 대한 100가지 새로운 유형의 관세 분포와 Y(화폐 단위)로부터의 수익이 표에 나와 있습니다.
필요한:
1) 그룹 평균을 계산하고 경험적 회귀선을 만듭니다.
2) 변수 X와 Y 사이에 선형 상관관계가 있다고 가정합니다.
A) 회귀선의 방정식을 찾고 경험적 회귀선이 있는 동일한 도면에 그래프를 작성하고 얻은 방정식에 대한 경제적 해석을 제공합니다.
B) 상관 계수를 계산하고 0.05의 유의 수준에서 그 중요성을 평가하고 변수 X와 Y 사이의 관계의 근접성과 방향에 대한 결론을 도출합니다.
C) 적절한 회귀 방정식을 사용하여 20가지 새로운 유형의 관세로 모바일 시스템의 평균 수익을 추정합니다.

해당 지역의 경우 200X에 대한 데이터가 제공됩니다.

지역 번호 유능한 사람 1인당 하루 최소 생계비, 문지름, x 평균 일일 급여, 문지름, ~에서
1 78 133
2 82 148
3 87 134
4 79 154
5 89 162
6 106 195
7 67 139
8 88 158
9 73 152
10 87 162
11 76 159
12 115 173

운동:

1. 상관 관계 필드를 구축하고 연결 형태에 대한 가설을 공식화합니다.

2. 선형 회귀 방정식의 매개변수 계산

4. 평균(일반) 탄성 계수를 사용하여 요인과 결과 간의 관계 강도를 비교 평가합니다.

7. 요인의 예측값이 평균보다 10% 증가하면 결과의 예측값을 계산합니다. 유의 수준에 대한 예측의 신뢰 구간을 결정합니다.

해결책:

엑셀을 이용하여 이 문제를 풀어봅시다.

1. 사용 가능한 데이터 x와 y를 비교하여 예를 들어 x 요인의 오름차순으로 순위를 매기면 1인당 최저 생계비의 증가가 평균 일일 임금을 증가시킬 때 기호 사이의 직접적인 관계를 관찰할 수 있습니다. 이를 바탕으로 부호 간의 관계가 직접적이며 직선의 방정식으로 설명할 수 있다고 가정할 수 있습니다. 그래픽 분석을 기반으로 동일한 결론이 확인됩니다.

상관 관계 필드를 구축하려면 Excel PPP를 사용할 수 있습니다. 순서대로 초기 데이터를 입력합니다: 먼저 x, 그 다음 y.

데이터가 포함된 셀 영역을 선택합니다.

그런 다음 다음을 선택합니다. Insert / Scatter / Scatter with markers그림 1과 같이.

그림 1 상관 필드 구성

상관 필드의 분석은 점들이 거의 직선에 위치하기 때문에 직선에 가까운 종속성이 있음을 보여줍니다.

2. 선형 회귀 방정식의 매개 변수를 계산하려면
내장 통계 기능 사용 라인스트.

이를 위해:

1) 분석할 데이터가 포함된 기존 파일을 엽니다.
2) 빈 셀 영역을 5×2(5행 2열)로 선택하여 회귀통계 결과를 표시한다.
3) 활성화 함수 마법사: 메인 메뉴에서 선택 수식 / 함수 삽입.
4) 창에서 범주니가 가져 통계, 기능 창에서 - 라인스트. 버튼을 클릭 확인그림 2와 같이;

그림 2 함수 마법사 대화 상자

5) 함수 인수를 입력합니다.

알려진 값

알려진 x 값

끊임없는 - 부울, 방정식에서 자유 항의 존재 또는 부재를 나타냅니다. Constant = 1이면 자유 기간은 일반적인 방식으로 계산되고 Constant = 0이면 자유 기간은 0입니다.

통계- 회귀 분석에 대한 추가 정보 표시 여부를 나타내는 부울 값입니다. 통계 = 1이면 추가 정보가 표시되고 Statistics = 0이면 방정식 매개변수의 추정치만 표시됩니다.

버튼을 클릭 확인;

그림 3 LINEST 인수 대화 상자

6) 최종 테이블의 첫 번째 요소가 선택된 영역의 왼쪽 상단 셀에 나타납니다. 전체 테이블을 확장하려면 버튼을 누릅니다. 그런 다음 키보드 단축키에서 ++ .

추가 회귀 통계는 다음 스키마에 표시된 순서대로 출력됩니다.

계수 b의 값 계수 a의 값
b 표준 오류 표준 오차
표준 오차 y
F-통계량
회귀 제곱합

그림 4 LINEST 함수를 계산한 결과

우리는 회귀 방정식을 얻었습니다.

우리는 결론을 내립니다: 1인당 최소 생계가 1문지름 증가합니다. 평균 일일 임금은 평균 0.92 루블 증가합니다.

52% 변동을 의미합니다. 임금(y)는 x 요인의 변동으로 설명됩니다. 1인당 평균 생계 최소값과 48%는 모델에 포함되지 않은 다른 요인의 작용으로 설명됩니다.

계산된 결정 계수에 따라 상관 계수를 계산할 수 있습니다. .

친밀한 관계로 평가됩니다.

4. 평균 (일반) 탄성 계수를 사용하여 결과에 대한 요인의 영향 강도를 결정합니다.

직선 방정식의 경우 평균(일반) 탄성 계수는 ​​다음 공식으로 결정됩니다.

x 값으로 셀 영역을 선택하여 평균값을 찾고 선택합니다. 수식 / 자동 합계 / 평균, y의 값과 동일하게 수행하십시오.

그림 5 함수 및 인수의 평균값 계산

따라서 1인당 평균 최저생계비가 평균값에서 1% 변하면 평균 일급은 평균 0.51% 변한다.

데이터 분석 도구 사용 회귀사용 가능:
- 회귀 통계 결과,
- 분산 분석 결과,
- 결과 신뢰 구간,
- 잔차 및 회귀선 맞춤 차트,
- 잔차 및 정규 확률.

절차는 다음과 같습니다.

1) 액세스 확인 분석 패키지. 메인 메뉴에서 다음을 순서대로 선택합니다. 파일/설정/추가 기능.

2) 드롭 제어물품을 고르시 오 Excel 추가 기능그리고 버튼을 누르세요 가다.

3) 창에서 애드온상자를 확인 분석 패키지을 클릭한 다음 버튼을 클릭합니다. 확인.

만약 분석 패키지필드 목록에서 누락됨 사용 가능한 애드온, 버튼을 누르십시오 검토검색하기.

컴퓨터에 분석 팩이 설치되어 있지 않다는 메시지가 표시되면 그것을 설치합니다.

4) 메인 메뉴에서 다음을 순서대로 선택합니다. 데이터 / 데이터 분석 / 분석 도구 / 회귀을 클릭한 다음 버튼을 클릭합니다. 확인.

5) 데이터 입력 및 출력 옵션 대화 상자를 채웁니다.

입력 간격 Y- 유효한 속성의 데이터를 포함하는 범위

입력 간격 X- 요소 속성의 데이터를 포함하는 범위

태그- 첫 번째 줄에 열 이름이 포함되어 있는지 여부를 나타내는 플래그

상수 - 0- 방정식에서 자유 용어의 존재 또는 부재를 나타내는 플래그;

출력 간격- 미래 범위의 왼쪽 상단 셀을 표시하는 것으로 충분합니다.

6) 새 워크시트 - 새 시트에 임의의 이름을 설정할 수 있습니다.

그런 다음 버튼을 누릅니다. 확인.

그림 6 회귀 도구의 매개변수를 입력하기 위한 대화 상자

문제 데이터에 대한 회귀 분석 결과는 그림 7에 나와 있습니다.

그림 7 회귀 도구를 적용한 결과

5. 평균 근사 오차를 사용하여 방정식의 품질을 추정해 보겠습니다. 그림 8에 제시된 회귀 분석 결과를 사용합시다.

그림 8 회귀 도구 "Residual Inference"를 적용한 결과

그림 9와 같이 새 테이블을 컴파일해 보겠습니다. C열에서 공식을 사용하여 상대 근사 오차를 계산합니다.

그림 9 평균 근사 오차 계산

평균 근사 오차는 다음 공식으로 계산됩니다.

구성된 모델의 품질은 8~10%를 초과하지 않기 때문에 양호로 평가됩니다.

6. 회귀 통계가 있는 표(그림 4)에서 Fisher의 F-테스트의 실제 값을 작성합니다.

때문에 5% 유의 수준에서 회귀 방정식이 유의하다는 결론을 내릴 수 있습니다(관계가 입증됨).

8. 스튜던트 t-통계를 사용하고 각 지표에 대한 신뢰 구간을 계산하여 회귀 매개변수의 통계적 유의성을 평가합니다.

0과 통계적으로 유의하지 않은 지표 차이에 대한 가설 H 0을 제시합니다.

.

자유도의 수

그림 7에는 t-통계의 실제 값이 있습니다.

상관 계수에 대한 t-검정은 두 가지 방법으로 계산할 수 있습니다.

나는 방법:

어디 - 상관 계수의 무작위 오류.

그림 7의 표에서 계산을 위해 데이터를 가져옵니다.

II 방법:

실제 t-통계 값은 테이블 값보다 우수합니다.

따라서 H 0 가설은 기각됩니다. 즉, 회귀 매개변수와 상관 계수가 무작위로 0과 다르지 않지만 통계적으로 유의합니다.

매개변수 a에 대한 신뢰 구간은 다음과 같이 정의됩니다.

매개변수 a의 경우 그림 7과 같이 95% 범위는 다음과 같습니다.

회귀 계수에 대한 신뢰 구간은 다음과 같이 정의됩니다.

회귀 계수 b의 경우 그림 7에 표시된 95% 범위는 다음과 같습니다.

신뢰 구간의 상한과 하한을 분석하면 다음과 같은 결론이 나옵니다. 지정된 경계 내에 있는 매개변수 a 및 b는 0 값을 취하지 않습니다. 통계적으로 유의하지 않으며 0과 크게 다릅니다.

7. 회귀 방정식의 추정치를 통해 예측에 사용할 수 있습니다. 생계 최소치의 예측 값이 다음과 같은 경우:

그러면 생계 최소값의 예측 값은 다음과 같습니다.

다음 공식을 사용하여 예측 오차를 계산합니다.

어디

또한 Excel PPP를 사용하여 분산을 계산합니다. 이를 위해:

1) 활성화 함수 마법사: 메인 메뉴에서 선택 수식 / 함수 삽입.

3) 요인 특성의 수치 데이터가 포함된 범위를 채웁니다. 딸깍 하는 소리 확인.

그림 10 분산 계산

분산 값 가져오기

자유도 1당 잔차 분산을 계산하기 위해 그림 7과 같은 분산 분석 결과를 사용합니다.

0.95의 확률로 y의 개별 값을 예측하기 위한 신뢰 구간은 다음 식으로 결정됩니다.

주로 관측량이 적기 때문에 간격이 상당히 넓습니다. 일반적으로 평균 월급의 성취 예측은 신뢰할 수있는 것으로 판명되었습니다.

문제의 조건은 다음에서 가져온 것입니다. 계량 경제학 워크샵: Proc. 수당 / I.I. Eliseeva, S.V. Kurysheva, N.M. Gordeenko 및 기타; 에드. I.I. Eliseeva. - M.: 재무 및 통계, 2003. - 192 p.: 병.