단순 선형 회귀.  선형 회귀의 기초

단순 선형 회귀. 선형 회귀의 기초

상관관계와 회귀의 개념은 직접적으로 관련되어 있습니다. 상관 및 회귀 분석에는 많은 일반적인 계산 기술이 있습니다. 현상과 과정 사이의 원인과 결과 관계를 식별하는 데 사용됩니다. 그러나 만약 상관 분석확률적 연결의 강도와 방향을 평가할 수 있습니다. 회귀 분석중독의 한 형태이기도 합니다.

회귀는 다음과 같을 수 있습니다.

a) 현상(변수)의 수에 따라:

단순(두 변수 사이의 회귀);

다중(종속 변수(y)와 이를 설명하는 여러 변수(x1, x2 ... xn) 사이의 회귀;

b) 형식에 따라:

선형(선형 함수로 표시되며 연구 중인 변수 간에 선형 관계가 있음)

비선형(비선형 함수로 표시, 연구 중인 변수 간의 관계가 비선형임)

c) 고려 사항에 포함된 변수 간의 관계 특성:

양수(설명 변수 값이 증가하면 종속 변수 값이 증가하고 그 반대도 마찬가지임)

음수(설명 변수 값이 증가하면 설명 변수 값이 감소함)

d) 유형별:

즉시(이 경우 원인이 결과에 직접적인 영향을 미칩니다. 즉, 종속 변수와 설명 변수가 서로 직접 관련되어 있습니다.)

간접(설명 변수는 종속 변수에 대한 세 번째 또는 여러 다른 변수를 통해 간접적인 영향을 미칩니다.)

거짓(넌센스 회귀) - 연구 중인 프로세스 및 현상에 대한 피상적이고 형식적인 접근 방식으로 발생할 수 있습니다. 말도 안되는 예는 우리나라에서 소비되는 알코올 양의 감소와 세제 판매 감소 사이의 관계를 설정하는 회귀입니다.

지휘할 때 회귀 분석다음과 같은 주요 작업이 해결됩니다.

1. 의존 형태 결정.

2. 회귀 함수의 정의. 이렇게하려면 먼저 다음을 허용하는 한 유형 또는 다른 유형의 수학 방정식을 사용하십시오. 일반적인 추세종속변수의 변화, 둘째, 종속변수에 대한 설명변수(또는 다중변수)의 효과를 계산합니다.

3. 종속 변수의 알려지지 않은 값 추정. 결과 수학적 의존성(회귀 방정식)을 통해 설명 변수의 주어진 값 범위 내에서 그리고 그 이상에서 종속 변수의 값을 결정할 수 있습니다. 후자의 경우 회귀 분석은 사회 경제적 과정과 현상의 변화를 예측하는 데 유용한 도구 역할을 합니다(기존 추세와 관계가 유지되는 경우). 일반적으로 예측이 수행되는 시간 간격의 길이는 초기 지표의 관측이 이루어진 시간 간격의 절반 이하로 선택됩니다. 잘 알려진 "if ... then"방식에 따라 추론하고 다른 값을 하나 이상의 설명 회귀 변수로 대체하여 수동적 예측, 외삽 문제 해결 및 능동적 예측을 모두 수행 할 수 있습니다.



을 위한 회귀 구축라는 특별한 방법을 사용합니다. 방법 최소 제곱 . 이 방법은 다른 스무딩 방법에 비해 장점이 있습니다. 필요한 매개변수에 대한 상대적으로 간단한 수학적 정의와 확률론적 관점에서 좋은 이론적 정당성이 있습니다.

회귀 모델을 선택할 때 필수 요구 사항 중 하나는 가능한 최대의 단순성을 보장하여 충분한 정확도로 솔루션을 얻을 수 있도록 하는 것입니다. 따라서 통계적 관계를 설정하기 위해 먼저 일반적으로 선형 함수 클래스의 모델이 고려됩니다(가능한 모든 함수 클래스 중 가장 단순한 것으로).

여기서 bi, b2...bj - 값 yi에 대한 독립 변수 хij의 영향을 결정하는 계수; ai - 무료 회원; ei - 종속 변수에 대한 설명되지 않은 요인의 영향을 반영하는 무작위 편차; n은 독립 변수의 수입니다. N은 관측치의 개수이며 조건 (N . n+1)을 만족해야 합니다.

선형 모델다양한 종류의 다양한 문제를 설명할 수 있습니다. 그러나 실제로는 특히 사회경제적 시스템에서는 근사오차가 커서 선형모형을 사용하기 어려운 경우가 있다. 따라서 선형화가 가능한 비선형 다중회귀함수를 많이 사용한다. 여기에는 예를 들어 생산 기능( 전원 함수 Cobb-Douglas), 다양한 사회 경제적 연구에 적용되었습니다. 다음과 같습니다.

여기서 b 0 - 정규화 계수, b 1 ...b j - 알 수 없는 계수, e 나는 - 무작위 편차.

자연 로그를 사용하여 이 방정식을 선형 형식으로 변환할 수 있습니다.

결과 모델은 표준 절차의 사용을 허용합니다. 선형 회귀전술 한 바와. 두 가지 유형(가산 및 곱셈)의 모델을 구축하면 가장 좋은 모델을 선택하고 더 작은 근사 오차로 추가 연구를 수행할 수 있습니다.

근사 함수를 선택하기 위한 잘 개발된 시스템이 있습니다. 인수의 그룹 설명 방법(MGUA) .

선택한 모델의 정확성은 잔차 연구 결과로 판단할 수 있으며, 이는 관측값 y i와 회귀 방정식 y i를 사용하여 예측한 해당 값의 차이입니다. 이 경우 모델의 적합성을 확인하기 위해계획된 평균 근사 오차:

e가 15% 이내이면 모델이 적합하다고 간주됩니다.

우리는 특히 사회 경제 시스템과 관련하여 고전적 회귀 모델의 적절성을 위한 기본 조건이 항상 충족되는 것은 아니라는 점을 강조합니다.

결과적으로 부적합한 모든 원인에 대해 생각하지 않고 이름만 지정하겠습니다. 다중공선성- 가장 어려운 문제 효과적인 적용통계적 종속성 연구의 회귀 분석 절차. 아래에 다중공선성설명 변수 사이의 선형 관계의 존재가 이해됩니다.

이 현상:

a) 의미 있는 해석에서 회귀 계수의 의미를 왜곡합니다.

b) 추정의 정확도가 감소합니다(추정의 분산이 증가함).

c) 샘플 데이터에 대한 계수 추정치의 민감도를 향상시킵니다(샘플 크기의 증가는 추정치 값에 큰 영향을 미칠 수 있음).

다중 공선성을 줄이기 위한 다양한 기술이 있습니다. 대부분 저렴한 방법- 두 변수 사이의 상관 계수가 절대값이 0.8인 값을 초과하는 경우 두 변수 중 하나를 제거합니다. 어떤 변수를 유지할지는 의미 있는 고려 사항을 기반으로 결정됩니다. 그런 다음 회귀 계수가 다시 계산됩니다.

단계별 회귀 알고리즘을 사용하면 모델에 하나의 독립 변수를 일관되게 포함하고 회귀 계수의 유의성과 변수의 다중 공선성을 분석할 수 있습니다. 마지막으로, 회귀 계수의 필수 의미와 다중 공선성의 최소 효과를 제공하는 변수만 연구된 종속성에 남아 있습니다.

인과 관계의 특성화

인과 관계-이것은 현상과 과정의 연결입니다. 그 중 하나의 변화-원인-이 다른 하나의 변화-결과로 이어질 때입니다.

관계 연구에 대한 중요성에 따른 징후는 두 가지 클래스로 나뉩니다.

다른 관련 징후에 변화를 일으키는 징후를 호출합니다. 요인(또는 요인).

요인 징후의 영향으로 변경되는 징후는 다음과 같습니다. 생산적인.

구별하다 다음 양식연결: 기능적 및 확률적. 기능의요인 속성의 특정 값이 결과 속성의 단 하나의 값에 해당하는 관계를 호출합니다. 기능적 관계는 모든 관찰 사례와 연구 대상 인구의 각 특정 단위에 대해 나타납니다.

함수 관계는 다음 방정식으로 나타낼 수 있습니다.
yi=f(xi),어디에: y 나는 - 효과적인 기호; 에프(엑스 나는) - 유효 부호와 요인 부호 사이의 알려진 연결 기능; x 나는 - 요인 표시.
실제로는 기능적 연결이 없습니다. 그것들은 추상화일 뿐이며 현상 분석에 유용하지만 현실을 단순화합니다.

확률적(통계적 또는 임의적)연결분배 법칙을 변경하여 다른 수량 또는 다른 수량의 변화에 ​​대응하는 수량 간의 관계입니다. 즉, 이 연결로 다른 값한 변수는 다른 변수의 다른 분포에 해당합니다. 이는 고려된 독립 변수에 추가하여 종속 변수가 설명되지 않거나 제어되지 않는 여러 무작위 요인의 영향을 받을 뿐만 아니라 변수 측정 시 일부 불가피한 오류의 영향을 받기 때문입니다. 종속 변수의 값은 무작위 확산의 영향을 받기 때문에 충분한 정확도로 예측할 수 없으며 특정 확률로만 나타낼 수 있습니다.

Y와 X 사이의 확률적 종속성의 모호성으로 인해 특히 x에 대해 평균화된 종속 체계가 중요합니다. 평균값의 변화 패턴 - x에 따른 조건부 수학적 기대치 Mx(Y)(변수 X가 값 x를 취하는 조건 하에서 발견되는 랜덤 변수 Y의 수학적 기대치).

상관관계는 확률적 연결의 특수한 경우입니다. 상관관계(위도부터. 상관관계- 비율, 관계). 용어의 직접적인 해석 상관관계 - 확률적, 개연성, 가능 연결 2개(쌍) 또는 여러 개(여러 개) 사이 랜덤 변수.

두 변수 간의 상관 관계는 이러한 변수 간의 통계적 관계라고도 하며, 한 변수의 각 값은 특정 평균값, 즉 조건부 기대는 또 다른 것입니다. 상관 의존성은 요인 부호(x 1 x 2 ..., x n) 값의 변화가 유효 부호의 평균값 변화를 수반하는 확률적 의존의 특수한 경우입니다.



다음 유형의 상관 관계를 구별하는 것이 일반적입니다.

1. 쌍 상관관계 - 두 기호 사이의 관계(유효 및 계승 또는 두 계승).

2. 부분 상관관계 - 결과와 연구에 포함된 다른 요인 특성의 고정된 값을 가진 하나의 요인 특성 사이의 관계.

3. 다중 상관관계 - 연구에 포함된 결과 및 두 개 이상의 요인 특성의 종속성.

회귀 분석의 목적

회귀 모델은 인과 관계를 표현하는 분석적 형식입니다. 회귀 분석의 과학적 타당성과 대중성은 연구 중인 현상을 모델링하기 위한 주요 수학적 도구 중 하나입니다. 이 방법은 실험 데이터를 평활화하고 결과 변수에 대한 다양한 요인의 비교 영향에 대한 정량적 추정치를 얻는 데 사용됩니다.

회귀 분석은하나의 값(종속 변수 또는 결과 속성)의 변화가 하나 이상의 독립 변수(요인 또는 예측 변수)의 영향으로 인한 관계의 분석적 표현 정의에서 또한 종속 값은 상수 및 평균 값으로 간주됩니다.

회귀 분석의 목표:

계승 속성(x 1, x 2, ..., x n)에 대한 유효 속성 y의 조건부 평균값의 기능적 의존성 평가;

독립 변수를 사용하여 종속 변수의 값을 예측합니다.

종속 변수의 변동에 대한 개별 독립 변수의 기여도 결정.

회귀 분석은 변수 간의 관계가 있는지 여부를 확인하는 데 사용할 수 없습니다. 이러한 관계의 존재는 분석을 적용하기 위한 전제 조건이기 때문입니다.

회귀 분석에서는 유효(Y)와 요인 x 1, x 2 ..., xn 기호 사이의 인과 관계의 존재가 미리 암시됩니다.

기능 , op매개 변수에 대한 지표의 의존성을 조사하는 회귀 방정식(함수)하나 . 회귀 방정식은 독립 변수의 특정 값에 대한 종속 변수의 예상 값을 보여줍니다.
모델에 포함된 요인의 수에 따라 엑스모델은 단일 요인(쌍 회귀 모델)과 다중 요인(다중 회귀 모델)으로 나뉩니다. 함수의 종류에 따라 모델은 선형과 비선형으로 나뉩니다.

쌍 회귀 모델

설명되지 않은 무작위 요인 및 원인의 영향으로 인해 개별 관측치 y는 회귀 함수 f(x)에서 어느 정도 벗어날 것입니다. 이 경우 두 변수의 관계 방정식(쌍 회귀 모델)은 다음과 같이 나타낼 수 있습니다.

Y=에프(X) + ε,

여기서 ɛ는 회귀 함수로부터의 편차를 특징짓는 랜덤 변수입니다. 이 변수를 섭동 또는 섭동(잔여 또는 오류)이라고 합니다. 따라서 회귀 모델에서 종속 변수는 와이어떤 기능이 있습니다 에프(X)무작위 섭동까지 ɛ.

고전적인 선형 쌍 회귀 모델(CLPR)을 고려하십시오. 그녀는 ~처럼 보인다

y i \u003d β 0 + β 1 x i + ɛ i (i \u003d 1,2, ..., n),(1)

어디 –설명됨(결과, 종속, 내생 변수); x 나는– 설명(예측, 요인, 외생) 변수; β0, β1- 수치 계수 ɛi– 무작위(확률적) 구성 요소 또는 오류.

KLMPR의 기본 조건(전제 조건, 가설):

1) x 나는- 결정론적(비무작위) 값, x의 값 중 i - 모두가 동일하지 않다고 가정합니다.

2) 기대값(평균값) 섭동 ɛi 0과 같음:

М[ɛ i ]=0 (i=1,2, …, n).

3) 섭동의 분산은 i의 모든 값에 대해 일정합니다(동등분산성 조건).

D[ɛ i ]=σ 2 (i=1,2, …, n).

4) 서로 다른 관찰에 대한 섭동은 상관관계가 없습니다.

cov[ɛ i , ɛ j ]=M[ɛ i , ɛ j ]=0 for i≠j,

여기서 cov[ɛ i , ɛ j ]는 공분산 계수(상관 모멘트)입니다.

5) 섭동은 평균이 0이고 분산이 σ 2인 정규 분포 확률 변수입니다.

ɛ i ≈ N(0, σ 2).

회귀 방정식을 얻으려면 처음 네 가지 전제로 충분합니다. 다섯 번째 전제를 충족하는 요구 사항은 회귀 방정식과 그 매개변수의 정확성을 평가하는 데 필요합니다.

논평:선형 관계에 대한 관심은 변수의 제한된 변동과 대부분의 경우 비선형 형태의 관계가 계산을 수행하기 위해 선형 형태로 변환(대수를 취하거나 변수를 변경하여)한다는 사실로 설명됩니다.

전통적인 최소제곱법(OLS)

모델의 표본 추정치는 다음 방정식입니다.

ŷ i = a 0 + a 1 x i(i=1,2, …, n), (2)

여기서 ŷ i는 회귀 방정식에서 얻은 종속 변수의 이론적 (근사) 값입니다. a 0 , a 1 - 회귀 방정식의 계수(매개변수)(각각 계수 β 0 , β 1의 선택적 추정치).

최소 제곱에 따르면 미지의 매개변수 a 0 , a 1은 y i의 경험적 값(잔여 제곱합)에서 ŷ i 값의 제곱 편차의 합이 최소가 되도록 선택됩니다.

Q e =∑e i 2 = ∑(y i – ŷ i) 2 = ∑(yi – (a 0 + a 1 x i)) 2 → min, (3)

여기서 e i = y i - ŷ i 는 섭동 ɛ i 의 샘플 추정치 또는 회귀의 잔차입니다.

문제는 함수 Q e가 가장 작은 값을 취하는 매개 변수 a 0 및 1의 값을 찾는 것으로 축소됩니다. 함수 Q e = Q e (a 0 , a 1)는 두 변수 a 0과 a 1의 함수이며 "최상의"(최소 제곱 방법의 의미에서) 값을 찾아서 고정할 때까지 다음과 같이 됩니다. 및 х i , y i 는 실험적으로 구한 상수입니다.

필요한 조건극값(3)은 두 변수의 이 함수의 편도함수를 0으로 하여 구합니다. 결과적으로 우리는 정규 방정식 시스템이라고하는 두 개의 선형 방정식 시스템을 얻습니다.

(4)

계수 a 1 - x에 대한 샘플 회귀 계수 y는 변수 x가 측정의 한 단위, 즉 변동 x 단위당 y의 변동으로 변경될 때 변수 y가 평균적으로 변경되는 단위 수를 보여줍니다. 징후 1이 변화의 방향을 나타냅니다. (2)에 따른 계수 a 0 - shift는 x=0에서 ŷ i의 값과 같으며 의미 있는 해석이 없을 수 있습니다. 이를 위해 종속 변수를 응답이라고도 합니다.

회귀 계수 추정치의 통계적 특성:

계수 a 0 , a 1 의 추정치는 편향되지 않습니다.

추정치의 분산 a 0 , a 1은 표본 크기 n이 증가함에 따라 감소합니다(추정치의 정확도가 증가함).

추정 분산 경사 a 1은 증가함에 따라 감소하므로 평균값 주변의 확산이 커지도록 x i를 선택하는 것이 바람직합니다.

x̅ > 0(가장 흥미로운)의 경우 0과 1 사이에 음의 통계적 관계가 있습니다(1이 증가하면 0이 감소함).

결과

표 8.3a. 회귀 통계
회귀 통계
다중 R 0,998364
R-제곱 0,99673
정규화된 R-제곱 0,996321
표준 에러 0,42405
관찰 10

먼저 회귀 통계인 표 8.3a에 제시된 계산의 상단 부분을 살펴보겠습니다.

확실성 측정값이라고도 하는 값 R-제곱은 결과 회귀선의 품질을 나타냅니다. 이 품질은 원본 데이터와 회귀 모델(계산된 데이터) 간의 일치 정도에 의해 표현됩니다. 확실성의 측정은 항상 간격 내에 있습니다.

대부분의 경우 R-제곱 값은 극단이라고 하는 이러한 값 사이에 있습니다. 0과 1 사이.

R-square 값이 1에 가까우면 구성된 모델이 해당 변수의 변동성을 거의 모두 설명한다는 의미입니다. 반대로 0에 가까운 R 제곱 값은 품질이 좋지빌드 모델.

이 예에서 확실성의 척도는 0.99673이며, 이는 회귀선이 원래 데이터에 매우 적합함을 나타냅니다.

다중 R- 다중 상관 계수 R - 독립 변수(X)와 종속 변수(Y)의 의존도를 나타냅니다.

다중 R은 같음 제곱근결정 계수에서 이 값은 0에서 1 사이의 값을 취합니다.

단순 선형 회귀 분석에서 다중 R은 Pearson 상관 계수와 같습니다. 실제로 우리의 경우 다중 R은 이전 예의 Pearson 상관 계수(0.998364)와 같습니다.

표 8.3b. 회귀 계수
승산 표준 에러 t-통계량
Y교차로 2,694545455 0,33176878 8,121757129
변수 X 1 2,305454545 0,04668634 49,38177965
* 잘린 버전의 계산이 제공됩니다.

이제 표 8.3b에 제시된 계산의 중간 부분을 고려하십시오. 여기서 회귀계수 b(2.305454545)와 y축 오프셋이 주어집니다. 상수 a(2.694545455).

계산을 기반으로 회귀 방정식을 다음과 같이 작성할 수 있습니다.

Y= x*2.305454545+2.694545455

변수 간의 관계 방향은 부호(음수 ​​또는 양수)에 따라 결정됩니다. 회귀계수(계수 b).

에 서명하면 회귀계수- 양수, 종속 변수와 독립 변수의 관계는 양수입니다. 우리의 경우 회귀 계수의 부호는 양수이므로 관계도 양수입니다.

에 서명하면 회귀계수- 음수, 종속 변수와 독립 변수 간의 관계는 음수(역)입니다.

표 8.3c에서. 잔차의 출력 결과가 표시됩니다. 이러한 결과를 보고서에 표시하려면 "회귀" 도구를 시작할 때 "잔차" 확인란을 활성화해야 합니다.

남은 출금

표 8.3c. 유적
관찰 예측된 Y 유적 표준 저울
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

보고서의 이 부분을 사용하여 구성된 회귀선에서 각 포인트의 편차를 볼 수 있습니다. 최대 절댓값

회귀 분석 방법은 가치 관계를 구축하고 정렬하기 위해 특정 매개변수 시리즈와 관련된 제품의 기술 및 경제적 매개변수를 결정하는 데 사용됩니다. 이 방법은 주요 소비자 특성을 반영하는 하나 이상의 기술적 및 경제적 매개변수의 존재를 특징으로 하는 제품의 수준 및 가격 비율을 분석하고 정당화하는 데 사용됩니다. 회귀 분석을 통해 제품의 기술 및 경제적 매개변수에 대한 가격의 의존성을 설명하는 경험적 공식을 찾을 수 있습니다.

P=f(X1X2,...,Xn),

여기서 P는 제품의 단가, 문지름입니다. (X1, X2, ... Xp) - 제품의 기술 및 경제 매개변수.

가장 진보된 규범적 방법과 매개변수적 방법인 회귀 분석 방법은 현대식을 사용하여 계산을 수행하는 데 효과적입니다. 정보 기술및 시스템. 적용에는 다음과 같은 주요 단계가 포함됩니다.

  • 제품의 분류 파라메트릭 그룹의 정의;
  • 제품 가격에 가장 큰 영향을 미치는 매개변수 선택
  • 매개 변수를 변경할 때 가격 변경 통신 형식의 선택 및 정당화
  • 정규 방정식 시스템 구성 및 회귀 계수 계산.

가격이 균일화되는 주요 자격 제품 그룹은 매개변수 범위 내에서 제품을 응용 프로그램, 작동 조건 및 요구 사항 등에 따라 다양한 설계에 따라 그룹화할 수 있습니다. 매개변수 시리즈를 형성할 때 자동 분류 제품의 전체 질량에서 동종 그룹을 할당할 수 있는 방법을 적용할 수 있습니다. 기술 및 경제 매개변수의 선택은 다음과 같은 기본 요구 사항을 기반으로 합니다.

  • 선택한 매개변수의 구성에는 표준 및 사양에 고정된 매개변수가 포함됩니다. 뿐만 아니라 기술적인 매개변수(전력, 운반 능력, 속도 등) 연속 생산 지표, 복잡성 요인, 통합 등이 사용됩니다.
  • 선택된 매개변수 세트는 시리즈에 포함된 제품의 설계, 기술 및 작동 속성을 충분히 특성화하고 가격과 상당히 밀접한 상관관계를 가져야 합니다.
  • 매개변수는 상호 의존적이지 않아야 합니다.

가격에 큰 영향을 미치는 기술 및 경제 매개변수를 선택하기 위해 쌍 상관 계수의 행렬이 계산됩니다. 매개변수 간의 상관 계수의 크기로 관계의 견고성을 판단할 수 있습니다. 동시에 0에 가까운 상관관계는 매개변수가 가격에 약간의 영향을 미친다는 것을 보여줍니다. 기술 및 경제 매개변수의 최종 선택은 컴퓨터 기술과 적절한 표준 프로그램을 사용하여 단계별 회귀 분석 과정에서 수행됩니다.

가격 책정 관행에서 다음과 같은 기능 집합이 사용됩니다.

선의

P = ao + alXl + ... + antXn,

선형 전력

P \u003d ao + a1X1 + ... + anXp + (an + 1Xp) (an + 1Xp) + ... + (an + nXp2) (an + nXp2)

역로그

P \u003d a0 + a1: X1 + ... + an: Xn에서,

P = a0 (X1^a1) (X2^a2) .. (Xn^an)

데모

P = e^(a1+a1X1+...+anXn)

쌍곡선

P \u003d ao + a1: X1 + a2: X2 + ... + an: Xn,

여기서 P - 가격 균등화; X1 X2,..., Xn - 시리즈 제품의 기술 및 경제적 매개변수 값 a0, a1 ..., an - 회귀 방정식의 계산된 계수.

실무가격 관계의 형태와 기술 및 경제 매개변수에 따라 가격 책정을 위해 다른 회귀 방정식을 사용할 수 있습니다. 가격과 일련의 기술 및 경제적 매개변수 사이의 관계 기능 유형은 사전 설정되거나 컴퓨터에서 처리하는 동안 자동으로 선택될 수 있습니다. 가격과 매개변수 집합 간의 상관관계의 견고성은 다중 상관계수 값으로 추정됩니다. 단일성에 대한 근접성은 긴밀한 연결을 나타냅니다. 회귀 방정식에 따라 이 매개변수 시리즈의 제품 가격에 대한 정렬(계산) 값을 얻습니다. 정렬 결과를 평가하기 위해 계산된 가격 값과 실제 값의 상대 편차가 계산됩니다.

Tsr \u003d Rf-Rr : R x 100

여기서 Рф, Рр - 실제 및 예상 가격.

Cr의 값은 8-10%를 초과하지 않아야 합니다. 계산된 값이 실제 값과 크게 다른 경우 다음을 조사해야 합니다.

  • 파라메트릭 시리즈 구성의 정확성은 시리즈의 다른 제품과 매개변수가 크게 다른 제품을 구성에 포함할 수 있기 때문입니다. 제외되어야 합니다.
  • 기술 및 경제적 매개 변수의 올바른 선택. 가격과 약한 상관관계가 있는 일련의 매개변수가 가능합니다. 이 경우 매개변수 검색 및 선택을 계속해야 합니다.

회귀 분석을 수행하고 방정식의 알려지지 않은 매개 변수를 찾는 절차 및 방법론 및 경제성 평가얻은 결과는 수학적 통계의 요구 사항에 따라 수행됩니다.

회귀 분석의 주요 목표결과 속성의 변화가 하나 이상의 요인 기호의 영향으로 인한 관계의 분석적 형식을 결정하는 것으로 구성되며 결과 속성에도 영향을 미치는 다른 모든 요소 집합은 상수 및 평균 값으로 간주됩니다. .
회귀 분석 작업:
a) 의존의 형태 확립. 현상 사이의 관계의 성질과 형태에 관해서는 양의 선형과 비선형, 음의 선형과 비선형 회귀가 있다.
b) 하나 또는 다른 유형의 수학 방정식 형태로 회귀 함수를 정의하고 설명 변수가 종속 변수에 미치는 영향을 설정합니다.
c) 종속 변수의 알려지지 않은 값 추정. 회귀 함수를 사용하여 설명 변수의 주어진 값의 간격 내에서 종속 변수의 값을 재현하거나(즉, 보간 문제 해결) 지정된 간격 밖에서 ​​프로세스의 진행 과정을 평가(즉, 외삽 문제를 해결하십시오). 결과는 종속 변수 값의 추정치입니다.

쌍 회귀 - 두 변수 y와 x의 관계 방정식: , 여기서 y는 종속 변수(유효 부호)입니다. x - 독립적인 설명 변수(특징 요소).

선형 및 비선형 회귀가 있습니다.
선형 회귀: y = a + bx + ε
비선형 회귀는 분석에 포함된 설명 변수에 대해 비선형이지만 추정된 매개변수에 대해 선형인 회귀와 추정된 매개변수에 대해 비선형인 회귀로 구분됩니다.
설명 변수에서 비선형인 회귀:

추정 매개변수 측면에서 비선형인 회귀: 회귀 방정식 작성은 매개변수 추정으로 축소됩니다. 매개변수가 선형인 회귀의 매개변수를 추정하기 위해 최소 제곱법(LSM)이 사용됩니다. LSM을 사용하면 이론적 특성에서 결과 특성 y의 실제 값의 제곱 편차의 합이 최소인 매개변수의 추정치를 얻을 수 있습니다.
.
선형으로 환원될 수 있는 선형 및 비선형 방정식의 경우 a 및 b에 대해 다음 시스템이 해결됩니다.

이 시스템에서 따르는 기성 수식을 사용할 수 있습니다.

연구 중인 현상 간의 연결의 근접성은 선형 회귀에 대한 쌍 상관의 선형 계수로 추정됩니다.

및 상관 지수 - 비선형 회귀의 경우:

구성된 모델의 품질 평가는 결정 계수(지수)와 평균 근사 오차로 제공됩니다.
평균 근사 오차는 계산된 값과 실제 값의 평균 편차입니다.
.
값의 허용 한계 - 8-10% 이하.
평균 탄성 계수는 ​​결과 y가 모집단에서 평균적으로 몇 퍼센트 변하는지 보여줍니다. 중간 사이즈계수 x가 평균값에서 1%만큼 변경될 때:
.

분산 분석 작업은 종속 변수의 분산을 분석하는 것입니다.
,
제곱 편차의 총합은 어디에 있습니까?
- 회귀로 인한 제곱 편차의 합("설명됨" 또는 "계승")
- 제곱 편차의 잔차 합.
유효 특성 y의 전체 분산에서 회귀에 의해 설명되는 분산의 비율은 R2를 결정하는 계수(인덱스)로 특징지어집니다.

결정 계수는 계수 또는 상관 지수의 제곱입니다.

F- 테스트 -회귀 방정식의 품질 평가-가설을 테스트하는 것으로 구성되지만 회귀 방정식의 통계적 중요성과 연결의 근접성 지표에 대해. 이를 위해 피셔 F 기준 값의 실제 F 팩트와 임계(표 형식) F 테이블의 비교가 수행됩니다. F 팩트는 1 자유도에 대해 계산된 계승 및 잔차 분산 값의 비율로 결정됩니다.
,
여기서 n은 인구 단위의 수입니다. m은 변수 x에 대한 매개변수의 수입니다.
F 테이블은 주어진 자유도 및 유의 수준 a에 대해 랜덤 요인의 영향을 받는 기준의 최대 가능한 값입니다. 유의 수준 a - 올바른 가설을 기각할 확률(참인 경우). 일반적으로 a는 0.05 또는 0.01과 같습니다.
F 테이블인 경우< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >F가 사실이면 H에 대한 가설이 기각되지 않고 통계적 무의미, 회귀 방정식의 신뢰성이 인정되지 않습니다.
회귀 및 상관 계수의 통계적 유의성을 평가하기 위해 각 지표에 대한 Student's t-test 및 신뢰 구간을 계산합니다. 지표의 임의적 특성에 대한 가설 H가 제시됩니다. 0과의 사소한 차이에 대해. Student 's t-test를 사용한 회귀 및 상관 계수의 중요성 평가는 해당 값을 무작위 오류의 크기와 비교하여 수행됩니다.
; ; .
선형 회귀 매개변수 및 상관 계수의 임의 오차는 다음 공식에 의해 결정됩니다.



t 통계의 실제 값과 임계(표 형식) 값(t tabl 및 t 사실)을 비교하여 가설 H o를 수락하거나 거부합니다.
Fisher의 F-검정과 학생의 t-통계량 간의 관계는 다음과 같이 표현됩니다.

t 테이블인 경우< t факт то H o отклоняется, т.е. a, b и не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t 가설 H가 기각되지 않고 a, b 또는 형성의 무작위 특성이 인식된다는 사실.
신뢰 구간을 계산하기 위해 각 지표에 대한 한계 오차 D를 결정합니다.
, .
신뢰 구간을 계산하는 공식은 다음과 같습니다.
; ;
; ;
0이 신뢰 구간의 경계 내에 있는 경우, 즉 하한이 음수이고 상한이 양수이면 추정된 매개변수는 양수 값과 음수 값을 동시에 취할 수 없기 때문에 0으로 간주됩니다.
예측 값은 해당(예측) 값을 회귀 방정식에 대입하여 결정됩니다. 평균이 계산됨 표준 에러예측 :
,
어디
그리고 건설되고 있다 신뢰 구간예측:
; ;
어디 .

솔루션 예

작업 번호 1. 우랄 지역의 7개 영토에 대해 199X의 경우 두 기호의 값이 알려져 있습니다.
1 번 테이블.
필수의: 1. x에 대한 y의 종속성을 특성화하려면 다음 함수의 매개변수를 계산합니다.
a) 선형;
b) 거듭제곱 법칙(이전에는 두 부분의 로그를 취하여 변수의 선형화 절차를 수행해야 했습니다)
c) 시범;
d) 등변 쌍곡선(또한 이 모델을 사전 선형화하는 방법을 알아내야 합니다).
2. Mean approximation error와 Fisher's F-test를 통해 각 모델을 평가한다.

솔루션(옵션 #1)

선형 회귀의 매개변수 a와 b를 계산합니다(계산은 계산기를 사용하여 수행할 수 있음).
에 대한 정규 방정식 시스템을 풀다 그리고 비:
초기 데이터를 기반으로 계산합니다. :
와이 엑스 yx x2 y2 아이
68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
수 값 (총계/n) 57,89 54,90 3166,05 3048,34 3383,68 엑스 엑스 8,1
에스 5,74 5,86 엑스 엑스 엑스 엑스 엑스 엑스
s2 32,92 34,34 엑스 엑스 엑스 엑스 엑스 엑스


회귀 방정식: y= 76,88 - 0,35엑스.일평균 증가와 함께 임금 1 문지름. 식품 구매에 대한 지출 비율은 평균 0.35% 포인트 감소합니다.
쌍 상관의 선형 계수를 계산합니다.

의사 소통은 온건하고 반대입니다.
결정 계수를 정의해 봅시다.

결과의 12.7% 변동은 x 요인의 변동으로 설명됩니다. 실제 값을 회귀 방정식에 대입 엑스,이론적(계산된) 값 결정 . 평균 근사 오차 값을 찾습니다.

평균적으로 계산된 값은 실제 값과 8.1% 차이가 납니다.
F-기준을 계산해 봅시다:

왜냐하면 1< 에프 < ¥ , 고려되어야한다 에프 -1 .
결과 값은 가설을 수락할 필요성을 나타냅니다. 하지만 오밝혀진 종속성의 임의적 특성과 방정식 매개 변수의 통계적 무의미성 및 연결의 견고성 지표.
1b.검정력 모델의 구성은 변수의 선형화 절차가 선행됩니다. 예제에서 선형화는 방정식의 양변에 로그를 취하여 수행됩니다.


어디Y=lg(y), X=lg(x), C=lg(a).

계산을 위해 표의 데이터를 사용합니다. 1.3.

표 1.3

와이 엑스 YX Y2 x2 아이
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
평균 1,7605 1,7370 3,0572 3,1011 3,0194 엑스 엑스 28,27 8,0
σ 0,0425 0,0484 엑스 엑스 엑스 엑스 엑스 엑스 엑스
σ2 0,0018 0,0023 엑스 엑스 엑스 엑스 엑스 엑스 엑스

C와 b를 계산합니다.


얻다 일차 방정식:.
그것을 강화함으로써 우리는 다음을 얻습니다.

이 방정식에 실제 값을 대입하면 엑스,결과의 이론적 값을 얻습니다. 이를 기반으로 지표를 계산합니다. 연결의 견고성-상관 지수 및 평균 근사 오차

검정력 모델의 특성은 선형 함수보다 관계를 다소 더 잘 설명한다는 것을 나타냅니다.

1c. 지수 곡선 방정식의 구성

방정식의 두 부분의 로그를 취할 때 변수를 선형화하는 절차가 선행됩니다.

계산을 위해 테이블 ​​데이터를 사용합니다.

와이 엑스 Yx Y2 x2 아이
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
수 zn. 1,7605 54,9 96,5711 3,1011 3048,34 엑스 엑스 28,68 8,0
σ 0,0425 5,86 엑스 엑스 엑스 엑스 엑스 엑스 엑스
σ2 0,0018 34,339 엑스 엑스 엑스 엑스 엑스 엑스 엑스

회귀 매개 변수 A의 값과 에 달했다:


선형 방정식을 얻습니다. . 결과 방정식을 강화하고 일반적인 형식으로 작성합니다.

상관 지수를 통해 연결의 근접성을 추정합니다.