최소제곱법은 어디에 적용됩니까?

최소제곱법은 어디에 적용됩니까?

다양한 과학 및 실습 분야에서 가장 광범위하게 적용됩니다. 물리학, 화학, 생물학, 경제학, 사회학, 심리학 등이 될 수 있습니다. 운명의 의지에 따라 나는 종종 경제를 다루어야하므로 오늘 나는 당신을 위해 놀라운 나라라는 놀라운 나라로가는 티켓을 마련하겠습니다. 계량 경제학=) … 어떻게 그것을 원하지 않습니까?! 거기는 아주 좋습니다. 결정하기 만하면됩니다! … 하지만 분명히 원하는 것은 문제를 해결하는 방법을 배우는 것입니다. 방법 최소 제곱 . 그리고 특히 부지런한 독자들은 그것들을 정확할 뿐만 아니라 매우 빠르게 해결하는 방법을 배울 것입니다 ;-) 하지만 먼저 문제에 대한 일반적인 진술+ 관련 예:

양적 표현이 있는 일부 주제 영역에서 지표를 연구하도록 합니다. 동시에 지표가 지표에 의존한다고 믿을만한 모든 이유가 있습니다. 이 가정은 과학적 가설일 수도 있고 기본적인 상식. 그러나 과학은 제쳐두고 좀 더 식욕을 돋우는 분야, 즉 식료품점을 살펴보겠습니다. 다음으로 표시:

– 식료품 점의 소매 공간, sq.m.,
- 식료품 점의 연간 매출, 백만 루블.

매장 면적이 클수록 대부분의 경우 매출이 커진다는 것은 분명합니다.

관찰/실험/계산/탬버린과 함께 춤을 추고 나면 다음과 같은 수치 데이터를 마음대로 사용할 수 있습니다.

식료품 점에서는 모든 것이 명확하다고 생각합니다. - 이것은 1 점포 면적, - 연간 매출액, - 2 점포 면적, - 연간 매출액 등입니다. 그건 그렇고, 분류 된 자료에 액세스 할 필요가 전혀 없습니다. 다음을 사용하여 상당히 정확한 회전율 평가를 얻을 수 있습니다. 수학 통계. 그러나 산만하지 마십시오. 상업적 스파이 과정은 이미 지불되었습니다 =)

표 형식의 데이터는 점의 형태로 작성되고 일반적인 방식으로 묘사될 수도 있습니다. 데카르트 시스템 .

중요한 질문에 답해 봅시다. 질적 연구에 필요한 점수는 몇 점입니까?

클수록 좋습니다. 최소 허용 세트는 5-6점으로 구성됩니다. 또한 소량의 데이터로 "비정상적인" 결과가 샘플에 포함되어서는 안 됩니다. 예를 들어 소규모 엘리트 상점은 "동료"보다 훨씬 더 많은 도움을 줄 수 있으므로 찾아야 할 일반적인 패턴을 왜곡합니다!

아주 간단하다면 함수를 선택해야 합니다. 일정가능한 한 포인트에 가깝게 전달합니다. . 그런 함수가 호출된다 근사 (근사치 - 근사치)또는 이론적 기능 . 일반적으로 말하면, 여기에 명백한 "지원자"가 즉시 나타납니다. 높은 온도, 그의 그래프는 모든 지점을 통과합니다. 그러나이 옵션은 복잡하고 종종 잘못된 것입니다. (차트가 항상 "감기"를 일으키고 주요 추세를 제대로 반영하지 못하기 때문입니다.).

따라서 원하는 함수는 충분히 단순해야 하며 동시에 종속성을 적절히 반영해야 합니다. 짐작할 수 있듯이 이러한 함수를 찾는 방법 중 하나는 다음과 같습니다. 최소 제곱. 먼저 그 본질을 분석해 봅시다. 일반적인 견해. 일부 함수가 실험 데이터를 근사화하도록 합니다.


이 근사치의 정확성을 어떻게 평가합니까? 실험값과 기능값의 차이(편차)도 계산해 보겠습니다. (우리는 그림을 연구합니다). 가장 먼저 떠오르는 생각은 합계가 얼마나 큰지 추정하는 것이지만 문제는 그 차이가 음수가 될 수 있다는 것입니다. (예를 들어, ) 이러한 합산 결과 편차는 서로 상쇄됩니다. 따라서 근사치의 정확도에 대한 추정치로서 합계를 취하는 것이 좋습니다. 모듈편차:

또는 접힌 형태: (갑자기 모르는 사람 : 은 합계 아이콘이고, 보조 변수는 1에서 까지의 값을 취하는 "카운터").

실험 포인트에 접근 중 다양한 기능, 우리는 받을 것이다 다른 의미, 그리고 분명히 이 합이 더 적은 곳에서 그 함수는 더 정확합니다.

이러한 메서드가 존재하고 호출됩니다. 최소계수법. 그러나 실제로는 훨씬 더 널리 퍼졌습니다. 최소제곱법, 가능한 음수 값은 계수가 아니라 편차를 제곱하여 제거됩니다.

, 그 후 제곱 편차의 합이 최대한 작았습니다. 사실, 따라서 메서드의 이름입니다.

그리고 이제 우리는 다른 곳으로 돌아왔습니다. 중요한 점: 위에서 언급한 바와 같이 선택된 기능은 매우 단순해야 하지만 그러한 기능도 많이 있습니다. 선의 , 쌍곡선, 기하급수적, 대수, 이차 등. 그리고 물론 여기서 저는 즉시 "활동 분야를 줄이고 싶습니다." 연구를 위해 어떤 종류의 기능을 선택해야 합니까? 원시적이지만 효과적인 기술:

- 포인트를 그리는 가장 쉬운 방법 도면에서 위치를 분석합니다. 그들이 직선에 있는 경향이 있다면, 당신은 찾아야 합니다. 직선 방정식 최적의 값과 . 즉, 작업은 SUCH 계수를 찾는 것이므로 제곱 편차의 합이 가장 작습니다.

예를 들어 포인트가 다음 위치에 있는 경우 과장, 선형 함수가 잘못된 근사값을 제공한다는 것이 분명합니다. 이 경우 쌍곡선 방정식에 대해 가장 "유리한" 계수를 찾고 있습니다. - 최소 제곱합을 제공하는 것 .

이제 두 경우 모두에 대해 이야기하고 있음을 주목하십시오. 두 변수의 함수, 그의 인수는 검색된 종속성 옵션:

그리고 본질적으로 표준 문제를 해결해야 합니다. 두 변수의 함수 중 최소.

우리의 예를 상기하십시오: "상점" 지점이 직선에 위치하는 경향이 있고 그 존재를 믿을만한 모든 이유가 있다고 가정하십시오. 선형 의존성거래 지역에서 매출. 제곱 편차의 합이 되도록 SUCH 계수 "a"와 "be"를 찾아봅시다. 가장 작았습니다. 평소와 같이 모든 것 - 먼저 1차 편도함수. 에 따르면 선형성 규칙합계 아이콘 바로 아래에서 구별할 수 있습니다.

이 정보를 에세이 또는 기말 보고서에 사용하려는 경우 소스 목록의 링크에 매우 감사할 것입니다. 어디에서도 이러한 자세한 계산을 찾을 수 없습니다.

표준 시스템을 만들어 봅시다.

각 방정식을 "2"로 줄이고 추가로 합계를 "분해"합니다.

메모 : 합계 아이콘에서 "a"와 "be"를 빼낼 수 있는 이유를 독립적으로 분석합니다. 그건 그렇고, 공식적으로 이것은 합계로 수행할 수 있습니다.

"적용된" 형식으로 시스템을 다시 작성해 보겠습니다.

그 후 문제를 해결하기 위한 알고리즘이 그려지기 시작합니다.

점의 좌표를 알고 있습니까? 우린 알아. 합계 우리는 찾을 수 있습니까? 용이하게. 우리는 가장 간단한 구성 두 개의 미지수가 있는 두 개의 선형 방정식 시스템("a" 및 "beh"). 예를 들어 시스템을 해결합니다. 크래머의 방법, 정지 지점 결과 . 확인 중 극한의 충분조건, 이 시점에서 함수가 정확하게 도달 최저한의. 검증은 추가 계산과 연관되어 있으므로 이를 뒤에 남겨둡니다. (필요한 경우 누락된 프레임을 볼 수 있음). 우리는 최종 결론을 내립니다.

기능 가장 좋은 방법 (적어도 다른 선형 함수와 비교할 때)실험 포인트를 더 가깝게 가져옵니다 . 대략적으로 말하면 그래프는 이러한 점에 최대한 가깝게 전달됩니다. 전통적으로 계량 경제학결과 근사 함수도 호출됩니다. 쌍 선형 회귀 방정식 .

고려중인 문제는 큰 실용적인 가치. 우리의 예와 같은 상황에서 방정식 어떤 종류의 회전율을 예측할 수 있습니다. ("이그")판매 지역의 하나 또는 다른 값으로 매장에 있을 것입니다. ("x"의 의미). 예, 결과 예측은 예측일 뿐이지만 대부분의 경우 꽤 정확한 것으로 판명됩니다.

어려움이 없기 때문에 "실제"숫자로 한 가지 문제 만 분석하겠습니다. 모든 계산은 수준에 있습니다. 학교 커리큘럼 7-8 학년. 95%의 경우에 선형 함수만 찾으라는 요청을 받게 되지만 기사의 맨 끝에서 최적의 쌍곡선, 지수 및 일부 다른 함수에 대한 방정식을 찾는 것이 더 이상 어렵지 않음을 보여줄 것입니다.

실제로 약속 된 상품을 배포하는 것이 남아 있으므로 그러한 예를 정확하고 빠르게 해결하는 방법을 배웁니다. 우리는 표준을 신중하게 연구합니다.

작업

두 지표 간의 관계를 연구한 결과 다음과 같은 숫자 쌍을 얻었습니다.

최소 제곱법을 사용하여 경험식에 가장 근접한 선형 함수를 찾습니다. (경험)데이터. 데카르트에서 그림을 만드십시오. 직사각형 시스템실험 포인트를 구축하기 위한 좌표와 근사 함수의 그래프 . 경험적 값과 이론적 값 사이의 제곱 편차의 합을 구합니다. 기능이 더 나은지 알아보십시오. (최소 제곱법의 관점에서)대략적인 실험 포인트.

"x" 값은 자연적인 값이며 이것은 의미 있는 의미가 있는 특징이 있습니다. 이에 대해서는 나중에 설명하겠습니다. 그러나 그들은 물론 분수일 수 있습니다. 또한 특정 작업의 내용에 따라 "X" 및 "G" 값 모두 전체 또는 부분적으로 음수가 될 수 있습니다. 글쎄, 우리는 "얼굴없는"작업을 받았고 시작합니다. 해결책:

시스템에 대한 솔루션으로 최적 함수의 계수를 찾습니다.

더 간결한 표기법을 위해 "카운터" 변수는 생략할 수 있습니다. 합계가 1에서 까지 수행된다는 것이 이미 명확하기 때문입니다.

필요한 금액을 표 형식으로 계산하는 것이 더 편리합니다.


마이크로 계산기에서 계산을 수행할 수 있지만 Excel을 사용하는 것이 훨씬 빠르고 오류가 없습니다. 짧은 동영상 보기:

따라서 우리는 다음을 얻습니다. 체계:

여기서 두 번째 방정식에 3을 곱하고 1차 방정식 항에서 2차 항을 뺍니다.. 그러나 이것은 운입니다. 실제로 시스템은 종종 재능이 없으며 그러한 경우 저장합니다. 크래머의 방법:
, 시스템에는 고유한 솔루션이 있습니다.

확인해보자. 원하지 않는다는 건 이해하지만 절대 놓칠 수 없는 실수를 건너뛰는 이유는 무엇입니까? 찾은 솔루션을 시스템의 각 방정식 왼쪽에 대입합니다.

해당 방정식의 올바른 부분이 얻어지며 이는 시스템이 올바르게 해결되었음을 의미합니다.

따라서 원하는 근사 함수는 다음과 같습니다. 모든 선형 함수실험 데이터는 그것에 가장 근접합니다.

같지 않은 똑바로 해당 지역에 대한 매장 회전율의 의존성, 발견된 의존성은 뒤집다 (원칙 "많을수록-적을수록"), 그리고 이 사실은 부정에 의해 즉시 드러납니다. 각도 계수. 기능 특정 지표가 1 단위 증가하면 종속 지표의 값이 감소함을 알려줍니다. 평균 0.65 단위로. 그들이 말했듯이 메밀 가격이 높을수록 덜 팔립니다.

근사 함수를 플로팅하기 위해 두 가지 값을 찾습니다.

도면을 실행합니다.


구성된 선을 호출합니다. 추세선 (즉, 선형 추세선, 즉 일반적인 경우추세가 반드시 직선일 필요는 없음). 누구나 "트렌드에 있다"라는 표현에 익숙하며, 이 용어는 추가 설명이 필요하지 않다고 생각합니다.

제곱 편차의 합 계산 경험적 가치와 이론적 가치 사이. 기하학적으로 이것은 "진홍색" 세그먼트 길이의 제곱의 합입니다. (그 중 2개는 너무 작아서 볼 수조차 없습니다).

계산을 표로 요약해 보겠습니다.


첫 번째 항목에 대한 예를 제공할 경우를 대비하여 수동으로 다시 수행할 수 있습니다.

그러나 이미 알려진 방법을 사용하는 것이 훨씬 더 효율적입니다.

반복하자: 결과의 의미는 무엇입니까?에서 모든 선형 함수기능 지수는 가장 작습니다. 즉, 해당 가족에서 가장 좋은 근사값입니다. 그런데 여기서 문제의 마지막 질문은 우연이 아닙니다. 제안된 지수 함수가 실험 포인트를 근사화하는 것이 더 좋을까요?

해당 제곱 편차의 합을 찾아 보겠습니다. 구별하기 위해 문자 "엡실론"으로 지정하겠습니다. 기술은 정확히 동일합니다.


그리고 다시 첫 번째 지점에 대한 모든 화재 계산에 대해:

Excel에서는 표준 함수를 사용합니다. 경험치 (구문은 Excel 도움말에서 찾을 수 있습니다.).

결론: , 따라서 지수 함수는 직선보다 더 나쁜 실험 점을 근사합니다. .

그러나 여기서 "더 나쁘다"는 것은 아직은 의미가 없다, 뭐가 잘못 되었 니. 이제 저는 이 지수 함수의 그래프를 만들었습니다. -분석 연구 없이는 어떤 기능이 더 정확한지 말하기가 어렵습니다.

이것으로 솔루션을 완성하고 인수의 자연스러운 가치에 대한 질문으로 돌아갑니다. 에 다양한 연구, 일반적으로 경제 또는 사회학적 자연 "X"는 월, 연 또는 기타 동일한 시간 간격을 나타냅니다. 예를 들어, 그러한 문제를 고려하십시오.

정렬 후 다음 형식의 함수를 얻습니다. g (x) = x + 1 3 + 1 .

적절한 매개변수를 계산하여 선형 관계 y = a x + b로 이 데이터를 근사화할 수 있습니다. 이를 위해서는 소위 최소 제곱법을 적용해야 합니다. 또한 어떤 선이 실험 데이터와 가장 잘 일치하는지 확인하기 위해 그림을 그려야 합니다.

Yandex.RTB R-A-339285-1

OLS(최소자승법)란 정확히 무엇입니까?

우리가 해야 할 가장 중요한 것은 두 변수 F(a, b) = ∑ i = 1n(y i - (a x i + b)) 2의 함수 값이 다음과 같은 선형 종속 계수를 찾는 것입니다. 가장 작은. 즉, a와 b의 특정 값에 대해 결과 직선에서 제시된 데이터의 제곱 편차의 합은 최소값을 갖습니다. 이것이 최소제곱법의 의미입니다. 예제를 풀기 위해 해야 할 일은 두 변수의 함수의 극한값을 찾는 것입니다.

계수 계산을 위한 공식 도출 방법

계수를 계산하는 공식을 도출하기 위해서는 두 개의 변수를 갖는 연립방정식을 구성하고 풀어야 합니다. 이를 위해 a 및 b에 대한 표현 F (a , b) = ∑ i = 1 n (y i - (a x i + b)) 2의 편도함수를 계산하고 0과 동일시합니다.

δ F(a , b) δ a = 0 δ F(a , b) δ b = 0 ⇔ - 2 ∑ i = 1n(y i - (a x i + b)) x i = 0 - 2 ∑ i = 1n( y i - (a x i + b)) = 0 ⇔ a ∑ i = 1n x i 2 + b ∑ i = 1n x i = ∑ i = 1n x i y i a ∑ i = 1n x i + ∑ i = 1n b = ∑ i = 1n y i ⇔ a ∑ i = 1n x i 2 + b ∑ i = 1n x i = ∑ i = 1n x i y i a ∑ i = 1n x i + n b = ∑ i = 1n y i

방정식 시스템을 풀기 위해 대체 또는 Cramer의 방법과 같은 방법을 사용할 수 있습니다. 결과적으로 최소 제곱법을 사용하여 계수를 계산하는 공식을 얻어야 합니다.

n ∑ i = 1n x i y i - ∑ i = 1n x i ∑ i = 1n y i n ∑ i = 1n - ∑ i = 1n x i 2b = ∑ i = 1n y i - a ∑ i = 1n x i n

함수가 적용되는 변수의 값을 계산했습니다.
F (a , b) = ∑ i = 1n (y i - (a x i + b)) 2는 최소값을 취합니다. 세 번째 단락에서 우리는 그것이 왜 그런지 증명할 것입니다.

이것은 실제로 최소 제곱법을 적용한 것입니다. 매개변수 a를 찾는 데 사용되는 그의 공식은 ∑ i = 1 n x i , ∑ i = 1 n y i , ∑ i = 1 n x i y i , ∑ i = 1 n x i 2 및 매개변수를 포함합니다.
n - 실험 데이터의 양을 나타냅니다. 각 금액을 별도로 계산하는 것이 좋습니다. 계수 값 b는 a 직후에 계산됩니다.

원래 예로 돌아가 보겠습니다.

예 1

여기서 n은 5입니다. 계수 공식에 포함된 필요한 양을 더 편리하게 계산할 수 있도록 표를 작성합니다.

나는 = 1 나는 = 2 나는 = 3 나는 = 4 나는 = 5 ∑ i = 15
x 나는 0 1 2 4 5 12
y 나는 2 , 1 2 , 4 2 , 6 2 , 8 3 12 , 9
x 나는 y 나는 0 2 , 4 5 , 2 11 , 2 15 33 , 8
x 나는 2 0 1 4 16 25 46

해결책

네 번째 행에는 두 번째 행의 값에 각 개별 i에 대한 세 번째 값을 곱하여 얻은 데이터가 포함됩니다. 다섯 번째 줄에는 두 번째 제곱의 데이터가 포함됩니다. 마지막 열은 개별 행 값의 합계를 보여줍니다.

최소 제곱법을 사용하여 필요한 계수 a와 b를 계산해 봅시다. 이렇게하려면 마지막 열에서 원하는 값을 대체하고 합계를 계산하십시오.

n ∑ i = 1n x i y i - ∑ i = 1n x i ∑ i = 1 n y i n ∑ i = 1 n - ∑ i = 1n x i 2 b = ∑ i = 1 n y i - a ∑ i = 1 n x i n ⇒ a = 5 33 , 8 - 12 12, 9 5 46 - 12 2 b = 12, 9 - a 12 5 ⇒ a ≈ 0, 165 b ≈ 2, 184

원하는 근사 직선은 y = 0 , 165 x + 2 , 184 처럼 보일 것입니다. 이제 데이터에 가장 근접한 선을 결정해야 합니다 - g (x) = x + 1 3 + 1 또는 0 , 165 x + 2 , 184 . 최소 제곱법을 사용하여 추정해 봅시다.

오류를 계산하려면 σ 1 = ∑ i = 1n (y i - (a x i + bi)) 2 및 σ 2 = ∑ i = 1n (y i - g (xi)) 2 , 최소값은 더 적합한 라인에 해당합니다.

σ 1 = ∑ i = 1n (y i - (a x i + b i)) 2 = = ∑ i = 15 (y i - (0 , 165 x i + 2 , 184)) 2 ≈ 0 , 019 σ 2 = ∑ i = 1n (y i - g (xi)) 2 = = ∑ i = 15 (y i - (xi + 1 3 + 1)) 2 ≈ 0 , 096

대답:σ 1 이후< σ 2 , то прямой, наилучшим образом аппроксимирующей исходные данные, будет
y = 0 , 165 x + 2 , 184 .

최소 제곱 방법은 그래픽 그림에 명확하게 표시되어 있습니다. 빨간색 선은 직선 g(x) = x + 1 3 + 1을 표시하고 파란색 선은 y = 0, 165 x + 2, 184를 표시합니다. 원시 데이터는 분홍색 점으로 표시됩니다.

이 유형의 근사치가 정확히 필요한 이유를 설명하겠습니다.

데이터 스무딩이 필요한 문제와 데이터를 보간하거나 외삽해야 하는 문제에 사용할 수 있습니다. 예를 들어 위에서 논의한 문제에서 x = 3 또는 x = 6에서 관찰된 양 y의 값을 찾을 수 있습니다. 우리는 그러한 예에 대해 별도의 기사를 썼습니다.

LSM 방법 증명

a와 b가 계산될 때 함수가 최소값을 취하려면 주어진 점에서 형식 F(a, b) = ∑ i = 1 n의 함수 미분의 2차 형식의 행렬이 필요합니다. (y i - (a x i + b)) 2는 양의 정부호입니다. 어떻게 보여야 하는지 보여드리겠습니다.

예 2

다음 형식의 2차 미분이 있습니다.

d 2 F (a ; b) = δ 2 F (a ; b) δ a 2 d 2 a + 2 δ 2 F (a ; b) δ a δ b d a d b + δ 2 F (a ; b) δ b 2 d 2b

해결책

δ 2 F (a ; b) δ a 2 = δ δ F (a ; b) δ a δ a = = δ - 2 ∑ i = 1 n (y i - (a x i + b)) x i δ a = 2 ∑ i = 1n (x i) 2 δ 2 F (a ; b) δ a δ b = δ δ F (a ; b) δ a δ b = = δ - 2 ∑ i = 1 n (y i - (a x i + b) ) x i δ b = 2 ∑ i = 1n x i δ 2 F (a ; b) δ b 2 = δ δ F (a ; b) δ b δ b = δ - 2 ∑ i = 1 n (y i - (a x i + b)) δ b = 2 ∑ i = 1n (1) = 2n

즉, d 2 F (a ; b) = 2 ∑ i = 1n (xi) 2 d 2 a + 2 2 ∑ x i i = 1 n d a d b + (2 n) d 2 b 와 같이 쓸 수 있습니다.

우리는 2차 형식 M = 2 ∑ i = 1n (xi) 2 2 ∑ i = 1n x i 2 ∑ i = 1n x i 2n의 행렬을 얻었습니다.

이 경우 개별 요소의 값은 a 및 b에 따라 변경되지 않습니다. 이 행렬은 양의 정부호입니까? 이 질문에 답하기 위해 각도 마이너가 양수인지 확인합시다.

1차 각도 마이너를 계산합니다: 2 ∑ i = 1n (xi) 2 > 0 . 점 x i가 일치하지 않기 때문에 부등식은 엄격합니다. 추가 계산 시 이를 염두에 두겠습니다.

2차 각도 마이너를 계산합니다.

d e t (M) = 2 ∑ i = 1n (xi) 2 2 ∑ i = 1n x i 2 ∑ i = 1n x i 2n = 4n ∑ i = 1n (xi) 2 - ∑ i = 1n x i 2

그런 다음 수학적 귀납법을 사용하여 부등식 n ∑ i = 1n (xi) 2 - ∑ i = 1n x i 2 > 0의 증명을 진행합니다.

  1. 이 부등식이 임의의 n에 유효한지 확인해 봅시다. 2를 취하여 계산해 봅시다.

2 ∑ i = 12 (xi) 2 - ∑ i = 1 2 x i 2 = 2 x 1 2 + x 2 2 - x 1 + x 2 2 = = x 1 2 - 2 x 1 x 2 + x 2 2 = x 1 + x 2 2 > 0

올바른 평등을 얻었습니다 (값 x 1과 x 2가 일치하지 않는 경우).

  1. 이 부등식이 n에 대해 참일 것이라고 가정해 봅시다. n ∑ i = 1n (xi) 2 - ∑ i = 1n x i 2 > 0 – 참.
  2. 이제 n + 1에 대한 유효성을 증명해 보겠습니다. (n + 1) ∑ i = 1n + 1 (xi) 2 - ∑ i = 1n + 1 x i 2 > 0 if n ∑ i = 1n (xi) 2 - ∑ i = 1n x i 2 > 0 .

우리는 다음을 계산합니다.

(n + 1) ∑ i = 1n + 1 (xi) 2 - ∑ i = 1n + 1 x i 2 = = (n + 1) ∑ i = 1n (xi) 2 + xn + 12 - ∑ i = 1n x i + xn + 1 2 = = n ∑ i = 1n (x i) 2 + n x n + 12 + ∑ i = 1n (xi) 2 + xn + 12 - - ∑ i = 1n x i 2 + 2 xn + 1 ∑ i = 1n x i + xn + 1 2 = = ∑ i = 1n (xi) 2 - ∑ i = 1n x i 2 + n x n + 1 2 - xn + 1 ∑ i = 1n x i + ∑ i = 1 n (xi) 2 = = ∑ i = 1n (xi) 2 - ∑ i = 1n x i 2 + xn + 1 2 - 2 xn + 1 x 1 + x 1 2 + + xn + 1 2 - 2 xn + 1 x 2 + x 2 2 + . . . + xn + 12 - 2 xn + 1 x 1 + xn 2 = = n ∑ i = 1n (x i) 2 - ∑ i = 1n x i 2 + + (xn + 1 - x 1) 2 + (x n + 1 - x 2) 2 + . . . + (xn - 1 - xn) 2 > 0

중괄호로 묶인 표현식은 0보다 크고(2단계에서 가정한 값 기준) 나머지 항은 모두 숫자의 제곱이므로 0보다 큽니다. 우리는 불평등을 증명했습니다.

대답:찾은 a와 b는 함수 F(a, b) = ∑ i = 1 n (y i - (a x i + b)) 2의 가장 작은 값에 해당하며, 이는 최소 제곱법의 필수 매개변수임을 의미합니다. (LSM).

텍스트에 오류가 있는 경우 강조 표시하고 Ctrl+Enter를 누르십시오.

대략적인 표현을 허용하므로 많은 용도가 있습니다. 주어진 기능다른 것들은 더 간단합니다. LSM은 관찰을 처리하는 데 매우 유용할 수 있으며 무작위 오류가 포함된 다른 측정 결과에서 일부 수량을 추정하는 데 적극적으로 사용됩니다. 이 기사에서는 Excel에서 최소 제곱 계산을 구현하는 방법을 배웁니다.

특정 예에 대한 문제 설명

두 개의 지표 X와 Y가 있다고 가정합니다. 또한 Y는 X에 의존합니다. OLS는 회귀 분석의 관점에서 우리에게 관심이 있기 때문에 (Excel에서는 그 방법이 내장 함수를 사용하여 구현됨) 즉시 진행해야합니다 특정 문제를 고려합니다.

따라서 X는 식료품 점의 판매 영역으로 측정됩니다. 평방 미터, Y는 수백만 루블로 정의되는 연간 매출액입니다.

매장에 하나 이상의 소매 공간이 있는 경우 매장의 회전율(Y)을 예측해야 합니다. 분명히 Y = f (X) 함수는 증가하고 있습니다. 대형 슈퍼마켓이 마구간보다 더 많은 상품을 판매하기 때문입니다.

예측에 사용된 초기 데이터의 정확성에 대한 몇 마디

n개의 매장에 대한 데이터로 구성된 테이블이 있다고 가정해 보겠습니다.

에 따르면 수학 통계, 적어도 5-6 개체에 대한 데이터를 검사하면 결과가 다소 정확합니다. 또한 "비정상" 결과는 사용할 수 없습니다. 특히 엘리트 소규모 부티크는 대형 매장의 매출보다 몇 배 더 많은 매출을 올릴 수 있습니다. 콘센트"마스마켓" 클래스.

방법의 본질

테이블 데이터는 점 M 1 (x 1, y 1), ... M n (x n, y n)으로 데카르트 평면에 표시될 수 있습니다. 이제 문제의 해결책은 점에 가능한 한 가깝게 지나가는 그래프를 갖는 근사 함수 y = f (x)의 선택으로 축소됩니다. M 1, M 2, .. M n .

물론 고차 다항식을 사용할 수 있지만 이 옵션은 구현하기 어려울 뿐만 아니라 감지해야 하는 주요 추세를 반영하지 않기 때문에 단순히 올바르지 않습니다. 가장 합리적인 해결책은 실험 데이터에 가장 근접한 직선 y = ax + b, 보다 정확하게는 계수 - a 및 b를 찾는 것입니다.

정확도 점수

근사치의 경우 정확도 평가가 특히 중요합니다. e 나는 점에 대한 기능적 값과 실험적 값 사이의 차이(편차)를 나타냅니다 x i , 즉 e i = y i - f (xi).

분명히 근사치의 정확성을 평가하기 위해 편차의 합을 사용할 수 있습니다. 고려 중인 모든 지점에서의 합 e i. 그러나 긍정적 인 편차와 함께 실제로 부정적인 편차가 있기 때문에 모든 것이 그렇게 단순하지는 않습니다.

편차 모듈 또는 해당 제곱을 사용하여 문제를 해결할 수 있습니다. 후자의 방법이 가장 널리 사용됩니다. 회귀 분석 (Excel에서는 두 가지 기본 제공 함수를 사용하여 구현)을 비롯한 많은 영역에서 사용되며 오랫동안 효과가 입증되었습니다.

최소제곱법

아시다시피 Excel에는 선택한 범위에 있는 모든 값의 값을 계산할 수 있는 자동 합계 함수가 내장되어 있습니다. 따라서 표현의 값을 계산하는 데 방해가 되는 것은 없습니다(e 1 2 + e 2 2 + e 3 2 + ... e n 2).

수학적 표기법으로 보면 다음과 같습니다.

처음에 직선을 사용하여 근사하기로 결정했으므로 다음과 같습니다.

따라서 X와 Y 사이의 특정 관계를 가장 잘 설명하는 직선을 찾는 작업은 두 변수의 함수 중 최소값을 계산하는 것과 같습니다.

이를 위해서는 새로운 변수 a 및 b와 관련하여 0 편도함수와 동일시하고 다음 형식의 2개의 미지수가 있는 2개의 방정식으로 구성된 기본 시스템을 푸는 것이 필요합니다.

2로 나누고 합계를 조작하는 것을 포함하여 간단한 변환 후 다음을 얻습니다.

예를 들어 Cramer의 방법으로 해결하면 특정 계수 a * 및 b * . 이것은 최소값입니다. 즉, 특정 영역에서 매장의 회전율을 예측하려면 문제의 예에 대한 회귀 모델인 직선 y = a * x + b *가 적합합니다. 물론 정확한 결과를 찾을 수는 없지만 특정 지역에 대해 신용으로 상점을 구매하면 갚을 수 있는지에 대한 아이디어를 얻는 데 도움이 될 것입니다.

Excel에서 최소 제곱 방법을 구현하는 방법

Excel에는 최소 제곱의 값을 계산하는 기능이 있습니다. 형식은 TREND(알려진 Y 값, 알려진 X 값, 새 X 값, 상수)입니다. Excel에서 OLS를 계산하는 공식을 테이블에 적용해 보겠습니다.

이를 위해 Excel에서 최소 제곱법을 사용한 계산 결과가 표시되어야 하는 셀에 "=" 기호를 입력하고 "TREND" 기능을 선택합니다. 열리는 창에서 해당 필드를 채우고 다음을 강조 표시합니다.

  • Y에 대해 알려진 값의 범위(in 이 경우거래 회전율 데이터);
  • 범위 x 1 , … x n , 즉 소매 공간의 크기;
  • 회전율의 크기를 찾아야하는 x의 알려진 값과 알려지지 않은 값 (워크 시트에서의 위치에 대한 정보는 아래 참조).

또한 수식에는 논리 변수 "Const"가 있습니다. 해당 필드에 1을 입력하면 b \u003d 0으로 가정하여 계산을 수행해야 함을 의미합니다.

둘 이상의 x 값에 대한 예측을 알아야 하는 경우 수식을 입력한 후 "Enter"를 누르지 말고 "Shift" + "Control" + "Enter" 조합을 입력해야 합니다("Enter" ) 키보드에서.

일부 기능

회귀 분석인형으로도 접근할 수 있습니다. 알 수 없는 변수 배열의 값을 예측하는 Excel 공식인 "TREND"는 최소 제곱 방법에 대해 들어본 적이 없는 사람도 사용할 수 있습니다. 작업의 일부 기능을 아는 것만으로도 충분합니다. 특히:

  • 변수 y의 알려진 값 범위를 하나의 행 또는 열에 배치하면 알려진 x 값을 가진 각 행(열)이 프로그램에서 별도의 변수로 인식됩니다.
  • TREND 창에 알려진 x가 있는 범위가 지정되지 않은 경우 Excel에서 함수를 사용하는 경우 프로그램은 이를 정수로 구성된 배열로 간주하며 그 수는 주어진 값의 범위에 해당합니다. 변수 y의
  • "예측" 값의 배열을 출력하려면 경향 표현식을 배열 수식으로 입력해야 합니다.
  • 새로운 x 값이 지정되지 않으면 TREND 함수는 이를 알려진 값과 동일하다고 간주합니다. 지정하지 않으면 배열 1이 인수로 사용됩니다. 2; 삼; 4;…, 이미 주어진 매개변수 y가 있는 범위에 상응합니다.
  • 새로운 x 값을 포함하는 범위는 동일하거나 주어진 y 값이 있는 범위로 행 또는 열. 즉, 독립 변수에 비례해야 합니다.
  • 알려진 x 값을 가진 배열은 여러 변수를 포함할 수 있습니다. 그러나 만약 우리 대화하는 중이 야약 1이면 주어진 x 및 y 값의 범위가 적절해야 합니다. 변수가 여러 개인 경우에는 주어진 y 값의 범위가 하나의 열 또는 하나의 행에 맞아야 합니다.

예측 기능

여러 기능을 사용하여 구현됩니다. 그 중 하나는 "예측"입니다. TREND와 유사합니다. 즉, 최소 제곱법을 사용하여 계산한 결과를 제공합니다. 그러나 Y의 값을 알 수 없는 하나의 X에 대해서만 가능합니다.

이제 선형 추세에 따라 지표의 미래 가치를 예측할 수 있는 인형용 Excel 공식을 알게 되었습니다.

최소제곱법회귀 방정식의 매개 변수를 추정하는 데 사용됩니다.
라인 수 (초기 데이터)

특징 간의 확률적 관계를 연구하는 방법 중 하나는 회귀 분석입니다.
회귀 분석은 다음을 찾는 데 사용되는 회귀 방정식의 파생입니다. 평균값다른(또는 다른) 변수(feature-factors)의 값이 알려진 경우 랜덤 변수(feature-result). 여기에는 다음 단계가 포함됩니다.

  1. 연결 형태 선택(분석 회귀 방정식의 유형);
  2. 방정식 매개변수 추정;
  3. 분석 회귀 방정식의 품질 평가.
대부분 선형 형식은 기능의 통계적 관계를 설명하는 데 사용됩니다. 선형 관계에 대한 주의는 변수의 변동에 의해 제한되는 매개변수의 명확한 경제적 해석과 대부분의 경우 비선형 관계가 변환된다는 사실로 설명됩니다(대수를 취하거나 변수를 변경하여). 계산을 수행하기 위해 선형 형식으로 변환합니다.
선형 쌍 관계의 경우 회귀 방정식은 y i =a+b·xi +u i 형식을 취합니다. 이 방정식 a 및 b의 매개변수는 통계적 관찰 데이터 x 및 y에서 추정됩니다. 이러한 평가의 결과는 방정식입니다. , 여기서 , - 매개변수 a 및 b의 추정치 , - 회귀 방정식(계산된 값)에 의해 얻은 유효 기능(변수)의 값.

매개변수 추정에 가장 일반적으로 사용되는 것은 다음과 같습니다. 최소 제곱법(LSM).
최소 제곱 방법은 회귀 방정식의 매개변수에 대한 최상의(일관되고 효율적이며 편향되지 않은) 추정치를 제공합니다. 그러나 임의 항(u)과 독립 변수(x)에 대한 특정 가정이 충족되는 경우에만 가능합니다(OLS 가정 참조).

최소자승법에 의한 선형쌍방정식의 매개변수 추정 문제다음과 같이 구성됩니다. 매개 변수의 추정치를 얻기 위해 , 유효 기능의 실제 값의 제곱 편차의 합 - y 계산 된 값에서 - 최소입니다.
공식적으로 OLS 기준다음과 같이 작성할 수 있습니다. .

최소 제곱 방법의 분류

  1. 최소제곱법.
  2. 최대 우도 방법(일반 고전 선형 회귀 모델의 경우 회귀 잔차의 정규성이 가정됨).
  3. GLSM의 일반화된 최소자승법은 오류 자기상관의 경우와 이분산성의 경우에 사용됩니다.
  4. 가중 최소제곱( 특별한 경우이분산 잔류물이 있는 GMS).

본질을 설명하다 최소 제곱의 고전적인 방법을 그래픽으로. 이를 위해 직각좌표계에서 관측 데이터(xi , y i , i=1;n)에 따라 도트 플롯을 작성합니다(이러한 도트 플롯을 상관 필드라고 함). 상관 필드의 점에 가장 가까운 직선을 찾아봅시다. 최소 제곱 방법에 따르면 상관 필드의 점과 이 선 사이의 제곱 수직 거리의 합이 최소가 되도록 선이 선택됩니다.

이 문제의 수학적 표기법: .
y i 및 x i =1...n의 값은 우리에게 알려져 있으며 이는 관찰 데이터입니다. 함수 S에서 그것들은 상수입니다. 이 함수의 변수는 매개변수 - , 의 필수 추정치입니다. 변수가 2개인 함수의 최소값을 찾으려면 각 매개변수에 대해 이 함수의 편도함수를 계산하고 이를 0과 동일시해야 합니다. .
결과적으로 우리는 2 정규 시스템을 얻습니다. 선형 방정식:
이 시스템을 풀면 필요한 매개변수 추정치를 찾습니다.

회귀 방정식의 매개 변수 계산의 정확성은 합계를 비교하여 확인할 수 있습니다(계산 반올림으로 인해 일부 불일치가 가능함).
모수 추정치를 계산하기 위해 표 1을 작성할 수 있습니다.
회귀 계수 b의 부호는 관계의 방향을 나타냅니다(b > 0이면 관계가 직접적이며 b이면<0, то связь обратная). Величина b показывает на сколько единиц изменится в среднем признак-результат -y при изменении признака-фактора - х на 1 единицу своего измерения.
공식적으로 매개변수 a의 값은 x가 0인 경우 y의 평균값입니다. 부호 인자가 0 값을 갖지 않거나 가질 수 없는 경우 매개변수 a에 대한 위의 해석은 의미가 없습니다.

기능 간 관계의 견고성 평가 선형 쌍 상관 계수 - r x,y 를 사용하여 수행됩니다. 다음 공식을 사용하여 계산할 수 있습니다. . 또한 선형 쌍 상관 계수는 회귀 계수 b로 결정할 수 있습니다. .
쌍 상관 선형 계수의 허용 가능한 값 범위는 -1에서 +1까지입니다. 상관 계수의 부호는 관계의 방향을 나타냅니다. r x, y >0이면 연결이 직접적입니다. 만약 r x, y<0, то связь обратная.
이 계수가 모듈러스에서 1에 가까우면 피처 간의 관계가 상당히 가까운 선형 관계로 해석될 수 있습니다. 모듈러스가 1 ê r x , y ê =1과 같으면 피처 간의 관계는 함수형 선형입니다. 특징 x와 y가 선형적으로 독립이면 r x,y는 0에 가깝습니다.
표 1을 사용하여 r x,y를 계산할 수도 있습니다.

1 번 테이블

N 관측x 나는y 나는x 나는 ∙ y 나는
1 × 1y1엑스 1 이 1
2 x2y2x 2 y 2
...
N엑스엔ynxnyn
열 합계∑x∑y∑엑스와이
평균
얻은 회귀 방정식의 품질을 평가하기 위해 이론적 결정 계수가 계산됩니다 - R 2 yx:

,
여기서 d 2는 회귀 방정식으로 설명되는 분산 y입니다.
e 2 - 잔차(회귀 방정식으로 설명되지 않음) 분산 y ;
s 2 y - 전체(전체) 분산 y .
결정 계수는 총 변동(분산) y에서 회귀(및 결과적으로 계수 x)로 설명되는 결과 특성 y의 변동(분산) 비율을 특성화합니다. 결정 계수 R 2 yx는 0에서 1까지의 값을 취합니다. 따라서 값 1-R 2 yx는 모델 및 사양 오류에서 고려되지 않은 다른 요인의 영향으로 인한 분산 y의 비율을 나타냅니다.
쌍을 이룬 선형 회귀 R 2 yx =r 2 yx .

일부 물리량이 다른 양에 의존하는 경우 이 종속성은 x의 다른 값에서 y를 측정하여 조사할 수 있습니다. 측정 결과 일련의 값을 얻습니다.

x 1 , x 2 , ..., x i , ... , xn ;

y 1 , y 2 , ..., y i , ... , yn .

이러한 실험의 데이터를 기반으로 종속성 y = ƒ(x)를 플로팅할 수 있습니다. 결과 곡선을 통해 함수 ƒ(x)의 형태를 판단할 수 있습니다. 그러나 이 함수에 들어가는 상수 계수는 알 수 없습니다. 최소 제곱법을 사용하여 결정할 수 있습니다. 일반적으로 실험 포인트는 곡선에 정확하게 위치하지 않습니다. 최소 제곱 방법은 곡선에서 실험 포인트의 제곱 편차의 합, 즉 2가 가장 작았습니다.

실제로 이 방법은 선형 관계의 경우에 가장 자주(그리고 가장 간단하게) 사용됩니다. 언제

y=kx또는 y = a + bx.

선형 의존성은 물리학에서 매우 널리 퍼져 있습니다. 그리고 종속성이 비선형적일 때에도 일반적으로 직선을 얻는 방식으로 그래프를 작성하려고 합니다. 예를 들어, 유리 n의 굴절률이 n = a + b/λ 2 관계에 의해 광파의 파장 λ와 관련이 있다고 가정하면, λ -2에 대한 n의 의존성은 그래프에 표시됩니다. .

의존성 고려 y=kx(원점을 통과하는 직선). 값 φ를 직선에서 우리 점의 제곱 편차의 합으로 구성합시다.

φ의 값은 항상 양수이며 작을수록 점이 직선에 더 가깝습니다. 최소 제곱 방법은 k에 대해 φ가 최소값을 갖는 값을 선택해야 한다고 말합니다.


또는
(19)

계산은 k의 값을 결정할 때 평균 제곱근 오차가 다음과 같다는 것을 보여줍니다.

, (20)
여기서 n은 차원 수입니다.

이제 포인트가 다음 공식을 충족해야 하는 좀 더 어려운 경우를 고려해 보겠습니다. y = a + bx(원점을 통과하지 않는 직선).

작업은 주어진 값 x i , y i 에서 a와 b의 최상의 값을 찾는 것입니다.

다시 우리는 점의 제곱 편차의 합과 같은 이차 형식 φ를 구성합니다 x i , y 나는 직선에서

φ가 최소값을 갖는 값 a와 b를 찾으십시오.

;

.

.

이 방정식의 공동 솔루션은 다음을 제공합니다.

(21)

a와 b를 결정하는 평균 제곱근 오차는 동일합니다.

(23)

.  (24)

이 방법으로 측정 결과를 처리할 때, 식 (19)(24)에 포함된 모든 양을 미리 계산한 표로 모든 데이터를 요약하는 것이 편리하다. 이러한 테이블의 형식은 아래 예에 나와 있습니다.

예 1회전 운동 동역학의 기본 방정식 ε = M/J(원점을 통과하는 직선)을 연구했습니다. 모멘트 M의 다양한 값에 대하여 특정 물체의 각가속도 ε를 측정하였다. 이 몸체의 관성 모멘트를 결정하는 데 필요합니다. 힘의 순간과 각가속도의 측정 결과는 두 번째 및 세 번째 열에 나열되어 있습니다. 테이블 5.

표 5
N 엠, 엔엠 ε, s-1 M2 M ε ε - kM (ε - kM) 2
1 1.44 0.52 2.0736 0.7488 0.039432 0.001555
2 3.12 1.06 9.7344 3.3072 0.018768 0.000352
3 4.59 1.45 21.0681 6.6555 -0.08181 0.006693
4 5.90 1.92 34.81 11.328 -0.049 0.002401
5 7.45 2.56 55.5025 19.072 0.073725 0.005435
– – 123.1886 41.1115 – 0.016436

공식 (19)에 의해 다음을 결정합니다.

.

평균 제곱근 오차를 결정하기 위해 공식 (20)을 사용합니다.

0.005775킬로그램-하나 · -2 .

공식 (18)에 의해 우리는

; .

SJ = (2.996 0.005775)/0.3337 = 0.05185 kgm2.

신뢰도 P = 0.95가 주어지면 n = 5에 대한 학생 계수 표에 따라 t = 2.78을 찾고 절대 오차 ΔJ = 2.78 0.05185 = 0.1441 ≈ 0.2를 결정합니다. kgm2.

결과를 다음 형식으로 작성합니다.

J = (3.0 ± 0.2) kgm2;


예 2최소 제곱법을 사용하여 금속의 저항 온도 계수를 계산합니다. 저항은 선형 법칙에 따라 온도에 따라 달라집니다.

R t \u003d R 0 (1 + α t °) \u003d R 0 + R 0 α t °.

자유 항은 0 ° C의 온도에서 저항 R 0을 결정하고 각도 계수는 온도 계수 α와 저항 R 0의 곱입니다.

측정 및 계산 결과는 표( 표 6 참조).

표 6
N 티°, 초 r, 옴 t-t (t-t) 2 (t-t)r r-bt-a (r - bt - a) 2,10 -6
1 23 1.242 -62.8333 3948.028 -78.039 0.007673 58.8722
2 59 1.326 -26.8333 720.0278 -35.581 -0.00353 12.4959
3 84 1.386 -1.83333 3.361111 -2.541 -0.00965 93.1506
4 96 1.417 10.16667 103.3611 14.40617 -0.01039 107.898
5 120 1.512 34.16667 1167.361 51.66 0.021141 446.932
6 133 1.520 47.16667 2224.694 71.69333 -0.00524 27.4556
515 8.403 – 8166.833 21.5985 – 746.804
∑/n 85.83333 1.4005 – – – – –

공식 (21), (22)에 의해 우리는 결정합니다

R 0 = ¯ R- α R 0 ¯ t = 1.4005 - 0.002645 85.83333 = 1.1735 .

α의 정의에서 오류를 찾아봅시다. 이후 , 공식 (18)에 의해 다음을 얻습니다.

.

공식 (23), (24)를 사용하여

;

0.014126 .

신뢰도 P = 0.95가 주어지면 n = 6에 대한 스튜던트 계수 표에 따라 t = 2.57을 찾고 절대 오차 Δα = 2.57 0.000132 = 0.000338을 결정합니다. 도 -1.

α = (23 ± 4) 10 -4 빗발 P = 0.95에서 -1.


예 3뉴턴의 고리에서 렌즈의 곡률 반경을 결정해야 합니다. 뉴턴 고리의 반지름 r m을 측정하고 이 고리 m의 수를 결정했습니다. 뉴턴 고리의 반지름은 렌즈의 곡률 반경 R과 다음 방정식에 의한 고리 수와 관련됩니다.

r 2m = mλR - 2d 0R,

여기서 d 0은 렌즈와 평면 평행판 사이의 간격 두께(또는 렌즈 변형),

λ는 입사광의 파장입니다.

λ = (600±6)nm;
r 2m = y;
엠 = 엑스;
λR = b;
-2d 0 R = ,

방정식은 다음 형식을 취합니다. y = a + bx.

.

측정 및 계산 결과는 표 7.

표 7
N 엑스 = m y \u003d r 2, 10 -2mm 2 mm (m-¯m) 2 (m~m)y y-bx-a, 10-4 (y - bx - a) 2, 10 -6
1 1 6.101 -2.5 6.25 -0.152525 12.01 1.44229
2 2 11.834 -1.5 2.25 -0.17751 -9.6 0.930766
3 3 17.808 -0.5 0.25 -0.08904 -7.2 0.519086
4 4 23.814 0.5 0.25 0.11907 -1.6 0.0243955
5 5 29.812 1.5 2.25 0.44718 3.28 0.107646
6 6 35.760 2.5 6.25 0.894 3.12 0.0975819
21 125.129 – 17.5 1.041175 – 3.12176
∑/n 3.5 20.8548333 – – – – –