그룹 간 분산 계산.  disp.v 함수를 사용하여 Excel에서 분산을 계산하는 방법

그룹 간 분산 계산. disp.v 함수를 사용하여 Excel에서 분산을 계산하는 방법

모집단을 연구 중인 특성에 따라 그룹으로 나누면 이 모집단에 대해 다음 유형의 분산을 계산할 수 있습니다. 전체, 그룹(그룹 내), 그룹 평균(그룹 내 평균), 그룹 간.

처음에는 연구된 특성의 전체 변이 중 어느 부분이 그룹 간 변이인지 보여주는 결정 계수를 계산합니다. 그룹화로 인해:

경험적 상관 비율은 그룹화(요인)와 유효 징후 사이의 긴밀한 연결을 특징으로 합니다.

경험적 상관 비율은 0에서 1 사이의 값을 가질 수 있습니다.

경험적 상관 비율을 기반으로 관계의 근접성을 평가하기 위해 Chaddock 관계를 사용할 수 있습니다.

실시예 4설계 및 조사 기관의 작업 성과에 대한 다음 데이터가 있습니다. 다른 모양재산:

정의하다:

1) 총 분산;

2) 그룹 분산;

3) 그룹 분산의 평균;

4) 그룹간 분산;

5) 분산 추가 규칙에 따른 총 분산;


6) 결정계수와 경험적 상관관계.

자신의 결론을 도출하십시오.

해결책:

1. 두 가지 소유권 형태의 기업이 수행하는 평균 작업량을 결정합시다.

총 분산 계산:

2. 그룹 평균 정의:

백만 루블;

백만 문지름.

그룹 차이:

;

3. 그룹 분산의 평균을 계산합니다.

4. 그룹 간 분산을 결정합니다.

5. 차이 추가 규칙에 따라 총 차이를 계산합니다.

6. 결정 계수를 결정하십시오.

.

따라서 설계 및 조사 조직이 수행하는 작업의 양은 기업 소유 형태에 따라 22% 달라집니다.

경험적 상관 비율은 다음 공식으로 계산됩니다.

.

계산 된 지표의 값은 기업의 소유권 형태에 대한 작업량의 의존도가 작다는 것을 나타냅니다.

실시예 5생산 현장의 기술 분야에 대한 조사 결과 다음과 같은 데이터를 얻었습니다.

결정 계수 결정

통계의 변동을 일반화하는 주요 지표는 분산과 표준편차입니다.

분산산술 평균 총 평균에서 각 특성 값의 제곱 편차. 분산은 일반적으로 편차의 평균 제곱이라고 하며  2 로 표시됩니다. 초기 데이터에 따라 단순 또는 가중치 산술 평균에서 분산을 계산할 수 있습니다.

 가중되지 않은(단순한) 분산

 가중 분산.

표준 편차는 절대 차원의 일반화 특성입니다. 변형 총체적으로 특성. 기호와 동일한 단위로 표시됩니다(미터, 톤, 백분율, 헥타르 등).

표준 편차는 분산의 제곱근이며 로 표시됩니다.

 가중되지 않은 표준 편차;

 가중 표준 편차.

표준 편차는 평균의 신뢰도를 측정한 것입니다. 표준 편차가 작을수록 산술 평균이 전체 대표 모집단을 더 잘 반영합니다.

표준편차를 계산하기 전에 분산을 계산합니다.

가중 분산을 계산하는 절차는 다음과 같습니다.

1) 산술 가중 평균을 결정합니다.

2) 평균에서 옵션의 편차를 계산합니다.

3) 평균에서 각 옵션의 편차를 제곱합니다.

4) 제곱 편차에 가중치(빈도)를 곱합니다.

5) 접수된 작업을 요약합니다.

6) 결과 금액을 가중치의 합으로 나눕니다.

예 2.1

산술 가중 평균을 계산합니다.

평균과의 편차 값과 제곱이 표에 나와 있습니다. 분산을 정의해 보겠습니다.

표준 편차는 다음과 같습니다.

소스 데이터가 간격으로 표시되는 경우 유통 시리즈 , 그런 다음 먼저 기능의 이산 값을 결정한 다음 설명된 방법을 적용해야 합니다.

예 2.2

밀 수확량에 의한 집단 농장의 파종 면적 분포에 대한 데이터에 대한 간격 시리즈의 분산 계산을 보여 드리겠습니다.

산술 평균은 다음과 같습니다.

분산을 계산해 보겠습니다.

6.3. 개별 데이터에 대한 공식에 따른 분산 계산

계산 기법 분산 복잡하고 큰 값옵션과 빈도는 번거로울 수 있습니다. 분산 특성을 사용하여 계산을 단순화할 수 있습니다.

분산액은 다음과 같은 특성을 가지고 있습니다.

1. 가변 특성의 가중치(주파수)를 일정 횟수만큼 감소 또는 증가시켜도 분산은 변경되지 않습니다.

2. 각 특성 값을 동일한 상수 값만큼 감소 또는 증가 하지만분산은 변하지 않습니다.

3. 각 특성 값을 일정 횟수만큼 감소 또는 증가 케이의 분산을 각각 줄이거나 늘립니다. 케이 2 배 표준 편차 케이한 번.

4. 임의의 값에 대한 특징의 분산은 항상 평균과 임의의 값 간의 차이의 제곱만큼 산술 평균에 대한 상대적 분산보다 큽니다.

만약 하지만 0이면 다음과 같은 등식에 도달합니다.

즉, 특성의 분산은 특성 값의 평균 제곱과 평균의 제곱 간의 차이와 같습니다.

분산을 계산할 때 각 속성을 단독으로 사용하거나 다른 속성과 조합하여 사용할 수 있습니다.

분산을 계산하는 절차는 간단합니다.

1) 결정하다 산술 평균 :

2) 산술 평균의 제곱:

3) 시리즈의 각 변형 편차의 제곱:

엑스 2 .

4) 옵션의 제곱합을 구합니다.

5) 옵션의 제곱의 합을 숫자로 나눕니다. 즉, 평균 제곱을 결정합니다.

6) 특징의 평균 제곱과 평균의 제곱 사이의 차이를 결정합니다.

예 3.1근로자의 생산성에 대한 다음 데이터가 있습니다.

다음과 같은 계산을 해봅시다.

종종 통계에서 현상이나 과정을 분석할 때 연구된 지표의 평균 수준에 대한 정보뿐만 아니라 개별 단위 값의 분산 또는 변동 , 이는 연구 대상 인구의 중요한 특성입니다.

주가, 수요와 공급량, 금리 다른 기간시간과 다른 장소에서.

변화를 특징 짓는 주요 지표 는 범위, 분산, 표준 편차 및 변동 계수입니다.

스팬 변동 속성의 최대값과 최소값의 차이입니다. R = Xmax – Xmin. 이 지표의 단점은 특성 변이의 경계만 평가하고 이러한 경계 내에서의 변동을 반영하지 않는다는 것입니다.

분산 이 단점이 없습니다. 평균 값에서 속성 값 편차의 평균 제곱으로 계산됩니다.

분산을 계산하는 단순화된 방법 다음 공식(단순 및 가중치)을 사용하여 수행됩니다.

이 공식의 적용 예는 작업 1과 2에 나와 있습니다.

실제로 널리 사용되는 지표는 표준 편차 :

표준편차는 분산의 제곱근으로 정의되며 연구 중인 특성과 동일한 차원을 갖습니다.

고려된 지표를 통해 변동의 절대값, 즉 연구 중인 특성의 측정 단위로 평가합니다. 그들과 달리, 변동 계수 많은 경우에 선호되는 평균 수준에 비해 상대적인 변동을 측정합니다.

변동 계수 계산 공식.

"통계 변동 지표" 주제에 대한 문제 해결의 예

작업 1 . 지역 은행의 월평균 예금 규모에 대한 광고의 영향을 조사할 때 2개의 은행을 조사했습니다. 다음 결과를 얻습니다.

정의하다:
1) 각 은행에 대해: a) 평균 크기월 예금; b) 기여금의 분산
2) 두 은행을 합친 월 평균 예금
3) 광고에 따라 2개 은행에 대한 예금 분산;
4) 광고를 제외한 모든 요인에 따라 2개 은행에 대한 예금 분산;
5) 덧셈 규칙을 사용한 총 분산
6) 결정 계수;
7) 상관 관계.

해결책

1) 광고가 있는 은행의 계산표를 만들어 봅시다. . 평균 월예금을 결정하기 위해 간격의 중간점을 찾습니다. 이 경우 열린 간격(첫 번째 간격)의 값은 조건부로 인접한 간격(두 번째 간격)의 값과 동일합니다.

가중 산술 평균 공식을 사용하여 기여도의 평균 크기를 찾습니다.

29,000/50 = 580루블

기여도의 분산은 다음 공식으로 찾을 수 있습니다.

23 400/50 = 468

우리는 유사한 조치를 취할 것입니다 광고 없는 은행 :

2) 두 은행의 평균 예금을 함께 구합니다. Xav \u003d (580 × 50 + 542.8 × 50) / 100 \u003d 561.4 루블.

3) 광고에 따라 두 은행에 대한 예금의 분산은 다음 공식으로 찾을 수 있습니다. σ 2 =pq(대체 기능의 분산 공식). 여기서 p=0.5는 광고에 의존하는 요인의 비율입니다. q=1-0.5, σ 2 =0.5*0.5=0.25.

4) 다른 요인의 몫이 0.5이므로 광고를 제외한 모든 요인에 따라 달라지는 두 은행의 예금 차이도 0.25입니다.

5) 더하기 규칙을 사용하여 총 분산을 결정합니다.

= (468*50+636,16*50)/100=552,08

= [(580-561,4)250+(542,8-561,4)250] / 100= 34 596/ 100=345,96

σ 2 \u003d σ 2 사실 + σ 2 나머지 \u003d 552.08 + 345.96 \u003d 898.04

6) 결정 계수 η 2 = σ 2 사실 / σ 2 = 345.96/898.04 = 0.39 = 39% - 기여의 크기는 광고에 39% 의존합니다.

7) 경험적 상관비 η = √η 2 = √0.39 = 0.62 - 관계가 매우 가깝습니다.

작업 2 . 시장성 있는 제품의 가치에 따라 기업 그룹이 있습니다.

결정: 1) 시장성 있는 제품 가치의 분산; 2) 표준편차; 3) 변동 계수.

해결책

1) 조건으로 제시 간격 시리즈분포. 그것은 이산적으로 표현되어야 합니다. 즉, 간격(x ")의 중간을 찾습니다. 닫힌 간격의 그룹에서 간단한 산술 평균으로 중간을 찾습니다. 상한이 있는 그룹에서 이 상한의 차이로 그리고 뒤따르는 간격의 절반 크기(200-(400 -200):2=100).

하한이 있는 그룹 - 이 하한과 이전 간격 크기의 절반 합계(800+(800-600):2=900).

유가 제품의 평균 가치 계산은 다음 공식에 따라 수행됩니다.

Хср = k×((Σ((x"-a):k)×f):Σf)+a. 여기서 a=500은 가장 높은 빈도에서 변이의 크기이고, k=600-400=200은 가장 높은 빈도에서 간격의 크기 결과를 표에 넣습니다.

그래서, 평균값전체 연구 기간 동안 시장성 있는 제품은 Xav = (-5:37) × 200 + 500 = 472.97천 루블입니다.

2) 다음 공식을 사용하여 분산을 찾습니다.

σ 2 \u003d (33/37) * 2002-(472.97-500) 2 \u003d 35,675.67-730.62 \u003d 34,945.05

3) 표준 편차: σ = ±√σ 2 = ±√34 945.05 ≈ ±186.94 천 루블.

4) 변동 계수: V \u003d (σ / Xav) * 100 \u003d (186.94 / 472.97) * 100 \u003d 39.52%

통계에서 사용되는 많은 지표들 중에서 분산의 계산을 강조할 필요가 있다. 이 계산을 수동으로 수행하는 것은 다소 지루한 작업이라는 점에 유의해야 합니다. 다행히 Excel에는 계산 절차를 자동화할 수 있는 기능이 있습니다. 이러한 도구로 작업하기 위한 알고리즘을 알아보겠습니다.

분산은 편차의 측정값으로, 편차의 평균 제곱입니다. 수학적 기대. 따라서 평균에 대한 숫자의 분포를 나타냅니다. 분산 계산은 다음과 같이 수행할 수 있습니다. 인구, 뿐만 아니라 선택적으로.

방법 1: 일반 인구에 대한 계산

일반 인구에 대해 Excel에서 이 지표를 계산하기 위해 함수가 사용됩니다. 디스.지. 이 표현식의 구문은 다음과 같습니다.

DISP.G(1번;2번;…)

총 1~255개의 인수를 적용할 수 있습니다. 인수는 숫자 값과 인수가 포함된 셀에 대한 참조일 수 있습니다.

숫자 데이터 범위에 대해 이 값을 계산하는 방법을 살펴보겠습니다.


방법 2: 샘플 계산

일반 모집단에 대한 값을 계산하는 것과 달리 표본에 대한 계산에서 분모는 숫자의 총 수가 아니라 1이 적습니다. 이것은 오류를 수정하기 위해 수행됩니다. Excel은 이러한 유형의 계산을 위해 설계된 특수 기능인 DISP.V에서 이러한 뉘앙스를 고려합니다. 구문은 다음 공식으로 표시됩니다.

VAR.B(번호1;번호2;…)

이전 함수에서와 같이 인수의 수도 1에서 255 사이일 수 있습니다.


보시다시피 Excel 프로그램은 분산 계산을 크게 용이하게 할 수 있습니다. 이 통계는 모집단과 표본 모두에 대해 적용하여 계산할 수 있습니다. 이 경우 모든 사용자 작업은 실제로 처리된 번호의 범위를 지정하는 것으로만 축소되며 주요 엑셀 작업스스로 한다. 물론 이것은 사용자에게 상당한 시간을 절약해 줄 것입니다.

변동 범위(또는 변동 범위) -기능의 최대값과 최소값의 차이입니다.

이 예에서 작업자의 교대 출력 변동 범위는 첫 번째 여단에서 R=105-95=10명의 어린이, 두 번째 여단에서 R=125-75=50명의 어린이입니다. (5배 이상). 이것은 1 여단의 출력이 더 "안정적"이지만 두 번째 여단이 출력 증가를 위해 더 많은 준비금을 가지고 있음을 시사합니다. 모든 근로자가 이 여단의 최대 생산량에 도달하면 3 * 125 = 375개의 부품을 생산할 수 있으며 제1 여단에서는 105 * 3 = 315개의 부품만 생산할 수 있습니다.
속성의 극단값이 모집단에 일반적이지 않은 경우 사분위수 또는 십분위수 범위가 사용됩니다. 사분위수 범위 RQ= Q3-Q1은 모집단의 50%, 첫 번째 십분위수 범위 RD1 = D9-D1은 데이터의 80%, 두 번째 십분위수 범위 RD2= D8-D2는 60%를 포함합니다.
변이 범위 표시기의 단점은 그 값이 특성의 모든 변동을 반영하지 않는다는 것입니다.
특성의 모든 변동을 반영하는 가장 간단한 일반화 지표는 다음과 같습니다. 평균 선형 편차, 평균 값에서 개별 옵션의 절대 편차의 산술 평균입니다.

,
그룹화된 데이터의 경우
,
여기서 хi는 기능의 값입니다. 이산 시리즈또는 간격 분포에서 간격의 중간.
위의 공식에서 분자의 차이는 모듈로 취합니다. 그렇지 않으면 산술 평균의 속성에 따라 분자는 항상 0과 같습니다. 따라서 평균 선형 편차는 통계적 관행에서 거의 사용되지 않으며 부호를 고려하지 않고 지표를 합산하는 것이 경제적인 경우에만 사용됩니다. 예를 들어, 직원 구성, 생산 수익성 및 대외 무역 회전율이 도움을 받아 분석됩니다.
기능 분산평균 값에서 변형 편차의 평균 제곱:
단순 분산
,
가중 분산
.
분산 계산 공식은 다음과 같이 단순화할 수 있습니다.

따라서 분산은 변형 제곱 평균과 모집단 변형 평균 제곱 간의 차이와 같습니다.
.
그러나 제곱 편차의 합계로 인해 분산은 편차에 대한 왜곡된 아이디어를 제공하므로 평균이 계산됩니다. 표준 편차, 속성의 특정 변형이 평균 값에서 평균적으로 얼마나 벗어났는지 보여줍니다. 추출하여 계산 제곱근분산에서:
그룹화되지 않은 데이터의 경우
,
~을 위한 변형 시리즈

분산 값과 표준 편차가 작을수록 모집단이 더 균질할수록 평균 값이 더 신뢰할 수 있습니다(전형적인).
선형 평균과 평균 표준 편차- 명명된 숫자, 즉 속성의 측정 단위로 표현되고 내용이 동일하고 의미가 가깝습니다.
세다 절대 지표변형은 테이블을 사용하는 것이 좋습니다.
표 3 - 변동 특성 계산 (작업 팀의 교대 출력에 대한 데이터 기간의 예)


근로자 수

간격의 중간

예상 값

총:

근로자의 평균 교대 출력:

평균 선형 편차:

출력 분산:

평균 산출량에서 개별 근로자 산출량의 표준 편차:
.

1 모멘트 방법에 의한 분산 계산

분산 계산은 복잡한 계산과 관련이 있습니다(특히 평균이 소수 자릿수가 여러 개인 큰 숫자로 표현되는 경우). 단순화된 공식과 분산 특성을 사용하여 계산을 단순화할 수 있습니다.
분산액에는 다음과 같은 특성이 있습니다.

  1. 속성의 모든 값이 동일한 값 A만큼 감소하거나 증가하면 분산은 다음과 같이 감소하지 않습니다.

,

, 그런 다음 또는
분산의 속성을 사용하고 먼저 모집단의 모든 변이를 ​​값 A로 줄인 다음 간격 h의 값으로 나누면 동일한 간격으로 변이 계열의 분산을 계산하는 공식을 얻습니다. 순간의 방식:
,
모멘트 방법으로 계산 된 분산은 어디입니까?
h는 변동 계열의 간격 값입니다.
– 새로운(변환된) 변형 값;
A는 주파수가 가장 높은 구간의 중간으로 사용되는 상수 값입니다. 또는 빈도가 가장 높은 변종;
는 첫 번째 주문의 순간의 제곱입니다.
두 번째 주문의 순간입니다.
작업 팀의 교대 출력 데이터를 기반으로 모멘트 방법으로 분산을 계산해 보겠습니다.
표 4 - 모멘트 방법에 의한 분산 계산


생산 노동자 그룹, PC.

근로자 수

간격의 중간

예상 값

계산 절차:


  1. 분산 계산:

2 대체 특성의 분산 계산

통계가 연구하는 기호 중에는 상호 배타적인 두 가지 의미만 있는 기호가 있습니다. 이들은 대체 징후입니다. 옵션 1과 0의 두 가지 양적 값이 제공됩니다. p로 ​​표시되는 옵션 1의 빈도는 이 기능을 가진 단위의 비율입니다. 차이 1-p=q는 옵션 0의 빈도입니다. 따라서,


xi

대체 기능의 산술 평균
, p+q=1이기 때문에.

기능 분산
, 왜냐하면 1-p=q
따라서 대체 속성의 분산은 이 속성이 있는 단위 비율과 이 속성이 없는 단위 비율의 곱과 같습니다.
값 1과 0이 동일하게 빈번한 경우, 즉 p=q, 분산은 최대 pq=0.25에 도달합니다.
분산 변수는 샘플 조사(예: 제품 품질)에 사용됩니다.

3 그룹 간 분산. 분산 추가 규칙

분산은 변동의 다른 특성과 달리 부가적인 양입니다. 즉, 요인 기준에 따라 그룹으로 나뉩니다. 엑스 , 결과 분산 와이그룹 내 분산(그룹 내)과 그룹 간 분산(그룹 간)으로 분해할 수 있습니다. 그러면 인구 전체에 걸친 특성의 변이 연구와 함께 각 그룹의 변이뿐만 아니라 이들 그룹 간의 변이도 연구할 수 있게 됩니다.

총 분산특성의 변화를 측정 ~에이 변동(편차)을 일으킨 모든 요인의 영향을 받는 전체 인구에 대해. 특징의 개별 값 편차의 평균 제곱과 같습니다. ~에전체 평균의 단순 분산 또는 가중 분산으로 계산할 수 있습니다.
그룹간 분산효과적인 기능의 변화를 특징짓습니다. ~에, 부호 인자의 영향으로 인한 엑스그룹화의 기본. 이는 그룹 평균의 변동을 특성화하며 총 평균에서 그룹 평균 편차의 평균 제곱과 같습니다.
,
i 번째 그룹의 산술 평균은 어디입니까?
- i 번째 그룹의 단위 수(i 번째 그룹의 빈도);
인구의 총 평균입니다.
그룹 내 분산무작위 변동, 즉 설명되지 않은 요인의 영향으로 인해 발생하고 그룹화의 기초가 되는 속성 요인에 의존하지 않는 변동 부분을 반영합니다. 변이를 특징짓는다 개별 가치그룹 평균과 관련하여 속성의 개별 값 편차의 평균 제곱과 동일 ~에그룹 내에서 이 그룹의 산술 평균(그룹 평균)으로 계산되며 각 그룹에 대한 단순 분산 또는 가중 분산으로 계산됩니다.
또는 ,
여기서 는 그룹의 단위 수입니다.
각 그룹에 대한 그룹 내 분산을 기반으로 다음을 결정할 수 있습니다. 그룹 내 분산의 전체 평균:
.
세 가지 분산 사이의 관계를 분산 추가 규칙, 이에 따라 총 분산은 그룹 간 분산과 그룹 내 분산의 평균의 합과 같습니다.

예시. 근로자의 관세 범주 (자격)가 노동 생산성 수준에 미치는 영향을 연구 할 때 다음 데이터를 얻었습니다.
표 5 - 평균 시간당 생산량에 따른 근로자 분포.



p/p

네 번째 범주의 노동자

다섯 번째 범주의 노동자

운동
작업자, PC.,

운동
작업자, PC.,

1
2
3
4
5
6

7
9
9
10
12
13

7-10=-3
9-10=-1
-1
0
2
3

9
1
1
0
4
9

1
2
3
4

14
14
15
17

14-15=-1
-1
0
2

1
1
0
4

이 예근로자는 요인 기준에 따라 두 그룹으로 나뉩니다. 엑스- 등급으로 특징지어지는 자격. 효과적인 형질 - 생산 -은 그 영향(그룹간 변동)과 기타 무작위 요인(그룹 내 변동)에 따라 달라집니다. 문제는 전체, 그룹 간 및 그룹 내의 세 가지 분산을 사용하여 이러한 변동을 측정하는 것입니다. 경험적 결정 계수는 결과 특징의 변동 비율을 보여줍니다. ~에요인 기호의 영향으로 엑스. 나머지 전체 변형 ~에다른 요인의 변화로 인해 발생합니다.
예에서 경험적 결정 계수는 다음과 같습니다.
또는 66.7%,
이는 근로자의 노동생산성 변동의 66.7%가 자격의 차이에 기인하고, 33.3%가 기타 요인의 영향에 기인한다는 것을 의미한다.
경험적 상관관계그룹화와 유효 기능 간의 긴밀한 관계를 보여줍니다. 경험적 결정 계수의 제곱근으로 계산됩니다.

경험적 상관 비율뿐만 아니라 0에서 1까지의 값을 취할 수 있습니다.
연결이 없으면 =0입니다. 이 경우 =0, 즉 그룹 평균이 서로 같고 그룹 간 변동이 없습니다. 이것은 그룹화 기호 - 요인이 일반적인 변동의 형성에 영향을 미치지 않음을 의미합니다.
관계가 기능적이면 =1입니다. 이 경우 그룹 평균의 분산은 총 분산()과 같습니다. 즉, 그룹 내 변동이 없습니다. 이는 그룹화 기능이 연구 중인 결과 기능의 변형을 완전히 결정한다는 것을 의미합니다.
상관 관계의 값이 1에 가까울수록 기능 종속성에 가깝고 기능 종속성에 가깝습니다.
기호 사이의 연결 정도에 대한 정성적 평가를 위해 Chaddock 관계가 사용됩니다.

예에서 , 이는 근로자의 생산성과 자격 사이의 밀접한 관계를 나타냅니다.