통계 데이터의 요약 및 그룹화.  간격 분포 시리즈 작성

통계 데이터의 요약 및 그룹화. 간격 분포 시리즈 작성

통계 자료를 일반화하는 가장 간단한 방법은 시리즈를 만드는 것입니다. 통계 연구의 요약 결과는 분포 계열이 될 수 있습니다. 통계의 분포 계열은 질적 또는 양적 속성 중 하나에 따라 인구 단위를 그룹으로 정렬된 분포입니다. 시리즈가 질적 기준으로 구축되면 속성이라고 하고 양적 기반이면 변이적이라고 합니다.

변형 시리즈는 변형(X)과 빈도(f)의 두 가지 요소로 특징지어집니다. 변형은 별도의 단위 또는 모집단 그룹의 기호에 대한 별도의 값입니다. 특정 특성 값이 몇 번 발생하는지 보여주는 숫자를 빈도라고 합니다. 주파수를 상대수로 표현하면 주파수라고 합니다. 바리에이션 시리즈"from"과 "to"의 경계가 정의되면 간격이 될 수 있고 연구 중인 특성이 특정 숫자로 특징지어지면 이산적일 수 있습니다.

우리는 예제를 사용하여 변형 시리즈의 구성을 고려할 것입니다.

예시. 공장의 작업장 중 한 곳에서 일하는 60명의 임금 범주에 대한 데이터가 있습니다.

관세 범주에 따라 작업자를 배포하고 변형 시리즈를 만듭니다.

이를 위해 속성의 모든 값을 오름차순으로 작성하고 각 그룹의 작업자 수를 계산합니다.

표 1.4

범주별 근로자 분포

작업자 등급(X)

근로자 수

사람 (f)

전체의 %(특히)

우리는 연구 중인 특성(근로자의 순위)이 특정 숫자로 표시되는 변이 이산 시리즈를 얻었습니다. 명확성을 위해 변형 시리즈가 그래픽으로 표시됩니다. 이 분포 계열을 기반으로 분포면을 구성했습니다.

쌀. 1.1. 임금 범주별 근로자 분포에 대한 다각형

다음 예를 사용하여 동일한 간격을 갖는 간격 시리즈의 구성을 고려할 것입니다.

예시. 50개 기업의 고정 자본 비용에 대한 알려진 데이터(백만 루블). 고정 자본 비용에 따른 기업의 분포를 보여줘야 합니다.

고정 자본 비용에 따른 기업 분포를 보여주기 위해 먼저 구분할 그룹의 수를 결정합니다. 5개의 기업 그룹을 선택하기로 결정했다고 가정합니다. 그런 다음 그룹의 간격 크기를 결정합니다. 이를 위해 다음 공식을 사용합니다.

우리의 예에 따르면.

간격 값을 속성의 최소값에 더함으로써 고정 자본 비용으로 기업 그룹을 얻습니다.

이중 값을 가진 단위는 상한값으로 작용하는 그룹에 속합니다(즉, 특성 값 17은 첫 번째 그룹으로, 24는 두 번째 그룹으로 이동 등).

각 그룹의 식물 수를 세어 봅시다.

표 1.5

고정 자본 가치에 따른 기업 분포(백만 루블)

고정 자본 비용
백만 루블 (엑스)

기업 수
(주파수) (f)

누적 주파수
(누적)

이 분포에 따라 변동 구간 시리즈가 얻어졌으며 36개 회사의 고정 자본 가치가 1000만~2400만 루블임을 알 수 있습니다. 등.

간격 분포 계열은 히스토그램으로 그래픽으로 나타낼 수 있습니다.

데이터 처리 결과는 다음 문서에 기록됩니다. 통계표. 통계 테이블에는 주제와 술어가 포함됩니다.

주어는 특성이 적용되는 집합 또는 집합의 일부입니다.

술어는 주제를 특징짓는 지표입니다.

테이블은 구별됩니다 : 단순 및 그룹, 조합, 술어의 단순 및 복합 개발.

주제의 간단한 표에는 개별 단위 목록이 포함되어 있습니다.

주제에 단위 그룹이 있는 경우 이러한 테이블을 그룹 테이블이라고 합니다. 예를 들어, 근로자 수에 따른 기업 그룹, 성별에 따른 인구 그룹.

조합 테이블의 주제는 둘 이상의 기준에 따른 그룹화를 포함합니다. 예를 들어, 인구는 성별에 따라 교육, 연령 등의 그룹으로 나뉩니다.

조합 표에는 여러 지표의 관계와 공간과 시간 모두에서 변화 패턴을 식별하고 특성화할 수 있는 정보가 포함되어 있습니다. 주제를 전개할 때 테이블이 시각적으로 보이도록 하기 위해 두 개 또는 세 개의 기호로 제한되어 각각에 대해 제한된 수의 그룹을 형성합니다.

표의 술어는 다양한 방식으로 개발할 수 있습니다. 술어를 간단히 개발하면 모든 지표가 서로 독립적으로 배치됩니다.

술어의 복잡한 개발로 지표가 서로 결합됩니다.

테이블을 구성할 때는 연구의 목적과 가공된 자료의 내용에서 진행해야 합니다.

통계는 표 외에도 그래프와 차트를 사용합니다. 다이어그램 - 통계 데이터는 기하학적 모양을 사용하여 표시됩니다. 차트는 꺾은선형 차트와 막대형 차트로 나뉩니다. 곡선형 차트(도면 및 기호), 파이 차트(원은 전체 인구의 크기로 간주하고 개별 섹터의 영역 표시) 비중또는 그것의 몫 구성 부품), 방사형 다이어그램(극좌표 기준). 카토그램은 조합입니다 등고선 지도또는 도표가 있는 지역의 계획.

연구 중인 랜덤 변수가 연속적이면 관찰된 값의 순위 및 그룹화로 인해 하나를 골라낼 수 없는 경우가 많습니다. 캐릭터 특성그 가치를 변화시킵니다. 개인의 가치관 때문이다. 랜덤 변수서로 원하는만큼 다를 수 있으므로 관찰 된 데이터의 전체에서 동일한 양의 값이 거의 발생할 수 없으며 변이의 빈도가 서로 거의 다릅니다.

구축하는 것도 부적절하다. 이산 시리즈이산 확률 변수의 경우 가능한 값의 수가 많습니다. 이러한 경우에는 빌드해야 합니다. 간격 변화 시리즈 분포.

이러한 계열을 구성하기 위해 확률 변수의 관측 값의 전체 변동 구간을 계열로 나눕니다. 부분 간격 및 각 부분 구간에서 크기 값의 발생 빈도를 카운팅하는 단계를 포함합니다.

간격 변형 시리즈 값의 각 값에서 해당 빈도 또는 적중의 상대 빈도를 사용하여 무작위 변수 값의 변동 간격의 정렬된 집합이라고 합니다.

간격 시리즈를 작성하려면 다음이 필요합니다.

  1. 정의하다 부분 간격;
  2. 정의하다 너비 간격;
  3. 각 간격에 대해 설정 맨 위 그리고 하한 ;
  4. 관찰 결과를 그룹화합니다.

1 . 그룹화 간격의 수와 너비를 선택하는 문제는 다음을 기반으로 각 특정 경우에 결정되어야 합니다. 목표 연구, 용량 샘플링 및 변동의 정도 샘플의 기능.

대략적인 간격 수 케이 표본 크기에서만 추정할 수 있음 N 중 하나 다음 방법:

  • 공식에 따라 스터지스 : k = 1 + 3.32 로그 n ;
  • 표 1을 사용하여

1 번 테이블

2 . 동일한 너비의 간격이 일반적으로 선호됩니다. 간격의 너비를 결정하려면 시간 계산하다:

  • 변동 범위 R - 샘플 값: R = x 최대 - x 최소 ,

어디 엑스맥스 그리고 xmin - 최대 및 최소 샘플 옵션

  • 각 간격의 너비 시간 다음 공식에 의해 결정됩니다. h = R/k .

3 . 결론 첫 번째 간격 x h1 최소 표본 변형이 되도록 선택됩니다. xmin 대략 이 간격의 중간에 떨어졌습니다. x h1 = x 최소 - 0.5시간 .

간격이전 간격의 끝에 부분 간격의 길이를 더하여 얻습니다. 시간 :

xhi = xhi-1 +h.

간격의 경계 계산을 기반으로 한 간격 척도의 구성은 값이 나올 때까지 계속됩니다. 엑스 안녕 다음 관계를 만족합니다.

엑스 안녕< x max + 0,5·h .

4 . 간격의 규모에 따라 속성 값이 그룹화됩니다. 각 부분 간격에 대해 빈도의 합이 계산됩니다. 나는 잡힌 변종 -번째 간격. 이 경우 구간은 구간의 상한보다 작거나 같은 확률변수의 값을 포함한다.

다각형 및 히스토그램

명확성을 위해 통계 분포의 다양한 그래프가 작성되었습니다.

이산 변이 시리즈의 데이터를 기반으로 하여 구성합니다. 다각형 주파수 또는 상대 주파수.

주파수 다각형 x 1 ; n 1 ), (x2 ; n 2 ), ..., (x k ; 엔크 ). 가로축에 주파수의 다각형을 만들기 위해 옵션이 따로 설정되어 있습니다. 엑스 나 , y축 - 해당 주파수 나는 . 포인트들 ( 엑스 나 ; 나는 )는 직선의 세그먼트로 연결되고 주파수 다각형이 얻어집니다(그림 1).

상대 주파수 다각형세그먼트가 점을 연결하는 폴리라인이라고 합니다( x 1 ; 승 1 ), (x2 ; 승2 ), ..., (x k ; ). 가로 좌표에 상대 주파수의 다각형을 만들려면 옵션을 배치하십시오. 엑스 나 , 그리고 y축에서 - 그들에 대응하는 상대 주파수 . 포인트들 ( 엑스 나 ; )는 직선의 세그먼트로 연결되어 상대 주파수의 다각형을 얻습니다.

언제 연속 기능 건설하는 것이 편리하다 히스토그램 .

주파수 히스토그램밑변이 부분적인 길이 간격인 직사각형으로 구성된 계단형 도형이라고 합니다. 시간 , 높이는 비율과 같습니다. NIH : 국립보건원 (주파수 밀도).

주파수의 히스토그램을 작성하기 위해 부분 간격이 가로축에 표시되고 세그먼트가 가로축에 평행하게 그 위에 그려집니다. NIH : 국립보건원 .

실험실 작업 №1. 1차 처리통계 데이터

유통 시리즈 구축

하나의 속성에 따라 인구 단위를 그룹으로 정렬된 분포라고 합니다. 가까운 유통 . 이 경우 부호는 양적일 수 있으며 시리즈는 변형 , 그리고 질적이면 시리즈가 호출됩니다. 명사 수식어 . 예를 들어, 도시의 인구는 다음과 같이 분포될 수 있습니다. 연령대변이 시리즈로, 또는 전문적인 소속에 따라 속성 시리즈로 (물론, 분포 시리즈를 구성하기 위해 더 많은 질적 및 양적 기호가 제공될 수 있으며, 기호의 선택은 통계 연구의 작업에 의해 결정됩니다).

모든 배포 시리즈는 두 가지 요소로 특징 지어집니다.

- 옵션(엑스 나) - 이들은 표본 모집단 단위 속성의 개별 값입니다. 변형 계열의 경우 변형은 속성 계열의 경우 숫자 값을 사용합니다. 질적 계열(예: x = "공무원")

- 빈도(N )는 이 또는 그 특성 값이 몇 번 발생하는지 나타내는 숫자입니다. 빈도를 상대 수로 표현하면(즉, 에 해당하는 인구 요소의 비율) 주어진 가치옵션, 인구의 총량에서), 호출됩니다. 상대 빈도또는 빈도.

변형 시리즈는 다음과 같을 수 있습니다.

- 이산연구 중인 형질이 특정 숫자(보통 정수)로 특징지어지는 경우.

- 간격연속 가변 피쳐에 대해 "from" 및 "to" 경계가 정의된 경우. 간격 시리즈불연속적으로 가변적인 속성의 값 집합이 큰 경우에도 빌드합니다.

간격 시리즈는 통계 연구의 조건에 따라 동일한 길이의 간격(등간격 시리즈)과 동일하지 않은 간격으로 구성될 수 있습니다. 예를 들어, 다음 간격을 갖는 일련의 인구 소득 분포를 고려할 수 있습니다.<5тыс р., 5-10 тыс р., 10-20 тыс.р., 20-50 тыс р., и т.д. Если цель исследования не определяет способ построения интервального ряда, то строится равноинтервальный ряд, число интервалов в котором определяется по формуле Стерджесса:



여기서 k는 구간 수이고 n은 표본 크기입니다. (물론, 공식은 일반적으로 분수를 제공하며 결과 숫자에 가장 가까운 정수가 간격 수로 선택됩니다.) 이 경우 간격의 길이는 공식에 의해 결정됩니다.

.

그래픽으로 변형 시리즈는 다음과 같이 나타낼 수 있습니다. 히스토그램(이 간격의 빈도에 해당하는 높이의 "열"은 간격 시리즈의 각 간격 위에 작성됨), 유통 지역(점선 연결 점( 엑스 나;나는) 또는 누적(누적된 빈도에 따라 구성됩니다. 즉, 속성의 각 값에 대해 주어진 속성 값보다 작은 속성 값을 가진 개체 집합에서 발생 빈도가 취해집니다.)

Excel에서 작업할 때 다음 함수를 사용하여 변형 시리즈를 작성할 수 있습니다.

확인하다( 데이터 배열) – 표본 크기를 결정합니다. 인수는 샘플 데이터를 포함하는 셀 범위입니다.

COUNTIF( 범위; 표준) - 속성 또는 변형 시리즈를 작성하는 데 사용할 수 있습니다. 인수는 속성 샘플 값 배열의 범위와 기준 - 속성의 숫자 또는 텍스트 값 또는 속성이 위치한 셀의 번호입니다. 결과는 샘플에서 해당 값의 발생 빈도입니다.

빈도( 데이터 배열; 간격 배열) – 변형 시리즈를 작성합니다. 인수는 샘플 데이터 배열의 범위와 간격 열입니다. 이산 시리즈를 작성해야 하는 경우 옵션 값이 여기에 표시되고, 간격인 경우 간격의 상한선("포켓"이라고도 함)이 표시됩니다. 결과는 주파수 열이므로 CTRL+SHIFT+ENTER 키 조합을 눌러 기능 도입을 완료해야 합니다. 함수를 도입할 때 간격 배열을 설정할 때 마지막 값을 생략할 수 있습니다. 이전 "포켓"에 속하지 않은 모든 값은 해당 "포켓"에 배치됩니다. 이것은 때때로 가장 큰 샘플 값이 마지막 "포켓"에 자동으로 배치되지 않는 오류를 방지하는 데 도움이 됩니다.

또한 여러 기준에 따라 복잡한 그룹화의 경우 "피벗 테이블" 도구가 사용됩니다. 속성 및 변형 시리즈를 작성하는 데 사용할 수도 있지만 이는 작업을 불필요하게 복잡하게 만듭니다. 또한 변형 시리즈 및 히스토그램을 작성하기 위해 "분석 패키지" 추가 기능에서 "히스토그램" 절차가 있습니다(엑셀에서 추가 기능을 사용하려면 먼저 다운로드해야 하며 기본적으로 설치되지 않음)

다음 예를 통해 기본 데이터 처리 프로세스를 설명합니다.

실시예 1.1. 60가구의 정량적 구성에 관한 자료가 있다.

변형 시리즈 및 분포 다각형 구축

해결책.

Excel 스프레드시트를 열어 보겠습니다. A1:L5 범위의 데이터 배열을 입력해 보겠습니다. 전자 형식(예: Word 형식)의 문서를 연구하는 경우 데이터가 있는 표를 선택하고 클립보드에 복사한 다음 A1 셀을 선택하고 데이터를 붙여넣기만 하면 됩니다. 적절한 범위. 샘플 크기 n - 샘플 데이터 수를 계산해 보겠습니다. 이를 위해 B7 셀에 수식 = COUNT(A1: L5)를 입력합니다. 원하는 범위를 수식에 입력하려면 키보드에서 해당 범위를 입력할 필요가 없으며 선택하면 충분합니다. =MIN(A1:L5) 수식을 B8 셀에 입력하고 B9 셀에 =MAX(A1:L5) 수식을 입력하여 샘플의 최소값과 최대값을 결정해 보겠습니다.

그림 1.1 예제 1. Excel 테이블의 통계 데이터 1차 처리

다음으로 간격 열(변이 값)과 빈도 열의 이름을 입력하여 변이 시리즈를 작성하기 위한 테이블을 준비하겠습니다. 간격 열에 B12:B17 범위를 차지하는 최소값(1)에서 최대값(6)까지 속성 값을 입력합니다. 빈도 열을 선택하고 수식을 입력한 다음 =FREQUENCY(A1:L5;B12:B17) 키 조합 CTRL+SHIFT+ENTER를 누릅니다.

그림 1.2 예제 1. 변형 시리즈의 구성

제어를 위해 SUM 기능(홈 탭의 편집 그룹에 있는 S 기능 아이콘)을 사용하여 빈도의 합을 계산합니다. 계산된 합은 B7 셀에서 이전에 계산된 샘플 크기와 일치해야 합니다.

이제 다각형을 만들어 보겠습니다. 결과 주파수 범위를 선택한 후 "삽입" 탭에서 "그래프" 명령을 선택합니다. 기본적으로 가로 축의 값은 옵션 값(관세 범주 수)과 일치하는 1에서 6까지의 서수입니다.

"시리즈 1" 차트 시리즈의 이름은 "디자이너" 탭에서 동일한 "데이터 선택" 옵션을 사용하여 변경하거나 단순히 삭제할 수 있습니다.

그림 1.3. 예제 1. 주파수 다각형 만들기

예 1.2. 50개 출처의 오염물질 배출에 대한 데이터를 사용할 수 있습니다.

10,4 18,6 10,3 26,0 45,0 18,2 17,3 19,2 25,8 18,7
28,2 25,2 18,4 17,5 41,8 14,6 10,0 37,8 10,5 16,0
18,1 16,8 38,5 37,7 17,9 29,0 10,1 28,0 12,0 14,0
14,2 20,8 13,5 42,4 15,5 17,9 19, 10,8 12,1 12,4
12,9 12,6 16,8 19,7 18,3 36,8 15,0 37,0 13,0 19,5

등간격 시리즈를 컴파일하고 히스토그램을 작성하십시오.

해결책

Excel 시트에 데이터 배열을 추가해 보겠습니다. A1:J5 범위를 차지합니다. 이전 작업에서와 같이 샘플 크기 n, 샘플의 최소값 및 최대값을 결정합니다. 이제 우리는 이산이 필요하지 않고 구간 시리즈가 필요하고 문제의 구간 수가 지정되지 않았으므로 Sturgess 공식을 사용하여 구간 수 k를 계산합니다. 이렇게 하려면 셀 B10에 수식 =1+3.322*LOG10(B7)을 입력합니다.

그림 1.4. 예제 2. 등간격 시리즈의 구성

결과 값은 정수가 아니며 약 6.64입니다. k=7의 경우 간격의 길이가 정수로 표시되므로(k=6의 경우와 대조적으로) 이 값을 셀 C10에 입력하여 k=7을 선택합니다. 수식 = (B9-B8) / C10을 입력하여 셀 B11의 간격 d의 길이를 계산합니다.

7개 간격 각각에 대한 상한을 지정하여 간격 배열을 정의해 보겠습니다. 이렇게 하려면 셀 E8에서 수식 =B8+B11을 입력하여 첫 번째 간격의 상한을 계산합니다. 셀 E9에 수식 =E8+B11을 입력하여 두 번째 간격의 상한선을 입력합니다. 구간 상한의 나머지 값을 계산하기 위해 $ 기호를 사용하여 입력된 수식에서 셀 B11의 수를 고정하여 셀 E9의 수식이 =E8+B$11이 되도록 하고 다음 내용을 복사합니다. E9 셀에서 E10-E14 셀로. 얻은 마지막 값은 B9 셀에서 이전에 계산된 샘플의 최대값과 같습니다.

그림 1.5. 예제 2. 등간격 시리즈의 구성


이제 예제 1에서와 같이 FREQUENCY 함수를 사용하여 "포켓" 배열을 채우겠습니다.

그림 1.6. 예제 2. 등간격 시리즈의 구성

결과 변형 시리즈를 기반으로 히스토그램을 작성합니다. 빈도 열을 선택하고 "삽입" 탭에서 "히스토그램"을 선택합니다. 히스토그램을 받으면 가로 축의 레이블을 간격 범위의 값으로 변경합니다. 이를 위해 "디자이너" 탭의 "데이터 선택" 옵션을 선택합니다. 나타나는 창에서 "가로 축 레이블"섹션에 대한 "변경"명령을 선택하고 "마우스"로 선택하여 값 범위를 입력하십시오.

그림 1.7. 예 2. 히스토그램 작성

그림 1.8. 예 2. 히스토그램 작성

많은 경우에 통계 모집단에 연속적인 변동이 가장 자주 발생하는 대규모 또는 훨씬 더 많은 수의 옵션이 포함되어 있으면 각 옵션에 대한 단위 그룹을 형성하는 것이 실질적으로 불가능하고 비실용적입니다. 이러한 경우 통계 단위를 그룹으로 연결하는 것은 간격을 기준으로만 가능합니다. 다양한 속성 값의 특정 제한이 있는 그룹. 이러한 한계는 각 그룹의 상한과 하한을 나타내는 두 개의 숫자로 표시됩니다. 구간을 사용하면 구간 분포 계열이 형성됩니다.

간격 rad는 변이 계열이며, 그 변종은 간격으로 표시됩니다.

구간 계열은 등간격과 불균등 구간으로 구성될 수 있으며, 이 계열을 구성하는 원리의 선택은 주로 통계 모집단의 대표성과 편의성 정도에 따라 다릅니다. 집합이 단위 수 측면에서 충분히 크고(대표) 구성이 매우 균질한 경우 간격 시리즈의 형성을 동일한 간격에 기반하는 것이 좋습니다. 일반적으로 이 원칙에 따라 변동 범위가 비교적 작은 모집단에 대해 구간 계열이 형성됩니다. 최대 및 최소 변형은 일반적으로 서로 여러 번 다릅니다. 이 경우 등간격의 값은 주어진 간격의 수에 대한 형질변이의 범위의 비율로 계산한다. 같음을 결정하기 위해 그리고간격이 있는 경우 Sturgess 공식을 사용할 수 있습니다(일반적으로 간격 특성의 작은 변동과 통계 모집단의 많은 단위).

어디서 x 나는 - 등간격의 값; X max, X min - 통계 모집단의 최대 및 최소 옵션. N . - 인구의 단위 수.

예시. 초기 (최소) 변형이 1km와 같은 것으로 알려진 경우 Mogilev 지역의 Krasnopolsky 지역 100 개 정착지에서 세슘 - 137로 방사성 오염의 밀도에 따라 등간격의 크기를 계산하는 것이 좋습니다. / km 2, 결승 (최대) - 65 ki / km 2. 공식 사용 5.1. 우리는 얻는다:

따라서 크라스노폴스키(Krasnopolsky) 지역의 세슘 오염 농도에 대해 등간격을 갖는 구간 계열을 형성하기 위해서는 등간격의 크기는 8 ki/km 2 가 될 수 있다.

고르지 않은 분포 조건, 즉 최대 및 최소 옵션이 수백 배일 때 간격 시리즈를 구성 할 때 원칙을 적용 할 수 있습니다. 같지 않은간격. 동일하지 않은 간격은 일반적으로 기능의 더 큰 값으로 이동할 때 증가합니다.

간격의 모양은 닫고 열 수 있습니다. 닫은하한과 상한이 모두 표시된 간격의 이름을 지정하는 것이 일반적입니다. 열려 있는간격에는 단 하나의 경계가 있습니다. 첫 번째 간격 - 위쪽, 마지막 - 아래쪽 경계.

다음을 고려하여 간격 시리즈, 특히 간격이 같지 않은 시리즈를 평가하는 것이 좋습니다. 분포 밀도, 간격의 크기에 대한 로컬 주파수(또는 주파수)의 비율을 계산하는 가장 간단한 방법입니다.

간격 시리즈의 실용적인 구성을 위해 테이블의 레이아웃을 사용할 수 있습니다. 5.3.

표 5.3. 세슘 -137의 방사성 오염 밀도에 따른 Krasnopolsky 지역의 일련의 정착촌 형성 절차

간격 시리즈의 주요 장점은 한계입니다. 컴팩트함.동시에 분포의 간격 시리즈에서 특성의 개별 변이가 해당 간격에 숨겨져 있습니다.

직교 좌표계에서 간격 계열을 그래픽으로 표시할 때 간격의 상한 경계는 가로축에 표시되고 계열의 로컬 주파수는 세로축에 표시됩니다. 간격 시리즈의 그래픽 구성은 각 간격이 하한 및 상한 경계를 가지며 두 개의 가로 좌표가 세로 좌표의 임의 값에 해당한다는 점에서 분포 다각형의 구성과 다릅니다. 따라서 간격 계열의 그래프에는 다각형과 같이 점이 표시되지 않고 두 점을 연결하는 선이 표시됩니다. 이 수평선을 수직선으로 연결하여 계단형 다각형의 도형을 얻습니다. 히스토그램분포(그림 5.3).

충분히 큰 통계 모집단에 대한 구간 계열의 그래픽 구성에서 히스토그램은 다음과 같이 접근합니다. 대칭배포 양식. 통계 인구가 작은 경우 일반적으로 형성됩니다. 비대칭막대 차트.

어떤 경우에는 많은 누적 주파수를 형성하는 것이 편리합니다. 누적열. 누적 계열은 이산 또는 간격 분포 계열을 기반으로 형성될 수 있습니다. 직교 좌표계에서 누적 계열을 그래픽으로 표시하면 가로축에 옵션이 표시되고 세로축에 누적 주파수(주파수)가 표시됩니다. 결과 곡선이라고합니다 누적분포(그림 5.4).

다양한 유형의 변이 시리즈의 형성 및 그래픽 표현은 주제 6에서 자세히 논의되는 주요 통계 특성의 단순화된 계산에 기여하여 통계 모집단의 분포 법칙의 본질을 더 잘 이해하는 데 도움이 됩니다. 변이 계열의 분석은 변이와 빈도(주파수) 간의 관계를 식별하고 추적해야 하는 경우에 특히 중요합니다. 이 의존성은 각 변형에 대한 케이스 수가 이 변형의 값과 특정 방식으로 관련되어 있다는 사실에서 나타납니다. 이러한 값의 빈도 (빈도)의 다양한 부호 값이 증가함에 따라 그들은 특정하고 체계적인 변화를 경험합니다. 이것은 주파수(주파수) 열의 숫자가 혼란스러운 변동의 대상이 아니라 특정 방향, 특정 순서 및 순서로 변경됨을 의미합니다.

변화의 빈도가 일정한 체계성을 보인다면 이는 패턴을 식별하는 단계에 있음을 의미합니다. 주파수 변화의 시스템, 순서, 순서는 전체 인구의 특징인 일반적인 원인, 일반적인 조건을 반영합니다.

배포 패턴이 항상 기성품으로 제공된다고 가정해서는 안됩니다. 주파수가 이상하게 증가하거나 감소하는 변이 시리즈가 많이 있습니다. 이러한 경우 연구자가 어떤 종류의 분포를 다루고 있는지 알아내는 것이 좋습니다. 이 분포는 패턴에 전혀 고유하지 않거나 그 성격이 아직 확인되지 않았습니다. 첫 번째 경우는 드물고 두 번째 경우는 드물다. 두 번째 경우는 다소 빈번하고 매우 일반적인 현상입니다.

따라서 구간 계열을 구성할 때 전체 통계 단위 수가 적을 수 있고 각 구간에 소수의 옵션이 포함될 수 있습니다(예: 1-3 단위). 이러한 경우 규칙성의 징후를 고려할 필요가 없습니다. 무작위 관찰을 기반으로 규칙적인 결과를 얻으려면 큰 수의 법칙이 시행되어야 합니다. 각 간격에 대해 몇 개가 아니라 수십, 수백 개의 통계 단위가 있도록 합니다. 이를 위해 가능한 한 관찰 횟수를 늘리도록 노력해야 합니다. 이것은 대량 프로세스에서 패턴을 감지하는 가장 확실한 방법입니다. 관측 수를 늘릴 기회가 실제로 없는 경우 분포 계열의 구간 수를 줄여 패턴을 식별할 수 있습니다. 변이 계열의 간격 수를 줄임으로써 각 간격의 빈도 수를 늘립니다. 이것은 각 통계 단위의 무작위 변동이 서로 중첩되어 "부드럽게" 패턴으로 변한다는 것을 의미합니다.

변이 시리즈의 형성 및 구성을 통해 통계 모집단의 분포에 대한 일반적이고 대략적인 그림만 얻을 수 있습니다. 예를 들어, 히스토그램은 기능 값과 해당 빈도(주파수) 간의 관계를 대략적으로 표현하므로 변이 계열은 본질적으로 정적 분포의 내부 규칙성에 대한 심층 연구의 기초일 뿐입니다.

주제 5 질문

1. 변형이란 무엇입니까? 통계 모집단에서 특성의 변화를 일으키는 원인은 무엇입니까?

2. 통계에서 어떤 유형의 변수 기호가 나타날 수 있습니까?

3. 변형 시리즈란 무엇입니까? 변형 시리즈의 유형은 무엇입니까?

4. 랭크 시리즈가 무엇인가요? 장점과 단점은 무엇입니까?

5. 디스크리트 시리즈란 무엇이며 장점과 단점은 무엇입니까?

6. 인터벌 시리즈의 형성 순서는 무엇이며 장단점은 무엇입니까?

7. 순위, 불연속, 간격 분포 시리즈의 그래픽 표현은 무엇입니까?

8. 분포 누적이란 무엇이며 무엇을 특징으로 합니까?

수학 통계- 과학적이고 실용적인 결론을 위한 통계 데이터의 처리, 체계화 및 사용의 수학적 방법에 전념하는 수학 섹션.

3.1. 수학 통계의 기본 개념

생의학 문제에서 매우 많은 수의 개인에 대한 하나 또는 다른 특성의 분포를 조사하는 것이 종종 필요합니다. 개인에 따라 이 기능은 다른 의미를 가지므로 랜덤 변수입니다. 예를 들어, 모든 치료 약물은 다른 환자에게 적용될 때 다른 효능을 갖습니다. 그러나이 약의 효과에 대한 아이디어를 얻기 위해이 약을 적용 할 필요는 없습니다. 여러분아픈. 비교적 적은 수의 환자에게 약물 사용 결과를 추적하고 얻은 데이터를 기반으로 치료 과정의 필수 기능(유효성, 금기 사항)을 식별하는 것이 가능합니다.

인구- 어떤 특징을 특징으로 하는 연구할 동질 요소의 집합. 이 표시는 마디 없는분포 밀도가 있는 확률 변수 f(x).

예를 들어 특정 지역의 질병 유병률에 관심이 있는 경우 일반 인구는 해당 지역의 전체 인구입니다. 남성과 여성의 이 질병에 대한 감수성을 별도로 알아보려면 두 개의 일반 인구를 고려해야 합니다.

속성을 연구하려면 인구그 요소 중 일부를 선택하십시오.

견본- 검사(치료)를 위해 선택된 일반 인구의 일부.

이것이 혼동을 일으키지 않으면 샘플은 다음과 같이 호출됩니다. 개체 컬렉션심사를 위해 선발되고, 전체

가치검사 중에 얻은 연구 중인 특성의. 이러한 값은 여러 가지 방법으로 나타낼 수 있습니다.

단순 통계 시리즈 -연구중인 특성의 값은 얻은 순서대로 기록됩니다.

20명의 환자의 이마 피부에서 표면파 속도(m/s)를 측정하여 얻은 간단한 통계 계열의 예가 표에 나와 있습니다. 3.1.

표 3.1.단순 통계 시리즈

간단한 통계 시리즈는 설문조사 결과를 기록하는 가장 기본적이고 완전한 방법입니다. 수백 개의 요소를 포함할 수 있습니다. 이러한 집합체를 한 눈에 보기는 매우 어렵습니다. 따라서 큰 샘플은 일반적으로 그룹으로 세분화됩니다. 이를 위해 속성의 변경 영역을 여러 개로 나눈다(N) 간격동일한 너비로 만들고 이 간격에 속하는 특징의 상대 빈도(n/n)를 계산합니다. 각 간격의 너비는 다음과 같습니다.

간격의 경계는 다음과 같은 의미를 갖습니다.

표본의 요소 중 하나라도 인접한 두 구간 사이의 경계인 경우 왼쪽간격. 이렇게 그룹화된 데이터를 간격 통계 시리즈.

- 이것은 특성 값의 간격과 이러한 간격에 속하는 특성의 상대 빈도를 보여주는 표입니다.

우리의 경우, 예를 들어 이러한 간격 통계 시리즈(N = 5, = 4), 탭. 3.2.

표 3.2.간격 통계 시리즈

여기서 28에 해당하는 두 개의 값이 28-32 구간에 할당되고(표 3.1) 값 32, 33, 34, 35가 32-36 구간에 할당됩니다.

간격 통계 시리즈는 그래픽으로 표시할 수 있습니다. 이를 위해 가로 좌표축을 따라 특성 값의 간격이 그려지고 각 기준에 따라 상대 주파수와 동일한 높이로 직사각형이 작성됩니다. 결과 막대 차트는 히스토그램.

쌀. 3.1.막대 차트

히스토그램에서 특징 분포의 통계적 패턴이 매우 명확하게 보입니다.

큰 표본 크기(수천)와 작은 열 너비로 히스토그램의 모양이 그래프 모양에 가깝습니다. 분포 밀도징후.

히스토그램의 열 수는 다음 공식을 사용하여 선택할 수 있습니다.

히스토그램을 수동으로 작성하는 것은 긴 프로세스입니다. 따라서 컴퓨터 프로그램은 자동 구성을 위해 개발되었습니다.

3.2. 통계 시리즈의 수치적 특성

많은 통계 절차에서는 모집단의 평균과 분산(또는 표준 편차)에 대한 표본 추정치를 사용합니다.

표본 평균(X)는 단순 통계 계열의 모든 요소에 대한 산술 평균입니다.

우리의 예를 들어 엑스= 37.05(m/s).

표본 평균은최고일반 평균의 추정중.

표본 분산 s 2표본 평균에서 요소의 편차 제곱의 합을 다음으로 나눈 값과 같습니다. N- 1:

이 예에서는 s 2 \u003d 25.2 (m / s) 2입니다.

표본 분산을 계산할 때 공식의 분모는 표본 크기 n이 아니라 n-1입니다. 이는 공식 (3.3)의 편차를 계산할 때 알 수 없는 수학적 기대값 대신 추정값이 사용되기 때문입니다. 표본 평균.

표본 분산은 최고일반 분산 추정치(σ 2).

표본 표준편차(s)는 표본 분산의 제곱근입니다.

우리의 예를 들어 에스= 5.02(m/s).

선택적 실효편차는 일반 RMSE(σ)의 최상의 추정치입니다.

표본 크기가 무제한으로 증가하면 모든 표본 특성이 일반 모집단의 해당 특성에 해당하는 경향이 있습니다.

샘플 특성을 계산하기 위해 컴퓨터 공식이 사용됩니다. Excel에서 이러한 계산은 통계 함수 AVERAGE, VARR를 수행합니다. STDEV.

3.3. 간격 추정

모든 샘플 특성은 랜덤 변수.이것은 동일한 크기의 다른 샘플의 경우 샘플 특성의 값이 다를 것임을 의미합니다. 따라서 선택적

특성은 만 견적일반 인구의 관련 특성.

선별적 평가의 단점 보완 간격 추정,대표 숫자 간격,그 안에서 주어진 확률로 R d추정된 매개변수의 실제 값이 발견됩니다.

허락하다 U r - 일반 모집단의 일부 매개변수(일반 평균, 일반 분산 등).

간격 추정매개변수 U r을 간격이라고 합니다. (U 1 , U 2),조건 충족:

피(유 < Ur < U2) = Рд. (3.5)

개연성 R d~라고 불리는 신뢰 확률.

신뢰 확률 P - 추정된 수량의 실제 값이 다음과 같을 확률 내부에지정된 간격.

동시에, 간격 (U 1 , U 2)~라고 불리는 신뢰 구간추정된 매개변수에 대해.

종종 신뢰 확률 대신 관련 값 α = 1 - R d라고 하는 유의 수준.

유의수준추정된 모수의 참값이 다음과 같을 확률 밖의신뢰 구간.

때때로 α 및 R d는 백분율로 표시됩니다(예: 0.05 대신 5%, 0.95 대신 95%).

구간 추정에서 먼저 적절한 신뢰 수준(보통 0.95 또는 0.99) 추정된 매개변수 값의 해당 간격을 찾습니다.

구간 추정의 몇 가지 일반적인 속성에 주목합니다.

1. 유의 수준이 낮을수록 R d),더 넓은 간격 추정. 따라서 0.05의 유의 수준에서 일반 평균의 구간 추정치는 34.7입니다.< < 39,4, то для уровня 0,01 она будет гораздо шире: 33,85 < < 40,25.

2. 표본 크기가 클수록 N,선택한 유의 수준으로 간격 추정치를 좁힙니다. 예를 들어 5를 20개 항목의 표본에서 얻은 일반 평균(β=0.05)의 백분율 추정치라고 하면 34.7이 됩니다.< < 39,4.

표본 크기를 80으로 늘리면 동일한 유의 수준에서 더 정확한 추정치를 얻을 수 있습니다. 35.5< < 38,6.

일반적으로 신뢰할 수 있는 신뢰 추정치를 구성하려면 추정된 무작위 특성이 일반 모집단에 분포하는 법칙에 대한 지식이 필요합니다. 구간 추정이 어떻게 구성되는지 고려 일반 평균에 따라 일반 인구에 분포하는 특성 정상법.

3.4. 정규분포법에 대한 일반평균의 구간추정

정규 분포 법칙에 따라 일반 모집단에 대한 일반 평균 M의 구간 추정값 구성은 다음 속성을 기반으로 합니다. 볼륨 샘플링용 N태도

자유도 ν =로 스튜던트 분포를 따릅니다. N- 1.

여기 엑스는 표본 평균이고, 에스- 선택적 표준 편차.

스튜던트의 분포표 또는 컴퓨터 아날로그를 사용하여 주어진 신뢰 확률로 다음 부등식이 충족되는 경계 값을 찾을 수 있습니다.

이 부등식은 M에 대한 부등식에 해당합니다.

어디 ε은 신뢰 구간의 절반 너비입니다.

따라서 M에 대한 신뢰구간 구성은 다음과 같은 순서로 수행된다.

1. 신뢰 확률 Pd(보통 0.95 또는 0.99)를 선택하고 이에 대해 스튜던트 분포표에 따라 매개변수 t가 발견됩니다.

2. 신뢰 구간 ε의 절반 너비를 계산합니다.

3. 선택한 신뢰 확률로 일반 평균의 구간 추정값을 얻습니다.

간단히 다음과 같이 작성됩니다.

간격 추정치를 찾기 위해 컴퓨터 절차가 개발되었습니다.

Student's distribution table을 사용하는 방법을 설명하겠습니다. 이 테이블에는 두 개의 "입구"가 있습니다. 자유도 ν =라고 하는 왼쪽 열 N- 1이고 맨 위 행은 유의 수준 α입니다. 해당 행과 열의 교차점에서 스튜던트 계수가 발견됩니다. 티.

이 방법을 샘플에 적용해 보겠습니다. 학생 배포 테이블의 일부가 아래에 나와 있습니다.

표 3.3. 학생 배포 테이블의 조각

20명 표본에 대한 간단한 통계 시리즈 (N= 20, ν =19)는 표에 나와 있습니다. 3.1. 이 시리즈의 경우 공식(3.1-3.3)을 사용한 계산은 다음을 제공합니다. 엑스= 37,05; 에스= 5,02.

선택하자 α = 0.05(P d = 0.95). 행 "19"와 열 "0.05"의 교차점에서 우리는 다음을 찾습니다. = 2,09.

공식 (3.6)으로 추정 정확도를 계산해 보겠습니다. ε = 2.09?5.02/λ /20 = 2.34.

구간 추정값을 작성해 보겠습니다. 95%의 확률로 알 수 없는 일반 평균이 다음 부등식을 충족합니다.

37,05 - 2,34 < < 37,05 + 2,34, или = 37.05 ± 2.34(m/s), d = 0.95.

3.5. 통계적 가설 검증 방법

통계적 가설

통계적 가설이 무엇인지 공식화하기 전에 다음 예를 고려하십시오.

특정 질병을 치료하는 두 가지 방법을 비교하기 위해 각각 20명씩 두 그룹의 환자를 선택하여 이러한 방법에 따라 치료를 수행했습니다. 각 환자에 대해 절차의 수긍정적인 효과가 뒤따랐다. 이 데이터에 따르면 각 그룹에 대해 표본 평균(X), 표본 분산 (2)및 샘플 RMS (에스).

결과는 표에 나와 있습니다. 3.4.

표 3.4

긍정적인 효과를 얻기 위해 필요한 절차의 수는 확률 변수이며, 이에 대한 모든 정보는 현재 위의 샘플에 포함되어 있습니다.

테이블에서. 3.4는 첫 번째 그룹의 표본 평균이 두 번째 그룹보다 작다는 것을 보여줍니다. 이것은 일반 평균에 대해 동일한 비율이 유지된다는 것을 의미합니까? M 1< М 2 ? Достаточно ли статистических данных для такого вывода? Ответы на эти вопросы и дает 가설의 통계적 테스트.

통계적 가설- 그것은 인구의 속성에 대한 가정입니다.

우리는 속성에 대한 가설을 고려할 것입니다 일반 인구.

인구가 있는 경우 알려진, 같은추정되는 가치의 분포와 수량에 관한 가정 일부 매개변수이 분포를 가정하면 가설이 호출됩니다. 파라메트릭.예를 들어, 표본은 다음을 가진 모집단에서 추출됩니다. 정상법분포와 등분산. 알아내는 것이 필요하다 동일하다이 인구의 일반 평균.

일반 인구 분포 법칙에 대해 알려진 것이 없으면 속성에 대한 가설을 비모수적.예를 들어, 동일하다표본을 추출한 모집단의 분포 법칙.

귀무 가설과 대안 가설.

가설 테스트 작업. 유의수준

가설검증에 사용되는 용어에 대해 알아봅시다.

H 0 - 귀무 가설(회의적 가설) - 이것은 가설입니다. 거의 차이가 없다비교 샘플 사이. 회의론자는 연구 결과에서 얻은 표본 추정치의 차이가 무작위적이라고 생각합니다.

H 1- 대립 가설(낙관주의자의 가설)은 비교 샘플 사이에 차이가 있다는 가설입니다. 낙관론자는 표본 추정치의 차이가 객관적인 이유로 발생하며 일반 모집단의 차이에 해당한다고 믿습니다.

통계적 가설의 검정은 비교된 표본의 요소가 일부를 구성하는 데 사용될 수 있는 경우에만 가능합니다. (기준), 공정성의 경우 유통법 H 0모두 다 아는. 그런 다음 이 수량에 대해 다음을 지정할 수 있습니다. 신뢰 구간,주어진 확률로 R d그 가치를 얻습니다. 이 간격을 중요한 영역.기준 값이 임계 영역에 속하면 가설이 채택됩니다. H 0 .그렇지 않으면 가설 H1이 채택됩니다.

의학 연구에서는 P d = 0.95 또는 P d = 0.99가 사용됩니다. 이 값은 일치합니다 유의 수준α = 0.05 또는 α = 0.01.

통계적 가설을 검증할 때유의 수준(α) 귀무가설이 참일 때 기각될 확률이다.

기본적으로 가설 테스트 절차는 다음을 목표로 합니다. 차이 감지,그들의 부재를 확인하지 않기 위해. 기준 값이 임계 영역을 넘어서면 순수한 마음으로 "회의적"이라고 말할 수 있습니다. 음, 다른 무엇을 원하십니까?! 차이가 없으면 95%(또는 99%)의 확률로 계산된 값이 지정된 한계 내에 있게 됩니다. 그래서 안돼!..

음, 기준 값이 임계 영역에 속한다면 가설 H 0 이 옳다고 믿을 이유가 없습니다. 이것은 두 가지 가능한 원인 중 하나를 가리킬 가능성이 큽니다.

1. 표본 크기가 차이를 감지할 만큼 충분히 크지 않습니다. 계속되는 실험이 성공할 가능성이 높습니다.

2. 차이점이 있습니다. 그러나 그것들은 너무 작아서 실용적인 중요성이 없습니다. 이 경우 실험을 계속하는 것은 의미가 없습니다.

계속해서 의학 연구에서 사용되는 몇 가지 통계적 가설을 살펴보겠습니다.

3.6. FISHER F-CRITERION 분산의 동등성에 대한 가설 테스트

일부 임상 연구에서 긍정적인 효과는 크기연구 중인 매개변수, 얼마나 안정화,변동을 줄입니다. 이 경우 표본 조사 결과를 기반으로 두 가지 일반 분산을 비교하는 문제가 발생합니다. 이 작업은 다음을 사용하여 해결할 수 있습니다. 피셔의 기준.

문제의 공식화

정상법분포. 샘플 크기 -

n 1그리고 n2,표본 분산동일한 초 1 및 초 2 2 일반적인 편차.

검증된 가설:

H 0- 일반적인 편차 동일하다;

H 1- 일반적인 편차 다른.

표본이 다음을 가진 모집단에서 추출된 경우 표시됩니다. 정상법분포, 가설이 참이면 H 0표본 분산의 비율은 Fisher 분포를 따릅니다. 따라서 타당성을 검증하는 기준으로 H 0값이 취해집니다 에프,공식에 의해 계산:

어디 s 1 및 s 2 - 표본 분산.

이 비율은 분자 ν 1 =의 자유도 수가 있는 Fisher 분포를 따릅니다. n 1- 1 및 분모의 자유도 ν 2 = n 2 - 1. 임계 영역의 경계는 Fisher 분포 표에 따라 또는 컴퓨터 함수 BRASPOBR을 사용하여 찾습니다.

표에 제시된 예의 경우. 3.4, 우리는 다음을 얻습니다. ν 1 \u003d ν 2 \u003d 20 - 1 \u003d 19; 에프= 2.16/4.05 = 0.53. α = 0.05에서 임계 영역의 경계는 각각 동일합니다: = 0.40, = 2.53.

기준값이 임계영역에 속하므로 가설이 받아들여진다. H 0:일반 표본 분산 동일합니다.

3.7. 평균의 동등성에 관한 가설 검정, 학생의 t-검정

비교 문제 중간 2개의 일반 모집단은 다음과 같을 때 발생합니다. 크기연구중인 특성. 예를 들어, 두 가지 다른 방법으로 치료 기간을 비교하거나 사용으로 인해 발생하는 합병증의 수를 비교할 때. 이 경우 스튜던트 t-검정을 사용할 수 있습니다.

문제의 공식화

두 개의 샘플 (X 1 ) 및 (X 2 )이 정상법유통 및 같은 분산.표본 크기 - n 1 및 n 2 , 표본 수단 X 1 및 X 2와 동일하고, 표본 분산- 초 1 2 및 초 2 2각기. 비교가 필요하다 일반 평균.

검증된 가설:

H 0- 일반 평균 동일하다;

H 1- 일반 평균 다른.

가설이 참인 경우를 보여주고 있다. H 0공식에 의해 계산된 t의 값:

자유도 ν = ν 1 + + ν2 - 2로 스튜던트 법칙에 따라 분포됩니다.

여기서 ν 1 = N 1 - 1 - 첫 번째 샘플의 자유도 수. v2 = N 2 - 1 - 두 번째 샘플의 자유도.

임계 영역의 경계는 t-분포 표 또는 컴퓨터 기능 STUDRASP를 사용하여 찾을 수 있습니다. 스튜던트 분포는 0에 대해 대칭이므로 임계 영역의 왼쪽과 오른쪽 경계는 절대값이 같고 부호가 반대입니다.

표에 제시된 예의 경우. 3.4, 우리는 다음을 얻습니다:

v 1 \u003d v 2 \u003d 20-1 \u003d 19; v = 38, = -2.51. α = 0.05 = 2.02.

기준 값이 임계 영역의 왼쪽 경계를 넘어서므로 가설을 받아들입니다. H 1:일반 평균 다른.동시에 일반 인구의 평균 첫 번째 샘플더 적은.

스튜던트 t-검정의 적용 가능성

스튜던트 t-검정은 다음 샘플에만 적용됩니다. 정상집계 동일한 일반 편차.조건 중 하나 이상이 위반되면 기준의 적용 가능성이 의심됩니다. 일반 모집단의 정규성 요구 사항은 일반적으로 무시됩니다. 중심극한정리.실제로, 분자(3.10)에 있는 표본 평균의 차이는 ν > 30에 대해 정규 분포로 간주될 수 있습니다. 그러나 분산의 동등성에 대한 질문은 검증 대상이 아니며 Fisher 테스트에서 차이를 감지하지 못함을 고려할 수 없습니다. 그럼에도 불구하고 t-검정은 충분한 증거가 없지만 모집단 평균의 차이를 탐지하는 데 널리 사용됩니다.

아래는 고려 비모수 기준,동일한 목적으로 성공적으로 사용되었으며 정상,어느 것도 아니다 분산의 평등.

3.8. 두 표본의 비모수 비교: 만-휘트니 검정

비모수 기준은 두 일반 모집단의 분포 법칙의 차이를 탐지하도록 설계되었습니다. 일반적으로 차이에 민감한 기준 중간,기준이라고 함 옮기다.일반적으로 차이에 민감한 기준 분산,기준이라고 함 규모. Mann-Whitney 테스트는 기준을 참조합니다. 전단두 모집단의 평균 차이를 감지하는 데 사용됩니다. 순위 척도.측정된 기호는 이 척도에 오름차순으로 위치하며 정수 1, 2로 번호가 매겨집니다. 이 숫자를 순위.동일한 값에는 동일한 순위가 할당됩니다. 중요한 것은 속성 자체의 값이 아니라 서수 장소,그것은 다른 가치들 중에서 차지하는 것입니다.

테이블에서. 3.5. 표 3.4의 첫 번째 그룹은 확장된 형식(행 1)으로 표시되고 순위 지정(행 2)된 다음 동일한 값의 순위가 산술 평균 값으로 대체됩니다. 예를 들어, 첫 번째 행의 요소 4와 4에는 순위 2와 3이 부여된 다음 동일한 값인 2.5로 대체되었습니다.

표 3.5

문제의 공식화

독립 샘플 (X 1)그리고 (X 2)분포 법칙을 알 수 없는 모집단에서 추출합니다. 샘플 크기 n 1그리고 n 2각기. 샘플 요소의 값은 다음과 같이 표시됩니다. 순위 척도.이 일반 인구가 서로 다른지 여부를 확인해야합니까?

검증된 가설:

H 0- 표본은 동일한 일반 모집단에 속합니다. H 1- 표본은 다른 일반 모집단에 속합니다.

이러한 가설을 테스트하기 위해 (/-Mann-Whitney 테스트가 사용됩니다.

먼저, 결합된 샘플(X)은 2개의 샘플로 만들어지며 그 요소의 순위가 매겨집니다. 그런 다음 첫 번째 샘플의 요소에 해당하는 순위의 합을 찾습니다. 이 합계는 가설을 테스트하는 기준입니다.

= 첫 번째 샘플의 순위 합계. (3.11)

20보다 큰 독립 표본의 경우 값 정규 분포를 따르고, 기대값 RMS는 다음과 같습니다.

따라서 임계 영역의 경계는 정규 분포 테이블에 따라 발견됩니다.

표에 제시된 예의 경우. 3.4, 우리는 다음을 얻습니다. ν 1 \u003d ν 2 \u003d 20 - 1 \u003d 19, = 339, μ = 410, σ = 37. α = 0.05의 경우 왼쪽 = 338 및 오른쪽 = 482를 얻습니다.

기준 값은 임계 영역의 왼쪽 경계를 넘어서므로 가설 H1이 채택됩니다. 일반 인구는 다른 분포 법칙을 가집니다. 동시에 일반 인구의 평균 첫 번째 샘플더 적은.