구간 분포 계열의 구성 순서입니다.  연속적인 정량 데이터에 대한 구간 변동 시리즈 구성

구간 분포 계열의 구성 순서입니다. 연속적인 정량 데이터에 대한 구간 변동 시리즈 구성

2. 유통 시리즈의 개념입니다. 이산 및 간격 분포 시리즈

분포 행그룹화라고합니다 특별한 종류, 그룹의 단위 수가 각 속성, 속성 그룹 또는 속성 클래스에 대해 알려진 경우, 또는 비중총 이 숫자. 저것들. 유통 시리즈– 해당 가중치와 함께 오름차순 또는 내림차순으로 정렬된 속성 값의 정렬된 집합입니다. 분포 시리즈는 양적 또는 속성별로 작성할 수 있습니다.

정량적 기반으로 구축된 분포 계열을 변이 계열이라고 합니다. 그들은 이산 및 간격. 분포 시리즈는 연속적으로 변하는 특성(특성이 간격 내에서 임의의 값을 취할 수 있는 경우)과 이산적으로 변하는 특성(엄격하게 정의된 정수 값을 가짐)에 구축할 수 있습니다.

이산변이 분포 계열은 해당 빈도 또는 세부 사항이 있는 범위가 지정된 변이 집합입니다. 이산 계열의 변형은 기호의 값을 불연속적으로 변경하는 것으로 일반적으로 카운트의 결과입니다.

이산

변형 시리즈는 일반적으로 연구 중인 특성의 값이 최소한 유한 값만큼 서로 다를 수 있는 경우 작성됩니다. 이산 계열에서는 기능의 포인트 값이 지정됩니다. 예시 : 월간 매장별로 판매되는 남성복 사이즈별 분포.

간격

변이 시리즈는 각각에 속하는 수량 값의 해당 빈도 또는 빈도가 있는 확률 변수 값의 변동 간격의 정렬된 세트입니다. 간격 시리즈는 지속적으로 변화하는 특성의 분포를 분석하도록 설계되었으며, 그 값은 가장 자주 측정 또는 가중치에 의해 기록됩니다. 이러한 행의 변형은 그룹화입니다.

예시 : 식료품점에서 구매한 금액별 분포.

이산 변이 계열에서 주파수 응답이 계열의 변이를 직접 참조하는 경우 간격 1에서는 변이 그룹을 나타냅니다.

분포 계열을 그래프로 표현하여 분석하는 것이 편리하여 분포의 형태와 패턴을 모두 판단할 수 있습니다. 이산 계열은 차트에 점선으로 표시됩니다. 유통 지역. 에 구축하려면 직사각형 시스템가로축을 따라 좌표가 표시되고, 가변 기능의 순위가 지정된(순서화된) 값이 동일한 눈금에 표시되고, 주파수를 표현하기 위한 눈금이 세로축을 따라 표시됩니다.

간격 시리즈는 다음과 같이 표시됩니다. 분포 히스토그램(즉, 막대 차트).

히스토그램을 구성할 때 간격의 값은 가로축에 표시되고 주파수는 해당 간격에 작성된 직사각형으로 표시됩니다. 등간격의 경우 기둥의 높이는 주파수에 비례해야 합니다.

모든 히스토그램은 분포의 다각형으로 변환할 수 있으며 이를 위해서는 직사각형의 꼭짓점을 직선 세그먼트로 연결해야 합니다.

2. 평균 산출량과 평균 인원수가 산출량 변화에 미치는 영향을 분석하기 위한 지표 방법

인덱스 방식역학을 분석하고 일반 지표와 이러한 지표의 수준 변화에 영향을 미치는 요인을 비교하는 데 사용됩니다. 지수의 도움으로 평균 생산량과 평균 인원수가 생산량 변화에 미치는 영향을 밝힐 수 있습니다. 이 문제는 분석 지수 시스템을 구축하여 해결됩니다.

생산량(Q)이 생산량( 여)및 번호( 아르 자형) .

생산량은 평균 생산량과 평균 인원수의 곱과 같다고 결론지을 수 있습니다.

Q = w r,여기서 Q는 생산량이고,

w - 평균 출력,

r은 평균 인원입니다.

본 것처럼, 우리 대화하는 중이 야정적 현상의 관계에 대해: 두 요소의 곱은 결과 현상의 총 부피를 제공합니다. 또한 이 연결이 기능적임이 분명하므로 이 연결의 역학은 인덱스의 도움으로 연구됩니다. 주어진 예의 경우 다음 시스템입니다.

J w × J r = J w .

예를 들어 생산량 지수 Jwr 지수는 결과적인 현상의 지수로서 평균 생산량 지수(Jw)와 평균 인원수 지수(Jr)의 두 가지 지수 요인으로 분해될 수 있습니다.

인덱스 인덱스 인덱스

평균의 볼륨

생산 출력 강도

어디 제이 - Laspeyres 공식에 의해 계산된 노동 생산성 지수;

주니어- Paasche 공식에 따라 계산된 직원 수의 지수.

지수 시스템은 효과적인 지표 수준의 형성에 대한 개별 요인의 영향을 결정하는 데 사용되며 2개의 알려진 지수 값으로 미지의 값을 결정할 수 있습니다.

위의 지수 시스템을 기반으로 요인의 영향으로 분해 된 생산량의 절대 증가를 찾을 수도 있습니다.

1. 총 생산량 증가:

∆wr = ∑w 1 r 1 - ∑w 0 r 0 .

2. 평균 산출 지표의 작용으로 인한 성장:

∆wr/w = ∑w 1 r 1 - ∑w 0 r 1 .

3. 평균 인원수 지표의 작용으로 인한 성장:

∆wr/r = ∑w 0 r 1 - ∑w 0 r 0

∆wr = ∆wr/w + ∆wr/r.

예시.다음 정보가 알려져 있습니다.

생산량이 상대적 및 절대적으로 어떻게 변했는지, 개별 요인이 변화에 영향을 미쳤습니다.

생산량은 다음과 같습니다.

기본 기간에

w 0 * r 0 \u003d 2000 * 90 \u003d 180000,

그리고 보고에서

w 1 * r 1 \u003d 2100 * 100 \u003d 210000.

결과적으로 생산량은 30,000 또는 1.16% 증가했습니다.

∆wr=∑w 1 r 1 -∑w 0 r 0= (210000-180000)=30000

또는 (210000:180000)*100%=1.16%.

생산량의 이러한 변화는 다음으로 인한 것입니다.

1) 평균 인원 10명 또는 111.1% 증가

r 1 / r 0 \u003d 100 / 90 \u003d 1.11 또는 111.1%.

절대적으로 이 요인으로 인해 생산량이 20,000 증가했습니다.

w 0 r 1 - w 0 r 0 \u003d w 0 (r 1 -r 0) \u003d 2000 (100-90) \u003d 20000.

2) 평균 생산량이 105% 또는 10,000 증가:

w 1 r 1 / w 0 r 1 \u003d 2100 * 100 / 2000 * 100 \u003d 1.05 또는 105%.

절대적으로 증가는 다음과 같습니다.

w 1 r 1 - w 0 r 1 \u003d (w 1 -w 0) r 1 \u003d (2100-2000) * 100 \u003d 10000.

따라서 요인의 결합된 영향은 다음과 같습니다.

1. 절대적으로

10000 + 20000 = 30000

2. 상대적으로

1,11 * 1,05 = 1,16 (116%)

따라서 증가는 1.16%입니다. 두 결과 모두 이전에 얻은 것입니다.

번역에서 "인덱스"라는 단어는 포인터, 표시기를 의미합니다. 통계에서 지수는 시간, 공간 또는 계획과 비교하여 현상의 변화를 특성화하는 상대적 지표로 해석됩니다. 인덱스는 상대값이므로 인덱스의 이름은 상대값의 이름과 일치합니다.

비교 대상 제품의 시간 경과에 따른 변화를 분석하는 경우, 다음과 같은 질문을 할 수 있습니다. 다양한 조건(다른 영역에서) 지수 변화의 구성요소(가격, 물리적 볼륨, 특정 유형의 제품의 생산 또는 판매 구조). 이와 관련하여 일정한 구성, 가변 구성 및 구조적 이동의 지표가 구축됩니다.

영구(고정) 구성 지수 -이것은 모집단의 동일한 고정 구조를 가진 평균값의 역학을 특성화하는 지수입니다.

일정한 구성의 지수를 구성하는 원리는 동일한 가중치를 갖는 지수 지표의 가중 평균 수준을 계산하여 지수 구조의 변화가 지수 값에 미치는 영향을 제거하는 것입니다.

상수 구성 지수는 집계 지수와 형태가 동일합니다. 집계 형식이 가장 일반적입니다.

일정 조성 지수는 어느 한 기간의 수준으로 고정된 가중치로 계산되며 지수 값의 변화만 보여줍니다. 일정 구성 지수는 가중치가 동일한 지수 지표의 가중 평균 수준을 계산하여 지수 구조의 변화가 지수 값에 미치는 영향을 제거합니다. 일정한 구성 지수에서 현상의 일정한 구조를 기반으로 계산된 지표가 비교됩니다.

사회 경제적 현상 및 프로세스 연구에서 가장 중요한 단계는 기본 데이터의 체계화이며, 이를 기반으로 기본 통계 자료를 요약하고 그룹화하여 달성되는 일반화 지표를 사용하여 전체 개체의 요약 특성을 얻는 것입니다.

통계 요약 - 이것은 집합을 형성하는 특정한 단일 사실을 일반화하고, 연구 중인 현상 전체에 내재된 전형적인 특징과 패턴을 식별하기 위한 일련의 복잡한 작업입니다. 통계 요약 수행에는 다음 단계가 포함됩니다. :

  • 그룹화 기능 선택;
  • 그룹 형성 순서 결정;
  • 시스템 개발 통계 지표그룹과 대상을 전체적으로 특성화하기 위해;
  • 요약 결과를 제시하기 위한 통계표 레이아웃 개발.

통계 그룹화 연구 인구의 단위를 필수적인 특정 특성에 따라 동질 그룹으로 나누는 것. 그룹핑은 통계지표의 정확한 계산을 위한 기초가 되는 통계자료를 요약하는 가장 중요한 통계적 방법이다.

유형 학적, 구조적, 분석적 그룹화 유형이 있습니다. 이러한 모든 그룹화는 개체의 단위가 일부 속성에 따라 그룹으로 분할된다는 사실에 의해 통합됩니다.

그룹화 기호 인구 단위를 별도의 그룹으로 나누는 기호라고합니다. 에서 올바른 선택그룹화 기능은 통계 연구의 결론에 따라 다릅니다. 그룹화의 기초로 중요하고 이론적으로 입증된 기능(정량적 또는 정성적)을 사용해야 합니다.

그룹화의 양적 징후 숫자 표현(거래량, 개인의 나이, 가계 소득 등)을 가지고, 그룹화의 질적 특징 인구 단위(성별, 결혼 상태, 기업의 산업 계열, 소유권 형태 등).

그룹화 기준이 결정된 후 연구 모집단을 분할해야 하는 그룹 수에 대한 질문을 결정해야 합니다. 그룹의 수는 연구의 목적과 그룹화의 기초가 되는 지표의 유형, 인구의 양, 특성의 변이 정도에 따라 다릅니다.

예를 들어, 소유권 형태에 따른 기업 그룹화는 시정촌, 연방 및 연맹 주체의 재산을 고려합니다. 그룹화가 정량적으로 수행되는 경우 반전이 필요합니다. 특별한 주의연구 대상의 단위 수와 그룹화 속성의 변동 정도.

그룹 수가 결정되면 그룹화 간격이 결정되어야 합니다. 간격 - 이것은 특정 한계 내에있는 가변 특성의 값입니다. 각 간격에는 고유한 값, 상한 및 하한 또는 그 중 하나 이상이 있습니다.

간격의 하한 간격에서 속성의 가장 작은 값이라고 하며, 상한 - 간격에서 속성의 가장 큰 값. 간격 값은 상한과 하한 간의 차이입니다.

크기에 따라 그룹화 간격은 같음 및 같지 않음입니다. 특성의 변이가 상대적으로 좁은 경계에서 나타나고 분포가 균일하면 동일한 간격으로 그룹화됩니다. 등간격의 값은 다음 공식에 의해 결정됩니다. :

여기서 Xmax, Xmin - 집계에서 속성의 최대값 및 최소값. n은 그룹 수입니다.

선택된 각 그룹이 하나의 지표로 특징지어지는 가장 단순한 그룹화는 분포 계열입니다.

통계 분포 시리즈 - 이것은 특정 속성에 따라 인구 단위를 그룹으로 정렬된 분포입니다. 분포 계열을 형성하는 기본 특성에 따라 속성 분포 계열과 변이 분포 계열이 구분됩니다.

명사 수식어 그들은 질적 특성에 따라 구축 된 분포 시리즈, 즉 수치 표현이없는 기호 (노동 유형, 성별, 직업 별 분포)라고 부릅니다. 속성 분포 계열은 하나 또는 다른 필수 기능에 따라 모집단 구성을 특성화합니다. 여러 기간에 걸쳐 이러한 데이터를 통해 구조의 변화를 연구할 수 있습니다.

변형 행 정량적 기반으로 구축된 분포 시리즈라고 합니다. 모든 변형 시리즈는 변형과 빈도라는 두 가지 요소로 구성됩니다. 옵션 변형 계열에서 취하는 속성의 개별 값, 즉 변수 속성의 특정 값이라고 합니다.

주파수 개별 변이체 또는 각 그룹의 수라고 함 변형 시리즈즉, 분포 계열에서 특정 옵션이 발생하는 빈도를 나타내는 숫자입니다. 모든 빈도의 합은 전체 인구의 크기, 부피를 결정합니다. 주파수 주파수는 단위의 분수 또는 전체의 백분율로 표시됩니다. 따라서 주파수의 합은 1 또는 100%와 같습니다.

특성 변이의 특성에 따라 변이 계열의 세 가지 형태가 구별됩니다. 순위 계열, 이산 시리즈및 간격 시리즈.

랭킹 변형 시리즈 - 이것은 연구 중인 특성의 오름차순 또는 내림차순으로 인구의 개별 단위 분포입니다. 순위를 지정하면 정량적 데이터를 그룹으로 쉽게 나누고 가장 작은 것을 즉시 감지하고 가장 큰 가치기능에서 가장 자주 반복되는 값을 강조 표시하십시오.

이산 변형 시리즈 정수 값만 취하는 이산 속성에 따라 인구 단위의 분포를 특성화합니다. 예를 들어 관세 범주, 가족의 자녀 수, 기업의 직원 수 등이 있습니다.

표시에 지속적인 변경이 있고 특정 제한 내에서 모든 값("from - to")을 취할 수 있는 경우 이 표시에 대해 구축해야 합니다. 간격 변화 시리즈 . 예를 들어, 소득 금액, 업무 경험, 기업의 고정 자산 비용 등

"통계 요약 및 그룹화"주제에 대한 문제 해결의 예

작업 1 . 지난 학년도의 구독으로 학생이 받은 책의 수에 대한 정보가 있습니다.

계열의 요소를 나타내는 범위가 있고 불연속적인 변형 분포 계열을 작성합니다.

해결책

이 세트는 학생들이 받는 책의 수에 대한 옵션 세트입니다. 이러한 변형의 수를 계산하고 변형 순위 및 변형 이산 분포 시리즈의 형태로 정렬해 보겠습니다.

작업 2 . 50 개 기업, 천 루블의 고정 자산 가치에 대한 데이터가 있습니다.

5개의 기업 그룹을 강조하는 배포 시리즈를 구축합니다(동일한 간격으로).

해결책

솔루션을 위해 우리는 기업의 고정 자산 비용의 가장 큰 값과 가장 작은 값을 선택합니다. 이들은 30.0 및 10.2 천 루블입니다.

간격의 크기를 찾으십시오 : h \u003d (30.0-10.2) : 5 \u003d 3.96 천 루블.

그런 다음 첫 번째 그룹에는 고정 자산 금액이 10.2,000 루블인 기업이 포함됩니다. 최대 10.2 + 3.96 = 14.16,000 루블. 그러한 기업은 9개이며 두 번째 그룹에는 기업이 포함되며 고정 자산 금액은 14.16천 루블입니다. 최대 14.16 + 3.96 = 18.12,000 루블. 이러한 기업은 16개이며 마찬가지로 세 번째, 네 번째 및 다섯 번째 그룹에 포함된 기업의 수를 찾습니다.

결과 분포 시리즈가 테이블에 배치됩니다.

작업 3 . 많은 경공업 기업에 대해 다음 데이터를 얻었습니다.

근로자 수에 따라 기업을 그룹화하여 동일한 간격으로 6개 그룹을 형성합니다. 각 그룹에 대한 개수:

1. 기업 수
2. 근로자 수
3. 연간 생산물량
4. 근로자 1인당 평균 실질 생산량
5. 고정자산액
6. 평균 크기한 기업의 고정 자산
7. 평균값한 기업에서 생산한 제품

계산 결과를 표에 기록합니다. 자신의 결론을 도출하십시오.

해결책

솔루션의 경우 기업의 평균 근로자 수 중 가장 큰 값과 가장 작은 값을 선택합니다. 43과 256입니다.

간격의 크기 찾기: h = (256-43): 6 = 35.5

그런 다음 첫 번째 그룹에는 평균 근로자 수가 43~43 + 35.5 = 78.5인 기업이 포함됩니다. 그러한 기업은 5개이며, 두 번째 그룹에는 기업이 포함되며 평균 근로자 수는 78.5명에서 78.5명 + 35.5명 = 114명입니다. 이러한 기업은 12개이며 마찬가지로 세 번째, 네 번째, 다섯 번째 및 여섯 번째 그룹에 포함된 기업의 수를 찾습니다.

결과 분포 시리즈를 테이블에 넣고 각 그룹에 필요한 지표를 계산합니다.

결론 : 표에서 알 수 있듯이 두 번째 그룹의 기업이 가장 많습니다. 여기에는 12개의 기업이 포함됩니다. 가장 작은 그룹은 다섯 번째 및 여섯 번째 그룹입니다(각각 2개 기업). 이들은 가장 큰 기업입니다 (근로자 수 측면에서).

두 번째 그룹이 가장 많기 때문에 이 그룹 기업의 연간 생산량과 고정 자산의 양이 다른 그룹보다 훨씬 많습니다. 동시에이 그룹의 기업에서 한 노동자의 평균 실제 생산량은 최고가 아닙니다. 네 번째 그룹의 기업이 여기에서 선두를 달리고 있습니다. 이 그룹은 또한 상당히 많은 양의 고정 자산을 차지합니다.

결론적으로 고정 자산의 평균 크기와 한 기업의 평균 생산량은 기업 규모(근로자 수 기준)에 정비례합니다.

건축할 때 간격 시리즈배포는 세 가지 질문을 다룹니다.

  • 1. 얼마나 많은 간격을 취해야 합니까?
  • 2. 간격의 길이는 얼마입니까?
  • 3. 구간 경계에 모집단 단위를 포함하는 절차는 무엇입니까?
  • 1. 간격 수에 의해 결정될 수 있다 스터지스 공식:

2. 간격 길이 또는 간격 단계는 일반적으로 공식에 의해 결정됩니다.

어디 아르 자형-변동 범위.

3. 구간 경계에 모집단 단위를 포함하는 순서

다를 수 있지만 구간 계열을 구성할 때 분포는 반드시 엄격하게 정의됩니다.

예를 들어, 다음과 같습니다. [), 여기서 모집단의 단위는 하한에 포함되고 상한에는 포함되지 않지만 다음 구간으로 전송됩니다. 이 규칙의 예외는 마지막 간격으로 순위가 매겨진 시리즈의 마지막 번호가 상한에 포함됩니다.

간격의 경계는 다음과 같습니다.

  • 닫힘 - 속성의 두 극단 값으로;
  • open - 하나의 극단값으로 기능 (전에어떤 숫자 또는 ~ 위에그런 숫자).

이론적 자료를 동화시키기 위해, 우리는 소개합니다 배경 정보솔루션을 위해 작업을 통해.

평균 판매 관리자 수, 단일 품질 제품의 판매 수,이 제품의 개별 시장 가격 및 러시아 연방 지역 중 하나의 30 개 회사의 판매량에 대한 조건부 데이터가 있습니다. 보고 연도의 1분기(표 2.1).

표 2.1

교차 작업에 대한 초기 정보

인구

관리자

가격, 천 루블

판매량, 백만 루블

인구

관리자

판매된 상품의 수량, 개.

가격, 천 루블

판매량, 백만 루블

초기 정보 및 추가 정보를 바탕으로 개별 작업을 설정합니다. 그런 다음 이를 해결하기 위한 방법론과 솔루션 자체를 제시합니다.

교차 절단 작업. 작업 2.1

원본 데이터 테이블을 사용합니다. 2.1 필수판매된 상품 수에 따라 이산적인 일련의 기업 분포를 구축합니다(표 2.2).

해결책:

표 2.2

보고 연도의 1/4 분기에 러시아 연방 지역 중 하나에서 판매 된 상품 수에 따른 회사의 이산 시리즈 분포

교차 절단 작업. 작업 2.2

필수의평균 관리자 수에 따라 순위가 매겨진 30개 회사의 시리즈를 구축합니다.

해결책:

15; 17; 18; 20; 20; 20; 22; 22; 24; 25; 25; 25; 27; 27; 27; 28; 29; 30; 32; 32; 33; 33; 33; 34; 35; 35; 38; 39; 39; 45.

교차 절단 작업. 작업 2.3

원본 데이터 테이블을 사용합니다. 2.1, 필수의:

  • 1. 관리자 수에 따른 기업 분포에 대한 구간 계열을 구성합니다.
  • 2. 기업 분포 계열의 빈도를 계산합니다.
  • 3. 결론을 도출합니다.

해결책:

Sturgess 공식을 사용하여 계산(2.5) 간격의 수:

따라서 우리는 6개의 간격(그룹)을 취합니다.

간격 길이, 또는 간격 단계, 공식으로 계산

메모.간격의 경계에 모집단 단위를 포함하는 순서는 다음과 같습니다. I) 모집단의 단위는 하위 경계에 포함되고 상위 경계에는 포함되지 않고 다음 경계로 이전됩니다. 간격. 이 규칙의 예외는 마지막 구간 I ]이며, 상한에는 순위가 매겨진 계열의 마지막 번호가 포함됩니다.

우리는 간격 시리즈를 만듭니다(표 2.3).

보고 연도의 1/4 분기에 러시아 연방 지역 중 하나의 평균 관리자 수이지만 회사 분포의 간격 시리즈

결론.가장 많은 회사 그룹은 8개 회사(27%)를 포함하여 평균 25-30명의 관리자 수를 가진 그룹입니다. 평균 관리자 수가 40-45명인 가장 작은 그룹에는 단 하나의 회사(3%)만 포함됩니다.

원본 데이터 테이블을 사용합니다. 2.1, 관리자 수에 따른 기업 분포의 구간 시리즈(표 2.3), 필수의관리자 수와 회사 판매량 사이의 관계에 대한 분석적 그룹화를 구축하고 이를 기반으로 표시된 징후 사이의 관계의 존재(또는 부재)에 대한 결론을 도출합니다.

해결책:

분석적 그룹화는 요인 기반으로 구축됩니다. 우리 문제에서 요인 기호(x)는 관리자 수이고 결과 기호(y)는 판매량입니다(표 2.4).

이제 빌드하자 분석적 그룹화(표 2.5).

결론.구성된 분석 그룹의 데이터를 기반으로 영업 관리자 수가 증가하면 그룹 내 회사의 평균 판매량도 증가한다고 할 수 있으며 이는 이러한 기능 간에 직접적인 관계가 있음을 나타냅니다.

표 2.4

분석 그룹화를 위한 보조 테이블

관리자 수, 명,

회사 번호

판매량, 백만 루블, y

» = 59 f = 9.97

I-™ 4 -유.22

74 '25 1평1

U4 = 7 = 10,61

~에 = ’ =10,31 30

표 2.5

보고 연도의 1 분기에 러시아 연방 지역 중 하나의 회사 관리자 수에 대한 판매량의 의존성

테스트 질문
  • 1. 통계적 관찰의 본질은 무엇인가?
  • 2. 통계적 관찰 단계의 이름을 지정하십시오.
  • 3. 통계적 관찰의 조직적 형태는 무엇인가?
  • 4. 통계적 관찰 유형의 이름을 지정합니다.
  • 5. 통계 요약이란 무엇입니까?
  • 6. 통계 보고서 유형의 이름을 지정합니다.
  • 7. 통계적 그룹핑이란 무엇입니까?
  • 8. 통계 그룹화 유형의 이름을 지정합니다.
  • 9. 배포 시리즈란 무엇입니까?
  • 10. 분포 시리즈의 구조적 요소의 이름을 지정하십시오.
  • 11. 분포 시리즈를 구성하는 절차는 무엇입니까?

수학 통계에서 테스트를 푸는 예

작업 1

초기 데이터 : 30명으로 구성된 특정 그룹의 학생들이 "정보학" 과정에서 시험에 합격했습니다. 학생들이 받은 성적은 다음과 같은 일련의 숫자로 구성됩니다.

I. 변형 시리즈 구성

엑스

엑스

엑스

엑스

총:

Ⅱ. 통계 정보의 그래픽 표현.

III. 샘플의 수치적 특성.

1. 산술 평균

2. 기하 평균

3. 패션

4. 중앙값

222222333333333 | 3 34444444445555

5. 표본 분산

7. 변동 계수

8. 비대칭

9. 비대칭 계수

10. 첨도

11. 첨도 계수

작업 2

초기 데이터 : 특정 그룹의 학생들이 최종 테스트를 작성했습니다. 그룹은 30명으로 구성되어 있습니다. 학생들이 채점한 점수는 다음 일련의 숫자를 형성합니다.

해결책

I. 부호는 많은 다른 값을 취하기 때문에 우리는 그것에 대한 구간 변동 시리즈를 구성할 것입니다. 이를 위해 먼저 간격 값을 설정합니다. 시간. Sturger 공식을 사용합시다.

간격의 척도를 만들어 봅시다. 이 경우 첫 번째 간격의 상한선에 대해 다음 공식에 의해 결정된 값을 취합니다.

후속 간격의 상한은 다음 재귀 공식에 의해 결정됩니다.

, 그 다음에

다음 구간의 상한이 표본의 최대값보다 크거나 같으므로 구간 척도 구축을 완료합니다.
.

Ⅱ. 간격 변화 시리즈의 그래픽 표시

III. 샘플의 수치적 특성

샘플의 수치적 특성을 결정하기 위해 보조 테이블을 컴파일합니다.

합집합:

1. 산술 평균

2. 기하 평균

3. 패션

4. 중앙값

10 11 12 12 13 13 13 13 14 14 14 14 15 15 15 |15 15 15 16 16 16 16 16 17 17 18 19 19 20 20

5. 표본 분산

6. 표본 표준편차

7. 변동 계수

8. 비대칭

9. 비대칭 계수

10. 첨도

11. 첨도 계수

작업 3

상태 : 전류계 눈금의 눈금 값은 0.1A입니다. 판독값은 가장 가까운 전체 눈금으로 반올림됩니다. 판독하는 동안 0.02A보다 큰 오류가 발생할 확률을 찾으십시오.

해결책.

반올림 오차는 확률 변수로 간주될 수 있습니다. 엑스, 두 개의 인접한 정수 나눗셈 사이의 간격에 고르게 분포됩니다. 균일 분포 밀도

어디
- 가능한 값을 포함하는 간격의 길이 엑스; 이 간격을 벗어나
이 문제에서 가능한 값을 포함하는 구간의 길이는 엑스는 0.1이므로

읽기 오류는 간격(0.02, 0.08)으로 묶인 경우 0.02를 초과합니다. 그 다음에

대답: 아르 자형=0,6

작업 4

초기 데이터: 정규 분포 특성의 수학적 기대치 및 표준 편차 엑스는 각각 10과 2입니다. 테스트 결과 엑스간격(12, 14)에 포함된 값을 취합니다.

해결책.

공식을 사용하자

그리고 이론 주파수

해결책

그녀를 위해 기대값 M(X) 및 분산 D(X). 해결책. 확률 변수의 분포 함수 F(x)를 찾으십시오...표본 오차). 작곡하자 변형 간격 폭 될거야: 각 값에 대해 얼마나 많은지 계산해보자...

  • 솔루션: 분리 방정식

    해결책

    개인 정보를 찾으려면 솔루션 불균일 방정식 구성하다 system 결과 시스템을 풀자... ; +47; +61; +10; -여덟. 빌드 간격 변형 . 평균의 통계적 추정치를 제공하십시오 ...

  • 솔루션: 체인 및 기본 절대 성장률, 성장률, 성장률을 계산해 보겠습니다. 얻은 값은 표 1에 요약되어 있습니다.

    해결책

    생산량. 해결책: 구간의 산술평균 변형 다음과 같이 계산됩니다. per... 확률이 0.954인 한계 표본 오차(t=2) 될거야: Δ w = t*μ = 2*0.0146 = 0.02927 경계를 정의하자...

  • 해결책. 징후

    해결책

    누구의 업무 경험과 에 달했다견본. 이 직원의 근무일 샘플 ...에 대한 평균 근속 기간 및 에 달했다견본. 표본의 평균 기간... 1.16, 유의 수준 α = 0.05. 해결책. 변형 이 샘플의 형식은 0.71 ...

  • Polikarpova S. V가 편집한 10-11학년용 생물학 실무 커리큘럼

    일하고 있는 훈련 프로그램

    가장 간단한 교배 계획» 5 L.r. " 해결책기본 유전 문제” 6 L.r. " 해결책기본 유전 문제” 7 L.r. "..., 110, 115, 112, 110. 구성하다 변형 , 그리다 변형곡선, 특징의 평균값 찾기 ...

  • 수학 통계- 수학에 전념하는 한 분야 수학적 방법과학적이고 실용적인 결론을 위한 통계 데이터의 처리, 체계화 및 사용.

    3.1. 수학 통계의 기본 개념

    생의학 문제에서 매우 많은 수의 개인에 대한 하나 또는 다른 특성의 분포를 조사하는 것이 종종 필요합니다. 다른 개인에서 이 기능은 이의, 그래서 확률 변수입니다. 예를 들어, 모든 치료 약물은 다른 환자에게 적용될 때 다른 효능을 갖습니다. 그러나이 약의 효과에 대한 아이디어를 얻기 위해이 약을 적용 할 필요는 없습니다. 여러분아픈. 비교적 적은 수의 환자에게 약물 사용 결과를 추적하고 얻은 데이터를 기반으로 치료 과정의 필수 기능(유효성, 금기 사항)을 식별하는 것이 가능합니다.

    인구- 어떤 특징을 특징으로 하는 연구할 동질 요소의 집합. 이 표시는 마디 없는분포 밀도가 있는 확률 변수 f(x).

    예를 들어 특정 지역의 질병 유병률에 관심이 있는 경우 일반 인구는 해당 지역의 전체 인구입니다. 남성과 여성의 이 질병에 대한 감수성을 별도로 알아보려면 두 개의 일반 인구를 고려해야 합니다.

    속성을 연구하려면 인구요소 중 일부를 선택하십시오.

    견본- 검사(치료)를 위해 선택된 일반 인구의 일부.

    이것이 혼동을 일으키지 않으면 샘플은 다음과 같이 호출됩니다. 개체 컬렉션심사를 위해 선발되고, 전체

    가치검사 중에 얻은 연구 중인 특성의. 이러한 값은 여러 가지 방법으로 나타낼 수 있습니다.

    단순한 통계 시리즈 - 연구중인 특성의 값은 얻은 순서대로 기록됩니다.

    20명의 환자의 이마 피부에서 표면파 속도(m/s)를 측정하여 얻은 간단한 통계 계열의 예가 표에 나와 있습니다. 3.1.

    표 3.1.단순 통계 시리즈

    간단한 통계 시리즈는 설문조사 결과를 기록하는 가장 기본적이고 완전한 방법입니다. 수백 개의 요소를 포함할 수 있습니다. 이러한 집합체를 한 눈에 보기는 매우 어렵습니다. 따라서 큰 샘플은 일반적으로 그룹으로 세분화됩니다. 이를 위해 속성의 변경 영역을 여러 개로 나눈다(N) 간격동일한 너비로 만들고 이 간격에 속하는 특징의 상대 빈도(n/n)를 계산합니다. 각 간격의 너비는 다음과 같습니다.

    간격의 경계는 다음과 같은 의미를 갖습니다.

    표본의 요소 중 하나라도 인접한 두 구간 사이의 경계인 경우 왼쪽간격. 이렇게 그룹화된 데이터를 간격 통계 시리즈.

    - 이것은 특성 값의 간격과 이러한 간격에 속하는 특성의 상대 빈도를 보여주는 표입니다.

    우리의 경우, 예를 들어 이러한 간격 통계 시리즈(N = 5, = 4), 탭. 3.2.

    표 3.2.간격 통계 시리즈

    여기에서 28에 해당하는 두 개의 값이 28-32 구간에 할당되고(표 3.1), 32, 33, 34 및 35 값이 32-36 구간에 할당됩니다.

    간격 통계 시리즈는 그래픽으로 표시할 수 있습니다. 이를 위해 가로 좌표축을 따라 특성 값의 간격이 표시되고 각각에 대해 기준으로 상대 주파수와 동일한 높이로 직사각형이 작성됩니다. 결과 막대 차트는 히스토그램.

    쌀. 3.1.막대 차트

    히스토그램에서 특징 분포의 통계적 패턴이 매우 명확하게 보입니다.

    큰 표본 크기(수천)와 작은 열 너비로 히스토그램의 모양이 그래프 모양에 가깝습니다. 분포 밀도징후.

    히스토그램의 열 수는 다음 공식을 사용하여 선택할 수 있습니다.

    히스토그램을 수동으로 작성하는 것은 긴 프로세스입니다. 따라서 개발된 컴퓨터 프로그램자동 건설을 위해.

    3.2. 통계 시리즈의 수치적 특성

    많은 통계 절차에서는 모집단의 평균과 분산(또는 표준 편차)에 대한 표본 추정치를 사용합니다.

    표본 평균(X)는 단순 통계 계열의 모든 요소에 대한 산술 평균입니다.

    우리의 예를 들어 엑스= 37.05(m/s).

    표본 평균은최고일반 평균의 추정중.

    표본 분산 s 2표본 평균에서 요소의 편차 제곱의 합을 다음으로 나눈 값과 같습니다. N- 1:

    이 예에서는 s 2 \u003d 25.2 (m / s) 2입니다.

    표본 분산을 계산할 때 공식의 분모는 표본 크기 n이 아니라 n-1입니다. 이는 공식 (3.3)의 편차를 계산할 때 알 수 없는 수학적 기대값 대신 추정값이 사용되기 때문입니다. 표본 평균.

    표본 분산은 최고일반 분산 추정치(σ 2).

    표본 표준편차(들)은 제곱근표본 분산에서:

    우리의 예를 들어 에스= 5.02(m/s).

    선택적 실효편차는 일반 RMSE(σ)의 최상의 추정치입니다.

    표본 크기가 무제한으로 증가하면 모든 표본 특성이 일반 모집단의 해당 특성에 해당하는 경향이 있습니다.

    샘플 특성을 계산하기 위해 컴퓨터 공식이 사용됩니다. Excel에서 이러한 계산은 통계 함수 AVERAGE, VARR를 수행합니다. STDEV.

    3.3. 간격 추정

    모든 샘플 특성은 임의의 값.이것은 동일한 크기의 다른 샘플의 경우 샘플 특성의 값이 다를 것임을 의미합니다. 따라서 선택적

    특성은 만 견적일반 인구의 관련 특성.

    선별적 평가의 단점 보완 간격 추정,대표하는 숫자 간격,그 안에서 주어진 확률로 R d추정된 매개변수의 실제 값이 발견됩니다.

    허락하다 U r - 일반 모집단의 일부 매개변수(일반 평균, 일반 분산 등).

    간격 추정매개변수 U r을 간격이라고 합니다. (U 1 , U 2),조건 충족:

    피(유 < Ur < U2) = Рд. (3.5)

    개연성 R d~라고 불리는 신뢰 확률.

    신뢰 확률 P - 추정된 수량의 실제 값이 다음과 같을 확률 내부에지정된 간격.

    동시에, 간격 (U 1 , U 2)~라고 불리는 신뢰 구간추정된 매개변수에 대해.

    종종 신뢰 확률 대신 관련 값 α = 1 - R d라고 하는 유의 수준.

    유의수준추정된 모수의 참값이 다음과 같을 확률 밖의신뢰 구간.

    때때로 α 및 R d는 백분율로 표시됩니다(예: 0.05 대신 5%, 0.95 대신 95%).

    구간 추정에서 먼저 적절한 신뢰 수준(보통 0.95 또는 0.99) 추정된 매개변수 값의 해당 간격을 찾습니다.

    우리는 일부를 주목한다 일반 속성간격 추정.

    1. 유의수준이 낮을수록 R d),더 넓은 간격 추정. 따라서 0.05의 유의 수준에서 일반 평균의 구간 추정치는 34.7입니다.< < 39,4, то для уровня 0,01 она будет гораздо шире: 33,85 < < 40,25.

    2. 표본 크기가 클수록 N,선택한 유의 수준으로 간격 추정치를 좁힙니다. 예를 들어 5를 20개 항목의 표본에서 얻은 일반 평균(β=0.05)의 백분율 추정치라고 하면 34.7이 됩니다.< < 39,4.

    표본 크기를 80으로 늘리면 동일한 유의 수준에서 더 정확한 추정치를 얻을 수 있습니다. 35.5< < 38,6.

    일반적인 경우신뢰할 수 있는 신뢰 추정치를 구성하려면 추정된 무작위 특성이 일반 모집단에 분포하는 법칙에 대한 지식이 필요합니다. 구간 추정이 어떻게 구성되는지 고려 일반 평균에 따라 일반 인구에 분포하는 특성 정상법.

    3.4. 정규분포법에 대한 일반평균의 구간추정

    정규 분포 법칙에 따라 일반 모집단에 대한 일반 평균 M의 구간 추정값 구성은 다음 속성을 기반으로 합니다. 볼륨 샘플링용 N태도

    자유도 ν =로 스튜던트 분포를 따릅니다. N- 1.

    여기 엑스는 표본 평균이고, 에스- 선택적 표준 편차.

    스튜던트의 분포표 또는 컴퓨터 아날로그를 사용하여 주어진 신뢰 확률로 다음 부등식이 충족되는 경계 값을 찾을 수 있습니다.

    이 부등식은 M에 대한 부등식에 해당합니다.

    어디 ε은 신뢰 구간의 절반 너비입니다.

    따라서 M에 대한 신뢰구간 구성은 다음과 같은 순서로 수행된다.

    1. 신뢰 확률 P d(보통 0.95 또는 0.99)를 선택하고 이에 대해 스튜던트 분포표에 따라 매개변수 t가 발견됩니다.

    2. 신뢰 구간 ε의 절반 너비를 계산합니다.

    3. 선택한 신뢰 확률로 일반 평균의 구간 추정값을 얻습니다.

    간단히 다음과 같이 작성됩니다.

    간격 추정치를 찾기 위해 컴퓨터 절차가 개발되었습니다.

    Student's distribution table을 사용하는 방법을 설명하겠습니다. 이 테이블에는 두 개의 "입구"가 있습니다. 자유도 ν =라고 하는 왼쪽 열 N- 1이고 맨 위 행은 유의 수준 α입니다. 해당 행과 열의 교차점에서 스튜던트 계수가 발견됩니다. 티.

    이 방법을 샘플에 적용해 보겠습니다. 학생 배포 테이블의 일부가 아래에 나와 있습니다.

    표 3.3. 학생 배포 테이블의 조각

    20명 표본에 대한 간단한 통계 시리즈 (N= 20, ν =19)는 표에 나와 있습니다. 3.1. 이 시리즈의 경우 공식(3.1-3.3)을 사용한 계산은 다음을 제공합니다. 엑스= 37,05; 에스= 5,02.

    선택하자 α = 0.05(P d = 0.95). 행 "19"와 열 "0.05"의 교차점에서 우리는 다음을 찾습니다. = 2,09.

    공식 (3.6)으로 추정 정확도를 계산해 보겠습니다. ε = 2.09?5.02/λ /20 = 2.34.

    구간 추정값을 작성해 보겠습니다. 95%의 확률로 알 수 없는 일반 평균이 다음 부등식을 충족합니다.

    37,05 - 2,34 < < 37,05 + 2,34, или = 37.05 ± 2.34(m/s), d = 0.95.

    3.5. 통계적 가설 검증 방법

    통계적 가설

    통계적 가설이 무엇인지 공식화하기 전에 다음 예를 고려하십시오.

    특정 질병을 치료하는 두 가지 방법을 비교하기 위해 각각 20명씩 두 그룹의 환자를 선택했으며 치료는 이러한 방법에 따라 수행되었습니다. 각 환자에 대해 절차의 수긍정적인 효과가 뒤따랐다. 이 데이터에 따르면 각 그룹에 대해 표본 평균(X), 표본 분산 (2)및 샘플 RMS (에스).

    결과는 표에 나와 있습니다. 3.4.

    표 3.4

    긍정적인 효과를 얻기 위해 필요한 절차의 수는 확률 변수이며 이에 대한 모든 정보는 이 순간샘플에 포함되어 있습니다.

    테이블에서. 3.4는 첫 번째 그룹의 표본 평균이 두 번째 그룹보다 작다는 것을 보여줍니다. 이것은 일반 평균에 대해 동일한 비율이 유지된다는 것을 의미합니까? M 1< М 2 ? Достаточно ли статистических данных для такого вывода? Ответы на эти вопросы и дает 가설의 통계적 테스트.

    통계적 가설- 그것은 인구의 속성에 대한 가정입니다.

    우리는 속성에 대한 가설을 고려할 것입니다 일반 인구.

    인구가 있는 경우 알려진, 같은추정되는 가치의 분포와 수량에 관한 가정 일부 매개변수이 분포를 가정하면 가설이 호출됩니다. 파라메트릭.예를 들어, 표본은 다음을 가진 모집단에서 추출됩니다. 정상법분포와 등분산. 알아내는 것이 필요하다 동일하다이 인구의 일반 평균.

    일반 인구 분포 법칙에 대해 알려진 것이 없으면 속성에 대한 가설을 비모수적.예를 들어, 동일하다표본을 추출한 모집단의 분포 법칙.

    귀무 가설과 대안 가설.

    가설 테스트 작업. 유의수준

    가설검증에 사용되는 용어에 대해 알아봅시다.

    H 0 - 귀무 가설(회의적 가설) - 이것은 가설입니다. 거의 차이가 없다비교 샘플 사이. 회의론자는 연구 결과에서 얻은 표본 추정치의 차이가 무작위적이라고 생각합니다.

    H 1- 대립 가설(낙관주의자의 가설)은 비교 샘플 사이에 차이가 있다는 가설입니다. 낙관론자는 표본 추정치의 차이가 객관적인 이유로 발생하며 일반 모집단의 차이에 해당한다고 믿습니다.

    통계적 가설의 검정은 비교된 표본의 요소가 일부를 구성하는 데 사용될 수 있는 경우에만 가능합니다. (기준), 공정성의 경우 유통법 H 0모두 다 아는. 그런 다음 이 수량에 대해 다음을 지정할 수 있습니다. 신뢰 구간,주어진 확률로 R d그 가치를 얻습니다. 이 간격을 중요한 영역.기준 값이 임계 영역에 속하면 가설이 채택됩니다. H 0 .그렇지 않으면 가설 H1이 채택됩니다.

    의학 연구에서는 P d = 0.95 또는 P d = 0.99가 사용됩니다. 이 값은 일치합니다 유의 수준α = 0.05 또는 α = 0.01.

    통계적 가설을 검증할 때유의 수준(α) 귀무가설이 참일 때 기각될 확률이다.

    기본적으로 가설 테스트 절차는 다음을 목표로 합니다. 차이 감지,그들의 부재를 확인하지 않기 위해. 기준 값이 임계 영역을 넘어서면 순수한 마음으로 "회의적"이라고 말할 수 있습니다. 음, 다른 무엇을 원하십니까?! 차이가 없으면 95%(또는 99%)의 확률로 계산된 값이 지정된 한계 내에 있게 됩니다. 그래서 안돼!..

    음, 기준 값이 임계 영역에 속한다면 가설 H 0 이 옳다고 믿을 이유가 없습니다. 이것은 두 가지 가능한 원인 중 하나를 가리킬 가능성이 큽니다.

    1. 표본 크기가 차이를 감지할 만큼 충분히 크지 않습니다. 계속되는 실험이 성공할 가능성이 높습니다.

    2. 차이점이 있습니다. 그러나 그것들은 너무 작아서 실용적인 중요성이 없습니다. 이 경우 실험을 계속하는 것은 의미가 없습니다.

    계속해서 의학 연구에서 사용되는 몇 가지 통계적 가설을 살펴보겠습니다.

    3.6. FISHER F-CRITERION 분산의 동등성에 대한 가설 테스트

    일부 임상 연구에서 긍정적인 효과는 크기연구 중인 매개변수, 얼마나 안정화,변동을 줄입니다. 이 경우 표본 조사 결과를 기반으로 두 가지 일반 분산을 비교하는 문제가 발생합니다. 이 작업은 다음을 사용하여 해결할 수 있습니다. 피셔의 기준.

    문제의 공식화

    정상법분포. 샘플 크기 -

    n 1그리고 n2,표본 분산동일한 초 1 및 초 2 2 일반적인 편차.

    검증된 가설:

    H 0- 일반적인 편차 동일하다;

    H 1- 일반적인 편차 다른.

    표본이 다음을 가진 모집단에서 추출된 경우 표시됩니다. 정상법분포, 가설이 참이면 H 0표본 분산의 비율은 Fisher 분포를 따릅니다. 따라서 타당성을 검증하는 기준으로 H 0값이 취해집니다 에프,공식에 의해 계산:

    어디 s 1 및 s 2 - 표본 분산.

    이 비율은 분자 ν 1 =의 자유도 수가 있는 Fisher 분포를 따릅니다. n 1- 1 및 분모의 자유도 ν 2 = n 2 - 1. 임계 영역의 경계는 Fisher 분포 표에 따라 또는 컴퓨터 함수 BRASPOBR을 사용하여 찾습니다.

    표에 제시된 예의 경우. 3.4, 우리는 다음을 얻습니다. ν 1 \u003d ν 2 \u003d 20 - 1 \u003d 19; 에프= 2.16/4.05 = 0.53. α = 0.05에서 임계 영역의 경계는 각각 동일합니다: = 0.40, = 2.53.

    기준값이 임계영역에 속하므로 가설이 받아들여진다. H 0:일반 표본 분산 동일합니다.

    3.7. 평균의 동등성에 관한 가설 검정, 학생의 t-검정

    비교 문제 중간두 개의 모집단이 발생하는 경우 실용적인 가치정확히 크기연구중인 특성. 예를 들어, 두 가지 다른 방법으로 치료 기간을 비교하거나 사용으로 인해 발생하는 합병증의 수를 비교할 때. 이 경우 스튜던트 t-검정을 사용할 수 있습니다.

    문제의 공식화

    두 개의 샘플 (X 1 ) 및 (X 2 )이 정상법유통 및 같은 분산.표본 크기 - n 1 및 n 2 , 표본 수단 X 1 및 X 2와 동일하고, 표본 분산- 초 1 2 및 초 2 2각기. 비교가 필요하다 일반 평균.

    검증된 가설:

    H 0- 일반 평균 동일하다;

    H 1- 일반 평균 다른.

    가설이 참인 경우를 보여주고 있다. H 0공식에 의해 계산된 t의 값:

    자유도 ν = ν 1 + + ν2 - 2로 스튜던트 법칙에 따라 분포됩니다.

    여기서 ν 1 = N 1 - 1 - 첫 번째 샘플의 자유도 수. v2 = N 2 - 1 - 두 번째 샘플의 자유도.

    임계 영역의 경계는 t-분포 표 또는 컴퓨터 기능 STUDRASP를 사용하여 찾을 수 있습니다. 스튜던트 분포는 0에 대해 대칭이므로 임계 영역의 왼쪽 및 오른쪽 경계는 절대값이 동일하고 부호가 반대입니다.

    표에 제시된 예의 경우. 3.4, 우리는 다음을 얻습니다:

    v 1 \u003d v 2 \u003d 20-1 \u003d 19; v = 38, = -2.51. α = 0.05 = 2.02.

    기준 값이 임계 영역의 왼쪽 경계를 넘어서므로 가설을 받아들입니다. H 1:일반 평균 다른.동시에 일반 인구의 평균 첫 번째 샘플더 적은.

    스튜던트 t-검정의 적용 가능성

    스튜던트 t-검정은 다음 샘플에만 적용됩니다. 정상집계 동일한 일반 편차.조건 중 하나 이상이 위반되면 기준의 적용 가능성이 의심됩니다. 일반 모집단의 정규성 요구 사항은 일반적으로 무시됩니다. 중심극한정리.실제로, 분자(3.10)에 있는 표본 평균의 차이는 ν > 30에 대해 정규 분포로 간주될 수 있습니다. 그러나 분산의 동등성에 대한 질문은 검증 대상이 아니며 Fisher 테스트에서 차이를 감지하지 못함을 고려할 수 없습니다. 그럼에도 불구하고 t-검정은 충분한 증거가 없지만 모집단 평균의 차이를 탐지하는 데 널리 사용됩니다.

    아래는 고려 비모수 기준,동일한 목적으로 성공적으로 사용되었으며 정상,어느 것도 아니다 분산의 평등.

    3.8. 두 표본의 비모수 비교: 만-휘트니 검정

    비모수 기준은 두 일반 모집단의 분포 법칙의 차이를 탐지하도록 설계되었습니다. 일반적으로 차이에 민감한 기준 중간,기준이라고 함 옮기다.일반적으로 차이에 민감한 기준 분산,기준이라고 함 규모. Mann-Whitney 테스트는 기준을 나타냅니다. 전단두 모집단의 평균 차이를 감지하는 데 사용됩니다. 순위 척도.측정된 기호는 이 척도에 오름차순으로 위치하며 정수 1, 2로 번호가 매겨집니다. 이 숫자를 순위.동일한 값에는 동일한 순위가 할당됩니다. 중요한 것은 속성 자체의 값이 아니라 서수 장소,그것은 다른 가치들 중에서 차지하는 것입니다.

    테이블에서. 3.5. 표 3.4의 첫 번째 그룹은 확장된 형식(행 1)으로 표시되고 순위 지정(행 2)된 다음 동일한 값의 순위가 산술 평균 값으로 대체됩니다. 예를 들어, 첫 번째 행의 요소 4와 4에는 순위 2와 3이 부여된 다음 동일한 값인 2.5로 대체되었습니다.

    표 3.5

    문제의 공식화

    독립 샘플 (X 1)그리고 (X 2)분포 법칙을 알 수 없는 모집단에서 추출합니다. 샘플 크기 n 1그리고 n 2각기. 샘플 요소의 값은 다음과 같이 표시됩니다. 순위 척도.이 일반 인구가 서로 다른지 여부를 확인해야합니까?

    검증된 가설:

    H 0- 표본은 동일한 일반 모집단에 속합니다. H 1- 표본은 다른 일반 모집단에 속합니다.

    이러한 가설을 테스트하기 위해 (/-Mann-Whitney 테스트가 사용됩니다.

    먼저, 결합된 샘플(X)은 2개의 샘플로 만들어지며 그 요소의 순위가 매겨집니다. 그런 다음 첫 번째 샘플의 요소에 해당하는 순위의 합을 찾습니다. 이 합계는 가설을 테스트하는 기준입니다.

    = 첫 번째 샘플의 순위 합계. (3.11)

    20보다 큰 독립 표본의 경우 값 정규 분포를 따르며 수학적 기대치와 표준 편차는 다음과 같습니다.

    따라서 임계 영역의 경계는 정규 분포 테이블에 따라 발견됩니다.

    표에 제시된 예의 경우. 3.4, 우리는 다음을 얻습니다. ν 1 \u003d ν 2 \u003d 20 - 1 \u003d 19, = 339, μ = 410, σ = 37. α = 0.05의 경우 왼쪽 = 338 및 오른쪽 = 482를 얻습니다.

    기준 값은 임계 영역의 왼쪽 경계를 넘어서므로 가설 H1이 채택됩니다. 일반 인구는 다른 분포 법칙을 가집니다. 동시에 일반 인구의 평균 첫 번째 샘플더 적은.