구간 및 이산 변이 계열을 구성합니다.  배포 시리즈 구축

구간 및 이산 변이 계열을 구성합니다. 배포 시리즈 구축

실험실 작업 №1. 1차 처리통계 데이터

유통 시리즈 구축

하나의 속성에 따라 인구 단위를 그룹으로 정렬된 분포라고 합니다. 가까운 유통 . 이 경우 부호는 양적일 수 있으며 시리즈는 변형 , 그리고 질적이면 시리즈가 호출됩니다. 명사 수식어 . 예를 들어, 도시의 인구는 다음과 같이 분포될 수 있습니다. 연령대안에 변형 시리즈, 또는 속성 계열의 전문적인 소속에 의해(물론 분포 계열을 구성하기 위해 더 많은 질적 및 양적 기호가 제공될 수 있으며 기호의 선택은 통계 연구 작업에 의해 결정됩니다).

모든 배포 시리즈는 두 가지 요소로 특징 지어집니다.

- 옵션(엑스 나) 단위 특성의 개별 값입니다. 샘플링 프레임. 변형 계열의 경우 변형은 속성 계열의 경우 숫자 값을 사용합니다. 질적 계열(예: x = "공무원")

- 빈도(N )는 이 또는 그 특성 값이 몇 번 발생하는지 나타내는 숫자입니다. 빈도를 상대 수로 표현하면(즉, 에 해당하는 인구 요소의 비율) 주어진 가치옵션, 인구의 총량에서), 호출됩니다. 상대 빈도또는 빈도.

변형 시리즈는 다음과 같을 수 있습니다.

- 이산연구 중인 형질이 특정 숫자(보통 정수)로 특징지어지는 경우.

- 간격연속 가변 피쳐에 대해 "from" 및 "to" 경계가 정의된 경우. 이산 변수 기능의 값 집합이 큰 경우 간격 시리즈도 작성됩니다.

간격 시리즈는 통계 연구의 조건에 따라 동일한 길이의 간격(등간격 시리즈)과 동일하지 않은 간격으로 구성될 수 있습니다. 예를 들어, 다음 간격을 갖는 일련의 인구 소득 분포를 고려할 수 있습니다.<5тыс р., 5-10 тыс р., 10-20 тыс.р., 20-50 тыс р., и т.д. Если цель исследования не определяет способ построения интервального ряда, то строится равноинтервальный ряд, число интервалов в котором определяется по формуле Стерджесса:



여기서 k는 구간 수이고 n은 표본 크기입니다. (물론, 공식은 일반적으로 분수를 제공하며 결과 숫자에 가장 가까운 정수가 간격 수로 선택됩니다.) 이 경우 간격의 길이는 공식에 의해 결정됩니다.

.

그래픽으로 변형 시리즈는 다음과 같이 나타낼 수 있습니다. 히스토그램(이 간격의 빈도에 해당하는 높이의 "열"은 간격 시리즈의 각 간격 위에 작성됨), 유통 지역(점선 연결 점( 엑스 나;나는) 또는 누적(누적된 빈도에 따라 구성됩니다. 즉, 속성의 각 값에 대해 주어진 속성 값보다 작은 속성 값을 가진 개체 집합에서 발생 빈도가 취해집니다.)

Excel에서 작업할 때 다음 함수를 사용하여 변형 시리즈를 작성할 수 있습니다.

확인하다( 데이터 배열) – 표본 크기를 결정합니다. 인수는 샘플 데이터를 포함하는 셀 범위입니다.

COUNTIF( 범위; 표준) - 속성 또는 변형 시리즈를 작성하는 데 사용할 수 있습니다. 인수는 속성 샘플 값 배열의 범위와 기준 - 속성의 숫자 또는 텍스트 값 또는 속성이 위치한 셀의 번호입니다. 결과는 샘플에서 해당 값의 발생 빈도입니다.

빈도( 데이터 배열; 간격 배열) – 변형 시리즈를 작성합니다. 인수는 샘플 데이터 배열의 범위와 간격 열입니다. 이산 시리즈를 작성해야 하는 경우 옵션 값이 여기에 표시되고, 간격인 경우 간격의 상한선("포켓"이라고도 함)이 표시됩니다. 결과는 주파수 열이므로 CTRL+SHIFT+ENTER 키 조합을 눌러 기능 도입을 완료해야 합니다. 함수를 도입할 때 간격 배열을 설정할 때 마지막 값을 생략할 수 있습니다. 이전 "포켓"에 속하지 않은 모든 값은 해당 "포켓"에 배치됩니다. 이것은 때때로 가장 큰 샘플 값이 마지막 "포켓"에 자동으로 배치되지 않는 오류를 방지하는 데 도움이 됩니다.

또한 여러 기준에 따라 복잡한 그룹화의 경우 "피벗 테이블" 도구가 사용됩니다. 속성 및 변형 시리즈를 작성하는 데 사용할 수도 있지만 이는 작업을 불필요하게 복잡하게 만듭니다. 또한 변형 시리즈 및 히스토그램을 작성하기 위해 "분석 패키지" 추가 기능에서 "히스토그램" 절차가 있습니다(엑셀에서 추가 기능을 사용하려면 먼저 다운로드해야 하며 기본적으로 설치되지 않음)

다음 예를 통해 기본 데이터 처리 프로세스를 설명합니다.

실시예 1.1. 60가구의 정량적 구성에 관한 자료가 있다.

변형 시리즈 및 분포 다각형 구축

해결책.

Excel 스프레드시트를 열어 보겠습니다. A1:L5 범위의 데이터 배열을 입력해 보겠습니다. 전자 형식(예: Word 형식)의 문서를 연구하는 경우 데이터가 있는 표를 선택하고 클립보드에 복사한 다음 A1 셀을 선택하고 데이터를 붙여넣기만 하면 됩니다. 적절한 범위. 샘플 크기 n - 샘플 데이터 수를 계산해 보겠습니다. 이를 위해 B7 셀에 수식 = COUNT(A1: L5)를 입력합니다. 원하는 범위를 수식에 입력하려면 키보드에서 해당 범위를 입력할 필요가 없으며 선택하면 충분합니다. =MIN(A1:L5) 수식을 B8 셀에 입력하고 B9 셀에 =MAX(A1:L5) 수식을 입력하여 샘플의 최소값과 최대값을 결정해 보겠습니다.

그림 1.1 예제 1. Excel 테이블의 통계 데이터 1차 처리

다음으로 간격 열(변이 값)과 빈도 열의 이름을 입력하여 변이 시리즈를 작성하기 위한 테이블을 준비하겠습니다. 간격 열에 B12:B17 범위를 차지하는 최소값(1)에서 최대값(6)까지 속성 값을 입력합니다. 빈도 열을 선택하고 수식을 입력한 다음 =FREQUENCY(A1:L5;B12:B17) 키 조합 CTRL+SHIFT+ENTER를 누릅니다.

그림 1.2 예제 1. 변형 시리즈의 구성

제어를 위해 SUM 기능(홈 탭의 편집 그룹에 있는 S 기능 아이콘)을 사용하여 빈도의 합을 계산합니다. 계산된 합은 B7 셀에서 이전에 계산된 샘플 크기와 일치해야 합니다.

이제 다각형을 만들어 보겠습니다. 결과 주파수 범위를 선택한 후 "삽입" 탭에서 "그래프" 명령을 선택합니다. 기본적으로 가로 축의 값은 옵션 값(관세 범주 수)과 일치하는 1에서 6까지의 서수입니다.

"시리즈 1" 차트 시리즈의 이름은 "디자이너" 탭에서 동일한 "데이터 선택" 옵션을 사용하여 변경하거나 단순히 삭제할 수 있습니다.

그림 1.3. 예제 1. 주파수 다각형 만들기

예 1.2. 50개 출처의 오염물질 배출에 대한 데이터를 사용할 수 있습니다.

10,4 18,6 10,3 26,0 45,0 18,2 17,3 19,2 25,8 18,7
28,2 25,2 18,4 17,5 41,8 14,6 10,0 37,8 10,5 16,0
18,1 16,8 38,5 37,7 17,9 29,0 10,1 28,0 12,0 14,0
14,2 20,8 13,5 42,4 15,5 17,9 19, 10,8 12,1 12,4
12,9 12,6 16,8 19,7 18,3 36,8 15,0 37,0 13,0 19,5

등간격 시리즈를 컴파일하고 히스토그램을 작성하십시오.

해결책

Excel 시트에 데이터 배열을 추가해 보겠습니다. A1:J5 범위를 차지합니다. 이전 작업에서와 같이 샘플 크기 n, 샘플의 최소값 및 최대값을 결정합니다. 이제 우리는 이산이 필요하지 않고 구간 시리즈가 필요하고 문제의 구간 수가 지정되지 않았으므로 Sturgess 공식을 사용하여 구간 수 k를 계산합니다. 이렇게 하려면 셀 B10에 수식 =1+3.322*LOG10(B7)을 입력합니다.

그림 1.4. 예제 2. 등간격 시리즈의 구성

결과 값은 정수가 아니며 약 6.64입니다. k=7의 경우 간격의 길이가 정수로 표시되므로(k=6의 경우와 대조적으로) 이 값을 셀 C10에 입력하여 k=7을 선택합니다. 수식 = (B9-B8) / C10을 입력하여 셀 B11의 간격 d의 길이를 계산합니다.

7개 간격 각각에 대한 상한을 지정하여 간격 배열을 정의해 보겠습니다. 이렇게 하려면 셀 E8에서 수식 =B8+B11을 입력하여 첫 번째 간격의 상한을 계산합니다. 셀 E9에 수식 =E8+B11을 입력하여 두 번째 간격의 상한선을 입력합니다. 구간 상한의 나머지 값을 계산하기 위해 $ 기호를 사용하여 입력된 수식에서 셀 B11의 수를 고정하여 셀 E9의 수식이 =E8+B$11이 되도록 하고 다음 내용을 복사합니다. E9 셀에서 E10-E14 셀로. 얻은 마지막 값은 B9 셀에서 이전에 계산된 샘플의 최대값과 같습니다.

그림 1.5. 예제 2. 등간격 시리즈의 구성


이제 예제 1에서와 같이 FREQUENCY 함수를 사용하여 "포켓" 배열을 채우겠습니다.

그림 1.6. 예제 2. 등간격 시리즈의 구성

결과 변형 시리즈를 기반으로 히스토그램을 작성합니다. 빈도 열을 선택하고 "삽입" 탭에서 "히스토그램"을 선택합니다. 히스토그램을 받으면 가로 축의 레이블을 간격 범위의 값으로 변경합니다. 이를 위해 "디자이너" 탭의 "데이터 선택" 옵션을 선택합니다. 나타나는 창에서 "가로 축 레이블"섹션에 대한 "변경"명령을 선택하고 "마우스"로 선택하여 값 범위를 입력하십시오.

그림 1.7. 예 2. 히스토그램 작성

그림 1.8. 예 2. 히스토그램 작성

수학 통계의 주제입니다. 일반 및 표본 모집단.

— 수학 통계- 과학적으로 근거한 결론을 얻기 위해 통계 데이터의 선택, 그룹화, 체계화 및 분석 방법을 연구하는 수학의 한 분야.

— 통계 데이터- 무작위 실험의 결과로 얻은 연구 대상의 고려 된 기능의 수치 값.

수학적 통계는 확률 이론과 밀접한 관련이 있지만 확률 이론과 달리 실험의 수학적 모델은 알려져 있지 않습니다. 수리통계학에서는 통계자료에 따라 미지의 확률분포를 설정하거나 분포모수를 객관적으로 평가할 필요가 있다.

수학적 통계 방법을 사용하면 반복되는 현상의 질량에 대한 최적의 수학적 모델을 구축할 수 있습니다. 확률 이론과 수학적 통계 사이의 연결 고리는 확률 이론의 극한 정리입니다.

현재 통계 방법은 국가 경제의 거의 모든 부문에서 사용됩니다.

— 인구– 모든 연구 대상의 통계 데이터(때로는 - 대상 자체). 종종 일반 인구는 RV X로 간주됩니다.

— 견본(샘플 모집단) - 일반 모집단에서 무작위로 선택된 개체의 통계 데이터입니다.

— 표본의 크기 N(일반 인구의 양 N) - 일반 인구에서 연구를 위해 선택한 개체의 수(일반 인구의 개체 수).

.

ㅏ) 통계 데이터학생의 성장; 특정 길이의 텍스트 구절에서 동사(또는 다른 품사)의 수; 인증서의 평균 점수; 지능 수준; 디스패처 등의 오류 수

비) 일반 인구아마도 : 모든 사람들의 키, 모든 공장 ​​노동자의 순위, 연구중인 저자의 모든 작품에서 특정 품사 사용 빈도, 모든 졸업생 인증서의 평균 점수 등



안에) 견본아마도: - 20명의 학생의 키, 500개의 단어 사용 길이를 가진 무작위로 선택된 50개의 동질적인 텍스트 구절의 동사 수, 도시의 학교에서 무작위로 선택된 100명의 졸업생 인증서의 평균 점수 등.

샘플이라고 합니다 대표,일반 인구의 속성을 올바르게 반영하는 경우. 표본의 대표성은 일반 모집단의 모든 대상이 선택될 확률이 동일할 때 무작위 선택에 의해 달성됩니다.

표본을 대표하기 위해 연구 대상을 선택하는 다양한 방법이 사용됩니다.

선택 유형: 단순, 기계, 직렬, 일반.

단순한. 요소는 전체 모집단에서 무작위로 선택됩니다.

기계적 선택. 일반 모집단에서 모든 10개(25, 30 등) 개체를 선택합니다.

연속물. 각 시리즈에서 연구가 수행됩니다(예: 텍스트에서 500단어 용법 10개 구절 선택 - 10개 시리즈).

전형적인. 일반 인구는 특정 속성에 따라 전형적인 그룹으로 나뉩니다. 이러한 각 그룹에서 추출된 시리즈의 수는 일반 모집단에서 이 그룹의 비율에 따라 결정됩니다.

표본의 통계적 분포와 그 그래픽 표현.

일부 기능과 관련하여 SV X(일반 인구)를 연구합니다. 다수의 독립적인 테스트가 수행되고 있습니다. 실험 결과 SV X는 몇 가지 값을 취합니다. 얻은 값의 집합은 표본이며 값 자체는 통계 데이터입니다.

처음에는 샘플의 순위가 매겨집니다. 샘플의 통계 데이터가 내림차순으로 정렬됩니다. 우리는 변형 시리즈를 얻습니다.

바리에이션 시리즈- 순위가 지정된 샘플.

이산 통계 시리즈

모집단이 이산 CV인 경우 이산 통계 계열(통계 분포)이 구성됩니다.

값이 샘플 시간에 나타나도록 하고,

시간, ..., - 시간.

이타야 옵션샘플; - 빈도 i 번째 옵션 빈도는 이 옵션이 샘플에 나타난 횟수를 보여줍니다.

- 상대 빈도 i번째 옵션

(샘플의 어느 부분인지 보여줍니다).

통계적 분포는 표본 옵션과 해당 빈도 또는 상대 빈도 간의 대응 관계입니다.

DSV의 경우 통계적 분포는 표의 형태로 표시될 수 있습니다. 즉, 통계적 일련의 빈도 또는 통계적 일련의 상대 빈도입니다.

주파수의 통계 계열 통계 계열

상대 주파수

........
........
........
........

샘플의 통계적 분포를 명확하게 나타내기 위해 통계적 분포의 "그래프"가 작성됩니다(다각형 및 히스토그램).

주파수 다각형(상대 빈도) - 이산 통계 계열의 그래픽 표현 - 연속된 점을 연결하는 파선 [상대 빈도의 다각형].

예시.연구원은 지원자의 수학 지식에 관심이 있습니다. 10명의 지원자가 선택되고 이 과목의 학교 성적이 기록됩니다. 다음 샘플을 받았습니다: 5;4;4;3;2;5;4;3;4;5.

a) 샘플을 변형 시리즈로 제시합니다.

b) 빈도 및 상대 빈도의 통계적 시리즈를 구축합니다.

c) 결과 시리즈에 대한 상대 주파수의 다각형을 그립니다.

a) 샘플의 순위를 매기자. 샘플의 구성원을 내림차순으로 정렬합니다. 우리는 변형 시리즈를 얻습니다: 2; 삼; 삼; 네; 네; 네; 네; 5; 5;5.

b) 우리는 통계적 일련의 빈도(샘플 옵션과 해당 빈도 간의 일치)와 통계적 일련의 상대 빈도(샘플 옵션과 해당 빈도 간의 일치)를 구성합니다.

0,1 0,2 0,4 0,3

빈도의 통계 시리즈 통계 시리즈 rel. 주파수

1+2+4+3=10=n 0.1+0.2+0.4+0.3=1.

상대 주파수의 다각형.


이 강의에서는 통계 데이터의 그룹화란 무엇이며 이것이 분포 계열과 어떤 관련이 있는지에 대해 다루었으며 이 강의에서 이산 및 변동 분포 계열이 무엇인지도 배울 수 있습니다.

분포 시리즈는 품종 중 하나입니다. 통계 시리즈(그 외에 통계는 일련의 역학을 사용함) 공공 생활 현상에 대한 데이터를 분석하는 데 사용됩니다. 변형 시리즈의 구성은 모든 사람에게 상당히 실현 가능한 작업입니다. 그러나 기억해야 할 규칙이 있습니다.

이산 변이 분포 시리즈를 구축하는 방법

실시예 1 조사 대상 20가구의 자녀 수에 대한 데이터를 이용할 수 있습니다. 이산 변이 시리즈 구성 가족의 분배자녀 수에 따라.

0 1 2 3 1
2 1 2 1 0
4 3 2 1 1
1 0 1 0 2

해결책:

  1. 테이블의 레이아웃부터 시작하여 데이터를 입력하겠습니다. 분포 행에는 두 개의 요소가 있으므로 테이블은 두 개의 열로 구성됩니다. 첫 번째 열은 항상 변형입니다 - 우리가 공부하는 것 - 우리는 작업에서 이름을 가져옵니다 (조건의 작업이있는 문장의 끝) - 자녀 수에 따라- 그래서 우리 버전은 아이들의 수입니다.

두 번째 열은 빈도입니다. 연구 중인 현상에서 변형이 얼마나 자주 발생하는지, 작업에서 열 이름도 가져옵니다. 가족의 분배 - 그래서 우리의 빈도는 해당하는 자녀 수를 가진 가족 수입니다.

  1. 이제 초기 데이터에서 한 번 이상 발생하는 값을 선택합니다. 우리의 경우 이

이 데이터를 테이블의 첫 번째 열에 논리적 순서로 정렬해 보겠습니다. 이 경우에는 0에서 4로 증가합니다.

그리고 결론적으로 옵션의 각 값이 몇 번이나 발생하는지 계산해 봅시다.

0 1 2 3 1

2 1 2 1 0

4 3 2 1 1

1 0 1 0 2

결과적으로 완전한 테이블 또는 필요한 일련의 가족 분포를 자녀 수별로 얻습니다.

운동 . 기업 근로자 30명의 관세 범주에 대한 데이터가 있습니다. 임금 범주별 근로자 분포에 대한 이산 변이 계열을 구성합니다. 2 3 2 4 4 5 5 4 6 3

1 4 4 5 5 6 4 3 2 3

4 5 4 5 5 6 6 3 3 4

분포의 구간 변동 계열을 구축하는 방법

구간 분포 계열을 만들고 그 구성이 이산 계열과 어떻게 다른지 살펴보겠습니다.

실시예 2 16 개 기업, 백만 루블이받은 이익 금액에 대한 데이터가 있습니다. — 23 48 57 12 118 9 16 22 27 48 56 87 45 98 88 63. 동일한 간격으로 3개의 그룹을 선택하여 이익 규모별 기업 분포에 대한 간격 변동 시리즈를 구성합니다.

시리즈를 구성하는 일반적인 원칙은 물론 동일한 두 열, 동일한 변형 및 빈도가 유지되지만 이 경우 변형은 간격에 있고 빈도는 다르게 계산됩니다.

해결책:

  1. 테이블 레이아웃을 작성하여 이전 작업과 유사하게 시작한 다음 데이터를 입력하겠습니다. 분포 행에는 두 개의 요소가 있으므로 테이블은 두 개의 열로 구성됩니다. 첫 번째 열은 항상 변형입니다 - 우리가 연구하는 것 - 우리는 작업에서 이름을 가져옵니다 (조건에서 작업이있는 문장의 끝) - 이익 금액으로 - 이는 우리의 변형이 이익 금액임을 의미합니다 받았다.

두 번째 열은 빈도 - 연구 중인 현상에서 변형이 얼마나 자주 발생하는지 - 우리는 또한 할당에서 열의 이름을 가져옵니다 - 기업 분포 - 이것은 우리의 빈도가 해당 이익을 가진 기업의 수라는 것을 의미합니다. 이 경우 간격에 해당합니다.

결과적으로 테이블의 레이아웃은 다음과 같습니다.

여기서 i는 간격의 값 또는 길이이고,

Xmax 및 Xmin - 기능의 최대값과 최소값,

n은 문제의 조건에 따라 필요한 그룹 수입니다.

이 예의 간격 값을 계산해 보겠습니다. 이를 위해 초기 데이터 중에서 가장 큰 것과 가장 작은 것을 찾는다.

23 48 57 12 118 9 16 22 27 48 56 87 45 98 88 63 - 최대값은 1억 1800만 루블이고 최소값은 900만 루블입니다. 공식을 계산해 봅시다.

계산에서 기간에 숫자 36, (3) 3을 얻었습니다. 이러한 상황에서는 계산 후에 최대 데이터가 손실되지 않도록 간격 값을 반올림해야 합니다. 계산 간격은 3640만 루블입니다.

  1. 이제 간격을 만들어 보겠습니다. 이 문제의 옵션입니다. 첫 번째 간격은 최소값에서 시작되고 간격 값이 추가되고 첫 번째 간격의 상한값이 구합니다. 그런 다음 첫 번째 간격의 상한이 두 번째 간격의 하한이 되고 간격의 값이 여기에 더해지고 두 번째 간격이 구합니다. 등등 조건에 따라 간격을 만드는 데 필요한 만큼 반복합니다.

간격 값을 36.4로 반올림하지 않고 36.3으로 두면 마지막 값은 117.9가 됩니다. 데이터 손실을 방지하기 위해 간격 값을 더 큰 값으로 반올림해야 합니다.

  1. 각 특정 구간에 속하는 기업의 수를 계산해 보겠습니다. 데이터를 처리할 때 이 간격에서 간격의 상한 값은 고려되지 않고(이 간격에 포함되지 않음) 다음 간격에서 고려된다는 점을 기억해야 합니다(간격의 하한이 포함됨 마지막 간격을 제외하고 이 간격에서 상위 간격은 포함되지 않습니다.

데이터 처리 시 선택한 데이터를 기존의 아이콘이나 색상으로 표시하여 처리를 단순화하는 것이 가장 좋습니다.

23 48 57 12 118 9 16 22

27 48 56 87 45 98 88 63

첫 번째 간격을 노란색으로 표시하고 9에서 45.4 사이의 간격에 속하는 데이터의 양을 결정하는 반면 이 45.4는 두 번째 간격(데이터에 있는 경우)에서 고려됩니다. 결과적으로, 첫 번째 간격에서 7개의 기업을 얻습니다. 모든 간격에 대해 등등.

  1. (추가 조치) 각 간격 및 일반적으로 기업이받는 총 이익 금액을 계산해 봅시다. 이렇게 하려면 다른 색으로 표시된 데이터를 추가하고 이익의 총 가치를 얻으십시오.

첫 번째 간격에 대해 23 + 12 + 9 + 16 + 22 + 27 + 45 = 1억 5400만 루블

두 번째 간격의 경우 - 48 + 57 + 48 + 56 + 63 = 2억 7,200만 루블.

세 번째 간격의 경우 - 118 + 87 + 98 + 88 = 3억 9,100만 루블.

운동 . 30 명의 예금자, 천 루블의 은행에 예금 크기에 대한 데이터가 있습니다. 150, 120, 300, 650, 1500, 900, 450, 500, 380, 440,

600, 80, 150, 180, 250, 350, 90, 470, 1100, 800,

500, 520, 480, 630, 650, 670, 220, 140, 680, 320

짓다 간격 변화 시리즈동일한 간격으로 4개 그룹을 강조 표시하는 기부 크기별 예금자 분포. 각 그룹에 대해 총 기부 금액을 계산합니다.

그룹화- 이것은 인구를 어떤 면에서 동질적인 그룹으로 나누는 것입니다.

서비스 할당. 온라인 계산기로 다음을 수행할 수 있습니다.

  • 변형 시리즈 구축, 히스토그램과 다각형을 만듭니다.
  • 변동 지표(평균, 모드(그래픽 포함), 중앙값, 변동 범위, 사분위수, 십분위수, 사분위 미분 계수, 변동 계수 및 기타 지표)를 찾습니다.

지침. 계열을 그룹화하려면 결과 변형 계열의 유형(불연속 또는 간격)을 선택하고 데이터 양(행 수)을 지정해야 합니다. 결과 솔루션은 Word 파일에 저장됩니다(통계 데이터 그룹화의 예 참조).

입력 데이터 수
",0);">

그룹화가 이미 완료되었고 이산 변형 시리즈또는 간격 시리즈, 온라인 계산기 변형 표시기를 사용해야 합니다. 분포 유형에 대한 가설 테스트서비스를 사용하여 생산된 배포 형태 연구.

통계 그룹화 유형

바리에이션 시리즈. 불연속 관찰의 경우 랜덤 변수같은 값을 두 번 이상 찾을 수 있습니다. 확률 변수 x i의 이러한 값은 n 관찰에 나타나는 횟수를 나타내는 n i가 기록되며, 이것이 이 값의 빈도입니다.
연속 확률 변수의 경우 실제로 그룹화를 사용합니다.
  1. 유형 그룹화- 이것은 연구 된 질적으로 이질적인 인구를 클래스, 사회 경제적 유형, 균질 한 단위 그룹으로 나누는 것입니다. 이 그룹화를 작성하려면 이산 변이 계열 매개변수를 사용하십시오.
  2. 구조적 그룹화라고 합니다., 균질한 인구가 몇 가지 다양한 기능에 따라 구조를 특성화하는 그룹으로 나뉩니다. 이 그룹화를 작성하려면 간격 시리즈 매개변수를 사용하십시오.
  3. 연구된 현상과 그 특징 사이의 관계를 나타내는 그룹화를 분석 그룹(시리즈의 분석적 그룹화 참조).

통계적 그룹화의 원칙

오름차순으로 정렬된 일련의 관측치를 변이 계열이라고 합니다.. 그룹화 기호인구를 별도의 그룹으로 나누는 기호입니다. 그룹의 기반이라고 합니다. 그룹화는 양적 특성과 질적 특성 모두를 기반으로 할 수 있습니다.
그룹화 기준을 결정한 후 연구 인구를 나눌 그룹 수에 대한 질문을 결정해야합니다.

사용 개인용 컴퓨터통계 데이터를 처리하기 위해 객체의 단위 그룹화는 표준 절차를 사용하여 수행됩니다.
이러한 절차 중 하나는 Sturgess 공식을 사용하여 최적의 그룹 수를 결정하는 것을 기반으로 합니다.

k = 1+3.322*lg(N)

여기서 k는 그룹 수이고 N은 인구 단위 수입니다.

부분 구간의 길이는 h=(x max -x min)/k로 계산됩니다.

그런 다음 빈도 ni 로 간주되는 이 간격에서 관측치의 히트 수를 계산합니다. 소수의 주파수, 그 값이 5보다 작은 (n i< 5), следует объединить. в этом случае надо объединить и соответствующие интервалы.
구간 x i =(c i-1 +c i)/2의 중간점은 새 값으로 사용됩니다.

변수 속성의 변경 사항에 대한 설명은 분포 시리즈를 사용하여 수행됩니다.

통계 분포 시리즈- 이것은 통계적 모집단 단위를 특정한 다양한 속성에 따라 별도의 그룹으로 정렬된 분포입니다.

질적 기반으로 구축된 통계 시리즈를 명사 수식어. 분포 시리즈가 정량적 속성을 기반으로 하는 경우 시리즈는 다음과 같습니다. 변형.

차례로, 변이 시리즈는 이산 및 간격으로 나뉩니다. 중심에서 이산배포 시리즈의 특정 숫자 값(범죄 건수, 시민의 법적 지원 신청 건수)을 취하는 이산(불연속) 기능이 있습니다. 간격배급 시리즈는 주어진 범위(수형자 연령, 수감 기간 등)에서 어떤 값도 취할 수 있는 연속적 특성을 기반으로 구축됩니다.

모든 통계 분포 시리즈에는 두 가지 필수 요소인 시리즈 및 빈도 변형이 포함됩니다. 옵션 (엑스 나)는 분포 계열에서 취하는 특성의 개별 값입니다. 주파수 (파이)은 분포 계열에서 특정 옵션이 몇 번 발생하는지 나타내는 숫자 값입니다. 모든 빈도의 합을 모집단의 부피라고 합니다.

상대적인 단위(분수 또는 백분율)로 표시되는 주파수를 주파수( 내가). 빈도가 1의 분수로 표현되면 빈도의 합은 1이고 백분율로 표현되면 100입니다. 빈도를 사용하면 모집단 크기가 다른 변이 계열을 비교할 수 있습니다. 주파수는 다음 공식에 의해 결정됩니다.

이산 계열을 구성하기 위해 계열에서 발생하는 모든 항목의 순위가 매겨집니다. 개별 가치특성을 확인한 다음 각 값의 반복 빈도를 계산합니다. 분포 시리즈는 두 개의 행과 열로 구성된 테이블의 아이디어로 작성되며 그 중 하나는 시리즈의 변형 값을 포함합니다 엑스 나, 두 번째 - 주파수 값 파이.

이산 변이 시리즈를 구성하는 예를 고려하십시오.

예 3.1 . 내무부에 따르면 N개 시에서 저질러진 범죄 등록 건수는 미성년자다.

17 13 15 16 17 15 15 14 16 13 14 17 14 15 15 16 16 15 14 15 15 14 16 16 14 17 16 15 16 15 13 15 15 13 15 14 15 13 17 14.

이산 분포 시리즈를 구성합니다.

해결책 .

첫째, 미성년자의 나이에 대한 데이터의 순위를 매길 필요가 있습니다. 오름차순으로 적어주세요.

13 13 13 13 13 14 14 14 14 14 14 14 14 15 15 15 15 15 15 15 15 15 15 15 15 15 15 16 16 16 16 16 16 16 16 17 17 17 17 17



표 3.1

따라서 빈도는 지정된 연령의 사람 수를 반영합니다. 예를 들어 5명은 13세, 8명은 14세 등입니다.

건물 간격분포 행은 정량적 속성에 따른 등간격 그룹화의 구현과 유사하게 수행됩니다. 즉, 먼저 집합을 나눌 최적의 그룹 수를 결정하고 그룹별 간격의 경계를 설정하고 주파수가 계산됩니다.

다음 예를 사용하여 구간 분포 시리즈의 구성을 설명하겠습니다.

예 3.2 .

다음 통계 인구에 대한 간격 시리즈를 작성하십시오 - 사무실의 변호사 급여, 천 루블 :

16,0 22,2 25,1 24,3 30,5 32,0 17,0 23,0 19,8 27,5 22,0 18,9 31,0 21,5 26,0 27,4

해결책.

주어진 통계 모집단에 대해 최적의 등간격 그룹 수를 4로 가정해 보겠습니다(16개의 옵션이 있음). 따라서 각 그룹의 크기는 다음과 같습니다.

각 간격의 값은 다음과 같습니다.

간격의 경계는 다음 공식에 의해 결정됩니다.

,

여기서 i번째 구간의 하한과 상한은 각각 입니다.

간격의 경계에 대한 중간 계산을 생략하고 결과 간격 시리즈를 보여주는 표 3.2에 각 간격 내에서 급여가 있는 값(옵션)과 변호사 수(빈도)를 입력합니다.

표 3.2

통계적 분포 계열의 분석은 그래픽 방법을 사용하여 수행할 수 있습니다. 분포 시리즈의 그래픽 표현을 통해 연구 인구의 분포 패턴을 다각형, 히스토그램 및 누적 형태로 묘사하여 시각적으로 설명할 수 있습니다. 각 그래프를 살펴보겠습니다.

다각형세그먼트가 점을 좌표로 연결하는 폴리라인( 엑스 나;파이). 일반적으로 이미지에는 다각형이 사용됩니다. 이산 시리즈분포. 그것을 구축하기 위해 기능의 순위가 매겨진 개별 값은 x 축에 플롯됩니다. 엑스 나, y축은 이러한 값에 해당하는 주파수입니다. 결과적으로 가로축과 세로축을 따라 표시된 데이터에 해당하는 점의 세그먼트를 연결하여 폴리곤이라고 하는 폴리라인을 얻습니다. 주파수 다각형을 구성하는 예를 들어 보겠습니다.

다각형의 구성을 설명하기 위해 예 3.1을 풀고 이산 계열을 구성한 결과를 살펴보겠습니다(그림 1). 가로축은 죄수의 나이를 나타내고 세로축은 주어진 나이. 이 다각형을 분석하면 다음과 같이 말할 수 있습니다. 가장 큰 숫자죄수 - 14명, 15세입니다.

그림 3.1 - 이산 계열의 주파수 범위.

간격 시리즈에 대해 다각형을 작성할 수도 있습니다. 이 경우 간격의 중간점이 가로축을 따라 표시되고 해당 주파수가 세로축을 따라 표시됩니다.

막대 차트- 사각형으로 구성된 계단형 그림. 그 밑면은 특징 값의 간격이고 높이는 해당 주파수와 같습니다. 히스토그램은 간격 분포 계열을 표시하는 데만 사용됩니다. 간격이 같지 않으면 y축에 히스토그램을 작성하기 위해 빈도가 표시되지 않고 해당 간격의 너비에 대한 빈도의 비율이 표시됩니다. 히스토그램은 열의 중간이 세그먼트로 연결된 경우 분포 다각형으로 변환할 수 있습니다.

히스토그램의 구성을 설명하기 위해 예제 3.2 - 그림 3.2에서 구간 계열을 구성한 결과를 살펴보겠습니다.

그림 3.2 - 분포 히스토그램 임금변호사.

변이 계열의 그래픽 표현을 위해 누적도 사용됩니다. 쌓아 올린는 일련의 누적된 주파수를 나타내는 곡선과 좌표( 엑스 나;에프 아이낙). 누적 빈도는 분포 계열의 모든 빈도를 연속적으로 합산하여 계산되며 지정된 값보다 크지 않은 특성 값을 갖는 모집단 단위의 수를 표시합니다. 예제 3.2 - 표 3.3에 제시된 변동 구간 시리즈에 대한 누적 빈도 계산을 설명하겠습니다.

표 3.3

이산 분포 계열의 누적을 작성하기 위해 특성의 순위가 지정된 개별 값은 가로축을 따라 표시되고 이에 해당하는 누적 빈도는 세로축을 따라 표시됩니다. 구간 계열의 누적 곡선을 구성할 때 첫 번째 점의 가로 좌표는 첫 번째 구간의 하한과 같고 세로 좌표는 0입니다. 이후의 모든 점은 구간의 상한과 일치해야 합니다. 표 3.3 - 그림 3.3의 데이터를 사용하여 누적을 작성해 보겠습니다.

그림 3.3 - 변호사 급여의 누적 분포 곡선.

시험 문제

1. 통계 분포 시리즈의 개념, 주요 요소.

2. 통계적 분포 계열의 종류. 그들의 간략한 설명.

3. 이산 및 간격 분포 시리즈.

4. 이산 분포 시리즈를 구성하는 기술.

5. 구간분포 계열을 구성하는 기법.

6. 이산 분포 시리즈의 그래픽 표현.

7. 구간 분포 시리즈의 그래픽 표현.

작업

작업 1. 세션당 TGP의 그룹 학생 25명의 진행 상황에 대한 다음 데이터가 있습니다. 5, 4, 4, 4, 3, 2, 5, 3, 4, 4, 4, 3, 2, 5, 2, 5 , 5, 2, 3, 3, 5, 4, 2, 3, 3. 세션에서 받은 평가 점수에 따라 학생들의 분산 계열을 이산적으로 구성합니다. 결과 시리즈에 대해 빈도, 누적 빈도, 누적 빈도를 계산합니다. 자신의 결론을 도출하십시오.

작업 2. 식민지에는 1000명의 죄수가 있으며 연령 분포는 표에 나와 있습니다.

그림 이 시리즈그래픽으로. 자신의 결론을 도출하십시오.

작업 3. 수감자의 투옥 기간에 대해 다음 데이터를 사용할 수 있습니다.

5; 4; 2; 1; 6; 3; 4; 3; 2; 2; 3; 1; 17; 6; 2; 8; 5; 11; 9; 3; 5; 6; 4; 3; 10; 5; 25; 1; 12; 3; 3; 4; 9; 6; 5; 3; 4; 3; 5; 12; 4; 13; 2; 4; 6; 4; 14; 3; 11; 5; 4; 13; 2; 4; 6; 4; 14; 3; 11; 5; 4; 3; 12; 6.

구금 기간에 따른 죄수 분포의 간격 시리즈를 작성하십시오. 자신의 결론을 도출하십시오.

작업 4. 연구 기간 동안 지역의 죄수 분포에 대한 연령대별 데이터는 다음과 같습니다.

이 시리즈를 그래픽으로 그리고 결론을 도출하십시오.