표본 크기를 올바르게 계산하는 방법은 무엇입니까?  일반 모집단 및 표본 추출 방법

표본 크기를 올바르게 계산하는 방법은 무엇입니까? 일반 모집단 및 표본 추출 방법

통계는 모든 것을 알고 있습니다. 그리고 Ilf와 E. Petrov, "12 Chairs"

당신이 큰 건물을 짓는다고 상상해보십시오. 쇼핑 센터주차장 입구의 교통 흐름을 평가하려고 합니다. 아니요, 다른 예를 들어 보겠습니다. 그들은 어쨌든 그렇게 하지 않을 것입니다. 포털 방문자의 취향 선호도를 평가해야 하며 이에 대해 설문조사를 수행해야 합니다. 데이터의 양과 가능한 오류를 연결하는 방법은 무엇입니까? 복잡한 것은 없습니다. 샘플이 클수록 오류가 작아집니다. 그러나 여기에도 뉘앙스가 있습니다.

이론상 최소값

우리의 기억을 새로 고치는 것은 불필요하지 않을 것이며, 이러한 용어는 나중에 우리에게 유용할 것입니다.

  • 인구- 연구가 수행되고 있는 모든 개체의 집합입니다.
  • 견본– 연구에 직접 관련된 전체 모집단의 개체 부분인 부분 집합입니다.
  • 제1종 오류- (α) 귀무가설이 참일 때 기각할 확률.
  • 제2종 오류- (β) 확률 ~ 아니다귀무가설이 거짓일 때 기각합니다.
  • 1-β- 기준의 통계적 힘.
  • μ 0 그리고 μ 1- 귀무가설과 대립가설의 평균값.


이미 첫 번째와 두 번째 종류의 오류에 대한 바로 그 정의에 논쟁과 해석의 여지가 있습니다. 그것들을 어떻게 결정하고 어떤 것을 0으로 선택할 것인가? 토양이나 물의 오염 수준을 조사하는 경우 귀무 가설을 어떻게 공식화할 수 있습니까? 오염이 있습니까, 아니면 오염이 없습니까? 하지만 이로부터 샘플 크기에 따라 다름개체의 일반 인구에서.



초기의 인구, 만큼 잘 견본모든 분포를 가질 수 있지만 평균은 정상또는 가우스 분포중심극한정리 덕분이다.


분포 매개변수와 특히 평균과 관련하여 여러 유형의 추론이 가능합니다. 첫 번째그 중 신뢰 구간. 지정된 매개 변수에 대해 가능한 값의 범위를 나타냅니다. 신뢰 요인. 예를 들어 100(1-α)% 신뢰 구간~을 위한 μ 이렇게 됩니다(Lv.1).




추론에서 가설 검증. 이런 식일 수 있습니다.

  • H 0: μ = h
  • H 1: μ > h
  • H2: μ< h

에서 신뢰 구간 100(1-α) μ H 1 및 H 2에 찬성하여 선택할 수 있습니다.

  • 하한선이라면 신뢰 구간 100(1-α)< h , то тогда 거부 H 0 H 2 에 찬성 .
  • 상한이면 신뢰 구간 100(1-α) > h, 그러면 거부 H 0 H 1 에 찬성 .
  • 만약 신뢰 구간 100(1-α)에 h가 포함되어 있으면 H 0을 기각할 수 없고 그러한 결과는 불확실한 것으로 간주됩니다.

값을 확인해야 하는 경우 μ 하나를 위해 샘플전체 인구에서 기준은 다음 형식을 취합니다.



신뢰 구간, 오차 및 표본 크기

첫 번째 방정식을 가져 와서 거기에서 너비를 표현하십시오. 신뢰 구간(레벨 2).



어떤 경우에는 스튜던트의 t-통계량을 z 표준 정규 분포로 바꿀 수 있습니다. 또 다른 단순화가 절반을 대체합니다. 측정 오류 E. 그러면 방정식은 (Eq. 3) 형식을 취합니다.



우리가 보는 바와 같이 입력 데이터의 수가 증가함에 따라 오류가 실제로 감소합니다.. 찾고 있는 것을 쉽게 찾을 수 있는 곳(식 4).


연습 - R로 세기

덫에 있는 곤충의 수에 대한 주어진 표본의 평균값이 1이라는 가설을 테스트해 봅시다.

  • H 0: μ = 1
  • H1: μ > 1
곤충 0 1 2 3 4 5 6
트랩 10 9 5 5 1 2 1

> 엑스<- read.table("/tmp/tcounts.txt") >y = unlist(x, use.names="false") > 평균(z);sd(z) 1.636364 1.654883

평균과 표준 편차는 거의 동일하며 이는 포아송 분포의 자연스러운 현상입니다. 스튜던트 t-통계량 및 df=32에 대한 95% 신뢰 구간.


> qt(.975, 32) 2.036933

마지막으로 평균에 대한 임계 구간을 얻습니다. 1.05 - 2.22 .


> μ=평균(z) > st = qt(.975, 32) > μ + st * sd(z)/sqrt(33) 2.223159 > μ - st * sd(z)/sqrt(33) 1.049568

결과적으로 H 0는 기각되고 H 1은 승인되어야 합니다. 왜냐하면 95%의 확률로, μ > 1.


같은 예에서 실제 표준 편차를 알고 있다고 가정하면 - σ , 그리고 무작위 표본을 사용하여 얻은 추정치가 아니라 주어진 오류에 대해 필요한 n을 계산할 수 있습니다. E=0.5 에 대해 계산해 보겠습니다.


> za2 = qnorm(.975) > (za2*sd(z)/.5)^2 42.08144

바람 보정

사실, 우리가 알게 될 것이라고 믿을 이유가 없습니다. σ (분산) 동안 μ (즉) 우리는 아직 추정하지 않았습니다. 이 때문에 방정식 4는 조합학 분야에서 특별히 세련된 예를 제외하고는 거의 실용적이지 않으며 n에 대한 실제 방정식은 미지수에 대해 다소 더 복잡합니다. σ (레벨 5).



참고 σ 마지막 방정식에서 캡(^)이 아니라 물결표(~)가 있습니다. 이것은 맨 처음에 무작위 표본의 추정된 표준 편차조차 가지고 있지 않고 대신 다음을 사용한다는 사실의 결과입니다. 계획- . 우리는 어디에서 최신 정보를 얻습니까? 전문가 평가, 대략적인 견적, 과거의 경험등.


그리고 5번째 방정식의 우변에 있는 두 번째 항은 어디에서 왔습니까? , Günther의 수정이 필요합니다.


방정식 4와 5 외에도 근사 평가 공식이 몇 가지 더 있지만 이는 이미 별도의 게시물을 올릴 가치가 있습니다.

만약 유형샘플링은 다음을 나타냅니다. 샘플에 사람들이 어떻게 포함됩니까?, 그 다음에용량 샘플 보고서 그들 중 몇 명이 여기에 왔는지.

표본의 크기샘플링 단위 수.

표본(또는 동일한 것인 표본)은 특별한 방법을 사용하여 선택된 일반 모집단의 일부이기 때문에 용량 항상 덜 일반 볼륨 . 따라서 부분이 전체의 아이디어를 왜곡하지 않는 것이 매우 중요합니다. ~였다 대표.

사회학자, 특히 경험적 연구를 수행하는 사람들은 신뢰할 수 있는 정보를 얻기 위해 얼마나 많은 사람들을 인터뷰해야 하는지에 대해 종종 우려합니다. 미국의 Gallup은 전국 표본에 대한 정기 여론 조사를 실시합니다. 1500시간놀라운 정확도를 달성합니다(샘플링 오류 범위는 1~1.5%)1. 센터<Социо-Экспресс>러시아 과학 아카데미 사회학 연구소는 다음 샘플에 대한 연구를 수행합니다. 2000 사람, 샘플링 오류는 3%를 초과하지 않습니다.

7. 대표성- 일반 모집단의 주요 매개변수를 나타내는 표본의 속성 .

일치하는 항목이 없으면 말합니다. 대표성 오류 - 표본의 통계적 구조가 해당 일반 모집단의 구조에서 벗어나는 정도.

일반 인구의 연금 수급자의 평균 월간 가족 수입이 2,000 루블이고 샘플에서 6,000 루블이라고 가정합니다. 이것은 사회학자가 연금 수급자의 부유한 부분만을 인터뷰했고, 대표성 오류가 그의 연구에 스며들었음을 의미합니다. 즉, 대표성 오류는 일반 및 표본의 두 모집단 간의 불일치입니다. 후자는 또한 조사의 대상으로 작용합니다. 일반 인구에 대한 정보를 얻는 수단으로 사용됩니다.

8. 샘플링 오류- 표본 모집단의 평균 특성과 일반 모집단의 평균 특성 편차.

실제로는 비교하여 결정됩니다. 알려진 특성표본 평균이 있는 일반 모집단. 사회학에서 성인 인구 조사는 인구 조사, 현재 통계 기록 및 이전 조사 결과의 데이터를 가장 자주 사용합니다.

J. Gallup Institute의 여론 조사에서 대표성 인구 분포에 대한 국가 인구 조사에서 사용할 수 있는 데이터에 의해 제어됨 ~에

· 두 가구 연립 주택,

· 나이,

· 교육,

· 소득

· 직업,

· 경주,

· 거주지,

· 합의 규모.

전 러시아 연구 센터 여론 (VCIOM)는 다음과 같은 지표를 사용합니다.



· 바닥,

· 나이,

· 교육,

· 결제 유형,

· 결혼 상태,

· 고용 영역,

· 응답자의 직업 상태,

누가 빌리다 국가 위원회러시아 통계에 따르면. 두 경우 모두 인구가 알려져 있습니다. 표본 및 모집단의 변수 값을 알 수 없는 경우 표본 오류를 설정할 수 없습니다.

샘플링 오류두 가지 유형으로 나뉩니다 - 무작위의그리고 체계적인.

무작위 오류- 이것은 샘플링 방법 자체에 내재된 통계적 오류.표본 크기가 증가하면 감소합니다.

체계적인 오류연구원의 활동 결과; 표본 관찰 분포의 통제되지 않은 편향으로 인해 발생합니다. 의도적 샘플링 편향

예를 들어, 사회학자가 의견을 얻기로 결정한 경우 모두 진행중인 지방 당국에 대한 도시 거주자 사회 정책, 그리고 전화가 있는 사람들만 인터뷰했다면 부유층, 즉 부유층에 유리한 표본에 의도적인 편견이 있습니다. 계통오차.

체계적인 오류다음과 같은 경우에 발생합니다.

1) 샘플이 연구의 목적을 충족하지 못합니다(사회학자는 일하는 연금 수급자만을 연구하기로 결정했지만 모든 사람을 연속적으로 인터뷰했습니다).

2) 일반 인구의 본질에 대한 무지(사회학자는 모든 연금 수급자의 70%가 일을 하지 않는다고 생각했고 10%만이 실업자로 판명되었습니다);

3) 일반 인구의 "승리" 요소만 선택됩니다(예: 부유한 연금 수급자만). 연구자가 체계적인 오류의 결과를 평가하는 것은 쉬운 일이 아닙니다.

피하기 위해 대표성 오류:

1) 일반의 각 단위 모집단은 표본에 포함될 확률이 동일해야 합니다.

2) 동질 집단에서 선택하는 것이 바람직합니다.

3) 일반 인구의 특성을 알아야 합니다.

4) 표본 모집단을 컴파일할 때 무작위 및 시스템 오류를 고려해야 합니다.

표본(또는 표본만)이 올바르게 설계된 경우 사회학자는 전체 모집단을 특징짓는 신뢰할 수 있는 결과를 얻습니다. 틀리면 표본을 구성하는 단계에서 발생한 오류는 사회학적 연구의 다음 단계로 갈수록 증가하여 결국 연구의 가치를 떨어뜨리는 그런 값에 도달하게 된다.

사회 측정 조사 초기 데이터의 성격, 제시 방법, 조사 절차 및 수집된 정보를 분석하는 방법 면에서 다른 유형의 사회학적 조사와 크게 다릅니다. 이러한 유형의 설문조사에서 측정 결과는 응답자의 특성이 아니라 응답자 간의 관계입니다. 방법 사회 측정소그룹에서 대인 관계를 탐구합니다. 모레노가 정의한 사회 측정은 다음 세 가지 중 하나입니다. 구성 부품사회학 - 사회 법칙의 과학이며 측정의 과학입니다. 대인 관계. 좁은 의미에서 사회 측정 방법은 하나 또는 다른 기준에 따라 그룹 구성원이 선택한 선택을 연구하여 소그룹의 대인 관계 구조를 연구하는 방법으로 이해됩니다.

설문 조사 방법은 사회 학자가 발명 한 것이 아니라 의사, 변호사, 언론인, 교사 등이 적극적으로 사용합니다. 사회학에서 오랜 전통을 가지고 있습니다. 설문 조사의 특이성은 주로 설문 조사가 사용될 때 주요 사회 학적 정보의 출처가 사람 (응답자)이라는 사실에 있습니다. 사회 현상. 설문조사의 장점은 다음과 같습니다. b) 다양한 정보를 얻을 가능성; c) 많은 사람들에게 다가갈 가능성 d) 사회적 실천의 다양한 영역에 대한 광범위한 적용 범위. 그리고 불완전성은 응답자의 사회적 사실에 대한 주관적 인식과 평가로 인한 정보 왜곡 가능성에 있다.

수신된 1차 사회학적 정보가 능동적으로 서비스되기 시작하려면 처리, 일반화, 분석 및 과학적으로 해석되어야 합니다. 이러한 절차를 거친 후에야 결론을 공식화하고 실용적인 조언사회 학적 정보를 실천할 수 있습니다.

정보 처리는 수동으로 또는 컴퓨터의 도움으로 수행되며 그 결과는 사회 학적 데이터입니다. 숫자 및 백분율 용어로 질문에 대한 답변 지표. 정보는 질문에 답한 사람들을 그룹화하고 일련의 배포판(표의 도움 포함)을 통해 요약됩니다. 데이터의 분석 및 해석은 수신된 정보의 이론적 처리의 틀 내에서 수행되며 사회학자의 전문성, 가설에 직접적으로 의존하며, 그 검증이 우선적으로 수행됩니다.

작업 결과는 사무실 문서: 보고서, 보고서 부록 및 결론 및 권장 사항이 포함된 분석 보고서.

사회 학적 연구 결과의 사용은 연구의 관련성에 달려 있습니다. 사회 문제, 수집된 정보의 신뢰성과 이에 대한 사회의 관심 분석.

관찰-

실제로, 표본 크기에 대한 결정은 조사 결과의 정확성에 대한 가정과 실제 구현 가능성(즉, 조사 수행 비용을 기반으로 함) 사이의 절충안입니다.

실제로 표본 크기를 결정하기 위해 여러 접근 방식이 사용됩니다. 그 중 가장 간단한 것을 살펴 보겠습니다. 첫 번째는 무작위 접근 방식이라고 하며 "경험 법칙"의 적용을 기반으로 합니다.

예를 들어 정확한 결과를 얻으려면 표본이 모집단의 5%여야 한다는 증거 없이 가정합니다. 이 접근 방식은 실행이 간단하고 저렴하며 정확한 결과를 얻을 수 없습니다. 그 장점은 비용이 상대적으로 저렴하다는 것입니다. 두 번째 접근 방식에 따르면 샘플 크기는 미리 결정된 조건에 따라 설정될 수 있습니다. 예를 들어, 마케팅 조사 클라이언트는 여론 조사에서 일반적으로 1,000~1,200명의 표본 크기가 사용된다는 것을 알고 있으므로 연구원에게 이 수치를 고수할 것을 권장합니다.

세 번째 접근 방식은 경우에 따라 표본 크기를 결정하는 주요 인수가 설문 조사를 수행하는 비용일 수 있음을 의미합니다. 수신 된 정보의 가치와 신뢰성은 고려되지 않지만.

네 번째 접근법의 경우 표본 크기는 통계 분석을 기반으로 결정됩니다. 이 접근 방식에는 결과의 신뢰성과 신뢰성에 대한 요구 사항을 고려하여 최소 샘플 크기를 결정하는 작업이 포함됩니다.

다섯 번째 접근 방식은 표본 크기를 결정할 때 가장 이론적으로 입증되고 정확한 접근 방식으로 간주됩니다. 이는 신뢰 구간의 계산을 기반으로 합니다.

신뢰 구간은 범위 극점질문에 대한 특정 답변의 비율을 나타냅니다. 이 개념반죽은 "평균 표준 편차일반 인구의 결과 특성. 예를 들어 응답의 9.5%를 포함하려면 신뢰 구간이 클수록 더 넓어야 합니다.

정규 분포 곡선의 속성에서 예를 들어 9.5%와 같은 신뢰 구간의 끝점은 1.96(정규화 편차)과 표준 편차의 곱으로 정의됩니다.

숫자 1.96과 2.58(99% 신뢰 구간의 경우)은 z로 표시됩니다.

다양한 신뢰 구간에 대한 z 값을 결정할 수 있는 "확률 적분 값" 테이블이 있습니다. 95% 또는 99%와 같은 신뢰 구간은 마케팅 연구의 표준입니다.

예를 들어, 자동차 소유자의 연간 서비스 매장 방문 횟수에 대한 연구가 수행되었습니다. 평균 방문 횟수에 대한 신뢰 구간은 99% 신뢰 수준에서 5-7회 방문으로 계산되었습니다. 즉, 100개의 표본 연구를 독립적으로 수행할 수 있게 되면 99개의 표본 연구에 대해 평균 방문 횟수가 5-7회 방문 범위에 속하게 됩니다. 즉, 자동차 소유자의 99%가 신뢰 구간에 속합니다. .

최대 50개의 독립적인 표본에 대해 연구가 수행되었다고 가정합니다. 이 표본에 대한 평균 추정값은 정규 분포 곡선을 형성했으며, 이를 정규 분포 곡선이라고 합니다. 선택적 배포.

전체 모집단에 대한 평균 추정치는 분포 곡선의 평균 추정치와 같습니다. "선택적 분포"의 개념도 기본 개념 중 하나로 간주됩니다 이론적 개념, V 샘플의 정의를 기반으로 합니다.

당연히 어떤 회사도 10, 20, 50개의 독립적인 샘플을 만들 수 없습니다. 일반적으로 하나의 샘플만 사용됩니다.

수학적 통계를 사용하면 단일 표본의 변동에 대한 정확한 데이터가 있는 표본 분포에 대한 일부 정보를 얻을 수 있습니다.

일반적인 표본에 대해 예상되는 전체 모집단에 대해 참인 추정치의 차이 정도를 나타내는 지표는 다음과 같습니다. 제곱 평균 제곱근 오차. 예를 들어, 우리는 신제품과 고객에 대한 소비자의 의견을 연구합니다. 이 연구플러스 또는 마이너스 5%에 해당하는 얻은 결과의 정확도에 만족할 것이라고 말했습니다.

샘플 구성원의 30%가 새 제품에 찬성한다고 가정합니다. 이것은 전체 인구에 대한 가능한 추정 범위가 25-35%라는 것을 의미합니다. 또한 표본 크기가 클수록 오류가 작아집니다. 높은 변동 값은 높은 오류 값을 유발하고 그 반대의 경우도 마찬가지입니다.

신뢰 구간의 계산을 기반으로 표본 크기를 결정합시다. 이 접근 방식을 구현하는 데 필요한 초기 정보는 다음과 같습니다.

  • 모집단이 가지고 있다고 믿어지는 변동의 양;
  • 원하는 정확도
  • · 설문조사 결과가 만족해야 하는 신뢰 수준.

켜졌을 때 질문백분율로 표시되는 답변은 두 개뿐이며(백분율 측정이 사용됨) 샘플 크기는 다음 공식에 의해 결정됩니다.

여기서 n은 샘플 크기입니다.

z는 선택한 신뢰 수준을 기반으로 결정된 정규화된 편차입니다(표 7).

p는 표본에 대해 발견된 변동입니다.

q = (100-p);

e는 허용 가능한 오류입니다.

표 7

평균에서 z 점수의 정규화된 편차 값

얻은 결과의 신뢰 수준 (a)에 따라

예를 들어, 한 타이어 제조업체가 래디얼 타이어를 사용하는 자동차 애호가를 대상으로 설문조사를 수행합니다.

따라서 "레이디얼 타이어를 사용합니까?"라는 질문에 "예" 또는 "아니오"의 2가지 대답만 가능합니다. 자동차 애호가의 인구 변화율이 낮다고 가정하면 설문 조사에 참여한 거의 모든 사람들이 래디얼 타이어를 사용한다는 의미입니다. 에 이 경우충분히 작은 크기의 샘플을 형성할 수 있습니다. 식 (1)에서 곱 pg는 모집단 고유의 변동을 나타냅니다. 예를 들어 인구 단위의 90%가 레이디얼 타이어를 사용한다고 가정합니다. 이는 pg = 900을 의미합니다. 변동 지수가 더 높다고(p = 70%), pg = 2100입니다. 가장 큰 변동은 인구의 절반(50%)이 레이디얼 타이어를 사용하는 반면 다른 사람들은 래디얼 타이어를 사용할 때 달성됩니다. 하지 마라. 이 경우 제품의 값은 2500에 도달합니다.

설문 조사를 수행 할 때 얻은 추정치의 정확성을 나타내는 것이 중요합니다. 예를 들어, 응답자의 44%가 래디얼 타이어를 사용하는 것으로 나타났습니다. 측정 결과는 다음과 같이 표시되어야 합니다. 래디얼 타이어를 사용하는 운전자의 비율은 44 ± e%입니다. 허용 오차의 값은 연구의 고객과 계약자가 사전에 공동으로 결정합니다.

마케팅 조사에 대한 신뢰 수준은 일반적으로 95% 또는 99%의 두 가지 값을 기준으로 평가됩니다. 첫 번째 값은 z = 1.96 값에 해당합니다. 두 번째 - z = 2.58. 99%의 신뢰 수준이 선택되면 이는 다음을 나타냅니다. 플러스 - 마이너스 e% 범위에 속하는 인구 구성원의 비율이 다음과 같다는 99% 확신(즉, 신뢰 확률은 0.99) 동일한 오차 범위에 속하는 표본 구성원의 백분율과 같습니다. 50%의 변동, 95% 신뢰 수준에서 10%의 정확도를 취하여 표본 크기를 계산합니다.

n = 1.962(50 x 50) / 102 = 96

99%의 신뢰 수준, e = ±3%, n = 1067입니다.

특정 인구에 대한 변동 지표를 결정할 때 연구 중인 인구에 대한 예비 정성 분석을 수행하고 인구 통계학적, 사회적 및 기타 연구원의 관심 측면에서 인구 단위의 유사성을 설정하는 것이 좋습니다. 백분율이 아닌 평균을 사용하여 표본 크기를 결정할 수 있습니다. 95%의 신뢰 수준(z = 1.96,)이 선택되었다고 가정하고 평균 표준 편차(S) 계산되고 100과 같으며 원하는 정확도(오차)는 ±10입니다. 그러면 샘플 크기는

실제로는 표본이 새로 형성되고 유사한 조사가 수행되지 않은 경우 S는 알 수 없습니다.

이 경우 오차 e를 표준편차의 분수로 지정하는 것이 좋습니다. 계산 공식이 변환되어 다음 형식을 취합니다.

우리는 주로 집계에 대해 이야기했습니다. 큰 크기소비재 시장의 특징. 그러나 어떤 경우에는, 예를 들어 특정 유형의 공산품 시장에서 집계가 그렇게 크지 않습니다.

일반적으로 표본이 모집단의 5% 미만이면 모집단이 큰 것으로 간주되고 위의 규칙에 따라 계산이 수행됩니다.

표본의 V가 모집단의 5%를 초과하면 후자는 작은 것으로 간주되고 수정 계수가 위 공식에 도입됩니다. 이 경우 표본 크기는 다음과 같이 결정됩니다.

여기서 n1은 소규모 모집단의 표본 크기이고,

n은 위의 공식을 사용하여 계산된 표본 크기(백분율 측정 또는 평균)입니다.

N은 일반 인구의 부피입니다.

예를 들어, 톰스크 시 내에 화학 공장 건설에 관한 1000개 회사의 구성원들의 의견이 연구되고 있습니다. 변동에 대한 정보가 없기 때문에 최악의 경우를 50:50으로 가정합니다. 연구원은 95%의 신뢰 수준을 사용하기로 결정했습니다. 연구의 고객은 결과의 정확도에 ±5% 정도 만족할 것이라고 말했습니다. 이 경우 백분율 측정값에 대해 다음 공식이 사용됩니다.

특정 유보와 함께 V 샘플 형성에 대한 이러한 접근 방식은 패널 및 전문가 그룹의 크기를 계산할 때도 사용할 수 있습니다.

표본 계산을 위해 주어진 공식은 표본 추출에 대한 모든 규칙이 준수되었다는 가정을 기반으로 하며 유일한 오류는 크기로 인한 오류입니다.

"마케팅 연구" 책의 한 장

  • 심리학: 성격과 비즈니스

가장 정확한 통계 분석사회적 과정은 각각의 징후에 대한 정보를 제공합니다. 또는 통계적 용어로, 완전한 분석전체 인구의 각 단위에 대한 속성 값이 고려되는 경우에만 가능합니다. 이러한 분석의 예는 일반 인구 조사입니다.

그러나 사회 현상의 대중적 본성은 종종 그것을 연구하는 것이 불가능함을 수반한다. 전부, 즉. 모든 표현에서. 통계 과학에서는 현상의 일부만 연구하고 결과와 결론을 전체 현상으로 바꾸는 특별한 방법이 개발되었습니다. 이 방법을 "선택적 관찰"이라고 합니다. 선택적 관찰 방법의 기초는 사회 현상에 존재하는 개인과 일반, 부분과 전체의 관계입니다.

통계 모집단의 연구된 부분을 표본이라고 하며, 그 부피를 구성하는 단위의 수는 일반적으로 n으로 표시됩니다. 전체 인구를 일반 인구라고하며 일반 인구의 크기는 일반적으로 N으로 표시됩니다.

선택적 관찰을 사용하는 데에는 여러 가지 이유가 있습니다.

— 시간 자원 부족(조사를 수행하고 수신된 많은 양의 데이터를 분석하기 위해);

— 인적 자원의 부족, i.е. 관찰 및 분석을 위한 자격을 갖춘 전문가

— 물질적 자원의 부족, i.е. 너무 비싼 관찰;

- 관찰 결과 파괴와 관련하여 인구의 모든 단위를 설명하는 실제 불가능 (예 : 종자 배치의 발아, 전등 연소 기간 등을 조사하는 경우) ;

— 인구의 각 단위를 관찰하는 실제적인 비효율성(예: 해당 지역의 인구에 의한 식품 소비 수준 결정 등)

선택적 관찰의 기본 원칙은 무작위화의 원칙입니다(영어 무작위 - 사례). 표본 모집단에서 가능한 한 단위의 평등을 결정하는 모집단 단위 선택의 무작위성의 원칙. 단위를 체계적으로 선택하는 경우에도 이 원칙을 준수해야 합니다.

일반 인구에 대한 불완전한 조사의 결과로 관찰 오류, 즉 대표성 오류가 발생할 수 있습니다. 따라서 연구원의 주요 임무는 첫째, 표본의 대표성(대표성)을 보장하고, 두 번째로 표본과 일반 모집단의 매개변수의 일치성에 대한 신뢰 정도를 결정하는 것입니다.

모집단 단위를 선택하는 방법을 결정하는 것은 샘플링의 중요한 부분입니다. 인구 단위를 선택하는 방법에는 여러 가지가 있으며 모두 세 그룹으로 나타낼 수 있습니다(그림 1 참조).


쌀. 1 인구 단위 선택 방법

적절한 무작위 선택은 계획이나 시스템 없이 모집단 단위를 선택하는 것입니다. 제비를 뽑거나 난수 표를 사용하여 수행할 수 있습니다. 적용시 이 방법선택의 경우 무작위화의 원칙이 충족되었는지 확인해야 합니다.

일반 인구 구조의 예비 할당을 사용한 선택은 그룹으로 분포된 구조화된 인구)가 조사되는 경우 사용됩니다. 연속 샘플링은 모든 그룹 중에서 완전한 조사가 수행되는 하나의 단위 그룹을 선택하는 것을 포함합니다. 구역 선택은 일반 인구 단위의 영토 제휴를 고려하여 샘플 인구의 경계를 결정하는 것입니다. 기계적 선택은 각 단위에 별도의 번호가 할당된 모집단에 적용되며 선택은 단위 수에 비례하여 수행됩니다(예: 매 10단위 등).

단계적 샘플링 관찰의 경우 단계적 또는 혼합 선택이 사용됩니다. 다양한 옵션단위 선택.

직렬 선택 - 일반 모집단에서 개별 단위가 아닌 전체 시리즈, 그룹을 선택한 다음 표본에 포함된 각 시리즈에서 예외 없이 모든 단위를 조사합니다. 예를 들어, 작업자는 팀에서 선택합니다.

결합 선택 - 일반 인구를 동일한 그룹으로 나눈 다음 그룹을 선택하여 개별 단위를 선택합니다.

전형적인 선택
- 일반 인구는 실제로 무작위 또는 기계적으로단위가 선택됩니다.

일반적인 선택은 다른 방법에 비해 가장 정확한 결과를 제공하기 때문입니다. 표본의 대표성을 보장합니다. 예를 들어, 작업자는 기술 그룹으로 나뉩니다.

선택적 관찰의 구현을 진행하기 전에 대표성을 보장하고 결과적으로 연구 결과의 신뢰성을 보장하는 표본 모집단의 단위 수를 결정하는 것이 필요합니다.

실제로 선택적 관찰을 구현하기 위해 연구자는 다음을 설정합니다.

- 연구의 정확성 정도(확률);

는 한계 오차, 즉 연구의 목적에 따라 결정된 편차 간격.

이러한 기준에 따라 필요한 표본 크기(n)는 한계 표본 오차 공식을 기반으로 계산됩니다.

표본의 지표와 일반 ​​모집단의 차이를
샘플링 오류.
표본오차는 등록오류와 대표성오류로 나뉜다.

등록 오류부정확하거나 부정확한 정보로 인해 발생합니다. 이러한 오류의 원인은 문제의 본질에 대한 이해 부족, 등록 대행자의 부주의, 인구의 특정 단위 누락 또는 반복 계산, 양식 작성 시 오타 등이 있습니다.

등록 오류에는 다음이 포함됩니다. 체계적인,한 방향으로 작용하고 작업 결과를 왜곡하는 원인(예: 반올림 수, 완전한 5, 십, 수백 등으로의 중력) 및 무작위로 인해 다른 방향으로 나타나며 서로 균형을 이루며 가끔씩만 주목할만한 요약.

대표성 오류체계적이고 무작위적일 수도 있습니다. 체계적 대표성 오류는 과학적으로 조직된 샘플링의 기본 원칙인 무작위성의 원칙을 위반하는 부정확하고 편향된 단위 선택으로 인해 발생합니다. 무작위 대표성 오류는 단위의 무작위 선택 원칙에도 불구하고 표본의 특성과 일반 모집단 사이에 여전히 불일치가 있음을 의미합니다. 대표성의 무작위 오차에 대한 연구 및 측정은 샘플링 방법의 주요 작업입니다.

한계 표본 오차는 평균 값()과 몫(w)에 대해 결정되므로 필요한 표본 크기를 결정하기 위한 두 가지 옵션이 있습니다.

a) 재선택:


b) 비반복 선택의 경우:


선택적 관찰을 위한 프로그램을 개발할 때 허용 가능한 샘플링 오류 값과 신뢰 수준을 즉시 설정합니다. 표본 크기(n)를 결정하기 위한 공식의 필수 정확도를 제공해야 하는 최소 표본 크기는 선택 방법에 따라 알 수 없습니다.

나는 =

여기서 n i는 I - 번째 그룹의 샘플 크기입니다.

N은 총 표본 크기입니다.

N i는 i 번째 그룹의 부피입니다.

N은 일반 인구의 부피입니다.

연습 1

표본조사 결과 임금산업체 직원 60명이 다음 데이터를 받았습니다(표 1).

결과 속성에 따라 분포의 간격 계열을 작성하여 동일한 간격으로 5개의 그룹을 형성합니다.

변동의 주요 지표(산포, 표준 편차, 변동 계수), 평균 검정력 값(특징의 평균 값) 및 구조적 평균을 결정합니다. a) 히스토그램; b) 누적 c) 도를 준다. 결론을 내리십시오.

해결책

1. 다음 공식에 따라 서비스 기간에 따라 성과 지표에 따라 변동 범위를 결정합니다.

R \u003d Xmax - Xmin \u003d 36 - 5 \u003d 31

여기서 Хmax – 최대 크기자산

Xmin - 자산의 최소 금액

2. 간격 값 결정

나는 \u003d R / n \u003d 31/5 \u003d 6.2

얻은 간격 값을 고려하여 은행을 그룹화하고

3. 보조 테이블을 만들어보자

기능 그룹

그룹에서 가치의 의미

엑스 나

수량 특징 빈도(주파수)

파이

전체의 %

ω

누적 주파수

간격 중간점

* f 나는

ω


5 – 11,2

6,8,7,5,8,6,10,9,9,6,66,9,10,7,9,10,10,11,89,8,7,6,6,10

43,3

43,3

210,6

350,73

44,89

1167,14

II

11,2 – 17,4

16,15,13,12,17,14, 14, 12,14,17,13,15,17, 14

23,3

66,6

14,3

200,2

333,19

0,25

III

17,4 – 23,6

18,21,20, 21,18, 19,22,21,21,21,18, 19

20,0

86,6

20,5

410,0

32,49

389,88

IV

23,6 –29,8

28,29,25,28, 24

26,7

133,5

221,61

11,9

141,61

708,05

V

29,8 – 36

36,35,33

32,9

98,7

164,5

18,1

327,61

982,83

1480,03

546,85

3251,4

4. 연구 인구에서 속성의 평균 값은 가중 산술 공식에 의해 결정됩니다.

올해의

5. 피처의 산포와 표준편차는 공식에 의해 결정됩니다.



변동성의 정의


따라서 V>33.3%, 따라서 모집단은 이질적입니다.

6. 패션의 정의

모드는 연구된 모집단에서 가장 자주 발생하는 특징의 값입니다. 연구된 간격 변동 시리즈에서 모드는 다음 공식으로 계산됩니다.


어디

x M0
– 모달 간격의 하한:

나는 M0모달 간격의 값입니다.

f M0-1 f M0 f M0+1는 각각 모달, 프리모달 및 포스트모달 간격의 주파수(주파수)입니다.

모달 구간은 주파수(주파수)가 가장 높은 구간입니다. 우리 문제에서는 이것이 첫 번째 간격입니다.


7. 중앙값을 계산합니다.

중앙값은 정렬된 중간에 위치한 변형입니다. 변형 시리즈, 인구 단위의 절반이 중앙값보다 작고 절반이 중앙값보다 큰 특성 값을 갖도록 두 개의 동일한 부분으로 나눕니다.

구간 시리즈에서 중앙값은 다음 공식에 의해 결정됩니다.


여기서 중앙값 간격의 시작 부분입니다.

- 중앙값 간격의 값

중간 간격의 빈도입니다.

중위수 이전 구간에서 누적된 빈도의 합입니다.

중위수 구간은 중위수 서수가 위치한 구간입니다. 그것을 결정하기 위해서는 전체의 절반을 초과하는 숫자까지 누적된 주파수의 합을 계산할 필요가 있습니다.

Gr에 따르면 5 보조 테이블 우리는 간격을 찾을 수 있으며, 누적 금액은 종종 50%를 초과합니다. 이것은 11.6에서 18.4까지의 두 번째 간격이며 중앙값입니다.

그 다음에


따라서 경력이 12,971년 미만인 근로자의 절반과 이 값보다 많은 근로자가 절반입니다.

6. 다각형, 히스토그램, 누적 직선, 오기 등의 형태로 시리즈를 그립니다.

그래프 표현은 통계 데이터를 간단하고 시각적인 형태로 분석할 수 있기 때문에 변이 계열 연구에서 중요한 역할을 합니다.

시리즈(히스토그램, 폴리곤, 누적, ogive)를 그래픽으로 표현하는 방법에는 여러 가지가 있으며, 선택은 연구 목적과 변형 시리즈 유형에 따라 다릅니다.

분포 다각형은 주로 이미지에 사용됩니다. 이산 시리즈하지만 간격 시리즈, 먼저 출산에 가져 가면. 분포 폴리곤은 닫힌 폴리라인입니다. 직사각형 시스템좌표(x i , q i)가 있는 좌표, 여기서 x i는 i번째 피쳐의 값이고, q i는 i-ro 피쳐의 빈도 또는 빈도입니다.

분포 히스토그램은 간격 시리즈를 표시하는 데 사용됩니다. 수평 축에 히스토그램을 작성하려면 기호의 간격과 동일한 세그먼트를 연속적으로 배치하고 밑면과 마찬가지로 이러한 세그먼트에 직사각형이 만들어지며 높이는 시리즈의 빈도 또는 세부 사항과 같습니다. 등간격, 밀도; 간격이 같지 않은 계열의 경우.


누적은 누적된 빈도나 세부 사항을 세로축에, 기능의 값을 가로축에 그릴 때 변이 계열을 그래픽으로 표현한 것입니다. 누적은 이산 및 간격 변동 시리즈의 그래픽 표현에 사용됩니다.


결론 : 따라서 연구 된 시리즈의 변형에 대한 주요 지표가 계산되었습니다. 속성의 평균 값-직업 경험은 14.8 년, 분산은 54.19와 동일하게 계산되며 속성의 표준 편차는 7.36입니다. 모드의 값은 9.5이며 모달 간격은 연구된 시리즈의 첫 번째 간격입니다. 시리즈의 중앙값은 12.971과 같으며 시리즈를 두 개의 동일한 부분으로 나눕니다. 이는 연구 중인 조직에서 직원의 절반이 12.971년 미만의 경력을 갖고 있고 나머지 절반은 그 이상임을 나타냅니다.

작업 2

2000-2004년의 역동성을 특징짓는 다음과 같은 초기 데이터가 있습니다. (표 2). 일련의 역학의 주요 지표를 계산하십시오. 계산을 표 형식으로 제시하십시오. 지표의 평균 연간 가치를 계산하십시오. 그래픽 이미지 - 다각형의 형태로 분석된 지표의 역학을 나타냅니다. 결론을 내리십시오.

표 2 초기 ​​데이터

년도

2000

2001

2002

2003

2004

해결책

1) 평균 수준역학은 공식에 의해 계산됩니다


2) 체인 및 기본 성장률을 다음과 같이 계산합니다.

1. 절대 성장은 다음 공식에 의해 결정됩니다.

ab = yi – y0

Aic \u003d yi - yi-1

2. 성장률은 다음 공식에 의해 결정됩니다. (%)

Trb = (yi / y0) *100

Trc \u003d (yi / yi-1) * 100

3. 성장률은 다음 공식에 의해 결정됩니다. (%)

Tnrb \u003d Trb -100%:

Тnрц = Трц - 100%

4. 평균 절대 성장:


니 엔
동적 계열의 최종 수준입니다.

0 0
- 동적 계열의 초기 수준;

체크 안함
체인 절대 증분 수입니다.

5. 연평균 성장률:


6. 연평균 성장률:


3) 절대 함량 1% 증가:

A \u003d Xi-1 / 100.

계산된 모든 지표는 표에 요약되어 있습니다.

지표

연령

2000

2001

2002

2003

2004

기업의 평균 직원 수

2. 절대적 성장

아이크

3. 성장률

트리브

81,25

50,0

62,5

56,25

트리츠

81,25

61,54

125,0

90,0

4. 성장률

티피브

18,75

50,0

37,5

53,75

티핏

18,75

38,46

25,0

10,0

5. 1% 증가의 의미

0,65

7. 다각형으로 그래픽으로 그립니다.


따라서 다음이 얻어진다. 최고 가치기업의 평균 직원 수는 기준 연도 2000년에 기록됩니다. 기업 직원 수의 평균 수준은 56명이며 평균 절대 증가는 음수 값을 가지며 8.75와 같습니다. 연평균 성장률은 75%입니다. 시리즈의 부정적인 역학으로 인해 평균 연간 성장률은 -25%입니다. 기준연도인 2000년과 비교하여 직원 수의 최대 감소는 2002년에 관찰되었으며 -40명과 같습니다(50% 증가율). 2003년 체인 성장은 플러스 값(+10명, 체인 성장률 125%)을 가지며 2004년에는 직원 수의 감소가 계속되었습니다.

작업 3

상품 판매에 대한 데이터가 있습니다(표 3 참조).

표 3 상품 판매 초기 데이터

제품

기준 연도

보고 연도

수량

가격

수량

가격

1200

1300

1100

1000

결정: a) 개별 지수( 나는 피, 나는 q); b) 복합 지수(I p , I q , I pq) c) 다음으로 인한 무역의 절대적 변화: 1) 상품의 수량; 2) 가격 변동. 문제 해결에 대한 결론을 내립니다.

해결책

보조 테이블을 생성하자

보다

기준 기간

보고 기간

일하다

지수

수량, q 0

가격, p 0

수량, 수량 1

가격, 1페이지

q 0 * p 0

q 1 * p 1

q 1 * p 0

나는 q \u003d q 1 / q 0

나는 p \u003d p 1 / p 0

49140

54780

51480

1,048

1,064

61320

54780

67200

1,096

0,941

62400

56700

50400

0,808

1,125

1848

2432

2128

1,152

1,143

1200

1300

90000

106600

97500

1,0833

1,093

1100

1000

92400

88000

84000

0,909

1,077

357108

363292

352708


결론: 보시다시피, 연간 총 회전율 증가는 6184 기존 단위에 달했습니다. 여기에는 -4400까지 판매된 상품 수량 변경의 영향과 상품 가격 변경으로 인해 10584 기존 단위 증가가 포함됩니다. 단위. 무역 회전율의 총 증가는 101.7%에 달했습니다. 동시에 일반적으로 판매되는 상품의 가격은 103% 증가한 반면 판매량은 1.1% 감소했습니다.

작업 4

표 1의 초기 데이터에서 (14에서 23까지의 선을 선택하고 상관 관계 및 회귀 분석을 수행하고 상관 관계 및 결정의 매개 변수를 결정하십시오. 두 기호 (유효 및 요인) 간의 상관 관계 그래프를 작성하십시오. 결론을 도출하십시오. .

해결책

초기 데이터

생산 경험

샐러리

1800

2500

1750

1580

1750

1560

1210

1160

1355

1480

직선 종속성

방정식 매개변수는 방법에 의해 결정됩니다. 최소제곱, 정규 방정식 시스템에 따라


시스템을 풀기 위해 우리는 행렬식 방법을 사용합니다.

매개변수는 공식으로 계산됩니다.


엑스

와이

잘 설계된 연구의 주요 구성 요소 중 하나는 표본의 정의와 대표 표본의 정의입니다. 케이크의 예와 같습니다. 결국, 그 맛을 이해하기 위해 전체 디저트를 먹을 필요가 없습니까? 작은 부분이면 충분합니다.

그래서 케이크는 인구 (즉, 설문조사에 자격이 있는 모든 응답자). 예를 들어 모스크바 지역 거주자 만 영토로 표현할 수 있습니다. 성별 - 여성만. 또는 연령 제한이 있습니다. 러시아인은 65세 이상입니다.

인구를 계산하기가 어렵습니다. 인구 조사 또는 예비 평가 설문 조사의 데이터가 필요합니다. 따라서 일반적으로 일반 인구는 "추정"되며 결과 숫자에서 계산합니다. 샘플링 프레임또는 견본 추출.

대표적인 표본이란?

견본잘 정의된 응답자 수입니다. 그 구조는 선택의 주요 특성 측면에서 일반 인구의 구조와 가능한 한 일치해야합니다.

예를 들어, 잠재적 응답자가 러시아 전체 인구(54%가 여성이고 46%가 남성인 경우)인 경우 표본에는 정확히 동일한 비율이 포함되어야 합니다. 매개 변수가 일치하면 샘플을 대표라고 할 수 있습니다. 이는 연구의 부정확성과 오류가 최소화됨을 의미합니다.

표본 크기는 정확성과 경제성을 고려하여 결정됩니다. 이러한 요구 사항은 서로 반비례합니다. 샘플 크기가 클수록 결과가 더 정확합니다. 또한 정확도가 높을수록 연구에 더 많은 비용이 필요합니다. 그리고 그 반대의 경우도 마찬가지입니다. 표본이 작을수록 비용이 적게 들수록 일반 모집단의 특성이 덜 정확하고 더 무작위로 재현됩니다.

따라서 선택의 양을 계산하기 위해 사회학자들은 공식을 발명하고 특수 계산기:

신뢰 확률그리고 신뢰 오류

"라는 용어는 무엇을 의미합니까? 신뢰 수준" 그리고 " 신뢰 오류"? 신뢰 수준은 측정 정확도의 척도입니다. 신뢰 오류는 연구 결과의 가능한 오류입니다. 예를 들어, 일반 인구가 500,000명 이상인 경우(예: Novokuznetsk에 거주) 표본은 95%의 신뢰 수준과 5%의 오류가 있는 384명입니다. 신뢰 구간 95±5%).

이것으로부터 다음은 무엇입니까? 이러한 표본(384명)으로 100건의 연구를 수행할 때 95%의 경우 통계법에 따라 받은 답변이 원본의 ± 5% 이내가 됩니다. 그리고 우리는 최소한의 통계적 오류 확률로 대표 표본을 얻을 것입니다.

표본 크기 계산이 완료되면 설문지 패널의 데모 버전에서 충분한 응답자가 있는지 확인할 수 있습니다. 패널 설문조사를 수행하는 방법에 대해 자세히 알아볼 수 있습니다.