Como calcular corretamente o tamanho da amostra?  População geral e método de amostragem

Como calcular corretamente o tamanho da amostra? População geral e método de amostragem

A estatística sabe tudo. E Ilf e E. Petrov, "12 Cadeiras"

Imagine que você está construindo um grande Shopping e deseja avaliar o fluxo de tráfego da entrada da área de estacionamento. Não, vamos dar outro exemplo… eles nunca vão fazer isso de qualquer maneira. Você precisa avaliar as preferências de gosto dos visitantes do seu portal, para o que precisa realizar uma pesquisa entre eles. Como vincular a quantidade de dados e o possível erro? Nada complicado - quanto maior sua amostra, menor o erro. No entanto, existem nuances aqui também.

mínimo teórico

Não será supérfluo refrescar nossa memória, esses termos serão úteis para nós mais tarde.

  • população- O conjunto de todos os objetos entre os quais a pesquisa está sendo realizada.
  • Amostra– Um subconjunto, uma parte de objetos de toda a população que está diretamente envolvida no estudo.
  • erro tipo I- (α) Probabilidade de rejeitar a hipótese nula enquanto ela for verdadeira.
  • erro tipo II- (β) Probabilidade não rejeitar a hipótese nula quando ela for falsa.
  • 1-β- Poder estatístico do critério.
  • μ 0 e μ 1- Valores médios nas hipóteses nula e alternativa.


Já nas próprias definições de erro de primeira e segunda espécie há espaço para debate e interpretação. Como decidir sobre eles e qual escolher como zero? Se você está examinando o nível de poluição no solo ou na água, como formularia a hipótese nula: há poluição ou não há poluição? Mas a partir disso tamanho da amostra depende da população geral de objetos.



Inicial população, assim como amostra pode ter qualquer distribuição, mas a média tem normal ou distribuição gaussiana graças ao Teorema do Limite Central.


Com relação aos parâmetros de distribuição e à média em particular, vários tipos de inferências são possíveis. Primeiro do qual é chamado intervalo de confiança. Indica a faixa de valores possíveis para o parâmetro, com o especificado fator de confiança. Então, por exemplo, 100(1-α)% intervalo de confiança por μ será assim (Lv. 1).




Segundo da inferência testando hipóteses. Pode ser algo assim.

  • H 0: μ = h
  • H 1: µ > h
  • H2: μ< h

A PARTIR DE intervalo de confiança 100(1-α) para μ você pode fazer uma escolha em favor de H 1 e H 2:

  • Se o limite inferior intervalo de confiança 100(1-α)< h , то тогда rejeitar H 0 a favor de H 2 .
  • Se o limite superior intervalo de confiança 100(1-α) > h, então rejeitar H 0 a favor de H 1 .
  • Se um intervalo de confiança 100(1-α) inclui h, então não podemos rejeitar H 0 e tal resultado é considerado indeterminado.

Se precisarmos verificar o valor μ para um amostras da população total, então o critério assumirá a forma



Intervalo de confiança, erro e tamanho da amostra

Pegue a primeira equação e expresse a largura a partir daí intervalo de confiança(Nv. 2).



Em alguns casos, podemos substituir a estatística t de Student pela distribuição normal padrão z. Outra simplificação substitui metade de W no erro de medição E. Então nossa equação assumirá a forma (Eq. 3).



Como vemos o erro realmente diminui junto com o crescimento do número de dados de entrada. De onde é fácil derivar o que se procura (Eq. 4).


Pratique - conte com R

Vamos testar a hipótese de que o valor médio da amostra dada do número de insetos na armadilha é 1.

  • H 0: μ = 1
  • H1: μ > 1
insetos 0 1 2 3 4 5 6
armadilhas 10 9 5 5 1 2 1

> x<- read.table("/tmp/tcounts.txt") >y = unlist(x, use.names="false") > mean(z);sd(z) 1.636364 1.654883

Observe que a média e o desvio padrão são quase iguais, o que é natural para uma distribuição de Poisson. Intervalo de confiança de 95% para a estatística t de Student e df=32 .


> qt(.975, 32) 2.036933

e finalmente obtemos o intervalo crítico para a média: 1.05 - 2.22 .


> μ=média(z) > st = qt(0,975, 32) > μ + st * sd(z)/sqrt(33) 2,223159 > μ - st * sd(z)/sqrt(33) 1,049568

Como resultado, H 0 deve ser rejeitada e H 1 aceita, pois com uma probabilidade de 95%, μ > 1.


No mesmo exemplo, assumindo que conhecemos o desvio padrão real - σ , e não sua estimativa obtida usando uma amostra aleatória, você pode calcular o n necessário para um determinado erro. Vamos calcular para E=0,5 .


> za2 = qnorm(.975) > (za2*sd(z)/.5)^2 42.08144

correção do vento

Na verdade, não há razão para acreditar que saberemos σ (variância), enquanto μ (média) ainda não estimamos. Por causa disso, a equação 4 é de pouco uso prático, exceto para exemplos particularmente refinados do campo da combinatória, e a equação realista para n é um pouco mais complicada para incógnitas σ (nv. 5).



Observe que σ na última equação, não com cap (^), mas com til (~). Isso é uma consequência do fato de que logo no início não temos nem mesmo um desvio padrão estimado de uma amostra aleatória - e, em vez disso, usamos planejado- . Onde obtemos o mais recente? Podemos dizer isso do teto: avaliação de especialistas, estimativas aproximadas, experiência passada etc.


E o segundo termo do lado direito da 5ª equação, de onde ele veio? Desde , a correção de Günther é necessária.


Além das equações 4 e 5, existem várias fórmulas avaliativas mais aproximadas, mas isso já merece um post separado.

Se um tipo de amostragem indica que Como as pessoas são incluídas na amostra?, entãovolume exemplos de relatórios que quantos deles chegaram aqui.

Tamanho da amostranúmero de unidades de amostragem.

Como a amostra (ou amostra, que é a mesma coisa) é uma parte da população geral selecionada por métodos especiais, sua volume sempre menos volume do geral . Portanto, é tão importante que a parte não distorça a ideia do todo, ou seja, foi representante.

Os sociólogos, especialmente aqueles que conduzem pesquisas empíricas, muitas vezes se preocupam com a questão de quantas pessoas devem ser entrevistadas para obter informações confiáveis. A Gallup nos Estados Unidos realiza pesquisas regulares em uma amostra nacional de 1500h humano e atinge uma precisão incrível (o erro de amostragem varia de 1 a 1,5%)1. Centro<Социо-Экспресс>Instituto de Sociologia da Academia Russa de Ciências realiza pesquisas em uma amostra de 2000 pessoas, enquanto o erro de amostragem não exceda 3%.

7. Representatividade- a propriedade da amostra para representar os principais parâmetros da população em geral .

Se não houver correspondência, eles dizem erro de representatividade – até que ponto a estrutura estatística da amostra se desvia da estrutura da população geral correspondente.

Suponha que a renda familiar mensal média dos aposentados na população em geral seja de 2 mil rublos e na amostra - 6 mil rublos. Isso significa que o sociólogo entrevistou apenas a parte próspera dos aposentados e um erro de representatividade se insinuou em sua pesquisa. Em outras palavras, o erro de representatividade é a discrepância entre duas populações - a geral e a amostra. Este último também atua como objeto de investigação. e como meio de obtenção de informações sobre a população em geral.

8. Erro de amostragem- desvio das características médias da população amostral das características médias da população geral.

Na prática, é determinado comparando características conhecidas população geral com médias amostrais. Em sociologia, as pesquisas da população adulta geralmente usam dados de censos populacionais, registros estatísticos atuais e resultados de pesquisas anteriores.

Nas pesquisas do Instituto J. Gallup representatividade controlada por dados disponíveis de censos nacionais sobre a distribuição da população sobre

· semi,

· era,

· Educação,

· renda

· profissões,

· corrida,

· local de residência,

· o tamanho do assentamento.

Centro de pesquisa totalmente russo opinião pública (VCIOM) usa indicadores como



· piso,

· era,

· Educação,

· tipo de liquidação,

· Estado civil,

· área de emprego,

· situação profissional do entrevistado,

quem pede emprestado Comitê Estadual de acordo com estatísticas russas. Em ambos os casos, a população é conhecida. O erro de amostragem não pode ser estabelecido se os valores da variável na amostra e na população forem desconhecidos.

Erros de amostragem divididos em dois tipos - aleatória e sistemática.

Erro aleatório- isto é erros estatísticos inerentes ao próprio método de amostragem. Eles diminuem à medida que o tamanho da amostra aumenta.

erros sistemáticoso resultado da atividade do pesquisador; causada por vieses descontrolados na distribuição das observações da amostra; viés de amostragem intencional.

Por exemplo, se um sociólogo decidiu obter a opinião tudo residentes da cidade sobre as autoridades locais em curso politica social, e entrevistou apenas quem tem telefone, então há um viés deliberado na amostra em favor dos estratos ricos, ou seja, erro sistemático.

erros sistemáticos ocorrer quando:

1) a amostra não atende aos objetivos do estudo (o sociólogo decidiu estudar apenas os aposentados que trabalham, mas entrevistou todos seguidos);

2) ignorância da natureza da população em geral (o sociólogo pensava que 70% de todos os aposentados não trabalham, apenas 10% acabaram desempregados);

3) apenas elementos “vencedores” da população em geral são selecionados (por exemplo, apenas aposentados ricos). Não é uma tarefa fácil para um pesquisador avaliar as consequências de um erro sistemático.

Evitar erros de representatividade:

1) cada unidade de geral a população deve ter igual probabilidade de ser incluída na amostra;

2) é desejável selecionar populações homogêneas;

3) você precisa conhecer as características da população em geral;

4) ao compilar uma população amostral, é necessário levar em consideração erros aleatórios e sistemáticos.

Se a amostra (ou apenas a amostra) for projetada corretamente, o sociólogo obtém resultados confiáveis ​​que caracterizam toda a população. Se estiver errado, o erro que surgiu na etapa de elaboração da amostra aumenta a cada etapa subsequente do estudo sociológico e, por fim, atinge um valor que desvaloriza o estudo.

pesquisa sociométrica difere significativamente de outros tipos de pesquisa sociológica em termos da natureza dos dados iniciais, os métodos de sua apresentação, o procedimento de pesquisa e os métodos de análise das informações coletadas. Nesse tipo de pesquisa, o resultado da medição aqui não são as características do respondente, mas o relacionamento entre os respondentes. Método sociometria explora as relações interpessoais em pequenos grupos. A sociometria, conforme definida por Moreno, é uma das três partes constituintes socionomia - a ciência das leis sociais e é a ciência de medir relações interpessoais. Em sentido estrito, os métodos sociométricos são entendidos como métodos para estudar a estrutura das relações interpessoais em um pequeno grupo, estudando as escolhas feitas pelos membros do grupo de acordo com um ou outro critério.

O método de pesquisa não foi inventado por sociólogos, é usado ativamente por médicos, advogados, jornalistas, professores, etc. Tem uma longa tradição em sociologia. A especificidade da pesquisa reside principalmente no fato de que, quando é usada, a fonte de informação sociológica primária é uma pessoa (respondente) - um participante direto do pesquisado fenômenos sociais. As vantagens do levantamento são: a) no menor tempo possível para coleta de informações; b) na possibilidade de obtenção de informações diversas; c) na possibilidade de atingir grandes populações de pessoas; d) na abrangência das diversas áreas da prática social. E a imperfeição está na possibilidade de distorção das informações pela percepção subjetiva e avaliação do fato social pelos respondentes.

Para que a informação sociológica primária recebida comece a servir ativamente, ela deve ser processada, generalizada, analisada e interpretada cientificamente. Somente após esses procedimentos haverá uma oportunidade real de formular conclusões e Conselho prático que abrirá a informação sociológica para a prática.

O processamento das informações é realizado manualmente ou com a ajuda de um computador, resultando em dados sociológicos, ou seja. indicadores de respostas a perguntas em termos numéricos e percentuais. As informações são resumidas agrupando quem respondeu às perguntas e por meio de uma série de distribuições (inclusive com o auxílio de tabelas). A análise e interpretação dos dados é realizada no âmbito do processamento teórico das informações recebidas e depende diretamente do profissionalismo dos sociólogos, de suas hipóteses, cuja verificação é realizada em primeiro lugar.

O resultado do trabalho resulta em documentos de escritório: um relatório, um apêndice ao relatório e um relatório analítico contendo conclusões e recomendações.

O uso dos resultados da pesquisa sociológica depende da relevância do estudo Problema social, análise da confiabilidade das informações coletadas e do interesse da sociedade por elas.

OBSERVAÇÃO-

Na prática, a decisão sobre o tamanho da amostra é um compromisso entre a suposição da precisão dos resultados da pesquisa e as possibilidades de sua implementação prática (ou seja, com base no custo de realização da pesquisa).

Na prática, várias abordagens são usadas para determinar o tamanho da amostra. Vejamos o mais simples deles. A primeira delas é chamada de abordagem aleatória e baseia-se na aplicação da “regra de ouro”.

Por exemplo, supõe-se sem evidência que para obter resultados precisos, a amostra deve ser de 5% da população. Esta abordagem é simples e acessível na execução, não permite obter resultados precisos. Sua vantagem é o baixo custo relativo. De acordo com a segunda abordagem, o tamanho da amostra pode ser definido com base em condições predeterminadas. Um cliente de pesquisa de marketing, por exemplo, sabe que um tamanho de amostra de 1.000 a 1.200 pessoas é normalmente usado em pesquisa de opinião pública, então ele recomenda que o pesquisador se atenha a esse número.

A terceira abordagem significa que, em alguns casos, o principal argumento na determinação do tamanho da amostra pode ser o custo de conduzir uma pesquisa. Embora o valor e a confiabilidade das informações recebidas não sejam levados em consideração.

No caso da quarta abordagem, o tamanho da amostra é determinado com base na análise estatística. Essa abordagem envolve a determinação do tamanho mínimo da amostra, levando em consideração os requisitos de confiabilidade e confiabilidade dos resultados.

A quinta abordagem é considerada a abordagem mais fundamentada teoricamente e correta na determinação do tamanho da amostra. É baseado no cálculo do intervalo de confiança.

O intervalo de confiança é o intervalo pontos extremos que caracterizam a porcentagem de certas respostas a uma pergunta. Este conceito massa está associada ao conceito de "massa média desvio padrão da característica resultante na população em geral. Quanto maior, mais largo deve ser o intervalo de confiança para incluir, por exemplo, 9,5% das respostas.

Das propriedades da curva de distribuição normal segue-se que os pontos finais de um intervalo de confiança igual a, por exemplo, 9,5% são definidos como o produto de: 1,96 (desvio normalizado) e o desvio padrão.

Os números 1,96 e 2,58 (para o intervalo de confiança de 99%) são indicados como z.

Existem tabelas "Valor da integral de probabilidade", que permitem determinar os valores de z para vários intervalos de confiança. Intervalo de confiança igual a 95% ou 99% é padrão em pesquisa de marketing.

Por exemplo, foi realizado um estudo sobre o número de visitas dos proprietários de automóveis às oficinas por ano. O intervalo de confiança para o número médio de visitas foi calculado em 5 a 7 visitas com nível de confiança de 99%. Isso significa que, se for possível conduzir independentemente 100 estudos de amostra, então, para 99 estudos de amostra, o número médio de visitas cairá no intervalo de 5 a 7 visitas. Em outras palavras, 99% dos proprietários de automóveis cairão no intervalo de confiança .

Suponha que um estudo foi conduzido até 50 amostras independentes. As estimativas médias dessas amostras formaram uma curva de distribuição normal, denominada distribuição seletiva.

A estimativa média para a população como um todo é igual à estimativa média da curva de distribuição. O conceito de "distribuição seletiva" também é considerado como um dos conceitos básicos conceito teórico, subjacente à definição da amostra V.

Naturalmente, nenhuma empresa consegue formar 10, 20, 50 amostras independentes. Normalmente, apenas uma amostra é usada.

A estatística matemática permite obter algumas informações sobre a distribuição da amostra, tendo dados precisos sobre a variação de uma única amostra.

Um indicador do grau de diferença na estimativa verdadeira para a população como um todo, que é esperado para uma amostra típica, é raiz do erro quadrático médio. Por exemplo, estudamos a opinião dos consumidores sobre um novo produto e o cliente este estudo indicou que ficaria satisfeito com a precisão dos resultados obtidos, igual a mais ou menos 5%.

Suponha que 30% dos membros da amostra sejam a favor do novo produto. Isso significa que o intervalo de estimativas possíveis para toda a população é de 25 a 35%. Além disso, quanto maior o tamanho da amostra, menor o erro. Um alto valor de variação causa um alto valor de erro e vice-versa.

Vamos determinar o tamanho da amostra com base no cálculo do intervalo de confiança. As informações iniciais necessárias para a implementação desta abordagem são:

  • a quantidade de variação que se acredita que a população tenha;
  • Precisão desejada
  • · o nível de confiança que os resultados da pesquisa devem satisfazer.

quando ligado pergunta feita há apenas duas respostas expressas em porcentagem (é usada uma medida de porcentagem), o tamanho da amostra é determinado pela seguinte fórmula:

onde n é o tamanho da amostra;

z é o desvio normalizado determinado com base no nível de confiança selecionado (Tabela 7);

p é a variação encontrada para a amostra;

q = (100 - p);

e é um erro aceitável.

Tabela 7

O valor do desvio normalizado do escore z da média

dependendo do nível de confiança (a) do resultado obtido

Por exemplo, um fabricante de pneus realiza uma pesquisa com entusiastas de automóveis que usam pneus radiais.

Portanto, à pergunta: “Você usa pneus radiais?” Apenas 2 respostas são possíveis: "Sim" ou "Não". Supondo que a população de entusiastas de carros tenha uma baixa taxa de variação, isso significa que quase todos os entrevistados usam pneus radiais. NO este caso uma amostra de tamanhos suficientemente pequenos pode ser formada. Na fórmula (1), o produto pg expressa a variação inerente à população. Por exemplo, suponha que 90% das unidades populacionais usem pneus radiais. Isso significa que pg = 900. Se assumirmos que o índice de variação é maior (p = 70%), então pg = 2100. A maior variação é alcançada quando metade da população (50%) usa pneus radiais, enquanto os outros não faça. Neste caso, o produto atinge um valor de 2500.

Ao realizar uma pesquisa, é importante indicar a precisão das estimativas obtidas. Por exemplo, verificou-se que 44% dos entrevistados usam pneus radiais. Os resultados da medição devem ser apresentados como: a porcentagem de motoristas que usam pneus radiais é 44 mais ou menos e%. O valor do erro admissível é previamente determinado em conjunto pelo cliente do estudo e pelo contratante.

O nível de confiança em pesquisas de marketing geralmente é avaliado com base em dois de seus valores: 95% ou 99%. O primeiro valor corresponde ao valor z = 1,96; o segundo - z = 2,58. Se for escolhido um nível de confiança de 99%, isso indica o seguinte: temos 99% de certeza (em outras palavras, a probabilidade de confiança é 0,99) de que a porcentagem de membros da população que se enquadram na faixa de mais - menos e% é igual à porcentagem de membros da amostra que estão dentro do mesmo intervalo de erro. Tomando a variação igual a 50%, a precisão igual a 10% com nível de confiança de 95%, calculamos o tamanho da amostra:

n = 1,962 (50 x 50) / 102 = 96.

Com um nível de confiança de 99% e e = ±3%, n = 1067.

Ao determinar o indicador de variação para uma população específica, é aconselhável realizar uma análise qualitativa preliminar da população em estudo e estabelecer a similaridade das unidades da população em aspectos demográficos, sociais e outros de interesse do pesquisador. É possível determinar o tamanho da amostra com base no uso de médias em vez de porcentagens. Suponha que um nível de confiança de 95% (z = 1,96,) seja escolhido, a média desvio padrão(S) calculado e igual a 100, e a precisão desejada (erro) é de ±10. Então o tamanho da amostra será

Na realidade, na prática, se a amostra for formada novamente e pesquisas semelhantes não tiverem sido realizadas, S é desconhecido.

Neste caso, é aconselhável especificar o erro e em frações do desvio padrão. A fórmula de cálculo é convertida e assume a seguinte forma:

Nós conversamos principalmente sobre o agregado muito tamanhos grandes características dos mercados de bens de consumo. Mas em alguns casos os agregados não são tão grandes, como por exemplo nos mercados de certos tipos de produtos industriais.

Normalmente, se a amostra for inferior a 5% da população, a população é considerada grande e os cálculos são realizados de acordo com as regras acima.

Se V da amostra exceder 5% da população, esta última é considerada pequena e um fator de correção é introduzido nas fórmulas acima. O tamanho da amostra neste caso é determinado da seguinte forma:

onde n1 é o tamanho da amostra para uma população pequena,

n é o tamanho da amostra (seja para medidas percentuais ou para médias) calculado usando as fórmulas acima,

N é o volume da população geral.

Por exemplo, está sendo estudada a opinião de membros de uma população de 1.000 empresas sobre a construção de uma fábrica química na cidade de Tomsk. Devido à falta de informação sobre a variação, assume-se o pior caso: 50:50. O pesquisador decidiu usar um nível de confiança de 95%. O cliente do estudo indicou que ficaria satisfeito com a precisão dos resultados mais ou menos 5%. Nesse caso, a seguinte fórmula para a medida percentual é usada:

Essa abordagem para a formação da amostra V, com algumas ressalvas, também pode ser usada no cálculo do tamanho do painel e do grupo de especialistas.

As fórmulas fornecidas para o cálculo da amostra são baseadas na suposição de que todas as regras de amostragem foram observadas, e o único erro é o erro devido ao seu tamanho.

Capítulo do livro "Pesquisa de Marketing"

  • Psicologia: personalidade e negócios

mais correto análise estatística processo social fornecem informações sobre cada uma de suas manifestações. Ou, em termos estatísticos, análise completa de toda a população só é possível se o valor do atributo para cada unidade da população for levado em conta. Um exemplo de tal análise é o censo geral da população.

No entanto, a natureza de massa de um fenômeno social muitas vezes acarreta a impossibilidade de estudá-lo em na íntegra, ou seja em todas as suas manifestações. Na ciência estatística, foi desenvolvido um método especial que permite estudar apenas uma parte do fenômeno e transpor os resultados e conclusões para o fenômeno como um todo. Este método é chamado de "observação seletiva". A base do método de observação seletiva é a relação entre o individual e o geral, entre a parte e o todo, que existe nos fenômenos sociais.

A parte estudada da população estatística é chamada de amostra, e o número de unidades que compõem seu volume geralmente é denotado por n. A população inteira é chamada de população geral, o tamanho da população geral é geralmente denotado por N.

Há uma série de razões para o uso da observação seletiva:

— falta de recursos de tempo (tanto para realizar a pesquisa quanto para analisar a grande quantidade de dados recebidos);

— falta de recursos humanos, ou seja, especialistas qualificados para observação e análise;

— falta de recursos materiais, ou seja, observação muito cara;

- a impossibilidade prática de contabilizar todas as unidades da população em conexão com sua destruição como resultado da observação (por exemplo, no caso de examinar a germinação de um lote de sementes, a duração da queima de lâmpadas elétricas, etc.) ;

— a inconveniência prática de observar cada unidade da população (por exemplo, determinar o nível de consumo alimentar da população da região, etc.)

O princípio básico da observação seletiva é o princípio da randomização (do inglês random - a case), ou seja, o princípio da aleatoriedade na seleção das unidades populacionais, que determina a igualdade das unidades na medida do possível a serem selecionadas na população amostral. Este princípio deve ser observado mesmo no caso de seleção sistemática de unidades.

Como resultado de uma pesquisa incompleta da população em geral, podem ocorrer erros de observação, ou seja, erros de representatividade. Portanto, a principal tarefa do pesquisador é, em primeiro lugar, garantir a representatividade (representatividade) da amostra e, em segundo lugar, determinar o grau de confiança na conformidade dos parâmetros da amostra e da população em geral.

Determinar como selecionar unidades populacionais é uma parte importante da amostragem. Existem muitas maneiras de selecionar unidades populacionais, todas elas podem ser representadas como três grupos (ver Fig. 1.):


Arroz. 1 Métodos para selecionar unidades populacionais

A seleção aleatória adequada é a seleção de unidades populacionais sem nenhum esquema ou sistema. Pode ser realizado por sorteio ou usando uma tabela de números aleatórios. Quando aplicado este método seleção, é necessário garantir que o princípio da randomização seja cumprido.

A seleção com uma alocação preliminar da estrutura da população geral é usada se uma população estruturada distribuída em grupos estiver sendo investigada. A amostragem seriada envolve a seleção de um grupo de unidades, dentro do qual é realizado um levantamento completo, entre todos os grupos. A seleção zonada é a determinação dos limites da população amostral, levando em consideração a filiação territorial das unidades da população geral. A seleção mecânica é aplicada a uma população na qual cada unidade recebe um número separado e a seleção é realizada proporcionalmente ao número de unidades, por exemplo, a cada décima unidade, etc.

A seleção por etapas ou mista é usada no caso de uma observação de amostragem em fases, quando em diferentes estágios de observação eles usam várias opções seleção da unidade.

seleção de série - não são selecionadas unidades individuais da população geral, mas séries inteiras, grupos e, a seguir, em cada série incluída na amostra, todas as unidades sem exceção são examinadas. Por exemplo, os trabalhadores são selecionados por equipes.

Seleção combinada - a população geral é dividida em grupos idênticos, então os grupos são selecionados dos quais as unidades individuais são selecionadas.

seleção típica
- a população geral é dividida em grupos típicos homogêneos dos quais realmente aleatórios ou mecanicamente unidades são selecionadas.

A seleção típica fornece os resultados mais precisos em comparação com outros métodos, porque. garantir representatividade na amostra. Por exemplo, os trabalhadores são divididos em grupos de habilidades.

Antes de proceder à implementação da observação selectiva, é necessário determinar o número de unidades da população amostral, o que garante a representatividade e, consequentemente, a fiabilidade dos resultados do estudo.

Na prática, para implementar a observação seletiva, o pesquisador define:

- o grau de precisão do estudo (probabilidade);

é o erro marginal, ou seja, intervalo de desvio determinado pelos objetivos do estudo.

Com base nesses critérios, o tamanho amostral necessário (n) é calculado com base na fórmula do erro amostral marginal.

A diferença entre os indicadores da amostra e da população em geral é chamada de
erro de amostragem.
Os erros de amostragem são divididos em erros de registro e erros de representatividade.

Erros de registro surgem de informações incorretas ou imprecisas. As fontes de tais erros podem ser a falta de compreensão da essência do problema, a desatenção do registrador, a omissão ou contagem repetida de certas unidades da população, erros de digitação no preenchimento de formulários, etc.

Erros de registro incluem sistemático, devido a causas que atuam em uma direção e distorcem os resultados do trabalho (por exemplo, arredondamento de números, gravitação em direção a cinco, dezenas, centenas, etc.) e aleatórios, manifestando-se em direções diferentes, equilibrando-se e apenas ocasionalmente dando notáveis resumo.

erros de representatividade também pode ser sistemático e aleatório. Erros sistemáticos de representatividade surgem devido à seleção incorreta e tendenciosa de unidades, o que viola o princípio básico da amostragem cientificamente organizada - o princípio da aleatoriedade. Os erros aleatórios de representatividade significam que, apesar do princípio da seleção aleatória das unidades, ainda existem discrepâncias entre as características da amostra e da população em geral. O estudo e medição de erros aleatórios de representatividade é a principal tarefa do método de amostragem.

O erro marginal de amostragem é determinado para o valor médio () e para a parcela (w), portanto, temos duas opções para determinar o tamanho necessário da amostra:

a) para re-seleção:


b) para seleção não repetitiva:


Ao desenvolver um programa de observação seletiva, define-se imediatamente o valor do erro amostral admissível e o nível de confiança. O tamanho mínimo da amostra que deve fornecer a precisão necessária da fórmula para determinar o tamanho da amostra (n) permanece desconhecido, dependendo do método de seleção.

n eu =

onde n i é o tamanho da amostra do I - o grupo;

N é o tamanho total da amostra;

Ni é o volume do i -ésimo grupo;

N é o volume da população geral.

EXERCÍCIO 1

Como resultado de uma pesquisa de amostra remunerações 60 funcionários de uma empresa industrial receberam os seguintes dados (Tabela 1).

Construa uma série intervalar de distribuição de acordo com o atributo resultante, formando cinco grupos com intervalos iguais.

Determinar os principais indicadores de variação (dispersão, desvio padrão, coeficiente de variação), valor da potência média (valor médio da feição) e médias estruturais. Representar graficamente na forma de: a) histogramas; b) acumula; c) ogivas. Faça uma conclusão.

SOLUÇÃO

1. Vamos determinar a faixa de variação de acordo com o indicador de desempenho - de acordo com o tempo de serviço de acordo com a fórmula:

R \u003d Xmax - Xmin \u003d 36 - 5 \u003d 31

onde Хmax - tamanho máximo ativos

Xmin - a quantidade mínima de ativos

2. Determine o valor do intervalo

i \u003d R / n \u003d 31/5 \u003d 6,2

tendo em conta o valor obtido dos intervalos, agrupamos os bancos e obtemos

3. Vamos construir uma mesa auxiliar

Grupo de recursos

Significado dos valores em um grupo

XI

Frequência do recurso de quantidade (frequência)

fi

em % do total

ω

Frequência acumulada

Si

Ponto médio do intervalo

*f eu

ω

EU

5 – 11,2

6,8,7,5,8,6,10,9,9,6,66,9,10,7,9,10,10,11,89,8,7,6,6,10

43,3

43,3

210,6

350,73

44,89

1167,14

II

11,2 – 17,4

16,15,13,12,17,14, 14, 12,14,17,13,15,17, 14

23,3

66,6

14,3

200,2

333,19

0,25

III

17,4 – 23,6

18,21,20, 21,18, 19,22,21,21,21,18, 19

20,0

86,6

20,5

410,0

32,49

389,88

4

23,6 –29,8

28,29,25,28, 24

26,7

133,5

221,61

11,9

141,61

708,05

V

29,8 – 36

36,35,33

32,9

98,7

164,5

18,1

327,61

982,83

TOTAL

1480,03

546,85

3251,4

4. O valor médio do atributo na população estudada é determinado pela fórmula aritmética ponderada:

Do ano

5. A dispersão e o desvio padrão de um recurso são determinados pela fórmula



Definição de volatilidade


Assim, V>33,3%, portanto, a população é heterogênea.

6. Definição de moda

A moda é o valor da característica que ocorre com maior frequência na população estudada. Na série variacional intervalar estudada, a moda é calculada pela fórmula:


Onde

x M0
– o limite inferior do intervalo modal:

eu M0é o valor do intervalo modal;

f M0-1 f M0 f M0+1 são as frequências (frequências) dos intervalos modal, pré-modal e pós-modal, respectivamente.

O intervalo modal é o intervalo com a maior frequência (frequência). Em nosso problema, este é o primeiro intervalo.


7. Calcule a mediana.

Mediana é a variante localizada no meio do ordenado série de variação, dividindo-o em duas partes iguais, de forma que metade das unidades populacionais tenham valores de característica menores que a mediana, e metade mais que a mediana.

Na série intervalar, a mediana é determinada pela fórmula:


onde é o início do intervalo mediano;

- o valor do intervalo mediano

é a frequência do intervalo mediano;

é a soma das frequências acumuladas no intervalo pré-mediano.

O intervalo mediano é o intervalo no qual o número ordinal da mediana está localizado. Para determiná-lo, é necessário calcular a soma das frequências acumuladas até um número superior à metade da totalidade.

De acordo com Gr. 5 tabela auxiliar encontramos o intervalo, a quantidade acumulada muitas vezes excede 50%. Este é o segundo intervalo - de 11,6 a 18,4, e é a mediana.

Então


Portanto, metade dos trabalhadores com experiência de trabalho inferior a 12.971 anos, e metade - mais do que esse valor.

6. Desenhe uma série na forma de um polígono, um histograma, uma linha reta cumulativa, uma ogiva.

A representação gráfica desempenha um papel importante no estudo das séries variacionais, pois permite de forma simples e visual analisar dados estatísticos.

Existem várias formas de representar graficamente as séries (histograma, polígono, cumulado, ogiva), cuja escolha depende do objetivo do estudo e do tipo de variação da série.

O polígono de distribuição é usado principalmente para imagens série discreta, mas você pode construir um polígono para série intervalar, se você o trouxer primeiro para a maternidade. O polígono de distribuição é uma polilinha fechada em sistema retangular coordenadas com coordenadas (x i , q i), onde x i é o valor do i-ésimo recurso, q i é a frequência ou frequência do i-ro recurso.

Um histograma de distribuição é usado para exibir uma série de intervalo. Para construir um histograma no eixo horizontal, disponha sucessivamente segmentos iguais aos intervalos do sinal, e nesses segmentos, como nas bases, são construídos retângulos cujas alturas são iguais às frequências ou particulares para uma série com intervalos iguais, densidades; para uma série com intervalos desiguais.


Acumulativo é uma representação gráfica de uma série variacional, quando as frequências acumuladas ou particulares são plotadas no eixo vertical, e os valores do recurso são plotados no eixo horizontal. O cumulado serve para representação gráfica de séries variacionais discretas e intervalares.


Conclusão: Assim, foram calculados os principais indicadores de variação da série estudada: o valor médio do atributo - tempo de trabalho é de 14,8 anos, a dispersão calculada igual a 54,19, por sua vez, o desvio padrão do atributo é de 7,36. A moda tem valor de 9,5, no intervalo modal é o primeiro intervalo da série estudada. A mediana da série é igual a 12,971, dividindo a série em duas partes iguais, o que indica que na organização em estudo, metade dos funcionários tem menos de 12,971 anos de experiência profissional e metade mais.

TAREFA 2

Temos os seguintes dados iniciais caracterizando a dinâmica para 2000-2004. (mesa 2). Calcular os principais indicadores da série de dinâmicas. Apresente o cálculo em forma de tabela. Calcule os valores médios anuais dos indicadores. Na forma de uma imagem gráfica - um polígono, indique a dinâmica do indicador analisado. Faça uma conclusão.

Tabela 2 Dados iniciais

Ano

2000

2001

2002

2003

2004

SOLUÇÃO

1) Nível médio dinâmica é calculada pela fórmula


2) Calculamos as taxas de crescimento em cadeia e básicas da seguinte forma:

1. O crescimento absoluto é determinado pela fórmula:

Àib = yi – y0

Aic \u003d yi - yi-1

2. A taxa de crescimento é determinada pela fórmula: (%)

Trb = (yi / y0) *100

Trc \u003d (yi / yi-1) * 100

3. A taxa de crescimento é determinada pela fórmula: (%)

Tnrb \u003d Trb -100%:

Тnрц = Трц - 100%

4. Crescimento médio absoluto:


y n
é o nível final da série dinâmica;

y 0
– o nível inicial da série dinâmica;

n c
é o número de incrementos absolutos da cadeia.

5. Taxa média de crescimento anual:


6. Taxa média de crescimento anual:


3) Teor absoluto de 1% de aumento:

A \u003d Xi-1 / 100.

Todos os indicadores calculados são resumidos em uma tabela.

Indicadores

anos

2000

2001

2002

2003

2004

Número médio de funcionários na empresa

2. Crescimento absoluto

Aic

3. Taxa de crescimento

tribo

81,25

50,0

62,5

56,25

trits

81,25

61,54

125,0

90,0

4. Taxa de crescimento

Тпib

18,75

50,0

37,5

53,75

Tpits

18,75

38,46

25,0

10,0

5. Significado de 1% de aumento

0,65

7. Desenhe graficamente como um polígono.

XI


Assim, obtém-se o seguinte. valor mais alto o número médio de funcionários da empresa é anotado no ano base 2000. O nível médio do número de funcionários da empresa é de 56 pessoas, o aumento médio absoluto tem um valor negativo e é igual a 8,75. A taxa média de crescimento anual é de 75%. Devido à dinâmica negativa da série, a taxa média de crescimento anual é de -25%. A redução máxima no número de empregados em comparação com o ano base 2000 é observada em 2002 e é igual a -40 pessoas (taxa de crescimento de 50%). O crescimento da cadeia em 2003 tem um valor positivo (+10 pessoas, a taxa de crescimento da cadeia é de 125%), em 2004 continuou a diminuição do número de colaboradores.

TAREFA 3

Existem dados sobre a venda de mercadorias (ver tabela 3)

Tabela 3 Dados iniciais sobre a venda de mercadorias

produtos

Ano base

Ano do relatório

quantidade

preço

quantidade

preço

1200

1300

1100

1000

Determine: a) índices individuais ( eu p, eu q); b) índices compostos (I p , I q , I pq); c) uma mudança absoluta no comércio devido a: 1) a quantidade de bens; 2) mudanças de preço. Faça uma conclusão sobre a solução do problema.

SOLUÇÃO

Vamos criar uma tabela auxiliar

Visão

Período base

Período do relatório

Trabalhar

Índices

Quantidade, q 0

Preço, p 0

Qtd, q 1

Preço, p 1

q 0 * p 0

q 1 * p 1

q 1 * p 0

i q \u003d q 1 / q 0

i p \u003d p 1 / p 0

49140

54780

51480

1,048

1,064

61320

54780

67200

1,096

0,941

62400

56700

50400

0,808

1,125

1848

2432

2128

1,152

1,143

1200

1300

90000

106600

97500

1,0833

1,093

1100

1000

92400

88000

84000

0,909

1,077

TOTAL

357108

363292

352708


Conclusão: Como você pode ver, o aumento total do volume de negócios do ano foi de 6184 unidades convencionais, incluindo o impacto da variação na quantidade de mercadorias vendidas por - 4400 e devido a alterações no preço das mercadorias, um aumento de 10584 unidades convencionais unidades. O aumento total do volume de negócios ascendeu a 101,7%. Ao mesmo tempo, em geral, os preços das mercadorias vendidas aumentaram 103%, enquanto o volume de vendas diminuiu 1,1%.

TAREFA 4

A partir dos dados iniciais da tabela nº 1 (selecione as linhas de 14 a 23, faça uma análise de correlação e regressão, determine os parâmetros de correlação e determinação. Construa um gráfico da correlação entre dois sinais (efetivo e fatorial). Tire uma conclusão .

SOLUÇÃO

Dados iniciais

Experiência em produção

Salário

1800

2500

1750

1580

1750

1560

1210

1160

1355

1480

Dependência de Linha Reta

Os parâmetros da equação são determinados pelo método mínimos quadrados, de acordo com o sistema de equações normais


Para resolver o sistema, usamos o método dos determinantes.

Os parâmetros são calculados por fórmulas


x

y

Um dos principais componentes de um estudo bem desenhado é a definição da amostra e o que é uma amostra representativa. É como o exemplo do bolo. Afinal, não é preciso comer a sobremesa inteira para entender o seu sabor? Uma pequena parte é suficiente.

Então, o bolo é população (ou seja, todos os entrevistados que se qualificam para a pesquisa). Pode ser expresso territorialmente, por exemplo, apenas residentes da região de Moscou. Sexo - apenas mulheres. Ou tem restrições de idade - os russos têm mais de 65 anos.

É difícil calcular a população: você precisa ter dados do censo populacional ou pesquisas de avaliação preliminar. Portanto, geralmente a população geral é “estimada” e, a partir do número resultante, eles calculam quadro de amostragem ou amostragem.

O que é uma amostra representativa?

Amostraé um número bem definido de respondentes. Sua estrutura deve coincidir tanto quanto possível com a estrutura da população em geral no que diz respeito às principais características da seleção.

Por exemplo, se os potenciais entrevistados forem toda a população da Rússia, onde 54% são mulheres e 46% são homens, a amostra deve conter exatamente a mesma porcentagem. Se os parâmetros corresponderem, a amostra pode ser chamada de representativa. Isso significa que imprecisões e erros no estudo são minimizados.

O tamanho da amostra é determinado levando em consideração os requisitos de precisão e economia. Esses requisitos são inversamente proporcionais entre si: quanto maior o tamanho da amostra, mais preciso é o resultado. Além disso, quanto maior a precisão, mais custos correspondentes são necessários para o estudo. E vice-versa, quanto menor a amostra, menos ela custa, menos precisa e mais aleatoriamente as propriedades da população geral são reproduzidas.

Portanto, para calcular a quantidade de escolha, os sociólogos inventaram uma fórmula e criaram calculadora especial:

Probabilidade de confiança e erro de confiança

O que significam os termos " nível de confiança" e " erro de confiança"? O nível de confiança é uma medida da precisão das medições. Um erro de confiança é um possível erro nos resultados do estudo. Por exemplo, com uma população geral de mais de 500.000 pessoas (por exemplo, morando em Novokuznetsk), a amostra será de 384 pessoas com um nível de confiança de 95% e um erro de 5% OU (com intervalo de confiança 95±5%).

O que se segue disso? Ao conduzir 100 estudos com tal amostra (384 pessoas), em 95% dos casos, as respostas recebidas, de acordo com as leis da estatística, estarão dentro de ± 5% do original. E obteremos uma amostra representativa com uma probabilidade mínima de erro estatístico.

Depois que o cálculo do tamanho da amostra é feito, você pode ver se há respondentes suficientes na versão de demonstração do Painel de Questionário. Você pode aprender mais sobre como conduzir uma pesquisa de painel.