A ordem de construção da série de distribuição intervalar.  Construção de uma série de variação de intervalo para dados quantitativos contínuos

A ordem de construção da série de distribuição intervalar. Construção de uma série de variação de intervalo para dados quantitativos contínuos

2. O conceito de série de distribuição. Série de distribuição discreta e intervalar

linhas de distribuição agrupamentos são chamados tipo especial, em que o número de unidades no grupo é conhecido para cada atributo, grupo de atributos ou classe de atributos, ou Gravidade Específica esse número no total. Aqueles. série de distribuição– um conjunto ordenado de valores de atributos dispostos em ordem crescente ou decrescente com seus pesos correspondentes. As séries de distribuição podem ser construídas por quantitativo ou por atributo.

As séries de distribuição construídas em uma base quantitativa são chamadas de séries de variação. Eles são discreto e intervalo. Uma série de distribuição pode ser construída em um recurso de variação contínua (quando um recurso pode assumir qualquer valor dentro de um intervalo) e em um recurso de variação discreta (toma valores inteiros estritamente definidos).

discreto a série de distribuição variacional é um conjunto variado de variantes com suas frequências ou particularidades correspondentes. Variantes de uma série discreta são valores que mudam discretamente de forma descontínua de um sinal, geralmente isso é o resultado de uma contagem.

Discreto

As séries de variação geralmente são construídas se os valores da característica em estudo puderem diferir entre si por pelo menos algum valor finito. Em séries discretas, os valores pontuais de um recurso são especificados. Exemplo : Distribuição de ternos masculinos vendidos pelas lojas por mês por tamanho.

intervalo

uma série variacional é um conjunto ordenado de intervalos de variação dos valores de uma variável aleatória com as frequências correspondentes ou frequências dos valores da quantidade que cai em cada um deles. As séries de intervalos são projetadas para analisar a distribuição de uma característica em constante mudança, cujo valor é mais frequentemente registrado por medição ou ponderação. Variantes de tal linha é um agrupamento.

Exemplo : Distribuição das compras no supermercado por quantidade.

Se em séries variacionais discretas a resposta em frequência se refere diretamente à variante da série, então em séries intervalares ao grupo de variantes.

É conveniente analisar as séries de distribuição usando sua representação gráfica, o que permite julgar tanto a forma da distribuição quanto os padrões. Uma série discreta é exibida no gráfico como uma linha quebrada - área de distribuição. Para construí-lo em sistema retangular coordenadas ao longo do eixo de abcissas, os valores classificados (ordenados) do recurso variável são plotados na mesma escala e a escala para expressar frequências é plotada ao longo do eixo das ordenadas.

As séries de intervalos são exibidas como histogramas de distribuição(ou seja, gráficos de barras).

Ao construir um histograma, os valores dos intervalos são plotados no eixo das abcissas e as frequências são representadas por retângulos construídos nos intervalos correspondentes. A altura das colunas no caso de intervalos iguais deve ser proporcional às frequências.

Qualquer histograma pode ser convertido em um polígono de distribuições; para isso, é necessário conectar os vértices de seus retângulos com segmentos retos.

2. Método do índice para analisar o impacto da produção média e do número médio de funcionários nas mudanças na produção

Método de índiceé usado para analisar a dinâmica e comparar indicadores gerais, bem como os fatores que influenciam a mudança nos níveis desses indicadores. Com a ajuda de índices, é possível revelar a influência da produção média e do efetivo médio nas variações do volume de produção. Este problema é resolvido através da construção de um sistema de índices analíticos.

O índice de volume de produção com o índice de número médio de empregados e o índice de produção média está relacionado da mesma forma que o volume de produção (Q) está relacionado com a produção ( W) e número ( e) .

Podemos concluir que o volume de produção será igual ao produto da produção média e do número médio de funcionários:

Q = w r, onde Q é o volume de produção,

w - saída média,

r é o número médio de funcionários.

Como visto, nós estamos falando sobre a relação dos fenômenos na estática: o produto de dois fatores dá o volume total do fenômeno resultante. Também é óbvio que essa conexão é funcional, portanto, a dinâmica dessa conexão é estudada com a ajuda de índices. Para o exemplo dado, este é o seguinte sistema:

Jw × Jr = Jwr.

Por exemplo, o índice de volume de produção Jwr, como índice de um fenômeno resultante, pode ser decomposto em dois fatores de índice: o índice de produção média (Jw) e o índice de número médio de funcionários (Jr):

Índice Índice Índice

o volume médio

força de saída de produção

Onde J W- índice de produtividade do trabalho calculado pela fórmula de Laspeyres;

J r- índice do número de empregados, calculado segundo a fórmula de Paasche.

Sistemas de índice são usados ​​para determinar a influência de fatores individuais na formação do nível do indicador efetivo, eles permitem determinar o valor do desconhecido por 2 valores de índice conhecidos.

Com base no sistema de índices acima, pode-se também encontrar o aumento absoluto do volume de produção, decomposto na influência dos fatores.

1. Aumento total no volume de produção:

∆wr = ∑w 1 r 1 - ∑w 0 r 0 .

2. Crescimento devido à ação do indicador de produto médio:

∆wr/w = ∑w 1 r 1 - ∑w 0 r 1 .

3. Crescimento devido à ação do indicador de headcount médio:

∆wr/r = ∑w 0 r 1 - ∑w 0 r 0

∆wr = ∆wr/w + ∆wr/r.

Exemplo. As seguintes informações são conhecidas

Podemos determinar como o volume de produção mudou em termos relativos e absolutos, e como fatores individuais influenciou essa mudança.

O volume de produção foi de:

no período base

w 0 * r 0 \u003d 2000 * 90 \u003d 180000,

e na reportagem

w 1 * r 1 \u003d 2100 * 100 \u003d 210000.

Consequentemente, o volume de produção aumentou 30.000 ou 1,16%.

∆wr=∑w 1 r 1 -∑w 0 r 0= (210000-180000)=30000

ou (210000:180000)*100%=1,16%.

Esta alteração no volume de produção deveu-se a:

1) um aumento no número médio de funcionários em 10 pessoas ou 111,1%

r 1 / r 0 \u003d 100 / 90 \u003d 1,11 ou 111,1%.

Em termos absolutos, devido a este fator, o volume de produção aumentou em 20.000:

w 0 r 1 - w 0 r 0 \u003d w 0 (r 1 -r 0) \u003d 2000 (100-90) \u003d 20000.

2) um aumento na produção média em 105% ou em 10.000:

w 1 r 1 / w 0 r 1 \u003d 2100 * 100 / 2000 * 100 \u003d 1,05 ou 105%.

Em termos absolutos, o aumento é:

w 1 r 1 - w 0 r 1 \u003d (w 1 -w 0) r 1 \u003d (2100-2000) * 100 \u003d 10000.

Assim, a influência combinada de fatores foi:

1. Em termos absolutos

10000 + 20000 = 30000

2. Em termos relativos

1,11 * 1,05 = 1,16 (116%)

Portanto, o aumento é de 1,16%. Ambos os resultados foram obtidos anteriormente.

A palavra "índice" na tradução significa ponteiro, indicador. Em estatística, o índice é interpretado como um indicador relativo que caracteriza a mudança de um fenômeno no tempo, no espaço ou em comparação com o plano. Como o índice é um valor relativo, os nomes dos índices são consoantes com os nomes dos valores relativos.

Nos casos em que analisamos a mudança ao longo do tempo de um produto comparado, podemos fazer a pergunta de como em várias condições(em diferentes áreas) os componentes do índice mudam (preço, volume físico, estrutura de produção ou vendas de certos tipos de produtos). Nesse sentido, são construídos índices de composição constante, composição variável e deslocamentos estruturais.

Índice de composição permanente (fixo) - este é um índice que caracteriza a dinâmica do valor médio com a mesma estrutura fixa da população.

O princípio da construção de um índice de composição constante é eliminar a influência de mudanças na estrutura de pesos sobre o valor indexado, calculando o nível médio ponderado do indicador indexado com os mesmos pesos.

O índice de composição constante é idêntico em forma ao índice agregado. A forma agregada é a mais comum.

O índice de composição constante é calculado com pesos fixados no nível de um de qualquer período e mostra a variação apenas no valor indexado. O índice de composição constante elimina a influência de mudanças na estrutura de pesos sobre o valor indexado, calculando o nível médio ponderado do indicador indexado com os mesmos pesos. Nos índices de composição constante, são comparados indicadores calculados com base em uma estrutura constante de fenômenos.

A etapa mais importante no estudo dos fenômenos e processos socioeconômicos é a sistematização dos dados primários e, com base nisso, a obtenção de uma característica sumária de todo o objeto por meio de indicadores generalizantes, o que é alcançado por meio da sumarização e agrupamento do material estatístico primário.

Resumo estatístico - trata-se de um complexo de operações sequenciais para generalizar fatos únicos específicos que formam um conjunto, para identificar características e padrões típicos inerentes ao fenômeno em estudo como um todo. A realização de um resumo estatístico inclui as seguintes etapas :

  • escolha do recurso de agrupamento;
  • determinação da ordem de formação dos grupos;
  • desenvolvimento de sistema indicadores estatísticos caracterizar grupos e o objeto como um todo;
  • desenvolvimento de layouts de tabelas estatísticas para apresentação de resultados resumidos.

Agrupamento estatístico chamado de divisão das unidades da população estudada em grupos homogêneos de acordo com certas características que são essenciais para eles. Os agrupamentos são o método estatístico mais importante de sumarização de dados estatísticos, a base para o cálculo correto de indicadores estatísticos.

Existem os seguintes tipos de agrupamentos: tipológicos, estruturais, analíticos. Todos esses agrupamentos estão unidos pelo fato de as unidades do objeto serem divididas em grupos de acordo com algum atributo.

sinal de agrupamento é chamado o sinal pelo qual as unidades da população são divididas em grupos separados. A partir de escolha certa característica de agrupamento depende das conclusões do estudo estatístico. Como base para o agrupamento, é necessário utilizar características significativas, teoricamente fundamentadas (quantitativas ou qualitativas).

Sinais quantitativos de agrupamento ter uma expressão numérica (volume de negociação, idade de uma pessoa, renda familiar, etc.), e características qualitativas do agrupamento refletem o estado da unidade populacional (sexo, Estado civil, afiliação industrial da empresa, sua forma de propriedade, etc.).

Após a determinação da base do agrupamento, deve-se decidir a questão do número de grupos em que a população do estudo deve ser dividida. O número de grupos depende dos objetivos do estudo e do tipo de indicador subjacente ao agrupamento, do volume da população, do grau de variação da característica.

Por exemplo, o agrupamento de empreendimentos segundo as formas de propriedade leva em consideração o patrimônio municipal, federal e dos súditos da federação. Se o agrupamento for realizado em uma base quantitativa, é necessário inverter Atenção especial sobre o número de unidades do objeto em estudo e o grau de flutuação do atributo de agrupamento.

Quando o número de grupos é determinado, os intervalos de agrupamento devem ser determinados. Intervalo - estes são os valores de uma característica variável que estão dentro de certos limites. Cada intervalo tem seu próprio valor, limites superior e inferior, ou pelo menos um deles.

O limite inferior do intervalo é chamado o menor valor do atributo no intervalo, e limite superior - o maior valor do atributo no intervalo. O valor do intervalo é a diferença entre os limites superior e inferior.

Os intervalos de agrupamento, dependendo de seu tamanho, são: iguais e desiguais. Se a variação do traço se manifesta em limites relativamente estreitos e a distribuição é uniforme, então um agrupamento é construído com intervalos iguais. O valor de um intervalo igual é determinado pela seguinte fórmula :

onde Xmax, Xmin - os valores máximo e mínimo do atributo no agregado; n é o número de grupos.

O agrupamento mais simples, no qual cada grupo selecionado é caracterizado por um indicador, é uma série de distribuição.

Série de distribuição estatística - esta é uma distribuição ordenada de unidades populacionais em grupos de acordo com um determinado atributo. Dependendo do traço subjacente à formação de uma série de distribuição, distinguem-se séries de distribuição atributiva e de variação.

atributivo chamam as séries de distribuição construídas segundo características qualitativas, ou seja, signos que não possuem expressão numérica (distribuição por tipo de trabalho, por sexo, por profissão etc.). As séries de distribuição de atributos caracterizam a composição da população de acordo com uma ou outra característica essencial. Tomados ao longo de vários períodos, estes dados permitem-nos estudar a mudança na estrutura.

Linhas de variação chamadas séries de distribuição construídas em base quantitativa. Qualquer série variacional consiste em dois elementos: variantes e frequências. Opções os valores individuais do atributo que leva na série de variação são chamados, ou seja, o valor específico do atributo variável.

Frequências chamado o número de variantes individuais ou cada grupo série de variação, ou seja, são números que mostram a frequência com que determinadas opções ocorrem na série de distribuição. A soma de todas as frequências determina o tamanho de toda a população, seu volume. Frequências frequências são chamadas, expressas em frações de uma unidade ou como uma porcentagem do total. Assim, a soma das frequências é igual a 1 ou 100%.

Dependendo da natureza da variação do traço, distinguem-se três formas da série de variação: uma série ordenada, série discreta e série intervalar.

Série de variação classificada - é a distribuição de unidades individuais da população em ordem crescente ou decrescente da característica em estudo. A classificação facilita a divisão de dados quantitativos em grupos, detecta imediatamente os menores e maior valor recurso, destaque os valores que são repetidos com mais frequência.

Série de variação discreta caracteriza a distribuição de unidades populacionais de acordo com um atributo discreto que recebe apenas valores inteiros. Por exemplo, a categoria tarifária, o número de filhos na família, o número de funcionários na empresa, etc.

Se um sinal tiver uma mudança contínua, que dentro de certos limites pode assumir qualquer valor ("de - para"), então para este sinal você precisa construir série de variação de intervalo . Por exemplo, o valor da renda, a experiência de trabalho, o custo dos ativos fixos da empresa etc.

Exemplos de resolução de problemas no tópico "Resumo estatístico e agrupamento"

Tarefa 1 . Há informação sobre o número de livros recebidos pelos alunos por assinatura no último ano letivo.

Construa uma série de distribuição variacional variada e discreta, denotando os elementos da série.

Solução

Este conjunto é um conjunto de opções para o número de livros que os alunos recebem. Vamos contar o número de tais variantes e organizá-las na forma de uma série variacional de distribuição discreta e variacional.

Tarefa 2 . Existem dados sobre o valor dos ativos fixos para 50 empresas, mil rublos.

Construir uma série de distribuição, destacando 5 grupos de empresas (em intervalos iguais).

Solução

Para a solução, escolhemos os maiores e menores valores do custo dos ativos fixos das empresas. Estes são 30,0 e 10,2 mil rublos.

Encontre o tamanho do intervalo: h \u003d (30,0-10,2): 5 \u003d 3,96 mil rublos.

Em seguida, o primeiro grupo incluirá empresas, cuja quantidade de ativos fixos é de 10,2 mil rublos. até 10,2 + 3,96 = 14,16 mil rublos. Haverá 9 dessas empresas.O segundo grupo incluirá empresas, cujo valor de ativos fixos será de 14,16 mil rublos. até 14,16 + 3,96 = 18,12 mil rublos. Serão 16 empresas desse tipo, da mesma forma, encontramos o número de empresas incluídas no terceiro, quarto e quinto grupos.

A série de distribuição resultante é colocada na tabela.

Tarefa 3 . Para uma série de empresas da indústria leve, os seguintes dados foram obtidos:

Faça um agrupamento de empresas de acordo com o número de trabalhadores, formando 6 grupos em intervalos iguais. Contagem para cada grupo:

1. número de empresas
2. número de trabalhadores
3. volume de produtos fabricados por ano
4. produção real média por trabalhador
5. valor dos ativos fixos
6. o tamanho médio ativos fixos de uma empresa
7. valor médio produtos fabricados por uma empresa

Registre os resultados do cálculo em tabelas. Tire suas próprias conclusões.

Solução

Para a solução, escolhemos os maiores e menores valores do número médio de trabalhadores no empreendimento. Estes são 43 e 256.

Encontre o tamanho do intervalo: h = (256-43): 6 = 35,5

Em seguida, o primeiro grupo incluirá empresas com um número médio de trabalhadores variando de 43 a 43 + 35,5 = 78,5 pessoas. Haverá 5 dessas empresas.O segundo grupo incluirá empresas, cujo número médio de trabalhadores será de 78,5 a 78,5 + 35,5 = 114 pessoas. Serão 12 empresas desse tipo e, da mesma forma, encontramos o número de empresas incluídas no terceiro, quarto, quinto e sexto grupos.

Colocamos a série de distribuição resultante em uma tabela e calculamos os indicadores necessários para cada grupo:

Conclusão : Como pode ser visto na tabela, o segundo grupo de empresas é o mais numeroso. Inclui 12 empresas. Os menores são o quinto e sexto grupos (duas empresas cada). Estas são as maiores empresas (em termos de número de trabalhadores).

Como o segundo grupo é o mais numeroso, o volume de produção por ano das empresas deste grupo e o volume de ativos fixos são muito maiores que os outros. Ao mesmo tempo, a produção real média de um trabalhador nas empresas deste grupo não é a mais alta. As empresas do quarto grupo estão na liderança aqui. Este grupo também responde por uma quantidade bastante grande de ativos fixos.

Em conclusão, notamos que o tamanho médio dos ativos fixos e o valor médio da produção de uma empresa são diretamente proporcionais ao tamanho da empresa (em termos de número de trabalhadores).

Ao construir série de intervalo A distribuição trata de três questões:

  • 1. Quantos intervalos devo fazer?
  • 2. Qual é a duração dos intervalos?
  • 3. Qual é o procedimento para incluir unidades populacionais nos limites dos intervalos?
  • 1. Número de intervalos pode ser determinado por Fórmula de Sturgess:

2. Comprimento do intervalo ou passo de intervalo, geralmente é determinado pela fórmula

Onde R- faixa de variação.

3. A ordem de inclusão de unidades populacionais nos limites do intervalo

pode ser diferente, mas ao construir uma série intervalar, a distribuição é necessariamente estritamente definida.

Por exemplo, este: [), em que as unidades da população são incluídas nos limites inferiores e não incluídas nos limites superiores, mas são transferidas para o próximo intervalo. A exceção a essa regra é o último intervalo , cujo limite superior inclui o último número da série classificada.

Os limites dos intervalos são:

  • fechado - com dois valores extremos do atributo;
  • aberto - com um valor extremo do recurso (antes da algum número ou sobre tal número).

Para assimilar o material teórico, apresentamos informações básicas para soluções através de tarefas.

Existem dados condicionais sobre o número médio de gerentes de vendas, o número de produtos de qualidade única vendidos por eles, o preço de mercado individual desse produto, bem como o volume de vendas de 30 empresas em uma das regiões da Federação Russa em primeiro trimestre do ano de referência (Tabela 2.1).

Tabela 2.1

Informações iniciais para uma tarefa transversal

população

gerentes

Preço, mil rublos

Volume de vendas, milhões de rublos

população

gerentes

Quantidade de mercadorias vendidas, unid.

Preço, mil rublos

Volume de vendas, milhões de rublos

Com base nas informações iniciais, bem como nas informações adicionais, configuraremos tarefas individuais. Em seguida, apresentamos a metodologia para resolvê-los e as próprias soluções.

Tarefa transversal. Tarefa 2.1

Usando a tabela de dados original. 2.1 obrigatório construir uma série discreta de distribuição de empresas pelo número de bens vendidos (Tabela 2.2).

Solução:

Tabela 2.2

Série discreta de distribuição de empresas pelo número de mercadorias vendidas em uma das regiões da Federação Russa no primeiro trimestre do ano de referência

Tarefa transversal. Tarefa 2.2

requeridos construir uma série classificada de 30 empresas pelo número médio de gerentes.

Solução:

15; 17; 18; 20; 20; 20; 22; 22; 24; 25; 25; 25; 27; 27; 27; 28; 29; 30; 32; 32; 33; 33; 33; 34; 35; 35; 38; 39; 39; 45.

Tarefa transversal. Tarefa 2.3

Usando a tabela de dados original. 2.1, requeridos:

  • 1. Construa uma série intervalar para a distribuição das firmas pelo número de gerentes.
  • 2. Calcule as frequências das séries de distribuição das empresas.
  • 3. Tire conclusões.

Solução:

Calcule usando a fórmula de Sturgess (2.5) número de intervalos:

Assim, tomamos 6 intervalos (grupos).

Duração do intervalo, ou passo de intervalo, calcule pela fórmula

Observação. A ordem de inclusão das unidades da população nos limites do intervalo é a seguinte: I), em que as unidades da população são incluídas nos limites inferiores e não incluídas nos superiores, mas são transferidas para o próximo intervalo. A exceção a esta regra é o último intervalo I ], cujo limite superior inclui o último número da série classificada.

Construímos uma série intervalar (Tabela 2.3).

Série de intervalo de distribuição de empresas, mas o número médio de gerentes em uma das regiões da Federação Russa no primeiro trimestre do ano de referência

Conclusão. O grupo de empresas mais numeroso é o grupo com um número médio de gerentes de 25-30 pessoas, que inclui 8 empresas (27%); o menor grupo com um número médio de gerentes de 40-45 pessoas inclui apenas uma empresa (3%).

Usando a tabela de dados original. 2.1, bem como a série intervalar da distribuição das firmas pelo número de gerentes (Tabela 2.3), requeridos construir um agrupamento analítico da relação entre o número de gerentes e o volume de vendas das firmas e, a partir dele, tirar uma conclusão sobre a presença (ou ausência) de relação entre os sinais indicados.

Solução:

O agrupamento analítico é construído com base em fatores. Em nosso problema, o sinal do fator (x) é o número de gerentes e o sinal resultante (y) é o volume de vendas (Tabela 2.4).

Vamos construir agora agrupamento analítico(Tabela 2.5).

Conclusão. Com base nos dados do agrupamento analítico construído, pode-se dizer que com o aumento do número de gerentes de vendas, o volume médio de vendas da empresa do grupo também aumenta, o que indica a presença de uma relação direta entre essas características.

Tabela 2.4

Tabela auxiliar para construir um agrupamento analítico

Número de gerentes, pessoas,

Número da empresa

Volume de vendas, milhões de rublos, y

» = 59f = 9,97

I-™ 4 - Yu.22

74 '25 1PY1

U4 = 7 = 10,61

no = ’ =10,31 30

Tabela 2.5

Dependência dos volumes de vendas do número de gerentes da empresa em uma das regiões da Federação Russa no primeiro trimestre do ano de referência

PERGUNTAS DE TESTE
  • 1. Qual é a essência da observação estatística?
  • 2. Cite as etapas da observação estatística.
  • 3. Quais são as formas de organização da observação estatística?
  • 4. Cite os tipos de observação estatística.
  • 5. O que é um resumo estatístico?
  • 6. Cite os tipos de relatórios estatísticos.
  • 7. O que é um agrupamento estatístico?
  • 8. Cite os tipos de agrupamentos estatísticos.
  • 9. O que é uma série de distribuição?
  • 10. Nomeie os elementos estruturais da série de distribuição.
  • 11. Qual é o procedimento para construir uma série de distribuição?

Um exemplo de resolução de um teste em estatística matemática

Tarefa 1

Dados iniciais : alunos de um determinado grupo composto por 30 pessoas passaram no exame no curso "Informática". As notas recebidas pelos alunos formam a seguinte série de números:

I. Compor uma série variacional

m x

W x

m x nu

W x nu

Total:

II. Representação gráfica de informação estatística.

III. Características numéricas da amostra.

1. Média aritmética

2. Média geométrica

3. Moda

4. Mediana

222222333333333 | 3 34444444445555

5. Variação da amostra

7. Coeficiente de variação

8. Assimetria

9. Coeficiente de assimetria

10. Curtose

11. Coeficiente de curtose

Tarefa 2

Dados iniciais : alunos de um determinado grupo escreveram um teste final. O grupo é composto por 30 pessoas. As pontuações pontuadas pelos alunos formam a seguinte série de números

Solução

I. Como o sinal assume muitos valores diferentes, construiremos uma série de variação intervalar para ele. Para fazer isso, primeiro definimos o valor do intervalo h. Vamos usar a fórmula de Sturger

Vamos fazer uma escala de intervalos. Neste caso, para o limite superior do primeiro intervalo, tomaremos o valor determinado pela fórmula:

Os limites superiores dos intervalos subsequentes são determinados pela seguinte fórmula recursiva:

, então

Terminamos de construir a escala de intervalos, pois o limite superior do próximo intervalo tornou-se maior ou igual ao valor máximo da amostra
.

II. Exibição gráfica da série de variação de intervalo

III. Características numéricas da amostra

Para determinar as características numéricas da amostra, compilaremos uma tabela auxiliar

Soma:

1. Média aritmética

2. Média geométrica

3. Moda

4. Mediana

10 11 12 12 13 13 13 13 14 14 14 14 15 15 15 |15 15 15 16 16 16 16 16 17 17 18 19 19 20 20

5. Variação da amostra

6. Desvio padrão da amostra

7. Coeficiente de variação

8. Assimetria

9. Coeficiente de assimetria

10. Curtose

11. Coeficiente de curtose

Tarefa 3

Doença : o valor da divisão da escala do amperímetro é 0,1 A. As leituras são arredondadas para a divisão inteira mais próxima. Encontre a probabilidade de que um erro maior que 0,02 A seja cometido durante a leitura.

Solução.

O erro de arredondamento pode ser considerado como uma variável aleatória X, que é distribuído uniformemente no intervalo entre duas divisões inteiras adjacentes. Densidade de distribuição uniforme

Onde
- o comprimento do intervalo que contém os valores possíveis X; fora deste intervalo
Neste problema, o comprimento do intervalo contendo os valores possíveis X, é igual a 0,1, então

O erro de leitura excederá 0,02 se estiver dentro do intervalo (0,02; 0,08). Então

Responda: R=0,6

Tarefa 4

Dados iniciais: expectativa matemática e desvio padrão de um recurso normalmente distribuído X são 10 e 2, respectivamente. Encontre a probabilidade de que, como resultado do teste X tomará o valor contido no intervalo (12, 14).

Solução.

Vamos usar a fórmula

E frequências teóricas

Solução

Para x ela valor esperado M(X) e variância D(X). Solução. Encontre a função de distribuição F(x) de uma variável aleatória... erro de amostragem). Vamos compor variacional fileira Largura do intervalo vai ser: Para cada valor fileira Vamos calcular quantos...

  • Solução: equação separável

    Solução

    No formulário Para encontrar um privado soluções equação não homogênea compor sistema Vamos resolver o sistema resultante... ; +47; +61; +10; -oito. Intervalo de compilação variacional fileira. Dê estimativas estatísticas da média...

  • Solução: Vamos calcular as taxas de crescimento absoluto básico e em cadeia, taxas de crescimento, taxas de crescimento. Os valores obtidos estão resumidos na tabela 1

    Solução

    O volume de produção. Solução: Média aritmética do intervalo variacional fileira calculado da seguinte forma: por... Erro amostral marginal com probabilidade de 0,954 (t=2) vai ser: Δ w = t*μ = 2*0,0146 = 0,02927 Vamos definir os limites...

  • Solução. sinal

    Solução

    Sobre cuja experiência de trabalho e totalizando amostra. O tempo médio de serviço para a amostra ... da jornada de trabalho desses funcionários e totalizando amostra. Duração média da amostra... 1,16, nível de significância α = 0,05. Solução. variacional fileira desta amostra tem a forma: 0,71 ...

  • Currículo de trabalho em biologia para as séries 10-11 Compilado por Polikarpova S. V

    trabalhando programa de treinamento

    Os esquemas de cruzamento mais simples» 5 L.r. " Solução problemas genéticos elementares” 6 L.r. " Solução problemas genéticos elementares” 7 L.r. "..., 110, 115, 112, 110. Compor variacional fileira, empate variacional curva, encontre o valor médio do recurso ...

  • Estatísticas matemáticas- um ramo da matemática dedicado a métodos matemáticos processamento, sistematização e utilização de dados estatísticos para conclusões científicas e práticas.

    3.1. CONCEITOS BÁSICOS DE ESTATÍSTICA MATEMÁTICA

    Em problemas biomédicos, muitas vezes é necessário investigar a distribuição de uma ou outra característica para um número muito grande de indivíduos. Em diferentes indivíduos, esse recurso tem significado diferente, portanto, é uma variável aleatória. Por exemplo, qualquer droga terapêutica tem eficácia diferente quando aplicada a diferentes pacientes. No entanto, para se ter uma ideia da eficácia deste medicamento, não é necessário aplicá-lo a todos doente. É possível rastrear os resultados do uso do medicamento para um grupo relativamente pequeno de pacientes e, com base nos dados obtidos, identificar as características essenciais (eficácia, contra-indicações) do processo de tratamento.

    População- um conjunto de elementos homogêneos a serem estudados, caracterizados por alguma característica. Este sinal é contínuo variável aleatória com densidade de distribuição f(x).

    Por exemplo, se estamos interessados ​​na prevalência de uma doença em uma determinada região, então a população geral é toda a população da região. Se quisermos descobrir a suscetibilidade a esta doença de homens e mulheres separadamente, duas populações gerais devem ser consideradas.

    Para estudar as propriedades população selecionar alguns de seus elementos.

    Amostra- parte da população geral selecionada para exame (tratamento).

    Se isso não causar confusão, então a amostra é chamada como coleção de objetos selecionado para exame e totalidade

    valores da característica em estudo, obtida durante o exame. Esses valores podem ser representados de várias maneiras.

    Simples série estatística - os valores da característica em estudo, registrados na ordem em que foram obtidos.

    Um exemplo de uma série estatística simples obtida pela medição da velocidade de onda superficial (m/s) na pele da testa de 20 pacientes é mostrado na Tabela. 3.1.

    Tabela 3.1.Série Estatística Simples

    Uma simples série estatística é a forma principal e mais completa de registrar os resultados da pesquisa. Pode conter centenas de elementos. É muito difícil dar uma olhada em tal agregado de relance. Portanto, grandes amostras são geralmente subdivididas em grupos. Para fazer isso, a área de alteração do atributo é dividida em vários (N) intervalos de igual largura e calcule as frequências relativas (n/n) da feição que cai nesses intervalos. A largura de cada intervalo é:

    Os limites dos intervalos têm os seguintes significados:

    Se qualquer elemento da amostra é o limite entre dois intervalos adjacentes, então é referido como deixei intervalo. Os dados agrupados dessa maneira são chamados série estatística de intervalo.

    - esta é uma tabela que mostra os intervalos dos valores da característica e as frequências relativas da característica que se enquadram nesses intervalos.

    No nosso caso, podemos formar, por exemplo, tal série estatística intervalar (N = 5, d= 4), tab. 3.2.

    Tabela 3.2.Série estatística de intervalo

    Aqui, dois valores iguais a 28 são atribuídos ao intervalo 28-32 (Tabela 3.1), e os valores 32, 33, 34 e 35 são atribuídos ao intervalo 32-36.

    Uma série estatística de intervalo pode ser representada graficamente. Para fazer isso, intervalos de valores característicos são plotados ao longo do eixo de abcissas e, em cada um deles, como base, é construído um retângulo com uma altura igual à frequência relativa. O gráfico de barras resultante é chamado histograma.

    Arroz. 3.1. gráfico de barras

    No histograma, os padrões estatísticos da distribuição do recurso são vistos com bastante clareza.

    Com um tamanho de amostra grande (vários milhares) e uma pequena largura das colunas, a forma do histograma é próxima da forma do gráfico densidade de distribuição sinal.

    O número de colunas do histograma pode ser selecionado usando a seguinte fórmula:

    Construir um histograma manualmente é um processo longo. Portanto, desenvolvido programas de computador para sua construção automática.

    3.2. CARACTERÍSTICAS NUMÉRICAS DA SÉRIE ESTATÍSTICA

    Muitos procedimentos estatísticos usam estimativas amostrais para a média e variância (ou desvio padrão) da população.

    média da amostra(X) é a média aritmética de todos os elementos de uma série estatística simples:

    Para o nosso exemplo X= 37,05 (m/s).

    A média amostral éao melhorestimativa da média geralM.

    Variação da amostra s 2é igual à soma dos desvios quadrados dos elementos da média amostral, dividido por n- 1:

    Em nosso exemplo, s 2 \u003d 25,2 (m / s) 2.

    Observe que, ao calcular a variância da amostra, o denominador da fórmula não é o tamanho da amostra n, mas n-1. Isso se deve ao fato de que, ao calcular os desvios na fórmula (3.3), em vez de uma expectativa matemática desconhecida, sua estimativa é usada - média da amostra.

    A variação da amostra é ao melhor estimativa da variância geral (σ 2).

    Desvio padrão da amostra(s) é Raiz quadrada da variância da amostra:

    Para o nosso exemplo s= 5,02 (m/s).

    seletivo rms desvio é a melhor estimativa do RMSE geral (σ).

    Com um aumento ilimitado no tamanho da amostra, todas as características da amostra tendem para as características correspondentes da população geral.

    Para calcular as características da amostra, são usadas fórmulas de computador. No Excel, esses cálculos executam as funções estatísticas AVERAGE, VARR. STDEV.

    3.3. ESTIMATIVA DE INTERVALO

    Todas as características da amostra são valores aleatórios. Isso significa que para outra amostra do mesmo tamanho, os valores das características da amostra serão diferentes. Assim, seletiva

    características são apenas estimativas características relevantes da população em geral.

    Compensa as deficiências da avaliação seletiva estimativa de intervalo, representando intervalo numérico, dentro do qual com uma dada probabilidade R d o valor verdadeiro do parâmetro estimado é encontrado.

    Deixar U r - algum parâmetro da população geral (média geral, variância geral, etc.).

    estimativa de intervalo parâmetro U r é chamado de intervalo (U 1 , U 2), satisfazendo a condição:

    P(U < Ur < U2) = Рд. (3.5)

    Probabilidade R d chamado probabilidade de confiança.

    Probabilidade de confiança Pd - a probabilidade de que o valor real da quantidade estimada seja lado de dentro o intervalo especificado.

    Ao mesmo tempo, o intervalo (U 1 , U 2) chamado intervalo de confiança para o parâmetro estimado.

    Muitas vezes, em vez da probabilidade de confiança, o valor associado α = 1 - R d, que é chamado nível de significância.

    Nível de significânciaé a probabilidade de que o valor verdadeiro do parâmetro estimado seja foraintervalo de confiança.

    Às vezes, α e R d são expressos como uma porcentagem, por exemplo, 5% em vez de 0,05 e 95% em vez de 0,95.

    Na estimativa de intervalo, primeiro escolha a nível de confiança(geralmente 0,95 ou 0,99) e, em seguida, encontre o intervalo de valores correspondente do parâmetro estimado.

    Notamos alguns propriedades gerais estimativas de intervalo.

    1. Quanto menor o nível de significância (mais Rd), quanto maior a estimativa do intervalo. Então, se a um nível de significância de 0,05 a estimativa de intervalo da média geral for 34,7< M< 39,4, то для уровня 0,01 она будет гораздо шире: 33,85 < M< 40,25.

    2. Quanto maior o tamanho da amostra n, quanto mais estreita for a estimativa de intervalo com o nível de significância selecionado. Seja, por exemplo, 5 a estimativa percentual da média geral (β=0,05) obtida de uma amostra de 20 itens, então 34,7< M< 39,4.

    Ao aumentar o tamanho da amostra para 80, obteremos uma estimativa mais precisa no mesmo nível de significância: 35,5< M< 38,6.

    NO caso Geral a construção de estimativas de confiança confiáveis ​​requer o conhecimento da lei segundo a qual a característica aleatória estimada é distribuída na população geral. Considere como a estimativa de intervalo é construída média geral característica, que se distribui na população geral de acordo com normal lei.

    3.4. ESTIMATIVA DE INTERVALO DA MÉDIA GERAL PARA A LEI NORMAL DE DISTRIBUIÇÃO

    A construção de uma estimativa intervalar da média geral M para uma população geral com uma lei de distribuição normal é baseada na seguinte propriedade. Para amostragem de volume n atitude

    obedece a distribuição de Student com o número de graus de liberdade ν = n- 1.

    Aqui Xé a média amostral, e s- desvio padrão seletivo.

    Usando as tabelas de distribuição de Student ou seu análogo de computador, pode-se encontrar um valor de limite que, com uma determinada probabilidade de confiança, a seguinte desigualdade seja satisfeita:

    Esta desigualdade corresponde à desigualdade para M:

    Onde ε é a metade da largura do intervalo de confiança.

    Assim, a construção de um intervalo de confiança para M é realizada na seguinte sequência.

    1. Escolha a probabilidade de confiança P d (geralmente 0,95 ou 0,99) e para ela, de acordo com a tabela de distribuição de Student, o parâmetro t é encontrado

    2. Calcule a metade da largura do intervalo de confiança ε:

    3. Uma estimativa de intervalo da média geral é obtida com a probabilidade de confiança selecionada:

    Resumidamente está escrito assim:

    Procedimentos de computador foram desenvolvidos para encontrar estimativas de intervalo.

    Vamos explicar como usar a tabela de distribuição do Aluno. Esta tabela tem duas "entradas": a coluna da esquerda, chamada de número de graus de liberdade ν = n- 1, e a linha superior é o nível de significância α. Na interseção da linha e coluna correspondentes, o coeficiente de Student é encontrado t.

    Vamos aplicar esse método ao nosso exemplo. Um fragmento da tabela de distribuição do Aluno é apresentado a seguir.

    Tabela 3.3. Fragmento da tabela de distribuição do Aluno

    Uma série estatística simples para uma amostra de 20 pessoas (n= 20, ν =19) é apresentado na Tabela. 3.1. Para esta série, os cálculos usando as fórmulas (3.1-3.3) fornecem: X= 37,05; s= 5,02.

    Vamos escolher α = 0,05 (P d = 0,95). Na interseção da linha "19" e coluna "0,05" encontramos t= 2,09.

    Vamos calcular a precisão da estimativa pela fórmula (3.6): ε = 2,09?5,02/λ/20 = 2,34.

    Vamos construir uma estimativa de intervalo: com uma probabilidade de 95%, a média geral desconhecida satisfaz a desigualdade:

    37,05 - 2,34 < M< 37,05 + 2,34, или M= 37,05 ± 2,34 (m/s), D = 0,95.

    3.5. MÉTODOS PARA VERIFICAÇÃO DE HIPÓTESES ESTATÍSTICAS

    Hipóteses estatísticas

    Antes de formular o que é uma hipótese estatística, considere o seguinte exemplo.

    Para comparar dois métodos de tratamento de uma determinada doença, foram selecionados dois grupos de pacientes de 20 pessoas cada, cujo tratamento foi realizado de acordo com esses métodos. Para cada paciente, um o número de procedimentos seguido de um efeito positivo. De acordo com esses dados, para cada grupo, encontramos médias amostrais (X), variâncias amostrais (s 2) e amostra RMS (s).

    Os resultados são apresentados na tabela. 3.4.

    Tabela 3.4

    O número de procedimentos necessários para obter um efeito positivo é uma variável aleatória, cuja informação está este momento contidos na amostra.

    Da Tabela. 3.4 mostra que a média amostral no primeiro grupo é menor do que no segundo. Isso significa que a mesma razão vale para médias gerais: M 1< М 2 ? Достаточно ли статистических данных для такого вывода? Ответы на эти вопросы и дает teste estatístico de hipóteses.

    Hipótese estatística- é uma suposição sobre as propriedades das populações.

    Vamos considerar hipóteses sobre as propriedades dois populações em geral.

    Se as populações têm conhecido, o mesmo distribuição do valor que está sendo estimado, e as premissas dizem respeito às quantidades algum parâmetro essa distribuição, então as hipóteses são chamadas paramétrico. Por exemplo, as amostras são retiradas de populações com lei normal distribuição e variância igual. É necessário descobrir são os mesmos as médias gerais dessas populações.

    Se nada se sabe sobre as leis de distribuição das populações em geral, então as hipóteses sobre suas propriedades são chamadas não paramétrico. Por exemplo, são os mesmos as leis de distribuição das populações das quais as amostras são retiradas.

    Hipóteses nulas e alternativas.

    A tarefa de testar hipóteses. Nível de significância

    Vamos nos familiarizar com a terminologia usada no teste de hipóteses.

    H 0 - hipótese nula (hipótese cética) - esta é uma hipótese sobre nenhuma diferença entre amostras comparadas. O cético acredita que as diferenças entre as estimativas amostrais obtidas a partir dos resultados da pesquisa são aleatórias;

    H 1- uma hipótese alternativa (hipótese do otimista) é uma hipótese sobre a presença de diferenças entre as amostras comparadas. O otimista acredita que as diferenças entre as estimativas amostrais são causadas por razões objetivas e correspondem às diferenças nas populações em geral.

    O teste de hipóteses estatísticas só é viável quando os elementos das amostras comparadas podem ser usados ​​para compor algumas valor(critério), cuja lei de distribuição no caso de equidade H 0 conhecido. Então, para esta quantidade, pode-se especificar intervalo de confiança, em que com uma dada probabilidade R d recebe seu valor. Esse intervalo é chamado área crítica. Se o valor do critério cair na região crítica, então a hipótese é aceita H 0 . Caso contrário, a hipótese H 1 é aceita.

    Na pesquisa médica, P d = 0,95 ou P d = 0,99 é usado. Esses valores correspondem níveis de significânciaα = 0,05 ou α = 0,01.

    Ao testar hipóteses estatísticasnível de significância(α) é a probabilidade de rejeitar a hipótese nula quando ela for verdadeira.

    Observe que, em sua essência, o procedimento de teste de hipóteses visa detecção de diferença, para não confirmar a sua ausência. Quando o valor do critério ultrapassa a área crítica, podemos dizer “céticos” de coração puro - bem, o que mais você quer?! Se não houvesse diferenças, então com uma probabilidade de 95% (ou 99%) o valor calculado estaria dentro dos limites especificados. Então não!..

    Bem, se o valor do critério cair na região crítica, então não há razão para acreditar que a hipótese H 0 esteja correta. Isso provavelmente aponta para uma das duas causas possíveis.

    1. Os tamanhos das amostras não são grandes o suficiente para detectar diferenças. É provável que a experimentação contínua traga sucesso.

    2. Existem diferenças. Mas eles são tão pequenos que não têm importância prática. Nesse caso, a continuação dos experimentos não faz sentido.

    Vamos passar a considerar algumas das hipóteses estatísticas usadas na pesquisa médica.

    3.6. TESTE DE HIPÓTESES SOBRE IGUALDADE DE VARIAÇÕES, CRITÉRIO F DE FISHER

    Em alguns estudos clínicos, um efeito positivo é evidenciado não tanto por magnitude parâmetro em estudo, quanto estabilização, reduzindo suas oscilações. Nesse caso, surge a questão de comparar duas variâncias gerais com base nos resultados de uma pesquisa amostral. Esta tarefa pode ser resolvida usando critério de Fisher.

    Formulação do problema

    lei normal distribuição. Tamanhos de amostra -

    n 1 e n2, uma variações de amostra igual s 1 e s 2 2 variações gerais.

    Hipóteses testadas:

    H 0- variações gerais são os mesmos;

    H 1- variações gerais diferente.

    Mostrado se as amostras são extraídas de populações com lei normal distribuição, então se a hipótese for verdadeira H 0 a razão das variâncias amostrais obedece à distribuição de Fisher. Portanto, como critério para testar a validade H 0 valor é retirado F, calculado pela fórmula:

    Onde s 1 e s 2 - variâncias amostrais.

    Essa razão obedece à distribuição de Fisher com o número de graus de liberdade do numerador ν 1 = n 1- 1 e o número de graus de liberdade do denominador ν 2 = n 2 - 1. Os limites da região crítica são encontrados de acordo com as tabelas de distribuição de Fisher ou usando a função computacional BRASPOBR.

    Para o exemplo apresentado na Tabela. 3.4, obtemos: ν 1 \u003d ν 2 \u003d 20 - 1 \u003d 19; F= 2,16/4,05 = 0,53. Em α = 0,05, os limites da região crítica são iguais, respectivamente: = 0,40, = 2,53.

    O valor do critério caiu na região crítica, então a hipótese é aceita H 0: variações gerais da amostra são os mesmos.

    3.7. TESTE DE HIPÓTESES SOBRE IGUALDADE DE MÉDIA, TESTE DE ESTUDANTE

    Problema de comparação médio duas populações ocorre quando valor prático tem exatamente magnitude a característica em estudo. Por exemplo, ao comparar a duração do tratamento com dois métodos diferentes ou o número de complicações decorrentes de seu uso. Nesse caso, o teste t de Student pode ser usado.

    Formulação do problema

    Duas amostras (X 1 ) e (X 2 ) foram obtidas de populações com lei normal distribuição e a mesma dispersão. Tamanhos de amostra - n 1 e n 2 , amostra significa são iguais a X 1 e X 2, e variações de amostra- s 1 2 e s 2 2 respectivamente. Precisa ser comparado médias gerais.

    Hipóteses testadas:

    H 0- médias gerais são os mesmos;

    H 1- médias gerais diferente.

    Mostre que se a hipótese for verdadeira H 0 o valor de t, calculado pela fórmula:

    distribuído de acordo com a lei de Student com o número de graus de liberdade ν = ν 1 + + ν2 - 2.

    Aqui onde ν 1 = n 1 - 1 - número de graus de liberdade para a primeira amostra; v2 = n 2 - 1 - o número de graus de liberdade para a segunda amostra.

    Os limites da região crítica são encontrados a partir de tabelas de distribuição t ou usando a função de computador STUDRASP. A distribuição de Student é simétrica em relação a zero, então os limites esquerdo e direito da região crítica são os mesmos em valor absoluto e opostos em sinal: - e

    Para o exemplo apresentado na Tabela. 3.4, temos:

    v 1 \u003d v 2 \u003d 20 - 1 \u003d 19; v = 38, t= -2,51. Com α = 0,05 = 2,02.

    O valor do critério ultrapassa a borda esquerda da região crítica, então aceitamos a hipótese H 1: médias gerais diferente. Ao mesmo tempo, a média da população geral primeira amostra MENOS.

    Aplicabilidade do teste t de Student

    O teste t de Student se aplica apenas a amostras de normal agregados com as mesmas variações gerais. Se pelo menos uma das condições for violada, a aplicabilidade do critério é duvidosa. A exigência de normalidade da população geral é geralmente ignorada, referindo-se a Teorema do limite central. De fato, a diferença nas médias amostrais, que está no numerador (3.10), pode ser considerada normalmente distribuída para ν > 30. Mas a questão da igualdade de variâncias não é passível de verificação, e referências ao fato de Fisher teste não detectou diferenças não pode ser levado em consideração. No entanto, o teste t é amplamente utilizado para detectar diferenças nas médias populacionais, embora sem evidências suficientes.

    Abaixo é considerado critério não paramétrico, que é utilizado com sucesso para os mesmos fins e que não requer qualquer normalidade, nenhum igualdade de variâncias.

    3.8. COMPARAÇÃO NÃO PARAMÉTRICA DE DUAS AMOSTRAS: O TESTE DE MANN-WHITNEY

    Critérios não paramétricos são projetados para detectar diferenças nas leis de distribuição de duas populações gerais. Critérios que são sensíveis a diferenças em geral médio, chamados critérios mudança. Critérios que são sensíveis a diferenças em geral dispersão, chamados critérios escala. O teste de Mann-Whitney refere-se aos critérios cisalhamento e é usado para detectar diferenças nas médias de duas populações, cujas amostras são apresentadas em escala de classificação. Os sinais medidos estão localizados nesta escala em ordem crescente e, em seguida, numerados com números inteiros 1, 2 ... Esses números são chamados fileiras. Valores iguais são atribuídos às mesmas classificações. Não é o valor do atributo em si que importa, mas apenas lugar ordinário, que ocupa entre outros valores.

    Na tabela. 3.5. o primeiro grupo da tabela 3.4 é apresentado de forma expandida (linha 1), submetido à classificação (linha 2), e então as classificações dos mesmos valores são substituídas por valores de média aritmética. Por exemplo, os elementos 4 e 4 na primeira linha receberam as classificações 2 e 3, que foram substituídas pelos mesmos valores de 2,5.

    Tabela 3.5

    Formulação do problema

    Amostras independentes (X1) e (X2) extraídas de populações com leis de distribuição desconhecidas. Tamanhos de amostra n 1 e nº 2 respectivamente. Os valores dos elementos das amostras são apresentados em escala de classificação.É necessário verificar se essas populações gerais diferem umas das outras?

    Hipóteses testadas:

    H 0- as amostras pertencem à mesma população geral; H 1- as amostras pertencem a diferentes populações gerais.

    Para testar tais hipóteses, é utilizado o teste (/-Mann-Whitney.

    Primeiro, uma amostra combinada (X) é feita a partir de duas amostras, cujos elementos são classificados. Em seguida, a soma dos postos correspondentes aos elementos da primeira amostra é encontrada. Essa soma é o critério para testar as hipóteses.

    você= A soma das classificações da primeira amostra. (3.11)

    Para amostras independentes maiores que 20, o valor você obedece a uma distribuição normal, cuja expectativa matemática e desvio padrão são iguais a:

    Portanto, os limites da região crítica são encontrados de acordo com as tabelas de distribuição normal.

    Para o exemplo apresentado na Tabela. 3.4, obtemos: ν 1 \u003d ν 2 \u003d 20 - 1 \u003d 19, você= 339, μ = 410, σ = 37. Para α = 0,05 obtemos: esquerda = 338 e direita = 482.

    O valor do critério ultrapassa a borda esquerda da região crítica, então a hipótese H 1 é aceita: populações gerais têm leis de distribuição diferentes. Ao mesmo tempo, a média da população geral primeira amostra MENOS.