A ordem de construção da série de distribuição intervalar.  Resumo estatístico e agrupamento.  Série de distribuição estatística.  Exemplos de resolução de problemas

A ordem de construção da série de distribuição intervalar. Resumo estatístico e agrupamento. Série de distribuição estatística. Exemplos de resolução de problemas

Uma série variacional discreta é construída para características discretas.

Para construir uma série de variação discreta, você precisa fazer o seguinte: 1) ordenar as unidades de observação em ordem crescente do valor do atributo estudado,

2) determine todos os valores possíveis do atributo x i , ordene-os em ordem crescente,

valor do sinal, eu .

frequência do valor do recurso e denotar f eu . A soma de todas as frequências da série é igual ao número de elementos na população estudada.

Exemplo 1 .

Lista de notas obtidas pelos alunos em exames: 3; quatro; 3; 5; quatro; 2; 2; quatro; quatro; 3; 5; 2; quatro; 5; quatro; 3; quatro; 3; 3; quatro; quatro; 2; 2; 5; 5; quatro; 5; 2; 3; quatro; quatro; 3; quatro; 5; 2; 5; 5; quatro; 3; 3; quatro; 2; quatro; quatro; 5; quatro; 3; 5; 3; 5; quatro; quatro; 5; quatro; quatro; 5; quatro; 5; 5; 5.

Aqui o número X - avaliaré uma variável aleatória discreta, e a lista resultante de estimativas édados estatísticos (observados) .

    Ordene as unidades de observação em ordem crescente do valor estudado do recurso:

2; 2; 2; 2; 2; 2; 2; 2; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5.

2) determine todos os valores possíveis do atributo x i , ordene-os em ordem crescente:

NO este exemplo todas as estimativas podem ser divididas em quatro grupos com os seguintes valores: 2; 3; quatro; 5.

Significado variável aleatória correspondente a um grupo separado de dados observados é chamado valor do sinal, variante (opção) e designar x eu .

O número que mostra quantas vezes o valor da característica correspondente ocorre em uma série de observações é chamado frequência do valor do recurso e denotar f eu .

Para o nosso exemplo

a pontuação 2 ocorre - 8 vezes,

a pontuação 3 ocorre - 12 vezes,

a pontuação 4 ocorre - 23 vezes,

pontuação 5 ocorre - 17 vezes.

São 60 avaliações no total.

4) escreva os dados recebidos em uma tabela de duas linhas (colunas) - xi e f i .

Com base nesses dados, é possível construir uma série variacional discreta

Série de variação discreta - esta é uma tabela na qual os valores de ocorrência do traço estudado são indicados como valores separados em ordem crescente e suas frequências

  1. Construção de uma série de variação de intervalo

Além de uma série variacional discreta, muitas vezes existe uma maneira de agrupar dados como uma série variacional de intervalo.

Uma série intervalar é construída se:

    o signo tem uma natureza contínua de mudança;

    existem muitos valores discretos (mais de 10)

    frequências de valores discretos são muito pequenas (não excedam 1-3 com um número relativamente grande de unidades de observação);

    muitos valores discretos de um recurso com as mesmas frequências.

Uma série de variação de intervalo é uma forma de agrupar dados na forma de uma tabela que possui duas colunas (valores de recurso na forma de um intervalo de valores e a frequência de cada intervalo).

Ao contrário de uma série discreta, os valores da característica de uma série intervalar não são representados por valores individuais, mas por um intervalo de valores ("de - até").

O número que mostra quantas unidades de observação caíram em cada intervalo selecionado é chamado frequência do valor do recurso e denotar f eu . A soma de todas as frequências da série é igual ao número de elementos (unidades de observação) na população estudada.

Se uma unidade tiver um valor de característica igual ao valor do limite superior do intervalo, ela deve ser referida ao próximo intervalo.

Por exemplo, uma criança com uma altura de 100 cm cairá no 2º intervalo e não no primeiro; e uma criança com uma altura de 130 cm cairá no último intervalo, e não no terceiro.

Com base nesses dados, é possível construir uma série de variação intervalar.

Cada intervalo tem um limite inferior (x n), um limite superior (x in) e uma largura de intervalo ( eu).

Um limite de intervalo é um valor de recurso que fica na borda de dois intervalos.

altura das crianças (cm)

altura das crianças (cm)

quantidade de filhos

mais de 130

Se um intervalo tem um limite superior e inferior, então ele é chamado intervalo fechado. Se o intervalo tiver apenas um limite inferior ou superior, então isso é - intervalo aberto. Apenas o primeiro ou o último intervalo pode ser aberto. No exemplo acima, o último intervalo está aberto.

Largura do intervalo (eu) é a diferença entre os limites superior e inferior.

eu = x n - x em

A largura de um intervalo aberto é considerada igual à largura de um intervalo fechado adjacente.

altura das crianças (cm)

quantidade de filhos

Largura do intervalo (i)

para cálculos 130+20=150

20 (porque a largura do intervalo fechado adjacente é 20)

Todas as séries intervalares são divididas em séries intervalares com intervalos iguais e séries intervalares com intervalos desiguais. . Em linhas de intervalo com intervalos iguais, a largura de todos os intervalos é a mesma. Em séries intervalares com intervalos desiguais, a largura dos intervalos é diferente.

Neste exemplo, uma série de intervalos com intervalos desiguais.

Ao processar grandes quantidades de informações, o que é especialmente importante na condução de desenvolvimentos científicos modernos, o pesquisador enfrenta a séria tarefa de agrupar corretamente os dados iniciais. Se os dados forem discretos, como vimos, não há problemas - você só precisa calcular a frequência de cada recurso. Se a característica em estudo tiver contínuo(o que é mais comum na prática), então a escolha do número ideal de intervalos para agrupar um recurso não é uma tarefa trivial.

Para agrupar variáveis ​​aleatórias contínuas, todo o intervalo de variação do recurso é dividido em um certo número de intervalos para.

Intervalo agrupado (contínuo) série variacional chamados intervalos classificados pelo valor da característica (), onde indicado juntamente com as frequências correspondentes () o número de observações que caíram no intervalo r "th, ou frequências relativas ():

Intervalos de valor característico

frequência mi

gráfico de barras e cumular (ogiva), já discutidos em detalhes por nós, são uma excelente ferramenta de visualização de dados que permite obter uma compreensão primária da estrutura de dados. Tais gráficos (Fig. 1.15) são construídos para dados contínuos da mesma forma que para dados discretos, apenas levando em consideração o fato de que dados contínuos preenchem completamente a área de seus valores possíveis, tomando quaisquer valores.

Arroz. 1.15.

É por isso as colunas do histograma e o cumulado devem estar em contato, não ter áreas onde os valores dos atributos não se enquadrem em todos os possíveis(ou seja, o histograma e o cumulado não devem ter “buracos” ao longo do eixo das abcissas, nos quais não caiam os valores da variável em estudo, como na Fig. 1.16). A altura da barra corresponde à frequência - o número de observações que caem no intervalo dado, ou a frequência relativa - a proporção de observações. Intervalos não deve atravessar e geralmente têm a mesma largura.

Arroz. 1.16.

O histograma e o polígono são aproximações da curva de densidade de probabilidade (função diferencial) f(x) distribuição teórica, considerada no curso da teoria das probabilidades. Portanto, sua construção é importância no processamento estatístico primário de dados quantitativos contínuos - por sua forma pode-se julgar a lei de distribuição hipotética.

Acumulado - a curva das frequências acumuladas (frequências) da série de variação intervalar. O gráfico da função de distribuição integral é comparado com o cumulado F(x), também considerado no curso da teoria das probabilidades.

Basicamente, os conceitos de histograma e cumulados são associados precisamente a dados contínuos e suas séries de variação intervalar, uma vez que seus gráficos são estimativas empíricas da função densidade de probabilidade e função distribuição, respectivamente.

A construção de uma série de variação intervalar começa com a determinação do número de intervalos k. E esta tarefa é talvez a mais difícil, importante e controversa no tema em estudo.

O número de intervalos não deve ser muito pequeno, pois o histograma será muito suave ( alisado), perde todas as características da variabilidade dos dados iniciais - na Fig. 1.17 você pode ver como os mesmos dados nos quais os gráficos da Fig. 1.15 são usados ​​para construir um histograma com um número menor de intervalos (gráfico da esquerda).

Ao mesmo tempo, o número de intervalos não deve ser muito grande - caso contrário, não poderemos estimar a densidade de distribuição dos dados em estudo ao longo do eixo numérico: o histograma será suavizado (suavizado) com intervalos não preenchidos, irregulares (ver Fig. 1.17, gráfico à direita).

Arroz. 1.17.

Como determinar o número preferido de intervalos?

Em 1926, Herbert Sturges propôs uma fórmula para calcular o número de intervalos em que é necessário dividir o conjunto inicial de valores do atributo estudado. Essa fórmula realmente se tornou super popular - a maioria dos livros de estatística a oferece, e muitos pacotes estatísticos a usam por padrão. Se isso é justificado e em todos os casos é uma questão muito séria.

Então, em que se baseia a fórmula de Sturges?

Considere a distribuição binomial)