Construção de uma série variacional discreta.  Resumo e agrupamento estatístico.  Série de distribuição estatística.  Exemplos de resolução de problemas

Construção de uma série variacional discreta. Resumo e agrupamento estatístico. Série de distribuição estatística. Exemplos de resolução de problemas

A maneira mais simples de generalizar material estatístico é construir séries. O resultado de um resumo de um estudo estatístico pode ser uma série de distribuição. Uma série de distribuição em estatística é uma distribuição ordenada de unidades populacionais em grupos de acordo com qualquer atributo: qualitativo ou quantitativo. Se a série for construída em uma base qualitativa, ela é chamada de atributiva, e se for quantitativa, ela é chamada de variacional.

A série de variação é caracterizada por dois elementos: variante (X) e frequência (f). Uma variante é um valor separado de um sinal de uma unidade separada ou grupo de população. O número que mostra quantas vezes um determinado valor de recurso ocorre é chamado de frequência. Se a frequência é expressa como um número relativo, ela é chamada de frequência. A série de variação pode ser intervalar quando os limites “de” e “para” são definidos, ou pode ser discreta quando o traço em estudo é caracterizado por um determinado número.

Consideraremos a construção de séries variacionais usando exemplos.

Exemplo. e há dados sobre as categorias salariais de 60 trabalhadores em uma das oficinas da fábrica.

Distribua os trabalhadores de acordo com a categoria tarifária, construa uma série de variações.

Para fazer isso, escrevemos todos os valores do atributo em ordem crescente e calculamos o número de trabalhadores em cada grupo.

Tabela 1.4

Distribuição dos trabalhadores por categoria

Classificação do Trabalhador (X)

Número de trabalhadores

pessoa (f)

em % do total (em particular)

Obtivemos uma série discreta variacional na qual o traço em estudo (classificação do trabalhador) é representado por um determinado número. Para maior clareza, a série variacional é representada graficamente. Com base nesta série de distribuição, uma superfície de distribuição foi construída.

Arroz. 1.1. Polígono de distribuição dos trabalhadores por categoria salarial

Prédio série intervalar com intervalos iguais, considere o seguinte exemplo.

Exemplo. Dados conhecidos sobre o custo do capital fixo de 50 empresas em milhões de rublos. É necessário mostrar a distribuição das empresas de acordo com o custo do capital fixo.

Para mostrar a distribuição das empresas de acordo com o custo do capital fixo, primeiro decidimos o número de grupos que queremos distinguir. Suponha que decidamos destacar 5 grupos de empresas. Em seguida, determinamos o tamanho do intervalo no grupo. Para isso, usamos a fórmula

De acordo com nosso exemplo.

Somando o valor do intervalo ao valor mínimo do atributo, obtemos grupos de firmas pelo custo de capital fixo.

Uma unidade com valor duplo pertence ao grupo onde atua como limite superior (ou seja, o valor de recurso 17 irá para o primeiro grupo, 24 para o segundo, etc.).

Vamos contar o número de plantas em cada grupo.

Tabela 1.5

Distribuição das empresas por valor de capital fixo (milhões de rublos)

Custo de capital fixo
em milhões de rublos (X)

Número de empresas
(frequência) (f)

Frequências acumuladas
(cumulativo)

De acordo com essa distribuição, foi obtida uma série de intervalo variacional, da qual se segue que 36 empresas possuem capital fixo no valor de 10 a 24 milhões de rublos. etc.

A série de distribuição de intervalo pode ser representada graficamente como um histograma.

Os resultados do processamento de dados são documentados em tabelas estatísticas. As tabelas estatísticas contêm seu sujeito e predicado.

O sujeito é aquele conjunto ou parte do conjunto que está sujeito à característica.

O predicado é um indicador que caracteriza o sujeito.

As tabelas são diferenciadas: simples e de grupo, combinacionais, com desenvolvimento simples e complexo do predicado.

Uma tabela simples no assunto contém uma lista de unidades individuais.

Se o sujeito tiver um agrupamento de unidades, essa tabela é chamada de tabela de grupo. Por exemplo, um grupo de empresas pelo número de trabalhadores, grupos populacionais por sexo.

O assunto da tabela de combinação contém um agrupamento de acordo com dois ou mais critérios. Por exemplo, a população é dividida por sexo em grupos por educação, idade, etc.

As tabelas de combinação contêm informações que permitem identificar e caracterizar a relação de vários indicadores e o padrão de suas mudanças no espaço e no tempo. Para que a mesa seja visual ao desenvolver seu assunto, limitam-se a dois ou três signos, formando um número limitado de grupos para cada um deles.

O predicado nas tabelas pode ser desenvolvido de diferentes maneiras. Com um desenvolvimento simples do predicado, todos os seus indicadores estão localizados independentemente uns dos outros.

Com um desenvolvimento complexo do predicado, os indicadores são combinados entre si.

Ao construir qualquer tabela, deve-se partir dos objetivos do estudo e do conteúdo do material processado.

Além de tabelas, as estatísticas usam gráficos e tabelas. Diagrama - os dados estatísticos são exibidos usando formas geométricas. Os gráficos são divididos em gráficos de linhas e de barras, mas podem haver gráficos ondulados (desenhos e símbolos), gráficos de pizza (o círculo é considerado o tamanho de toda a população e as áreas de setores individuais exibem Gravidade Específica ou uma parte dele partes constituintes), diagramas radiais (baseados em ordenadas polares). O cartograma é uma combinação mapa de contorno ou um plano da área com um diagrama.

A maneira mais simples de generalizar material estatístico é construir séries. O resultado de um resumo de um estudo estatístico pode ser uma série de distribuição.

Depois de determinar a característica de agrupamento, o número de grupos e os intervalos de agrupamento, os dados de resumo e agrupamento são apresentados na forma de séries de distribuição e são apresentados na forma de tabelas estatísticas.

Uma série de distribuição é um tipo de agrupamento.

Distribuição próxima em estatística é chamado de distribuição ordenada de unidades populacionais em grupos de acordo com qualquer atributo: qualitativo ou quantitativo.

  1. Tipos de séries de distribuição

Dependendo do traço subjacente à formação de uma série de distribuição, distinguem-se séries de distribuição atributivas e de variação:

    séries de distribuição denominadas atributivas construídas em bases qualitativas;

    as séries de distribuição são denominadas variacionais, construídas em ordem crescente ou decrescente dos valores de um traço quantitativo.

A série de variação da distribuição consiste em duas colunas. A primeira coluna contém os valores quantitativos da característica variável, que são chamados de variantes e são denotados. Variante discreta - expressa como um número inteiro. A opção de intervalo está no intervalo de e para. Dependendo do tipo de variantes, é possível construir uma série variacional discreta ou intervalar. A segunda coluna contém o número de variante específica expresso em termos de frequências ou frequências:

    as frequências são números absolutos que mostram quantas vezes um determinado valor de recurso ocorre no agregado; a soma de todas as frequências deve ser igual ao número de unidades de toda a população;

    frequências são frequências expressas como uma porcentagem do total; a soma de todas as frequências expressas em porcentagem deve ser igual a 100% em frações de um.

série de variação caracterizada por dois elementos: variante (X) e frequência (f). Uma variante é um valor separado de um sinal de uma unidade separada ou grupo de população. O número que mostra quantas vezes um determinado valor de recurso ocorre é chamado frequência. Se a frequência é expressa como um número relativo, ela é chamada de frequência.

As séries de variação podem ser:

    intervalo, quando os limites "de" e "para" são definidos, a série de distribuição de intervalo pode ser representada graficamente na forma de um histograma;

    discreto, quando o traço em estudo é caracterizado por um determinado número.

  1. Representação gráfica da série de distribuição

As séries de distribuição são visualizadas usando imagens gráficas.

As séries de distribuição são exibidas como:

    polígono;

    histogramas;

    acumula;

ao construir aterro no eixo horizontal (abcissa) os valores do atributo variável são plotados e no eixo vertical (eixo y) - frequências ou frequências.

para construir histogramas o eixo das abcissas indica os valores dos limites dos intervalos e, com base neles, são construídos retângulos, cuja altura é proporcional às frequências (ou frequências).

A distribuição de uma característica em uma série variacional de acordo com as frequências acumuladas (frequências) é representada usando o cumulado.

Acumular ou a curva cumulativa, ao contrário do polígono, é construída sobre as frequências ou frequências acumuladas. Nesse caso, os valores característicos são colocados no eixo das abcissas e as frequências ou frequências acumuladas são colocadas no eixo das ordenadas.

Ogiva é construído de forma semelhante ao acumulado com a única diferença de que as frequências acumuladas são colocadas no eixo das abcissas e os valores dos recursos são colocados no eixo das ordenadas.

Uma variação do acumulado é a curva de concentração ou gráfico de Lorenz. Para traçar a curva de concentração, ambos os eixos de um sistema de coordenadas retangulares são dimensionados como uma porcentagem de 0 a 100. Nesse caso, os eixos das abcissas indicam as frequências acumuladas e os eixos das ordenadas mostram os valores acumulados da parcela (em por cento) pelo volume do recurso.

A descrição das mudanças em um atributo variável é realizada usando séries de distribuição.

Série de distribuição estatística- esta é uma distribuição ordenada de unidades da população estatística em grupos separados de acordo com um determinado atributo variável.

As séries estatísticas construídas em bases qualitativas são chamadas de atributivo. Se a série de distribuição for baseada em um atributo quantitativo, então a série é variacional.

Por sua vez, as séries variacionais são divididas em discretas e intervalares. No centro discreto da série de distribuição reside uma característica discreta (descontínua) que assume valores numéricos específicos (o número de infrações, o número de pedidos de assistência judiciária dos cidadãos). intervalo a série de distribuição é construída com base em um recurso contínuo que pode assumir quaisquer valores de um determinado intervalo (idade do condenado, prazo de prisão, etc.)

Qualquer série de distribuição estatística contém dois elementos obrigatórios - série e variantes de frequência. Opções (XI) são os valores individuais do recurso que ele assume na série de distribuição. Frequências (fi) são valores numéricos que mostram quantas vezes certas opções ocorrem na série de distribuição. A soma de todas as frequências é chamada de volume da população.

Frequências expressas em unidades relativas (frações ou porcentagens) são chamadas de frequências ( com eu). A soma das frequências é igual a um se as frequências forem expressas em frações de um, ou 100 se forem expressas em porcentagem. O uso de frequências permite comparar séries variacionais com diferentes tamanhos populacionais. As frequências são determinadas pela seguinte fórmula:

para construir série discreta todos os que ocorrem em uma linha são classificados valores individuais característica, e então a frequência de repetição de cada valor é calculada. Uma série de distribuição é elaborada na ideia de uma tabela composta por duas linhas e colunas, uma das quais contém os valores das variantes da série XI, no segundo - os valores das frequências fi.

Considere um exemplo de construção de um discreto série de variação.

Exemplo 3.1 . De acordo com o Ministério da Administração Interna, crimes cometidos na cidade de N menores de idade.

17 13 15 16 17 15 15 14 16 13 14 17 14 15 15 16 16 15 14 15 15 14 16 16 14 17 16 15 16 15 13 15 15 13 15 14 15 13 17 14.

Construa uma série de distribuição discreta.

Solução .

Primeiro, é necessário classificar os dados sobre a idade dos menores, ou seja, escreva-os em ordem crescente.

13 13 13 13 13 14 14 14 14 14 14 14 14 15 15 15 15 15 15 15 15 15 15 15 15 15 15 16 16 16 16 16 16 16 16 17 17 17 17 17



Tabela 3.1

Assim, as frequências refletem o número de pessoas de uma determinada idade, por exemplo, 5 pessoas têm 13 anos, 8 pessoas têm 14 anos e assim por diante.

Prédio intervalo as linhas de distribuição são realizadas de maneira semelhante à implementação de um agrupamento de intervalos iguais de acordo com um atributo quantitativo, ou seja, primeiro é determinado o número ideal de grupos nos quais o conjunto será dividido, os limites dos intervalos por grupos são definidos e as frequências são calculadas.

Vamos ilustrar a construção de uma série de distribuição intervalar usando o seguinte exemplo.

Exemplo 3.2 .

Construa uma série de intervalo para a seguinte população estatística - o salário de um advogado no escritório, mil rublos:

16,0 22,2 25,1 24,3 30,5 32,0 17,0 23,0 19,8 27,5 22,0 18,9 31,0 21,5 26,0 27,4

Solução.

Vamos pegar o número ideal de grupos de intervalos iguais para uma determinada população estatística, igual a 4 (temos 16 opções). Portanto, o tamanho de cada grupo é igual a:

e o valor de cada intervalo será igual a:

Os limites dos intervalos são determinados pelas fórmulas:

,

onde são os limites inferior e superior do i-ésimo intervalo, respectivamente.

Omitindo os cálculos intermediários dos limites dos intervalos, inserimos seus valores (opções) e o número de advogados (frequências) que possuem salários dentro de cada intervalo na Tabela 3.2, que ilustra a série intervalar resultante.

Tabela 3.2

A análise de séries de distribuição estatística pode ser realizada usando um método gráfico. A representação gráfica da série de distribuição permite ilustrar visualmente os padrões de distribuição da população estudada, representando-a na forma de um polígono, um histograma e cúmulos. Vamos dar uma olhada em cada um desses gráficos.

Polígonoé uma polilinha cujos segmentos conectam pontos com coordenadas ( XI;fi). Normalmente, um polígono é usado para exibir séries de distribuição discretas. Para construí-lo, os valores individuais classificados do recurso são plotados no eixo x XI, no eixo y estão as frequências correspondentes a esses valores. Como resultado, conectando segmentos dos pontos correspondentes aos dados marcados ao longo dos eixos de abcissas e ordenadas, obtém-se uma polilinha, denominada polígono. Vamos dar um exemplo de construção de um polígono de frequência.

Para ilustrar a construção de um polígono, vamos pegar o resultado da resolução do exemplo 3.1 para construir uma série discreta - Figura 1. A abcissa mostra a idade dos condenados, a ordenada mostra o número de menores condenados que dada idade. Analisando este polígono, podemos dizer que o maior número condenados - 14 pessoas, têm 15 anos.

Figura 3.1 - Faixa de frequências de uma série discreta.

Um polígono também pode ser construído para uma série de intervalos, caso em que os pontos médios dos intervalos são plotados ao longo do eixo das abcissas e as frequências correspondentes são plotadas ao longo do eixo das ordenadas.

gráfico de barras– uma figura escalonada composta por retângulos, cujas bases são os intervalos do valor do recurso e as alturas são iguais às frequências correspondentes. O histograma é usado apenas para exibir séries de distribuição de intervalo. Se os intervalos forem desiguais, então, para construir um histograma no eixo y, não são plotadas as frequências, mas a razão entre a frequência e a largura do intervalo correspondente. Um histograma pode ser convertido em um polígono de distribuição se os meios de suas colunas estiverem conectados por segmentos.

Para ilustrar a construção de um histograma, vamos pegar os resultados da construção de uma série intervalar do Exemplo 3.2 - Figura 3.2.

Figura 3.2 - Histograma de distribuição remunerações advogados.

Para uma representação gráfica de séries variacionais, cumulate também é usado. Acumularé uma curva representando uma série de frequências acumuladas e conectando pontos com coordenadas ( XI;eu nak). As frequências cumulativas são calculadas pela soma sucessiva de todas as frequências da série de distribuição e mostram o número de unidades populacionais que possuem um valor de recurso não maior que o especificado. Vamos ilustrar o cálculo das frequências acumuladas para as séries intervalares variacionais apresentadas no exemplo 3.2 - tabela 3.3.

Tabela 3.3

Para construir o acumulado de uma série de distribuição discreta, os valores individuais classificados da característica são plotados ao longo do eixo das abcissas e as frequências acumuladas correspondentes a eles são plotadas ao longo do eixo das ordenadas. Ao construir uma curva cumulativa de uma série intervalar, o primeiro ponto terá uma abscissa igual ao limite inferior do primeiro intervalo e uma ordenada igual a 0. Todos os pontos subseqüentes devem corresponder ao limite superior dos intervalos. Vamos construir um cumulate usando os dados da Tabela 3.3 - Figura 3.3.

Figura 3.3 - Curva de distribuição cumulativa dos vencimentos dos advogados.

perguntas de teste

1. O conceito de série de distribuição estatística, seus principais elementos.

2. Tipos de séries de distribuição estatística. Sua breve descrição.

3. Séries de distribuição discreta e intervalar.

4. Técnica de construção de séries de distribuições discretas.

5. Técnica de construção de séries de distribuição intervalar.

6. Representação gráfica de séries de distribuições discretas.

7. Representação gráfica de séries de distribuição intervalar.

Tarefas

Tarefa 1. Existem os seguintes dados sobre o progresso de 25 alunos do grupo no TGP por sessão: 5, 4, 4, 4, 3, 2, 5, 3, 4, 4, 4, 3, 2, 5, 2, 5 , 5, 2, 3 , 3, 5, 4, 2, 3, 3. Construa uma série variacional discreta de distribuição dos alunos de acordo com as notas das avaliações recebidas na sessão. Para a série resultante, calcule frequências, frequências cumulativas, frequências cumulativas. Tire suas próprias conclusões.

Tarefa 2. A colônia contém 1000 condenados, sua distribuição etária é apresentada na tabela:

foto esta linha graficamente. Tire suas próprias conclusões.

Tarefa 3. Os seguintes dados estão disponíveis sobre as condições de prisão de prisioneiros:

5; 4; 2; 1; 6; 3; 4; 3; 2; 2; 3; 1; 17; 6; 2; 8; 5; 11; 9; 3; 5; 6; 4; 3; 10; 5; 25; 1; 12; 3; 3; 4; 9; 6; 5; 3; 4; 3; 5; 12; 4; 13; 2; 4; 6; 4; 14; 3; 11; 5; 4; 13; 2; 4; 6; 4; 14; 3; 11; 5; 4; 3; 12; 6.

Construa uma série intervalar da distribuição de prisioneiros por termos de prisão. Tire suas próprias conclusões.

Tarefa 4. Estão disponíveis os seguintes dados sobre a distribuição dos condenados na região no período em estudo, segundo faixas etárias:

Desenhe esta série graficamente, tire conclusões.

Os resultados do agrupamento dos dados estatísticos coletados são geralmente apresentados na forma de séries de distribuição. Uma série de distribuição é uma distribuição ordenada de unidades populacionais em grupos de acordo com a característica em estudo.

As séries de distribuição são divididas em atributivas e variacionais, dependendo da característica subjacente ao agrupamento. Se o sinal for qualitativo, a série de distribuição é chamada de atributiva. Um exemplo de uma série de atributos é a distribuição de empresas e organizações por forma de propriedade (ver Tabela 3.1).

Se o atributo sobre o qual a série de distribuição é construída for quantitativo, então a série é chamada de variacional.

A série de distribuição variacional sempre consiste em duas partes: uma variante e suas frequências (ou frequências) correspondentes. Uma variante é um valor que pode assumir um recurso em unidades da população, uma frequência é o número de unidades de observação que possuem um determinado valor do recurso. A soma das frequências é sempre igual ao tamanho da população. Às vezes, em vez de frequências, são calculadas frequências - são frequências expressas em frações de uma unidade (então a soma de todas as frequências é igual a 1) ou como uma porcentagem do volume da população (a soma das frequências será igual a 100%).

As séries variacionais são discretas e intervalares. Para séries discretas (Tabela 3.7), as opções são expressas em números específicos, geralmente inteiros.

Tabela 3.8. Distribuição dos trabalhadores por tempo de trabalho na seguradora
Tempo de trabalho na empresa anos completos(opções) Número de empregados
Humano (frequências) em % do total (frequente)
até um ano 15 11,6
1 17 13,2
2 19 14,7
3 26 20,2
4 10 7,8
5 18 13,9
6 24 18,6
Total 129 100,0

Na série intervalar (ver Tabela 3.2), os valores do indicador são definidos como intervalos. Os intervalos têm dois limites: inferior e superior. Os intervalos podem ser abertos ou fechados. Os abertos não possuem uma das bordas, portanto, na Tabela. 3.2 o primeiro intervalo não tem limite inferior e o último não tem limite superior. Ao construir uma série intervalar, dependendo da natureza da dispersão dos valores do atributo, são usados ​​intervalos iguais e desiguais (a Tabela 3.2 mostra uma série de variação com intervalos iguais).

Se o recurso assume um número limitado de valores, geralmente não mais que 10, são construídas séries de distribuição discretas. Se a variante for maior, a série discreta perde sua visibilidade; neste caso, é aconselhável usar a forma intervalar da série variacional. Com variação contínua de uma feição, quando seus valores em certos limites diferem entre si por uma quantidade arbitrariamente pequena, também construa uma série de distribuição de intervalo.

3.3.1. Construção de séries variacionais discretas

Considere a técnica para construir séries variacionais discretas usando um exemplo.

Exemplo 3.2. Os seguintes dados sobre a composição quantitativa de 60 famílias estão disponíveis:

Para se ter uma ideia da distribuição das famílias de acordo com o número de seus membros, deve-se construir uma série variacional. Como o atributo aceita um número limitado de valores inteiros, construímos uma série variacional discreta. Para fazer isso, é recomendável primeiro escrever todos os valores do atributo (o número de membros da família) em ordem crescente (ou seja, classificar os dados estatísticos):

Então você precisa contar o número de famílias com a mesma composição. O número de membros da família (o valor da variável característica) são as opções (vamos denotá-las por x), o número de famílias com a mesma composição são as frequências (vamos denotá-las por f). Representamos os resultados do agrupamento na forma da seguinte série de distribuição variacional discreta:

Tabela 3.11.
Número de membros da família (x) Número de famílias (y)
1 8
2 14
3 20
4 9
5 5
6 4
Total 60

3.3.2. Construção de séries de variações intervalares

Vamos mostrar o método de construção de séries de distribuição variacional de intervalo usando o exemplo a seguir.

Exemplo 3.3. Como resultado da observação estatística, os seguintes dados sobre média taxa de juros de 50 bancos comerciais (%):

Tabela 3.12.
14,7 19,0 24,5 20,8 12,3 24,6 17,0 14,2 19,7 18,8
18,1 20,5 21,0 20,7 20,4 14,7 25,1 22,7 19,0 19,6
19,0 18,9 17,4 20,0 13,8 25,6 13,0 19,0 18,7 21,1
13,3 20,7 15,2 19,9 21,9 16,0 16,9 15,3 21,4 20,4
12,8 20,8 14,3 18,0 15,1 23,8 18,5 14,4 14,4 21,0

Como você pode ver, é extremamente inconveniente visualizar tal matriz de dados, além disso, não há padrões de mudança no indicador. Vamos construir uma série de distribuição intervalar.

  1. Vamos definir o número de intervalos.

    O número de intervalos na prática muitas vezes é definido pelo próprio pesquisador com base nos objetivos de cada observação em particular. No entanto, também pode ser calculado matematicamente usando a fórmula de Sturgess

    n = 1 + 3,322lgN,

    onde n é o número de intervalos;

    N é o volume da população (o número de unidades de observação).

    Para o nosso exemplo, obtemos: n \u003d 1 + 3,322lgN \u003d 1 + 3,322lg50 \u003d 6,6 "7.

  2. Vamos determinar o valor dos intervalos (i) pela fórmula

    onde x max - o valor máximo do atributo;

    x min - o valor mínimo do atributo.

    Para o nosso exemplo

    Os intervalos das séries variacionais são ilustrativos se seus limites possuem valores "arredondados", portanto iremos arredondar o valor do intervalo 1,9 para 2, e o valor mínimo do recurso 12,3 para 12,0.

  3. Vamos definir os limites dos intervalos.

    Os intervalos, via de regra, são escritos de forma que o limite superior de um intervalo seja simultaneamente o limite inferior do intervalo seguinte. Portanto, para nosso exemplo, obtemos: 12,0-14,0; 14,0-16,0; 16,0-18,0; 18,0-20,0; 20,0-22,0; 22,0-24,0; 24,0-26,0.

    Tal registro significa que o recurso é contínuo. Se as opções de característica tiverem valores estritamente definidos, por exemplo, apenas números inteiros, mas seu número for muito grande para construir uma série discreta, você poderá criar uma série de intervalos em que o limite inferior do intervalo não coincidirá com o limite superior do próximo intervalo (isso significa que o recurso é discreto). Por exemplo, na distribuição de funcionários de uma empresa por idade, você pode criar os seguintes grupos de intervalo de anos: 18-25, 26-33, 34-41, 42-49, 50-57, 58-65, 66 e mais.

    Além disso, em nosso exemplo, poderíamos abrir o primeiro e o último intervalo, etc. escrever: até 14,0; 24.0 e acima.

  4. Com base nos dados iniciais, construímos uma série ranqueada. Para fazer isso, escrevemos em ordem crescente os valores que o recurso assume. Os resultados são apresentados na tabela: Tabela 3.13. Série classificada de taxas de juros de bancos comerciais
    Taxa bancária % (opções)
    12,3 17,0 19,9 23,8
    12,8 17,4 20,0 24,5
    13,0 18,0 20,0 24,6
    13,3 18,1 20,4 25,1
    13,8 18,5 20,4 25,6
    14,2 18,7 20,5
    14,3 18,8 20,7
    14,4 18,9 20,7
    14,7 19,0 20,8
    14,7 19,0 21,0
    15,1 19,0 21,0
    15,2 19,0 21,1
    15,3 19,0 21,4
    16,0 19,6 21,9
    16,9 19,7 22,7
  5. Vamos calcular as frequências.

    Ao contar frequências, pode surgir uma situação em que o valor de um recurso cai na borda de um intervalo. Nesse caso, você pode seguir a regra: a unidade dada é atribuída ao intervalo para o qual seu valor é o limite superior. Portanto, o valor 16,0 em nosso exemplo se referirá ao segundo intervalo.

Os resultados do agrupamento obtidos em nosso exemplo serão apresentados em uma tabela.

Tabela 3.14. Distribuição de bancos comerciais por taxa de empréstimo
Taxa curta, % Número de bancos, unidades (frequências) Frequências acumuladas
12,0-14,0 5 5
14,0-16,0 9 14
16,0-18,0 4 18
18,0-20,0 15 33
20,0-22,0 11 44
22,0-24,0 2 46
24,0-26,0 4 50
Total 50 -

A última coluna da tabela apresenta as frequências acumuladas, que são obtidas pela soma sucessiva das frequências, começando pela primeira (por exemplo, para o primeiro intervalo - 5, para o segundo intervalo 5 + 9 = 14, para o terceiro intervalo 5 + 9 + 4 = 18, etc.). A frequência acumulada, por exemplo, 33, mostra que 33 bancos têm uma taxa de empréstimo que não ultrapassa 20% (o limite superior do intervalo correspondente).

No processo de agrupamento de dados ao construir séries variacionais, às vezes são usados ​​intervalos desiguais. Isso se aplica aos casos em que os valores característicos obedecem à regra da aritmética ou progressão geométrica ou quando a aplicação da fórmula de Sturgess resulta em grupos de intervalos "vazios" que não contêm unidades de observação. Em seguida, os limites dos intervalos são definidos arbitrariamente pelo próprio pesquisador, com base em senso comum e objetivos da pesquisa ou fórmulas. Então, para dados que mudam em progressão aritmética, o valor dos intervalos é calculado da seguinte forma.

Ao processar grandes quantidades de informações, o que é especialmente importante na condução de desenvolvimentos científicos modernos, o pesquisador enfrenta a séria tarefa de agrupar corretamente os dados iniciais. Se os dados forem discretos, como vimos, não há problemas - você só precisa calcular a frequência de cada recurso. Se a característica em estudo tiver contínuo(o que é mais comum na prática), então a escolha do número ideal de intervalos para agrupar um recurso não é uma tarefa trivial.

Para agrupar variáveis ​​aleatórias contínuas, toda a faixa de variação do recurso é dividida em um determinado número de intervalos para.

intervalo agrupado (contínuo) série variacional chamados intervalos classificados pelo valor do recurso (), onde indicado junto com as frequências correspondentes () o número de observações que caíram no r "ésimo intervalo, ou frequências relativas ():

Intervalos de valores característicos

frequência mi

gráfico de barras e cumular (ogiva), já discutidos em detalhes por nós, são uma excelente ferramenta de visualização de dados que permite obter uma compreensão primária da estrutura de dados. Esses gráficos (Fig. 1.15) são construídos para dados contínuos da mesma forma que para dados discretos, apenas levando em consideração o fato de que os dados contínuos preenchem completamente a área de seus valores possíveis, assumindo quaisquer valores.

Arroz. 1.15.

É por isso as colunas do histograma e o cumulado devem estar em contato, não possuem áreas onde os valores dos atributos não caiam dentro de todos os possíveis(ou seja, o histograma e o acumulado não devem ter "buracos" ao longo do eixo das abcissas, nos quais não caiam os valores da variável em estudo, como na Fig. 1.16). A altura da barra corresponde à frequência - o número de observações que se enquadram no intervalo determinado ou à frequência relativa - a proporção de observações. intervalos não deve cruzar e geralmente têm a mesma largura.

Arroz. 1.16.

O histograma e o polígono são aproximações da curva de densidade de probabilidade (função diferencial) f(x) distribuição teórica, considerada no curso de teoria da probabilidade. Portanto, sua construção é importância no processamento estatístico primário de dados quantitativos contínuos - por sua forma pode-se julgar a lei de distribuição hipotética.

Acumular - a curva das frequências acumuladas (frequências) da série de variação do intervalo. O gráfico da função de distribuição integral é comparado com o acumulado F(x), também considerado no curso de teoria da probabilidade.

Basicamente, os conceitos de histograma e cumulados estão associados justamente a dados contínuos e suas séries de variação intervalar, pois seus gráficos são estimativas empíricas da função densidade de probabilidade e função distribuição, respectivamente.

A construção de uma série de variação de intervalo começa com a determinação do número de intervalos k. E esta tarefa é talvez a mais difícil, importante e controversa no tema em estudo.

O número de intervalos não deve ser muito pequeno, pois o histograma será muito suave ( supersuave), perde todas as características da variabilidade dos dados iniciais - na Fig. 1.17 você pode ver como os mesmos dados nos quais os gráficos da Fig. 1.15 são usados ​​para construir um histograma com um número menor de intervalos (gráfico à esquerda).

Ao mesmo tempo, o número de intervalos não deve ser muito grande - caso contrário, não seremos capazes de estimar a densidade de distribuição dos dados em estudo ao longo do eixo numérico: o histograma ficará pouco suavizado (subsuavizado) com intervalos não preenchidos, desiguais (ver Fig. 1.17, gráfico à direita).

Arroz. 1.17.

Como determinar o número preferido de intervalos?

Já em 1926, Herbert Sturges propôs uma fórmula para calcular o número de intervalos nos quais é necessário dividir o conjunto inicial de valores do atributo estudado. Essa fórmula realmente se tornou superpopular - a maioria dos livros de estatística a oferece e muitos pacotes estatísticos a usam por padrão. Se isso é justificado e em todos os casos é uma questão muito séria.

Então, em que se baseia a fórmula de Sturges?

Considere a distribuição binomial )