Componha uma série variacional intervalar e discreta.  Construindo uma série de distribuição

Componha uma série variacional intervalar e discreta. Construindo uma série de distribuição

Trabalho de laboratório №1. processamento primário Dados estatísticos

Construção da série de distribuição

A distribuição ordenada de unidades populacionais em grupos de acordo com qualquer atributo é chamada distribuição próxima . Nesse caso, o sinal pode ser quantitativo, então a série é chamada variacional , e qualitativa, então a série é chamada atributivo . Por exemplo, a população de uma cidade pode ser distribuída de acordo com faixas etárias dentro série de variação, ou por afiliação profissional em uma série de atributos (claro, muitos outros sinais qualitativos e quantitativos podem ser oferecidos para a construção de séries de distribuição, a escolha de um sinal é determinada pela tarefa de pesquisa estatística).

Qualquer série de distribuição é caracterizada por dois elementos:

- opção(XI) são os valores individuais da característica das unidades quadro de amostragem. Para uma série variacional, a variante assume valores numéricos, para uma série atributiva - qualitativa (por exemplo, x = "funcionário público");

- frequência(n eu) é um número que mostra quantas vezes este ou aquele valor de recurso ocorre. Se a frequência for expressa como um número relativo (ou seja, a proporção de elementos populacionais correspondentes a dado valor opções, no volume total da população), então é chamado frequência relativa ou frequência.

As séries de variação podem ser:

- discreto quando a característica em estudo é caracterizada por um determinado número (geralmente um número inteiro).

- intervalo quando os limites "de" e "para" são definidos para um recurso continuamente variável. Uma série intervalar também é construída se o conjunto de valores de um recurso discretamente variável for grande.

Uma série intervalar pode ser construída tanto com intervalos de comprimento igual (séries intervalares iguais) quanto com intervalos desiguais, se isso for ditado pelas condições do estudo estatístico. Por exemplo, pode-se considerar uma série de distribuição de renda da população com os seguintes intervalos:<5тыс р., 5-10 тыс р., 10-20 тыс.р., 20-50 тыс р., и т.д. Если цель исследования не определяет способ построения интервального ряда, то строится равноинтервальный ряд, число интервалов в котором определяется по формуле Стерджесса:



onde k é o número de intervalos, n é o tamanho da amostra. (Claro, a fórmula geralmente fornece um número fracionário, e o número inteiro mais próximo do número resultante é escolhido como o número de intervalos.) A duração do intervalo, nesse caso, é determinada pela fórmula

.

Graficamente, as séries variacionais podem ser representadas como histogramas(uma "coluna" de altura correspondente à frequência neste intervalo é construída acima de cada intervalo da série intervalar), área de distribuição(linha quebrada conectando pontos ( XI;n eu) ou acumula(construído de acordo com as frequências acumuladas, ou seja, para cada valor do atributo, é tomada a frequência de ocorrência no conjunto de objetos com valor do atributo menor que o dado).

Ao trabalhar no Excel, as seguintes funções podem ser usadas para construir séries variacionais:

VERIFICA( matriz de dados) – para determinar o tamanho da amostra. O argumento é o intervalo de células que contém os dados de amostra.

CONT.SE( variar; critério) - pode ser usado para construir um atributo ou série de variações. Os argumentos são o intervalo da matriz de valores de amostra do atributo e o critério - o valor numérico ou textual do atributo ou o número da célula na qual ele está localizado. O resultado é a frequência de ocorrência daquele valor na amostra.

FREQUÊNCIA( matriz de dados; matriz de intervalo) – para construir uma série variacional. Os argumentos são o intervalo da matriz de dados de amostra e a coluna de intervalos. Se for necessário construir uma série discreta, os valores das opções são indicados aqui, se for intervalo, os limites superiores dos intervalos (também chamados de "bolsos"). Como o resultado é uma coluna de frequências, a introdução da função deve ser concluída pressionando a combinação de teclas CTRL+SHIFT+ENTER. Observe que ao definir uma matriz de intervalos ao introduzir uma função, o último valor nela pode ser omitido - todos os valores que não caíram nos "bolsos" anteriores serão colocados no "bolso" correspondente. Às vezes, isso ajuda a evitar o erro de que o maior valor de amostra não é colocado automaticamente no último "bolso".

Além disso, para agrupamentos complexos (de acordo com vários critérios), é utilizada a ferramenta “tabelas dinâmicas”. Eles também podem ser usados ​​para construir séries de atributos e variações, mas isso complica desnecessariamente a tarefa. Além disso, para construir uma série de variação e um histograma, existe um procedimento de “histograma” do add-in “Analysis Package” (para usar add-ins no Excel, você deve primeiro baixá-los, eles não são instalados por padrão)

Ilustramos o processo de processamento de dados primários com os exemplos a seguir.

Exemplo 1.1. há dados sobre a composição quantitativa de 60 famílias.

Construa uma série de variação e um polígono de distribuição

Solução.

Vamos abrir as planilhas do Excel. Vamos inserir uma matriz de dados no intervalo A1:L5. Se você estiver estudando um documento em formato eletrônico (no formato Word, por exemplo), basta selecionar uma tabela com dados e copiá-la para a área de transferência, depois selecionar a célula A1 e colar os dados - eles ocuparão automaticamente o intervalo apropriado. Vamos calcular o tamanho da amostra n - o número de dados da amostra, para isso, na célula B7, digite a fórmula = CONTAGEM (A1: L5). Observe que para inserir o intervalo desejado na fórmula, não é necessário inserir sua designação no teclado, basta selecioná-lo. Vamos determinar os valores mínimo e máximo na amostra inserindo a fórmula =MIN(A1:L5) na célula B8 e na célula B9: =MAX(A1:L5).

Fig.1.1 Exemplo 1. Processamento primário de dados estatísticos em tabelas Excel

Em seguida, vamos preparar uma tabela para construir uma série de variação inserindo nomes para a coluna de intervalo (valores variantes) e a coluna de frequência. Na coluna de intervalos, insira os valores do atributo do mínimo (1) ao máximo (6), ocupando o intervalo B12:B17. Selecione a coluna de frequência, insira a fórmula =FREQUÊNCIA(A1:L5;B12:B17) e pressione a combinação de teclas CTRL+SHIFT+ENTER

Fig.1.2 Exemplo 1. Construção de uma série de variação

Para controle, calculamos a soma das frequências usando a função SUM (o ícone da função S no grupo Editing na guia Home), a soma calculada deve corresponder ao tamanho da amostra calculada anteriormente na célula B7.

Agora vamos construir um polígono: depois de selecionar a faixa de frequência resultante, selecione o comando "Gráfico" na guia "Inserir". Por padrão, os valores no eixo horizontal serão números ordinais - no nosso caso, de 1 a 6, que coincide com os valores das opções (números das categorias tarifárias).

O nome da série do gráfico “série 1” pode ser alterado usando a mesma opção “selecionar dados” na guia “Designer” ou simplesmente excluído.

Fig.1.3. Exemplo 1. Construindo um polígono de frequência

Exemplo 1.2. Estão disponíveis dados sobre emissões de poluentes de 50 fontes:

10,4 18,6 10,3 26,0 45,0 18,2 17,3 19,2 25,8 18,7
28,2 25,2 18,4 17,5 41,8 14,6 10,0 37,8 10,5 16,0
18,1 16,8 38,5 37,7 17,9 29,0 10,1 28,0 12,0 14,0
14,2 20,8 13,5 42,4 15,5 17,9 19, 10,8 12,1 12,4
12,9 12,6 16,8 19,7 18,3 36,8 15,0 37,0 13,0 19,5

Compile uma série de intervalos iguais, construa um histograma

Solução

Vamos adicionar uma matriz de dados a uma planilha do Excel, ela ocupará o intervalo A1:J5 Como na tarefa anterior, determinaremos o tamanho da amostra n, os valores mínimo e máximo na amostra. Como agora não precisamos de uma série discreta, mas de intervalos, e o número de intervalos no problema não é especificado, calculamos o número de intervalos k usando a fórmula de Sturgess. Para fazer isso, na célula B10, insira a fórmula =1+3.322*LOG10(B7).

Fig.1.4. Exemplo 2. Construção de uma série de intervalos iguais

O valor resultante não é um número inteiro, é aproximadamente 6,64. Como para k=7 o comprimento dos intervalos será expresso como um número inteiro (em contraste com o caso de k=6), escolheremos k=7 inserindo esse valor na célula C10. Calculamos o comprimento do intervalo d na célula B11 inserindo a fórmula = (B9-B8) / C10.

Vamos definir uma matriz de intervalos, especificando o limite superior para cada um dos 7 intervalos. Para fazer isso, na célula E8, calcule o limite superior do primeiro intervalo inserindo a fórmula =B8+B11; na célula E9 o limite superior do segundo intervalo inserindo a fórmula =E8+B11. Para calcular os valores restantes dos limites superiores dos intervalos, fixamos o número da célula B11 na fórmula inserida usando o sinal $, para que a fórmula na célula E9 fique =E8+B$11 e copie o conteúdo de célula E9 para células E10-E14. O último valor obtido é igual ao valor máximo na amostra calculada anteriormente na célula B9.

Fig.1.5. Exemplo 2. Construção de uma série de intervalos iguais


Agora vamos preencher o array de "pockets" usando a função FREQUENCY, como foi feito no exemplo 1.

Fig.1.6. Exemplo 2. Construção de uma série de intervalos iguais

Com base na série variacional resultante, construiremos um histograma: selecione a coluna de frequência e selecione "Histograma" na guia "Inserir". Tendo recebido o histograma, vamos alterar os rótulos do eixo horizontal nele para valores no intervalo de intervalos, para isso selecionamos a opção “Selecionar dados” da guia “Designer”. Na janela que aparece, selecione o comando "Alterar" para a seção "Rótulos do eixo horizontal" e insira o intervalo de variantes de valores selecionando-o com o "mouse".

Fig.1.7. Exemplo 2. Construindo um histograma

Fig.1.8. Exemplo 2. Construindo um histograma

O assunto da estatística matemática. População geral e amostral.

— estatísticas matemáticas- um ramo da matemática que estuda os métodos de seleção, agrupamento, sistematização e análise de dados estatísticos para obtenção de conclusões com base científica.

— Dados estatísticos- valores numéricos da característica considerada dos objetos estudados, obtidos como resultado de um experimento aleatório.

A estatística matemática está intimamente relacionada à teoria da probabilidade, mas ao contrário da teoria da probabilidade, o modelo matemático do experimento é desconhecido. Em estatística matemática, de acordo com dados estatísticos, é necessário estabelecer uma distribuição de probabilidade desconhecida ou avaliar objetivamente os parâmetros de distribuição.

Métodos de estatística matemática tornam possível construir modelos matemáticos ótimos de fenômenos recorrentes de massa. O elo de ligação entre a teoria da probabilidade e a estatística matemática são os teoremas limite da teoria da probabilidade.

Atualmente, os métodos estatísticos são utilizados em quase todos os setores da economia nacional.

— População– dados estatísticos de todos os objetos estudados (às vezes - os próprios objetos). Muitas vezes, a população em geral é considerada como RV X.

— Amostra(população amostral) - dados estatísticos de objetos selecionados aleatoriamente da população geral.

— Tamanho da amostra n(volume da população geral N) - o número de objetos selecionados para estudo da população geral (número de objetos na população geral).

Exemplos.

a) Dados estatísticos pode ser: o crescimento dos alunos; o número de verbos (ou outras partes do discurso) em uma passagem de texto de um determinado comprimento; nota média do certificado; nível de inteligência; o número de erros cometidos pelo despachante, etc.

b) População geral talvez: a altura de todas as pessoas, as fileiras de todos os operários, a frequência do uso de uma determinada parte do discurso em todas as obras do autor em estudo, a pontuação média do certificado de todos os graduados, etc.



dentro) amostra talvez: - a altura de 20 alunos, o número de verbos em 50 passagens homogêneas de texto selecionadas aleatoriamente com um comprimento de 500 usos de palavras, a pontuação média do certificado de 100 graduados selecionados aleatoriamente em escolas da cidade, etc.

A amostra é chamada representante, se ele reflete corretamente a propriedade da população em geral. A representatividade da amostra é obtida por seleção aleatória, quando todos os objetos da população geral têm a mesma probabilidade de serem selecionados.

Para que a amostra seja representativa, diversos métodos de seleção dos objetos de estudo são utilizados.

Tipos de seleção: simples, mecânico, serial, típico.

Simples. Os elementos são selecionados aleatoriamente de toda a população.

Seleção mecânica. Escolha cada 10 (25, 30, etc.) objetos da população geral.

Serial. Um estudo é realizado em cada série (por exemplo, 10 passagens de 500 usos de palavras são selecionadas do texto - 10 séries).

Típica. A população geral é dividida em grupos típicos de acordo com um determinado atributo. O número de séries extraídas de cada um desses grupos é determinado pela proporção desse grupo na população geral.

Distribuição estatística da amostra e sua representação gráfica.

Deixe o SV X (população geral) ser estudado com relação a alguma característica. Vários testes independentes estão sendo realizados. Como resultado de experimentos, SV X assume alguns valores. O conjunto de valores obtidos é uma amostra e os próprios valores são dados estatísticos.

Inicialmente, a amostra é ordenada - a disposição dos dados estatísticos da amostra em ordem não decrescente. Obtemos uma série de variação.

série de variação- amostra classificada.

Série estatística discreta

Se a população for um CV discreto, uma série estatística discreta (distribuição estatística) é construída.

Deixe o valor aparecer nos tempos de amostra,

Tempo, …, - tempo.

I-thaya opção amostras; - frequência i-ésima opção Frequência mostra quantas vezes essa opção apareceu na amostra.

- frequência relativa i-ésima opção

(mostra qual parte da amostra é ).

Uma distribuição estatística é uma correspondência entre opções de amostra e suas frequências ou frequências relativas.

Para DSV, a distribuição estatística pode ser apresentada na forma de uma tabela - uma série estatística de frequências ou uma série estatística de frequências relativas.

Série estatística de frequências Série estatística

frequências relativas

........
........
........
........

Para maior clareza na representação da distribuição estatística da amostra, são construídos “gráficos” da distribuição estatística: um polígono e um histograma.

Polígono de freqüência(frequências relativas) - uma representação gráfica de uma série estatística discreta - uma linha quebrada conectando os pontos em série [para o polígono de frequências relativas].

Exemplo. O pesquisador está interessado no conhecimento dos candidatos em matemática. 10 candidatos são selecionados e suas notas escolares nesta disciplina são registradas. A seguinte amostra foi recebida: 5;4;4;3;2;5;4;3;4;5.

a) Apresentar a amostra como uma série de variações;

b) construir uma série estatística de frequências e frequências relativas;

c) desenhe um polígono de frequências relativas para a série resultante.

a) Vamos classificar a amostra, ou seja, Organize os membros da amostra em ordem não decrescente. Obtemos uma série variacional: 2; 3; 3; quatro; quatro; quatro; quatro; 5; 5;5.

b) Construímos uma série estatística de frequências (correspondência entre opções amostrais e suas frequências) e uma série estatística de frequências relativas (correspondência entre opções amostrais e suas frequências relativas)

0,1 0,2 0,4 0,3

Série estatística de frequências série estatística rel. frequências

1+2+4+3=10=n 0,1+0,2+0,4+0,3=1.

Polígono de frequências relativas.


O que é o agrupamento de dados estatísticos, e como ele se relaciona com as séries de distribuição, foi abordado nesta palestra, onde você também poderá aprender o que é uma série de distribuição discreta e variacional.

A série de distribuição é uma das variedades série estatística(além deles, as estatísticas usam séries de dinâmicas), são usadas para analisar dados sobre os fenômenos da vida social. A construção de séries variacionais é uma tarefa bastante viável para todos. No entanto, existem regras a serem lembradas.

Como construir uma série de distribuição variacional discreta

Exemplo 1 Estão disponíveis dados sobre o número de filhos em 20 famílias pesquisadas. Construir uma série variacional discreta distribuição das famílias por número de filhos.

0 1 2 3 1
2 1 2 1 0
4 3 2 1 1
1 0 1 0 2

Solução:

  1. Vamos começar com o layout da tabela, na qual inseriremos os dados. Como as linhas de distribuição possuem dois elementos, a tabela consistirá em duas colunas. A primeira coluna é sempre uma variante - o que estamos estudando - tiramos o nome da tarefa (final da frase com a tarefa nas condições) - por número de filhos- então nossa versão é o número de filhos.

A segunda coluna é a frequência - com que frequência nossa variante ocorre no fenômeno em estudo - também tiramos o nome da coluna da tarefa - distribuição das famílias - então nossa frequência é o número de famílias com o número correspondente de filhos.

  1. Agora, a partir dos dados iniciais, selecionamos os valores que ocorrem pelo menos uma vez. No nosso caso, isso

E vamos organizar esses dados na primeira coluna de nossa tabela em uma ordem lógica, neste caso aumentando de 0 a 4. Temos

E para concluir, vamos calcular quantas vezes cada valor das opções ocorre.

0 1 2 3 1

2 1 2 1 0

4 3 2 1 1

1 0 1 0 2

Como resultado, obtemos uma tabela completa ou a série necessária de distribuição das famílias pelo número de filhos.

Exercício . Existem dados sobre as categorias tarifárias de 30 trabalhadores da empresa. Construa uma série variacional discreta para a distribuição dos trabalhadores por categoria salarial. 2 3 2 4 4 5 5 4 6 3

1 4 4 5 5 6 4 3 2 3

4 5 4 5 5 6 6 3 3 4

Como construir uma série de variação de intervalo de distribuição

Vamos construir uma série de distribuição intervalar e ver como sua construção difere de uma série discreta.

Exemplo 2 Existem dados sobre o valor do lucro recebido por 16 empresas, milhões de rublos. — 23 48 57 12 118 9 16 22 27 48 56 87 45 98 88 63. Construa uma série variacional intervalar para a distribuição das empresas por volume de lucro, selecionando 3 grupos em intervalos iguais.

O princípio geral de construir uma série, é claro, será preservado, as mesmas duas colunas, as mesmas variantes e frequência, mas neste caso as variantes estarão localizadas no intervalo e as frequências serão contadas de forma diferente.

Solução:

  1. Vamos começar de maneira semelhante à tarefa anterior, construindo um layout de tabela, no qual inseriremos os dados. Como as linhas de distribuição possuem dois elementos, a tabela consistirá em duas colunas. A primeira coluna é sempre uma variante - o que estamos estudando - tiramos o nome da tarefa (final da frase com a tarefa nas condições) - pelo valor do lucro - o que significa que nossa variante é o valor do lucro recebido.

A segunda coluna é a frequência - quantas vezes nossa variante ocorre no fenômeno em estudo - também tiramos o nome da coluna da atribuição - a distribuição de empresas - ou seja, nossa frequência é o número de empresas com o lucro correspondente, em neste caso caindo no intervalo.

Como resultado, o layout da nossa tabela ficará assim:

onde i é o valor ou comprimento do intervalo,

Xmax e Xmin - o valor máximo e mínimo do recurso,

n é o número necessário de grupos de acordo com a condição do problema.

Vamos calcular o valor do intervalo para o nosso exemplo. Para isso, entre os dados iniciais, encontramos o maior e o menor

23 48 57 12 118 9 16 22 27 48 56 87 45 98 88 63 - o valor máximo é de 118 milhões de rublos e o mínimo é de 9 milhões de rublos. Vamos calcular a fórmula.

No cálculo, obtivemos o número 36, (3) três no período, nessas situações, o valor do intervalo deve ser arredondado para que após os cálculos não se perca o máximo de dados, por isso o valor do intervalo no cálculo é de 36,4 milhões de rublos.

  1. Agora vamos construir os intervalos - nossas opções neste problema. O primeiro intervalo é iniciado a partir do valor mínimo, o valor do intervalo é adicionado a ele e o limite superior do primeiro intervalo é obtido. Então o limite superior do primeiro intervalo torna-se o limite inferior do segundo intervalo, o valor do intervalo é adicionado a ele e o segundo intervalo é obtido. E assim por diante quantas vezes forem necessárias para construir intervalos de acordo com a condição.

Preste atenção, se não arredondarmos o valor do intervalo para 36,4, mas deixarmos em 36,3, então o último valor seria 117,9. É para evitar perda de dados que é necessário arredondar o valor do intervalo para um valor maior.

  1. Vamos contar o número de empresas que se enquadram em cada intervalo específico. Ao processar dados, deve-se lembrar que o valor superior do intervalo neste intervalo não é levado em consideração (não está incluído neste intervalo), mas é levado em consideração no próximo intervalo (o limite inferior do intervalo está incluído neste intervalo, e o superior não está incluído), exceto para o último intervalo.

Ao realizar o processamento de dados, é melhor indicar os dados selecionados com ícones convencionais ou cores para simplificar o processamento.

23 48 57 12 118 9 16 22

27 48 56 87 45 98 88 63

Marcaremos o primeiro intervalo em amarelo - e determinaremos quantos dados caem no intervalo de 9 a 45,4, enquanto esse 45,4 será levado em consideração no segundo intervalo (desde que esteja nos dados) - como resultado, obtenha 7 empresas no primeiro intervalo. E assim por diante para todos os intervalos.

  1. (ação adicional) Vamos calcular o valor total do lucro recebido pelas empresas para cada intervalo e em geral. Para fazer isso, adicione os dados marcados com cores diferentes e obtenha o valor total do lucro.

Para o primeiro intervalo 23 + 12 + 9 + 16 + 22 + 27 + 45 = 154 milhões de rublos

Para o segundo intervalo - 48 + 57 + 48 + 56 + 63 = 272 milhões de rublos.

Para o terceiro intervalo - 118 + 87 + 98 + 88 = 391 milhões de rublos.

Exercício . Existem dados sobre o tamanho do depósito no banco de 30 depositantes, mil rublos. 150, 120, 300, 650, 1500, 900, 450, 500, 380, 440,

600, 80, 150, 180, 250, 350, 90, 470, 1100, 800,

500, 520, 480, 630, 650, 670, 220, 140, 680, 320

Construir série de variação de intervalo distribuição dos depositantes, pelo tamanho da contribuição, destacando-se 4 grupos em intervalos iguais. Para cada grupo, calcule o valor total das contribuições.

agrupamento- esta é a divisão da população em grupos de alguma forma homogêneos.

Atribuição de serviço. Com a calculadora online você pode:

  • construir uma série de variação, construa um histograma e um polígono;
  • encontrar indicadores de variação (média, moda (incluindo graficamente), mediana, faixa de variação, quartis, decis, coeficiente de diferenciação quartil, coeficiente de variação e outros indicadores);

Instrução. Para agrupar uma série, deve-se selecionar o tipo da série de variação resultante (discreta ou intervalar) e especificar a quantidade de dados (número de linhas). A solução resultante é salva em um arquivo do Word (veja o exemplo de agrupamento de dados estatísticos).

Número de dados de entrada
",0);">

Se o agrupamento já foi feito e o série de variação discreta ou série intervalar, então você precisa usar os indicadores de variação da calculadora online. Testando a hipótese sobre o tipo de distribuição produzidos utilizando o serviço Estudo da forma de distribuição.

Tipos de agrupamentos estatísticos

série de variação. No caso de observações de uma discreta variável aleatória o mesmo valor pode ser encontrado mais de uma vez. Tais valores de uma variável aleatória x i são registrados indicando n i o número de vezes que ela aparece em n observações, essa é a frequência desse valor.
No caso de uma variável aleatória contínua, o agrupamento é usado na prática.
  1. Agrupamento tipológico- esta é a divisão da população qualitativamente heterogênea estudada em classes, tipos socioeconômicos, grupos homogêneos de unidades. Para construir esse agrupamento, use o parâmetro Série variacional discreta.
  2. O agrupamento estrutural é chamado, em que uma população homogênea é dividida em grupos que caracterizam sua estrutura de acordo com alguma característica variável. Para construir esse agrupamento, use o parâmetro Interval series.
  3. Um agrupamento que revela a relação entre os fenômenos estudados e suas características é denominado grupo analítico(ver agrupamento analítico de séries).

Princípios de construção de agrupamentos estatísticos

Uma série de observações ordenadas em ordem crescente é chamada de série de variação. sinal de agrupamentoé o sinal pelo qual a população é dividida em grupos separados. É chamada de base do grupo. O agrupamento pode ser baseado em características quantitativas e qualitativas.
Após determinar a base do agrupamento, deve-se decidir a questão do número de grupos em que a população de estudo deve ser dividida.

Usando computadores pessoais para processar dados estatísticos, o agrupamento de unidades de um objeto é realizado usando procedimentos padrão.
Um desses procedimentos é baseado no uso da fórmula de Sturgess para determinar o número ideal de grupos:

k = 1+3,322*lg(N)

Onde k é o número de grupos, N é o número de unidades populacionais.

A duração dos intervalos parciais é calculada como h=(x max -x min)/k

Em seguida, conte o número de acertos de observações nesses intervalos, que são tomados como frequências n i . Poucas frequências, cujos valores são inferiores a 5 (n i< 5), следует объединить. в этом случае надо объединить и соответствующие интервалы.
Os pontos médios dos intervalos x i =(c i-1 +c i)/2 são tomados como novos valores.

A descrição das mudanças em um atributo variável é realizada usando séries de distribuição.

Série de distribuição estatística- esta é uma distribuição ordenada de unidades da população estatística em grupos separados de acordo com um determinado atributo variável.

As séries estatísticas construídas em bases qualitativas são chamadas de atributivo. Se a série de distribuição for baseada em um atributo quantitativo, então a série é variacional.

Por sua vez, as séries variacionais são divididas em discretas e intervalares. No centro discreto da série de distribuição reside uma característica discreta (descontínua) que assume valores numéricos específicos (o número de infrações, o número de pedidos de assistência judiciária dos cidadãos). intervalo a série de distribuição é construída com base em um recurso contínuo que pode assumir quaisquer valores de um determinado intervalo (idade do condenado, prazo de prisão, etc.)

Qualquer série de distribuição estatística contém dois elementos obrigatórios - série e variantes de frequência. Opções (XI) são os valores individuais do recurso que ele assume na série de distribuição. Frequências (fi) são valores numéricos que mostram quantas vezes certas opções ocorrem na série de distribuição. A soma de todas as frequências é chamada de volume da população.

Frequências expressas em unidades relativas (frações ou porcentagens) são chamadas de frequências ( com eu). A soma das frequências é igual a um se as frequências forem expressas em frações de um, ou 100 se forem expressas em porcentagem. O uso de frequências permite comparar séries variacionais com diferentes tamanhos populacionais. As frequências são determinadas pela seguinte fórmula:

Para construir uma série discreta, tudo o que ocorre na série é classificado valores individuais característica, e então a frequência de repetição de cada valor é calculada. Uma série de distribuição é elaborada na ideia de uma tabela composta por duas linhas e colunas, uma das quais contém os valores das variantes da série XI, no segundo - os valores das frequências fi.

Considere um exemplo de construção de uma série variacional discreta.

Exemplo 3.1 . De acordo com o Ministério da Administração Interna, crimes cometidos na cidade de N menores de idade.

17 13 15 16 17 15 15 14 16 13 14 17 14 15 15 16 16 15 14 15 15 14 16 16 14 17 16 15 16 15 13 15 15 13 15 14 15 13 17 14.

Construa uma série de distribuição discreta.

Solução .

Primeiro, é necessário classificar os dados sobre a idade dos menores, ou seja, escreva-os em ordem crescente.

13 13 13 13 13 14 14 14 14 14 14 14 14 15 15 15 15 15 15 15 15 15 15 15 15 15 15 16 16 16 16 16 16 16 16 17 17 17 17 17



Tabela 3.1

Assim, as frequências refletem o número de pessoas de uma determinada idade, por exemplo, 5 pessoas têm 13 anos, 8 pessoas têm 14 anos e assim por diante.

Prédio intervalo as linhas de distribuição são realizadas de maneira semelhante à implementação de um agrupamento de intervalos iguais de acordo com um atributo quantitativo, ou seja, primeiro é determinado o número ideal de grupos nos quais o conjunto será dividido, os limites dos intervalos por grupos são definidos e as frequências são calculadas.

Vamos ilustrar a construção de uma série de distribuição intervalar usando o seguinte exemplo.

Exemplo 3.2 .

Construa uma série de intervalo para a seguinte população estatística - o salário de um advogado no escritório, mil rublos:

16,0 22,2 25,1 24,3 30,5 32,0 17,0 23,0 19,8 27,5 22,0 18,9 31,0 21,5 26,0 27,4

Solução.

Vamos pegar o número ideal de grupos de intervalos iguais para uma determinada população estatística, igual a 4 (temos 16 opções). Portanto, o tamanho de cada grupo é igual a:

e o valor de cada intervalo será igual a:

Os limites dos intervalos são determinados pelas fórmulas:

,

onde são os limites inferior e superior do i-ésimo intervalo, respectivamente.

Omitindo os cálculos intermediários dos limites dos intervalos, inserimos seus valores (opções) e o número de advogados (frequências) que possuem salários dentro de cada intervalo na Tabela 3.2, que ilustra a série intervalar resultante.

Tabela 3.2

A análise de séries de distribuição estatística pode ser realizada usando um método gráfico. A representação gráfica da série de distribuição permite ilustrar visualmente os padrões de distribuição da população estudada, representando-a na forma de um polígono, um histograma e cúmulos. Vamos dar uma olhada em cada um desses gráficos.

Polígonoé uma polilinha cujos segmentos conectam pontos com coordenadas ( XI;fi). Geralmente um polígono é usado para uma imagem série discreta distribuição. Para construí-lo, os valores individuais classificados do recurso são plotados no eixo x XI, no eixo y estão as frequências correspondentes a esses valores. Como resultado, conectando segmentos dos pontos correspondentes aos dados marcados ao longo dos eixos de abcissas e ordenadas, obtém-se uma polilinha, denominada polígono. Vamos dar um exemplo de construção de um polígono de frequência.

Para ilustrar a construção de um polígono, vamos pegar o resultado da resolução do exemplo 3.1 para construir uma série discreta - Figura 1. A abcissa mostra a idade dos condenados, a ordenada mostra o número de menores condenados que dada idade. Analisando este polígono, podemos dizer que o maior número condenados - 14 pessoas, têm 15 anos.

Figura 3.1 - Faixa de frequências de uma série discreta.

Um polígono também pode ser construído para uma série de intervalos, caso em que os pontos médios dos intervalos são plotados ao longo do eixo das abcissas e as frequências correspondentes são plotadas ao longo do eixo das ordenadas.

gráfico de barras– uma figura escalonada composta por retângulos, cujas bases são os intervalos do valor do recurso e as alturas são iguais às frequências correspondentes. O histograma é usado apenas para exibir séries de distribuição de intervalo. Se os intervalos forem desiguais, então, para construir um histograma no eixo y, não são plotadas as frequências, mas a razão entre a frequência e a largura do intervalo correspondente. Um histograma pode ser convertido em um polígono de distribuição se os meios de suas colunas estiverem conectados por segmentos.

Para ilustrar a construção de um histograma, vamos pegar os resultados da construção de uma série intervalar do Exemplo 3.2 - Figura 3.2.

Figura 3.2 - Histograma de distribuição remunerações advogados.

Para uma representação gráfica de séries variacionais, cumulate também é usado. Acumularé uma curva representando uma série de frequências acumuladas e conectando pontos com coordenadas ( XI;eu nak). As frequências cumulativas são calculadas pela soma sucessiva de todas as frequências da série de distribuição e mostram o número de unidades populacionais que possuem um valor de recurso não maior que o especificado. Vamos ilustrar o cálculo das frequências acumuladas para as séries intervalares variacionais apresentadas no exemplo 3.2 - tabela 3.3.

Tabela 3.3

Para construir o acumulado de uma série de distribuição discreta, os valores individuais classificados da característica são plotados ao longo do eixo das abcissas e as frequências acumuladas correspondentes a eles são plotadas ao longo do eixo das ordenadas. Ao construir uma curva cumulativa de uma série intervalar, o primeiro ponto terá uma abscissa igual ao limite inferior do primeiro intervalo e uma ordenada igual a 0. Todos os pontos subseqüentes devem corresponder ao limite superior dos intervalos. Vamos construir um cumulate usando os dados da Tabela 3.3 - Figura 3.3.

Figura 3.3 - Curva de distribuição cumulativa dos vencimentos dos advogados.

perguntas de teste

1. O conceito de série de distribuição estatística, seus principais elementos.

2. Tipos de séries de distribuição estatística. Sua breve descrição.

3. Séries de distribuição discreta e intervalar.

4. Técnica de construção de séries de distribuições discretas.

5. Técnica de construção de séries de distribuição intervalar.

6. Representação gráfica de séries de distribuições discretas.

7. Representação gráfica de séries de distribuição intervalar.

Tarefas

Tarefa 1. Existem os seguintes dados sobre o progresso de 25 alunos do grupo no TGP por sessão: 5, 4, 4, 4, 3, 2, 5, 3, 4, 4, 4, 3, 2, 5, 2, 5 , 5, 2, 3 , 3, 5, 4, 2, 3, 3. Construa uma série variacional discreta de distribuição dos alunos de acordo com as notas das avaliações recebidas na sessão. Para a série resultante, calcule frequências, frequências cumulativas, frequências cumulativas. Tire suas próprias conclusões.

Tarefa 2. A colônia contém 1000 condenados, sua distribuição etária é apresentada na tabela:

foto esta linha graficamente. Tire suas próprias conclusões.

Tarefa 3. Os seguintes dados estão disponíveis sobre as condições de prisão de prisioneiros:

5; 4; 2; 1; 6; 3; 4; 3; 2; 2; 3; 1; 17; 6; 2; 8; 5; 11; 9; 3; 5; 6; 4; 3; 10; 5; 25; 1; 12; 3; 3; 4; 9; 6; 5; 3; 4; 3; 5; 12; 4; 13; 2; 4; 6; 4; 14; 3; 11; 5; 4; 13; 2; 4; 6; 4; 14; 3; 11; 5; 4; 3; 12; 6.

Construa uma série intervalar da distribuição de prisioneiros por termos de prisão. Tire suas próprias conclusões.

Tarefa 4. Há os seguintes dados sobre a distribuição dos apenados na região para o período do estudo por faixas etárias:

Desenhe esta série graficamente, tire conclusões.