Construir séries de distribuição discreta e intervalar.  Série de distribuição estatística

Construir séries de distribuição discreta e intervalar. Série de distribuição estatística

agrupamento- esta é a divisão da população em grupos de alguma forma homogêneos.

Atribuição de serviço. Com a calculadora online você pode:

  • construir série de variação , construa um histograma e um polígono;
  • encontrar indicadores de variação (média, moda (incluindo graficamente), mediana, faixa de variação, quartis, decis, coeficiente de diferenciação quartil, coeficiente de variação e outros indicadores);

Instrução. Para agrupar uma série, deve-se selecionar o tipo da série de variação resultante (discreta ou intervalar) e especificar a quantidade de dados (número de linhas). A solução resultante é salva em um arquivo do Word (veja o exemplo de agrupamento de dados estatísticos).

Número de dados de entrada
",0);">

Se o agrupamento já foi feito e o série de variação discreta ou série intervalar, então você precisa usar os indicadores de variação da calculadora online. Testando a hipótese sobre o tipo de distribuição produzidos utilizando o serviço Estudo da forma de distribuição.

Tipos de agrupamentos estatísticos

série de variação. No caso de observações de uma variável aleatória discreta, o mesmo valor pode ser encontrado várias vezes. Tais valores de uma variável aleatória x i são registrados indicando n i o número de vezes que ela aparece em n observações, essa é a frequência desse valor.
No caso de uma variável aleatória contínua, o agrupamento é usado na prática.
  1. Agrupamento tipológico- esta é a divisão da população qualitativamente heterogênea estudada em classes, tipos socioeconômicos, grupos homogêneos de unidades. Para construir esse agrupamento, use o parâmetro Série variacional discreta.
  2. O agrupamento estrutural é chamado, em que uma população homogênea é dividida em grupos que caracterizam sua estrutura de acordo com alguma característica variável. Para construir esse agrupamento, use o parâmetro Interval series.
  3. Um agrupamento que revela a relação entre os fenômenos estudados e suas características é denominado grupo analítico(ver agrupamento analítico de séries).

Princípios de construção de agrupamentos estatísticos

Uma série de observações ordenadas em ordem crescente é chamada de série de variação. sinal de agrupamentoé o sinal pelo qual a população é dividida em grupos separados. É chamada de base do grupo. O agrupamento pode ser baseado em características quantitativas e qualitativas.
Após determinar a base do agrupamento, deve-se decidir a questão do número de grupos em que a população de estudo deve ser dividida.

Usando computadores pessoais para processar dados estatísticos, o agrupamento de unidades de um objeto é realizado usando procedimentos padrão.
Um desses procedimentos é baseado no uso da fórmula de Sturgess para determinar o número ideal de grupos:

k = 1+3,322*lg(N)

Onde k é o número de grupos, N é o número de unidades populacionais.

A duração dos intervalos parciais é calculada como h=(x max -x min)/k

Em seguida, conte o número de acertos de observações nesses intervalos, que são tomados como frequências n i . Poucas frequências, cujos valores são inferiores a 5 (n i< 5), следует объединить. в этом случае надо объединить и соответствующие интервалы.
Os pontos médios dos intervalos x i =(c i-1 +c i)/2 são tomados como novos valores.

Os resultados do agrupamento dos dados estatísticos coletados são geralmente apresentados na forma de séries de distribuição. Uma série de distribuição é uma distribuição ordenada de unidades populacionais em grupos de acordo com a característica em estudo.

As séries de distribuição são divididas em atributivas e variacionais, dependendo da característica subjacente ao agrupamento. Se o sinal for qualitativo, a série de distribuição é chamada de atributiva. Um exemplo de uma série de atributos é a distribuição de empresas e organizações por forma de propriedade (ver Tabela 3.1).

Se o atributo sobre o qual a série de distribuição é construída for quantitativo, então a série é chamada de variacional.

A série de distribuição variacional sempre consiste em duas partes: uma variante e suas frequências (ou frequências) correspondentes. Uma variante é um valor que pode assumir um recurso em unidades da população, uma frequência é o número de unidades de observação que possuem um determinado valor do recurso. A soma das frequências é sempre igual ao tamanho da população. Às vezes, em vez de frequências, são calculadas frequências - são frequências expressas em frações de uma unidade (então a soma de todas as frequências é igual a 1) ou como uma porcentagem do volume da população (a soma das frequências será igual a 100%).

As séries variacionais são discretas e intervalares. No série discreta(Tabela 3.7) as opções são expressas em números específicos, na maioria das vezes inteiros.

Tabela 3.8. Distribuição dos trabalhadores por tempo de trabalho na seguradora
Tempo de trabalho na empresa anos completos(opções) Número de empregados
Humano (frequências) em % do total (frequente)
até um ano 15 11,6
1 17 13,2
2 19 14,7
3 26 20,2
4 10 7,8
5 18 13,9
6 24 18,6
Total 129 100,0

Na série intervalar (ver Tabela 3.2), os valores do indicador são definidos como intervalos. Os intervalos têm dois limites: inferior e superior. Os intervalos podem ser abertos ou fechados. Os abertos não possuem uma das bordas, portanto, na Tabela. 3.2 o primeiro intervalo não tem limite inferior e o último não tem limite superior. Ao construir uma série intervalar, dependendo da natureza da dispersão dos valores do atributo, são usados ​​intervalos iguais e desiguais (a Tabela 3.2 mostra uma série de variação com intervalos iguais).

Se o recurso assume um número limitado de valores, geralmente não mais que 10, são construídas séries de distribuição discretas. Se a variante for maior, a série discreta perde sua visibilidade; neste caso, é aconselhável usar a forma intervalar da série variacional. Com variação contínua de uma feição, quando seus valores em certos limites diferem entre si por uma quantidade arbitrariamente pequena, também construa uma série de distribuição de intervalo.

3.3.1. Construção de séries variacionais discretas

Considere a técnica para construir séries variacionais discretas usando um exemplo.

Exemplo 3.2. Os seguintes dados sobre a composição quantitativa de 60 famílias estão disponíveis:

Para se ter uma ideia da distribuição das famílias de acordo com o número de seus membros, deve-se construir uma série variacional. Como o atributo aceita um número limitado de valores inteiros, construímos uma série variacional discreta. Para fazer isso, é recomendável primeiro escrever todos os valores do atributo (o número de membros da família) em ordem crescente (ou seja, classificar os dados estatísticos):

Então você precisa contar o número de famílias com a mesma composição. O número de membros da família (o valor da variável característica) são as opções (vamos denotá-las por x), o número de famílias com a mesma composição são as frequências (vamos denotá-las por f). Representamos os resultados do agrupamento na forma da seguinte série de distribuição variacional discreta:

Tabela 3.11.
Número de membros da família (x) Número de famílias (y)
1 8
2 14
3 20
4 9
5 5
6 4
Total 60

3.3.2. Construção de séries de variações intervalares

Vamos mostrar o método de construção de séries de distribuição variacional de intervalo usando o exemplo a seguir.

Exemplo 3.3. Como resultado da observação estatística, obtiveram-se os seguintes dados sobre a taxa de juro média de 50 bancos comerciais (%):

Tabela 3.12.
14,7 19,0 24,5 20,8 12,3 24,6 17,0 14,2 19,7 18,8
18,1 20,5 21,0 20,7 20,4 14,7 25,1 22,7 19,0 19,6
19,0 18,9 17,4 20,0 13,8 25,6 13,0 19,0 18,7 21,1
13,3 20,7 15,2 19,9 21,9 16,0 16,9 15,3 21,4 20,4
12,8 20,8 14,3 18,0 15,1 23,8 18,5 14,4 14,4 21,0

Como você pode ver, é extremamente inconveniente visualizar tal matriz de dados, além disso, não há padrões de mudança no indicador. Vamos construir uma série de distribuição intervalar.

  1. Vamos definir o número de intervalos.

    O número de intervalos na prática muitas vezes é definido pelo próprio pesquisador com base nos objetivos de cada observação em particular. No entanto, também pode ser calculado matematicamente usando a fórmula de Sturgess

    n = 1 + 3,322lgN,

    onde n é o número de intervalos;

    N é o volume da população (o número de unidades de observação).

    Para o nosso exemplo, obtemos: n \u003d 1 + 3,322lgN \u003d 1 + 3,322lg50 \u003d 6,6 "7.

  2. Vamos determinar o valor dos intervalos (i) pela fórmula

    onde x max - o valor máximo do atributo;

    x min - o valor mínimo do atributo.

    Para o nosso exemplo

    Os intervalos das séries variacionais são ilustrativos se seus limites possuem valores "arredondados", portanto iremos arredondar o valor do intervalo 1,9 para 2, e o valor mínimo do recurso 12,3 para 12,0.

  3. Vamos definir os limites dos intervalos.

    Os intervalos, via de regra, são escritos de forma que o limite superior de um intervalo seja simultaneamente o limite inferior do intervalo seguinte. Portanto, para nosso exemplo, obtemos: 12,0-14,0; 14,0-16,0; 16,0-18,0; 18,0-20,0; 20,0-22,0; 22,0-24,0; 24,0-26,0.

    Tal registro significa que o recurso é contínuo. Se as opções de característica tiverem valores estritamente definidos, por exemplo, apenas números inteiros, mas seu número for muito grande para construir uma série discreta, você poderá criar uma série de intervalos em que o limite inferior do intervalo não coincidirá com o limite superior do próximo intervalo (isso significa que o recurso é discreto). Por exemplo, na distribuição de funcionários de uma empresa por idade, você pode criar os seguintes grupos de intervalo de anos: 18-25, 26-33, 34-41, 42-49, 50-57, 58-65, 66 e mais.

    Além disso, em nosso exemplo, poderíamos abrir o primeiro e o último intervalo, etc. escrever: até 14,0; 24.0 e acima.

  4. Com base nos dados iniciais, construímos uma série ranqueada. Para fazer isso, escrevemos em ordem crescente os valores que o recurso assume. Os resultados são apresentados na tabela: Tabela 3.13. Série classificada de taxas de juros de bancos comerciais
    Taxa bancária % (opções)
    12,3 17,0 19,9 23,8
    12,8 17,4 20,0 24,5
    13,0 18,0 20,0 24,6
    13,3 18,1 20,4 25,1
    13,8 18,5 20,4 25,6
    14,2 18,7 20,5
    14,3 18,8 20,7
    14,4 18,9 20,7
    14,7 19,0 20,8
    14,7 19,0 21,0
    15,1 19,0 21,0
    15,2 19,0 21,1
    15,3 19,0 21,4
    16,0 19,6 21,9
    16,9 19,7 22,7
  5. Vamos calcular as frequências.

    Ao contar frequências, pode surgir uma situação em que o valor de um recurso cai na borda de um intervalo. Nesse caso, você pode seguir a regra: a unidade dada é atribuída ao intervalo para o qual seu valor é o limite superior. Portanto, o valor 16,0 em nosso exemplo se referirá ao segundo intervalo.

Os resultados do agrupamento obtidos em nosso exemplo serão apresentados em uma tabela.

Tabela 3.14. Distribuição de bancos comerciais por taxa de empréstimo
Taxa curta, % Número de bancos, unidades (frequências) Frequências acumuladas
12,0-14,0 5 5
14,0-16,0 9 14
16,0-18,0 4 18
18,0-20,0 15 33
20,0-22,0 11 44
22,0-24,0 2 46
24,0-26,0 4 50
Total 50 -

A última coluna da tabela apresenta as frequências acumuladas, que são obtidas pela soma sucessiva das frequências, começando pela primeira (por exemplo, para o primeiro intervalo - 5, para o segundo intervalo 5 + 9 = 14, para o terceiro intervalo 5 + 9 + 4 = 18, etc.). A frequência acumulada, por exemplo, 33, mostra que 33 bancos têm uma taxa de empréstimo que não ultrapassa 20% (o limite superior do intervalo correspondente).

No processo de agrupamento de dados ao construir séries variacionais, às vezes são usados ​​intervalos desiguais. Isso se aplica aos casos em que os valores característicos obedecem à regra da aritmética ou progressão geométrica ou quando a aplicação da fórmula de Sturgess resulta em grupos de intervalos "vazios" que não contêm unidades de observação. Em seguida, os limites dos intervalos são definidos arbitrariamente pelo próprio pesquisador, com base em senso comum e objetivos da pesquisa ou fórmulas. Então, para dados que mudam em progressão aritmética, o valor dos intervalos é calculado da seguinte forma.

Ensino superior profissional

"ACADEMIA RUSSA DE ECONOMIA POPULAR E

SERVIÇO CIVIL SOB O PRESIDENTE

FEDERAÇÃO RUSSA"

(filial Kaluga)

Departamento de Ciências Naturais e Disciplinas Matemáticas

TESTE

Assunto "Estatísticas"

Aluno ___ Mayboroda Galina Yurievna ______

Departamento de Correspondência Faculdade de Estado e governo municipal grupo G-12-V

Palestrante ____________________ Hamer G.V.

Doutor, Professor Associado

Kaluga-2013 See More

Tarefa 1.

Tarefa 1.1. quatro

Tarefa 1.2. 16

Tarefa 1.3. 24

Tarefa 1.4. 33

Tarefa 2.

Tarefa 2.1. 43

Tarefa 2.2. 48

Tarefa 2.3. 53

Tarefa 2.4. 58

Tarefa 3.

Tarefa 3.1. 63

Tarefa 3.2. 68

Tarefa 3.3. 73

Tarefa 3.4. 79

Tarefa 4.

Problema 4.1. 85

Tarefa 4.2. 88

Tarefa 4.3. 90

Tarefa 4.4. 93

Lista de fontes usadas. 96

Tarefa 1.

Tarefa 1.1.

Seguem os dados sobre a produção e o valor do lucro das empresas da região (tabela 1).

tabela 1

Dados sobre a produção e a quantidade de lucro das empresas

número da empresa Saída, milhões de rublos Lucro, milhões de rublos número da empresa Saída, milhões de rublos Lucro, milhões de rublos
63,0 6,7 56,0 7,2
48,0 6,2 81,0 9,6
39,0 6,5 55,0 6,3
28,0 3,0 76,0 9,1
72,0 8,2 54,0 6,0
61,0 7,6 53,0 6,4
47,0 5,9 68,0 8,5
37,0 4,2 52,0 6,5
25,0 2,8 44,0 5,0
60,0 7,9 51,0 6,4
46,0 5,5 50,0 5,8
34,0 3,8 65,0 6,7
21,0 2,1 49,0 6,1
58,0 8,0 42,0 4,8
45,0 5,7 32,0 4,6

De acordo com os dados originais:

1. Construa uma série estatística de distribuição das empresas por produção, formando cinco grupos em intervalos iguais.

Construa gráficos de séries de distribuição: polígono, histograma, acumulado. Determine graficamente o valor da moda e da mediana.

2. Calcular as características de uma série de distribuição das empresas por produção: média aritmética, dispersão, desvio padrão, coeficiente de variação.

Faça uma conclusão.

3. Utilizando o método de agrupamento analítico, estabeleça a presença e a natureza da correlação entre o custo dos produtos manufaturados e o valor do lucro por empresa.

4. Medir a precisão da correlação entre o custo de produção e o valor do lucro pela correlação empírica.

Tirar conclusões gerais.

Solução:

Vamos construir uma série estatística de distribuição

Para construir uma série de variação intervalar que caracterize a distribuição das empresas em termos de produção, é necessário calcular o valor e os limites dos intervalos da série.

Ao construir uma série com intervalos iguais, o valor do intervalo hé determinado pela fórmula:

x máximo e x min- os maiores e menores valores do atributo no conjunto de empreendimentos estudados;

k- número de grupos de séries intervalares.

Número de grupos k especificado na tarefa. k= 5.

x máximo= 81 milhões de rublos, x min= 21 milhões de rublos

Cálculo do valor do intervalo:

milhões de rublos

Adicionando sucessivamente o valor do intervalo h = 12 milhões de rublos. para o limite inferior do intervalo, obtemos os seguintes grupos:

1 grupo: 21 - 33 milhões de rublos.

2 grupo: 33 - 45 milhões de rublos;

Grupo 3: 45 - 57 milhões de rublos.

Grupo 4: 57 - 69 milhões de rublos.

Grupo 5: 69 - 81 milhões de rublos.

Para construir uma série intervalar, é necessário calcular o número de empresas incluídas em cada grupo ( frequências de grupo).

O processo de agrupamento das empresas por volume de produção é apresentado na tabela auxiliar 2. A coluna 4 desta tabela é necessária para a construção de um agrupamento analítico (item 3 da tarefa).

mesa 2

Tabela para construir uma série de distribuição intervalar e

agrupamento analítico

Grupos de empresas por produção, milhões de rublos número da empresa Saída, milhões de rublos Lucro, milhões de rublos
21-33 21,0 2,1
25,0 2,8
28,0 3,0
32,0 4,6
Total 106,0 12,5
33-45 34,0 3,8
37,0 4,2
39,0 6,5
42,0 4,8
44,0 5,0
Total 196,0 24,3
45-57 45,0 5,7
46,0 5,5
47,0 5,9
48,0 6,2
49,0 6,1
50,0 5,8
51,0 6,4
52,0 6,5
53,0 6,4
54,0 6,0
55,0 6,3
56,0 7,2
Total 606,0 74,0
57-69 58,0 8,0
60,0 7,9
61,0 7,6
63,0 6,7
65,0 6,7
68,0 8,5
Total 375,0 45,4
69-81 72,0 8,2
76,0 9,1
81,0 9,6
Total 229,0 26,9
Total 183,1

Com base nas linhas de resumo do grupo da tabela "Total" 3, forma-se a tabela final 3, que representa as séries intervalares da distribuição das empresas por produção.

Tabela 3

Um número de distribuição de empresas por volume de produção

Conclusão. O agrupamento construído mostra que a distribuição das empresas em termos de produção não é uniforme. As empresas mais comuns com um volume de produção de 45 a 57 milhões de rublos. (12 empresas). As menos comuns são empresas com produção de 69 a 81 milhões de rublos. (3 empresas).

Vamos construir gráficos da série de distribuição.

Polígono frequentemente usado para representar séries discretas. Para construir um polígono em sistema retangular as coordenadas no eixo das abcissas colocam os valores do argumento, ou seja, opções (para séries variacionais de intervalo, o meio do intervalo é considerado um argumento) e no eixo das ordenadas - valores de frequência. Além disso, neste sistema de coordenadas, são construídos pontos cujas coordenadas são pares de números correspondentes da série de variações. Os pontos resultantes são conectados em série por segmentos de linha reta. O polígono é mostrado na Figura 1.

gráfico de barras - gráfico de barras. Ele permite que você avalie a simetria da distribuição. O histograma é mostrado na Figura 2.

Figura 1 - Distribuição poligonal das empresas por volume

resultado

Moda

Figura 2 - Histograma da distribuição das empresas por volume

resultado

Moda- o valor da característica que ocorre com mais frequência na população de estudo.

Para uma série intervalar, a moda pode ser determinada graficamente a partir do histograma (Figura 2). Para isso, é selecionado o retângulo mais alto, que em este casoé modal (45 - 57 milhões de rublos). Em seguida, o vértice direito do retângulo modal é conectado ao canto superior direito do retângulo anterior. E o vértice esquerdo do retângulo modal está com o canto superior esquerdo do retângulo subsequente. Além disso, do ponto de sua interseção, uma perpendicular é abaixada ao eixo das abcissas. A abcissa do ponto de interseção dessas linhas será o modo de distribuição.

Milhão esfregar.

Conclusão. No conjunto considerado de empresas, as empresas com produção de 52 milhões de rublos são as mais comuns.

Acumular - curva quebrada. É construído sobre as frequências acumuladas (calculadas na Tabela 4). O acumulado começa no limite inferior do primeiro intervalo (21 milhões de rublos), a frequência acumulada é depositada no limite superior do intervalo. O acumulado é mostrado na Figura 3.

Mediana

Figura 3 - Distribuição acumulada das empresas por volume

resultado

mediano eué o valor do recurso que fica no meio da série ranqueada. Há o mesmo número de unidades populacionais em ambos os lados da mediana.

Em uma série intervalar, a mediana pode ser determinada graficamente a partir de uma curva cumulativa. Para determinar a mediana a partir de um ponto na escala de frequência cumulativa correspondente a 50% (30:2 = 15), traça-se uma linha reta paralela ao eixo das abcissas até cruzar com o cumulado. Então, a partir do ponto de interseção da linha reta especificada com o cumulado, uma perpendicular é abaixada ao eixo das abcissas. A abscissa do ponto de interseção é a mediana.

Milhão esfregar.

Conclusão. No conjunto considerado de empresas, metade das empresas tem um volume de produção não superior a 52 milhões de rublos e a outra metade - não inferior a 52 milhões de rublos.


Informações semelhantes.


Enviar seu bom trabalho na base de conhecimento é simples. Use o formulário abaixo

Bom trabalho para o site">

Alunos, alunos de pós-graduação, jovens cientistas que usam a base de conhecimento em seus estudos e trabalhos ficarão muito gratos a você.

postado em http://www.allbest.ru/

UMA TAREFA1

Temos os seguintes dados sobre os salários dos funcionários da empresa:

Tabela 1.1

O tamanho remunerações em conv. den. unidades

É necessário construir uma série intervalar da distribuição pela qual encontrar;

1) salário médio;

2) desvio linear médio;

4) desvio padrão;

5) faixa de variação;

6) coeficiente de oscilação;

7) coeficiente de variação linear;

8) coeficiente de variação simples;

10) mediana;

11) coeficiente de assimetria;

12) Índice de assimetria de Pearson;

13) coeficiente de curtose.

Solução

Como você sabe, as opções (valores reconhecidos) são dispostas em ordem crescente para formar séries de variações discretas. Com um grande número variante (mais de 10), mesmo no caso de variação discreta, são construídas séries intervalares.

Se uma série de intervalos for compilada com intervalos pares, o intervalo de variação será dividido pelo número especificado de intervalos. Nesse caso, se o valor obtido for inteiro e inequívoco (o que é raro), o comprimento do intervalo será considerado igual a esse número. Em outros casos produzido arredondamento necessariamente dentro lado ampliação, Então para o último dígito restante era par. Obviamente, com um aumento no comprimento do intervalo, o intervalo de variação por um valor igual ao produto do número de intervalos: pela diferença entre o comprimento calculado e inicial do intervalo

a) Se o valor da expansão do intervalo de variação for insignificante, ele é adicionado ao maior ou subtraído do menor valor do recurso;

b) Se a magnitude da expansão da faixa de variação for palpável, para evitar a mistura do centro da faixa, ela é dividida aproximadamente ao meio, adicionando simultaneamente ao maior e subtraindo dos menores valores do atributo.

Se uma série de intervalos for compilada com intervalos desiguais, o processo será simplificado, mas, como antes, o comprimento dos intervalos deve ser expresso como um número com o último dígito par, o que simplifica muito os cálculos subsequentes. características numéricas.

30 - tamanho da amostra.

Vamos compor uma série de distribuição intervalar usando a fórmula de Sturges:

K \u003d 1 + 3,32 * lg n,

K - número de grupos;

K \u003d 1 + 3,32 * lg 30 \u003d 5,91 \u003d 6

Encontramos o intervalo do sinal - o salário dos funcionários da empresa - (x) de acordo com a fórmula

R \u003d xmax - xmin e divida por 6; R=195-112=83

Então a duração do intervalo será eu pista=83:6=13.83

O início do primeiro intervalo será 112. Adicionando a 112 eu ras=13,83, obtemos seu valor final 125,83, que também é o início do segundo intervalo e assim por diante. o final do quinto intervalo é 195.

Ao encontrar frequências, deve-se guiar pela regra: "se o valor de um recurso coincidir com o limite do intervalo interno, ele deve ser referido ao intervalo anterior".

Obtemos uma série intervalar de frequências e frequências cumulativas.

Tabela 1.2

Portanto, 3 funcionários têm salários. pagamento de 112 a 125,83 unidades convencionais. O salário mais alto pagamento de 181,15 para 195 unidades convencionais. apenas 6 trabalhadores.

Para calcular as características numéricas, convertemos a série intervalar em discreta, tomando como variante o meio dos intervalos:

Tabela 1.3

14131,83

De acordo com a fórmula da média aritmética ponderada

cond.mon.un.

Desvio linear médio:

onde xi é o valor da feição estudada na i-ésima unidade da população,

O valor médio da característica estudada.

postado em http://www.allbest.ru/

LPostado em http://www.allbest.ru/

Unidade monetária

Desvio padrão:

Dispersão:

Faixa relativa de variação (coeficiente de oscilação): c=R:,

Desvio linear relativo: q = L:

O coeficiente de variação: V = y:

O coeficiente de oscilação mostra a flutuação relativa dos valores extremos do traço em torno da média aritmética, e o coeficiente de variação caracteriza o grau e a homogeneidade da população.

c \u003d R: \u003d 83 / 159,485 * 100% \u003d 52,043%

Assim, a diferença entre os valores extremos é 5,16% (=94,84%-100%) menor que o salário médio dos funcionários da empresa.

q \u003d L: \u003d 17,765 / 159,485 * 100% \u003d 11,139%

V \u003d y: \u003d 21,704 / 159,485 * 100% \u003d 13,609%

O coeficiente de variação é inferior a 33%, o que indica uma variação fraca nos salários dos funcionários da empresa, ou seja, que a média é uma característica típica dos salários dos trabalhadores (agregado homogêneo).

Na série de distribuição intervalar modaé determinado pela fórmula -

A frequência do intervalo modal, ou seja, o intervalo que contém o maior número de opções;

A frequência do intervalo que precede o modal;

A frequência do intervalo seguindo o modal;

A duração do intervalo modal;

O limite inferior do intervalo modal.

Para determinar medianas na série intervalar, usamos a fórmula

onde é a frequência cumulativa (cumulativa) do intervalo que precede a mediana;

O limite inferior do intervalo mediano;

Frequência do intervalo mediano;

A duração do intervalo mediano.

Intervalo Mediano- intervalo cuja frequência acumulada (=3+3+5+7) excede a metade da soma das frequências - (153,49; 167,32).

Vamos calcular a assimetria e a curtose, para as quais compilaremos uma nova planilha:

Tabela 1.4

dados factuais

Dados estimados

Calcule o momento de terceira ordem

Portanto, a assimetria é

Desde 0,3553 0,25, a assimetria é reconhecida como significativa.

Calcule o momento de quarta ordem

Portanto, a curtose é

Porque< 0, то эксцесс является плосковершинным.

O grau de assimetria pode ser determinado usando o coeficiente de assimetria de Pearson (As): oscilação amostra custo rotatividade

onde é a média aritmética da série de distribuição; -- moda; -- desvio padrão.

Com uma distribuição simétrica (normal) = Mo, portanto, o coeficiente de assimetria é zero. Se Аs > 0, então há mais moda, portanto, há uma assimetria do lado direito.

Como se< 0, то меньше моды, следовательно, имеется левосторонняя асимметрия. Коэффициент асимметрии может изменяться от -3 до +3.

A distribuição não é simétrica, mas tem uma assimetria do lado esquerdo.

UMA TAREFA 2

Qual deve ser o tamanho da amostra para que haja uma probabilidade de 0,954 de que o erro amostral não exceda 0,04 se a variância é conhecida por pesquisas anteriores como 0,24?

Solução

O tamanho da amostra para amostragem não repetitiva é calculado pela fórmula:

t - coeficiente de confiança (com uma probabilidade de 0,954 é igual a 2,0; determinado a partir das tabelas de integrais de probabilidade),

y2=0,24 - desvio padrão;

10.000 pessoas - tamanho da amostra;

Dx =0,04 - erro marginal da média amostral.

Com uma probabilidade de 95,4%, pode-se argumentar que o tamanho da amostra, fornecendo um erro relativo não superior a 0,04, deve ser de pelo menos 566 famílias.

UMA TAREFA3

Os seguintes dados estão disponíveis sobre a receita da atividade principal da empresa, milhões de rublos.

Para analisar uma série de dinâmicas, determine os seguintes indicadores:

1) corrente e básico:

Ganhos absolutos;

Taxas de crescimento;

Taxas de crescimento;

2) médio

Nível de faixa dinâmica;

Crescimento absoluto;

Taxa de crescimento;

Taxa de aumento;

3) o valor absoluto de 1% de crescimento.

Solução

1. crescimento absoluto (Dy)- esta é a diferença entre o próximo nível da série e o anterior (ou básico):

cadeia: Du \u003d yi - yi-1,

básico: Du \u003d yi - y0,

yi - nível de linha,

i - número do nível da linha,

y0 - nível do ano base.

2. Taxa de crescimento (Tu)é a razão entre o próximo nível da série e o anterior (ou o ano base 2001):

cadeia: Tu = ;

básico: Tu =

3. Taxa de crescimento (TD) - esta é a proporção de crescimento absoluto em relação ao nível anterior, expressa em%.

cadeia: Tu = ;

básico: Tu =

4. Valor absoluto de 1% de aumento (A)- é a razão entre o crescimento absoluto da cadeia e a taxa de crescimento, expressa em %.

MAS =

Nível da linha intermediária calculado pela fórmula da média aritmética.

Nível médio de receita das atividades principais por 4 anos:

Crescimento médio absoluto calculado pela fórmula:

onde n é o número de níveis na série.

Em média, no ano, a receita das atividades principais aumentou 3,333 milhões de rublos.

Taxa média de crescimento anual calculado pela fórmula da média geométrica:

уn - o nível final da série,

y0 - o nível inicial da série.

Tu \u003d 100% \u003d 102.174%

Taxa média de crescimento anual calculado pela fórmula:

T? \u003d Tu - 100% \u003d 102,74% - 100% \u003d 2,74%.

Assim, na média do ano, a receita da atividade principal do empreendimento aumentou 2,74%.

TAREFASMAS4

Calcular:

1. Índices de preços individuais;

2. Índice geral de rotatividade;

3. Índice agregado de preços;

4. Índice agregado do volume físico da venda de mercadorias;

5. O aumento absoluto do valor do volume de negócios e a decomposição por fatores (devido a variações nos preços e no número de mercadorias vendidas);

6. Faça breves conclusões sobre todos os indicadores obtidos.

Solução

1. Por condição, os índices de preços individuais para os produtos A, B, C ascenderam a -

ipA=1,20; ipB=1,15; iрВ=1,00.

2. O índice de rotatividade total é calculado pela fórmula:

Eu w \u003d \u003d 1470/1045 * 100% \u003d 140,67%

O volume de negócios aumentou 40,67% (140,67% -100%).

Em média, os preços das commodities subiram 10,24%.

A quantidade de custos adicionais para os compradores de aumentos de preços:

w(p) = ? p1q1-? p0q1 \u003d 1470 - 1333,478 \u003d 136,522 milhões de rublos.

Como resultado do aumento dos preços, os compradores tiveram que gastar 136,522 milhões de rublos adicionais.

4. Índice geral de volume físico de comércio:

O volume físico de comércio aumentou 27,61%.

5. Vamos determinar a variação total do volume de negócios no segundo período em comparação com o primeiro período:

w \u003d 1470- 1045 \u003d 425 milhões de rublos.

devido a alterações de preços:

W(p) \u003d 1470 - 1333,478 \u003d 136,522 milhões de rublos.

alterando o volume físico:

w(q) \u003d 1333,478 - 1045 \u003d 288,478 milhões de rublos.

O giro de mercadorias aumentou 40,67%. Os preços médios de 3 bens aumentaram 10,24%. O volume físico de comércio aumentou 27,61%.

Em geral, o volume de vendas aumentou em 425 milhões de rublos, inclusive devido ao aumento dos preços, aumentou em 136,522 milhões de rublos e devido ao aumento no volume de vendas - em 288,478 milhões de rublos.

UMA TAREFA5

Para 10 plantas em uma indústria, os seguintes dados estão disponíveis.

Nº de fábrica

Saída, mil peças (X)

Com base nos dados fornecidos:

I) confirmar as disposições da análise lógica sobre a presença de uma correlação linear entre o sinal do fator (saída da produção) e o sinal resultante (consumo de eletricidade), plotar os dados iniciais no gráfico do campo de correlação e tirar conclusões sobre o forma da relação, indique sua fórmula;

2) determinar os parâmetros da equação de conexão e traçar a linha teórica resultante no gráfico do campo de correlação;

3) calcular o coeficiente de correlação linear,

4) explicar os valores dos indicadores obtidos nos pontos 2) e 3);

5) a partir do modelo obtido, faça uma previsão sobre o possível consumo de energia elétrica em uma usina com volume de produção de 4,5 mil unidades.

Solução

Dados de caracteres - o volume de saída (fator), denotado por хi; sinal - consumo de eletricidade (resultado) através de ui; pontos com coordenadas (x, y) são plotados no campo de correlação OXY.

Os pontos do campo de correlação estão localizados ao longo de uma linha reta. Portanto, a conexão é linear, vamos procurar a equação de regressão na forma de uma reta Yx=ax+b. Para encontrá-lo, usamos o sistema de equações normais:

Vamos criar uma planilha.

Com base nas médias encontradas, compomos o sistema e resolvemos com relação aos parâmetros a e b:

Assim, obtemos a equação de regressão para y em x: \u003d 3,57692 x + 3,19231

Construímos uma linha de regressão no campo de correlação.

Substituindo os valores x da coluna 2 na equação de regressão, obtemos os calculados (coluna 7) e os comparamos com os dados y, que são refletidos na coluna 8. A propósito, a exatidão dos cálculos também é confirmada pela coincidência dos valores médios de y e.

Coeficientecorrelação linear avalia a rigidez da relação entre os recursos x e y e é calculado pela fórmula

O coeficiente angular de regressão direta a (em x) caracteriza a direção do identificadodependênciassinais: para a>0 são iguais, para a<0- противоположны. Seu absoluto valor - uma medida de mudança no sinal resultante quando o sinal fatorial muda por unidade de medida.

O membro livre da regressão direta revela a direção e seu valor absoluto - uma medida quantitativa de influência no sinal efetivo de todos os outros fatores.

Se um< 0, então o recurso do atributo fator de um objeto individual é usado com menos, e quando>0 Comdesempenho superior à média para todo o conjunto de objetos.

Vamos fazer uma análise pós-regressão.

O coeficiente em x da regressão direta é 3,57692 > 0, portanto, com o aumento (diminuição) da produção, o consumo de eletricidade aumenta (diminui). Aumento da produção em 1 mil peças. dá um aumento médio no consumo de eletricidade em 3,57692 mil kWh.

2. O termo livre da regressão direta é igual a 3,19231, portanto, a influência de outros fatores aumenta o impacto da produção no consumo de eletricidade em termos absolutos em 3,19231 mil kWh.

3. O coeficiente de correlação de 0,8235 revela uma dependência muito próxima do consumo de eletricidade em relação à produção.

É fácil fazer previsões usando a equação do modelo de regressão. Para fazer isso, os valores x são o volume de saída são substituídos na equação de regressão e o consumo de eletricidade é previsto. Nesse caso, os valores de x podem ser tomados não apenas dentro de um determinado intervalo, mas também fora dele.

Vamos fazer uma previsão sobre o possível consumo de energia elétrica em uma usina com volume de produção de 4,5 mil unidades.

3,57692*4,5 + 3,19231= 19,288 45 mil kWh.

LISTA DE FONTES USADAS

1. Zakharenkov S.N. Estatísticas socioeconômicas: guia de estudo. - Minsk: BSEU, 2002.

2. Efimova M.R., Petrova E.V., Rumyantsev V.N. teoria geral Estatisticas. - M.: INFRA - M., 2000.

3. Eliseeva I.I. Estatisticas. - M.: Prospekt, 2002.

4. Teoria geral da estatística / Ed. ed. O.E. Bashina, A.A. espirina. - M.: Finanças e estatísticas, 2000.

5. Estatísticas socioeconómicas: Textbook.-pract. mesada / Zakharenkov S.N. etc. - Minsk: YSU, 2004.

6. Estatísticas socioeconómicas: Proc. mesada. / Ed. Nesterovich S.R. - Minsk: BSEU, 2003.

7. Teslyuk I.E., Tarlovskaya V.A., Terlizhenko N. Statistics. - Minsk, 2000.

8. Kharchenko L.P. Estatisticas. - M.: INFRA - M, 2002.

9. Kharchenko L.P., Dolzhenkova V.G., Ionin V.G. Estatisticas. - M.: INFRA - M, 1999.

10. Estatísticas econômicas / Ed. Yu.N. Ivanova - M., 2000.

Hospedado em Allbest.ru

...

Documentos Similares

    Cálculo da média aritmética para a série de distribuição intervalar. Determinação do índice geral do volume físico de comércio. Análise da variação absoluta do custo total de produção decorrente da variação do volume físico. Cálculo do coeficiente de variação.

    teste, adicionado em 19/07/2010

    A essência do comércio atacadista, varejista e público. Fórmulas para calcular índices de rotatividade individuais e agregados. Cálculo das características da série de distribuição intervalar - média aritmética, moda e mediana, coeficiente de variação.

    Trabalho de conclusão de curso, adicionado em 10/05/2013

    Cálculo do volume de vendas planejado e real, a porcentagem do plano, a variação absoluta do faturamento. Determinação do crescimento absoluto, taxas médias de crescimento e crescimento da receita em dinheiro. Cálculo de médias estruturais: modas, medianas, quartis.

    teste, adicionado em 24/02/2012

    Série intervalar de distribuição dos bancos por volume de lucro. Encontrar a moda e a mediana das séries de distribuição intervalar obtidas por método gráfico e por cálculo. Cálculo das características da série de distribuição intervalar. Cálculo da média aritmética.

    teste, adicionado em 15/12/2010

    Fórmulas para determinar os valores médios da série intervalar - modos, medianas, variâncias. Cálculo de indicadores analíticos de séries temporais segundo esquemas de cadeia e básicos, taxas de crescimento e crescimento. O conceito de um índice composto de custo, preços, custos e volume de negócios.

    trabalho final, adicionado em 27/02/2011

    O conceito e propósito, ordem e regras para a construção de uma série variacional. Análise da homogeneidade dos dados em grupos. Indicadores de variação (flutuação) de uma característica. Determinação da média linear e desvio padrão, coeficiente de oscilação e variação.

    teste, adicionado em 26/04/2010

    O conceito de moda e mediana como características típicas, a ordem e os critérios para sua determinação. Encontrando a moda e a mediana em uma série de variação discreta e intervalar. Quartis e decis como características adicionais da série estatística variacional.

    teste, adicionado em 11/09/2010

    Construção de uma série intervalar de distribuição com base em agrupamentos. Caracterização do desvio da distribuição de frequência da forma simétrica, cálculo dos indicadores de curtose e assimetria. Análise de indicadores do balanço ou demonstração de resultados.

    trabalho de controle, adicionado em 19/10/2014

    Transformação da série empírica em discreta e intervalar. Determinação do valor médio sobre uma série discreta usando suas propriedades. Cálculo de uma série discreta de modos, medianas, indicadores de variação (dispersão, desvio, coeficiente de oscilação).

    teste, adicionado em 17/04/2011

    Construção de uma série estatística de distribuição das organizações. Definição gráfica do valor da moda e da mediana. A rigidez da correlação com o uso do coeficiente de determinação. Determinação do erro amostral do número médio de empregados.

A descrição das mudanças em um atributo variável é realizada usando séries de distribuição.

Série de distribuição estatística- esta é uma distribuição ordenada de unidades da população estatística em grupos separados de acordo com um determinado atributo variável.

As séries estatísticas construídas em bases qualitativas são chamadas de atributivo. Se a série de distribuição for baseada em um atributo quantitativo, então a série é variacional.

Por sua vez, as séries variacionais são divididas em discretas e intervalares. No centro discreto da série de distribuição reside uma característica discreta (descontínua) que assume valores numéricos específicos (o número de infrações, o número de pedidos de assistência judiciária dos cidadãos). intervalo a série de distribuição é construída com base em um recurso contínuo que pode assumir quaisquer valores de um determinado intervalo (idade do condenado, prazo de prisão, etc.)

Qualquer série de distribuição estatística contém dois elementos obrigatórios - série e variantes de frequência. Opções (XI) são os valores individuais do recurso que ele assume na série de distribuição. Frequências (fi) são valores numéricos que mostram quantas vezes certas opções ocorrem na série de distribuição. A soma de todas as frequências é chamada de volume da população.

Frequências expressas em unidades relativas (frações ou porcentagens) são chamadas de frequências ( com eu). A soma das frequências é igual a um se as frequências forem expressas em frações de um, ou 100 se forem expressas em porcentagem. O uso de frequências permite comparar séries variacionais com diferentes tamanhos populacionais. As frequências são determinadas pela seguinte fórmula:

Para construir uma série discreta, tudo o que ocorre na série é classificado valores individuais característica, e então a frequência de repetição de cada valor é calculada. Uma série de distribuição é elaborada na ideia de uma tabela composta por duas linhas e colunas, uma das quais contém os valores das variantes da série XI, no segundo - os valores das frequências fi.

Considere um exemplo de construção de uma série variacional discreta.

Exemplo 3.1 . De acordo com o Ministério da Administração Interna, crimes cometidos na cidade de N menores de idade.

17 13 15 16 17 15 15 14 16 13 14 17 14 15 15 16 16 15 14 15 15 14 16 16 14 17 16 15 16 15 13 15 15 13 15 14 15 13 17 14.

Construa uma série de distribuição discreta.

Solução .

Primeiro, é necessário classificar os dados sobre a idade dos menores, ou seja, escreva-os em ordem crescente.

13 13 13 13 13 14 14 14 14 14 14 14 14 15 15 15 15 15 15 15 15 15 15 15 15 15 15 16 16 16 16 16 16 16 16 17 17 17 17 17



Tabela 3.1

Assim, as frequências refletem o número de pessoas de uma determinada idade, por exemplo, 5 pessoas têm 13 anos, 8 pessoas têm 14 anos e assim por diante.

Prédio intervalo as linhas de distribuição são realizadas de maneira semelhante à implementação de um agrupamento de intervalos iguais de acordo com um atributo quantitativo, ou seja, primeiro é determinado o número ideal de grupos nos quais o conjunto será dividido, os limites dos intervalos por grupos são definidos e as frequências são calculadas.

Vamos ilustrar a construção de uma série de distribuição intervalar usando o seguinte exemplo.

Exemplo 3.2 .

Construa uma série de intervalo para a seguinte população estatística - o salário de um advogado no escritório, mil rublos:

16,0 22,2 25,1 24,3 30,5 32,0 17,0 23,0 19,8 27,5 22,0 18,9 31,0 21,5 26,0 27,4

Solução.

Vamos pegar o número ideal de grupos de intervalos iguais para uma determinada população estatística, igual a 4 (temos 16 opções). Portanto, o tamanho de cada grupo é igual a:

e o valor de cada intervalo será igual a:

Os limites dos intervalos são determinados pelas fórmulas:

,

onde são os limites inferior e superior do i-ésimo intervalo, respectivamente.

Omitindo os cálculos intermediários dos limites dos intervalos, inserimos seus valores (opções) e o número de advogados (frequências) que possuem salários dentro de cada intervalo na Tabela 3.2, que ilustra a série intervalar resultante.

Tabela 3.2

A análise de séries de distribuição estatística pode ser realizada usando um método gráfico. A representação gráfica da série de distribuição permite ilustrar visualmente os padrões de distribuição da população estudada, representando-a na forma de um polígono, um histograma e cúmulos. Vamos dar uma olhada em cada um desses gráficos.

Polígonoé uma polilinha cujos segmentos conectam pontos com coordenadas ( XI;fi). Normalmente, um polígono é usado para exibir séries de distribuição discretas. Para construí-lo, os valores individuais classificados do recurso são plotados no eixo x XI, no eixo y estão as frequências correspondentes a esses valores. Como resultado, conectando segmentos dos pontos correspondentes aos dados marcados ao longo dos eixos de abcissas e ordenadas, obtém-se uma polilinha, denominada polígono. Vamos dar um exemplo de construção de um polígono de frequência.

Para ilustrar a construção de um polígono, vamos pegar o resultado da resolução do exemplo 3.1 para construir uma série discreta - Figura 1. A abcissa mostra a idade dos condenados, a ordenada mostra o número de menores condenados que dada idade. Analisando este polígono, podemos dizer que o maior número condenados - 14 pessoas, têm 15 anos.

Figura 3.1 - Faixa de frequências de uma série discreta.

Um polígono também pode ser construído para uma série de intervalos, caso em que os pontos médios dos intervalos são plotados ao longo do eixo das abcissas e as frequências correspondentes são plotadas ao longo do eixo das ordenadas.

gráfico de barras– uma figura escalonada composta por retângulos, cujas bases são os intervalos do valor do recurso e as alturas são iguais às frequências correspondentes. O histograma é usado apenas para exibir séries de distribuição de intervalo. Se os intervalos forem desiguais, então, para construir um histograma no eixo y, não são plotadas as frequências, mas a razão entre a frequência e a largura do intervalo correspondente. Um histograma pode ser convertido em um polígono de distribuição se os meios de suas colunas estiverem conectados por segmentos.

Para ilustrar a construção de um histograma, vamos pegar os resultados da construção de uma série intervalar do Exemplo 3.2 - Figura 3.2.

Figura 3.2 - Histograma da distribuição das remunerações dos advogados.

Para uma representação gráfica de séries variacionais, cumulate também é usado. Acumularé uma curva representando uma série de frequências acumuladas e conectando pontos com coordenadas ( XI;eu nak). As frequências cumulativas são calculadas pela soma sucessiva de todas as frequências da série de distribuição e mostram o número de unidades populacionais que possuem um valor de recurso não maior que o especificado. Vamos ilustrar o cálculo das frequências acumuladas para as séries intervalares variacionais apresentadas no exemplo 3.2 - tabela 3.3.

Tabela 3.3

Para construir o acumulado de uma série de distribuição discreta, os valores individuais classificados da característica são plotados ao longo do eixo das abcissas e as frequências acumuladas correspondentes a eles são plotadas ao longo do eixo das ordenadas. Ao construir uma curva cumulativa de uma série intervalar, o primeiro ponto terá uma abscissa igual ao limite inferior do primeiro intervalo e uma ordenada igual a 0. Todos os pontos subseqüentes devem corresponder ao limite superior dos intervalos. Vamos construir um cumulate usando os dados da Tabela 3.3 - Figura 3.3.

Figura 3.3 - Curva de distribuição cumulativa dos vencimentos dos advogados.

perguntas de teste

1. O conceito de série de distribuição estatística, seus principais elementos.

2. Tipos de séries de distribuição estatística. Sua breve descrição.

3. Séries de distribuição discreta e intervalar.

4. Técnica de construção de séries de distribuições discretas.

5. Técnica de construção de séries de distribuição intervalar.

6. Representação gráfica de séries de distribuições discretas.

7. Representação gráfica de séries de distribuição intervalar.

Tarefas

Tarefa 1. Existem os seguintes dados sobre o progresso de 25 alunos do grupo no TGP por sessão: 5, 4, 4, 4, 3, 2, 5, 3, 4, 4, 4, 3, 2, 5, 2, 5 , 5, 2, 3 , 3, 5, 4, 2, 3, 3. Construa uma série variacional discreta de distribuição dos alunos de acordo com as notas das avaliações recebidas na sessão. Para a série resultante, calcule frequências, frequências cumulativas, frequências cumulativas. Tire suas próprias conclusões.

Tarefa 2. A colônia contém 1000 condenados, sua distribuição etária é apresentada na tabela:

foto esta linha graficamente. Tire suas próprias conclusões.

Tarefa 3. Os seguintes dados estão disponíveis sobre as condições de prisão de prisioneiros:

5; 4; 2; 1; 6; 3; 4; 3; 2; 2; 3; 1; 17; 6; 2; 8; 5; 11; 9; 3; 5; 6; 4; 3; 10; 5; 25; 1; 12; 3; 3; 4; 9; 6; 5; 3; 4; 3; 5; 12; 4; 13; 2; 4; 6; 4; 14; 3; 11; 5; 4; 13; 2; 4; 6; 4; 14; 3; 11; 5; 4; 3; 12; 6.

Construa uma série intervalar da distribuição de prisioneiros por termos de prisão. Tire suas próprias conclusões.

Tarefa 4. Estão disponíveis os seguintes dados sobre a distribuição dos condenados na região no período em estudo, segundo faixas etárias:

Desenhe esta série graficamente, tire conclusões.