Onde está o desvio padrão no excel.  Calculando o desvio padrão no Microsoft Excel

Onde está o desvio padrão no excel. Calculando o desvio padrão no Microsoft Excel

A função de desvio padrão já está fora da categoria matemática superior relativos a estatísticas. No Excel, existem várias opções para usar a função de desvio padrão:

  • Função STDEV.
  • Função STDEV.
  • função STDEV

Vamos precisar dessas funções nas estatísticas de vendas para identificar a estabilidade das vendas (análise XYZ). Esses dados podem ser utilizados tanto para precificação quanto para a formação (ajuste) da matriz de sortimento e para outras análises úteis de vendas, das quais com certeza falarei em artigos futuros.

Prefácio

Vejamos primeiro as fórmulas em linguagem matemática e depois (abaixo no texto) analisaremos detalhadamente a fórmula no Excel e como o resultado resultante é aplicado na análise das estatísticas de vendas.

Assim, o desvio padrão é uma estimativa do desvio padrão variável aleatória x em relação a ela expectativa matemática com base em uma estimativa imparcial de sua variação)))) Não tenha medo de palavras incompreensíveis, seja paciente e você entenderá tudo!

Descrição da fórmula: O desvio padrão é medido em unidades da variável mais aleatória e é usado no cálculo erro padrão média aritmética, ao construir intervalos de confiança, em testes estatísticos de hipóteses, na medição da relação linear entre variáveis ​​aleatórias. Definido como Raiz quadrada da variância de uma variável aleatória

Agora, o desvio padrão é uma estimativa do desvio padrão de uma variável aleatória x com relação à sua expectativa matemática com base em uma estimativa imparcial de sua variância:

Dispersão;

- eu-th elemento de amostra;

Tamanho da amostra;

Exemplo de média aritmética:

Deve-se notar que ambas as estimativas são viesadas. NO caso Geralé impossível construir uma estimativa imparcial. No entanto, uma estimativa baseada em uma estimativa de variância imparcial é consistente.

regra dos três sigmas() - quase todos os valores de uma variável aleatória normalmente distribuída estão no intervalo . Mais estritamente, com aproximadamente 0,9973 de probabilidade, o valor de uma variável aleatória normalmente distribuída está no intervalo especificado (desde que o valor seja verdadeiro e não obtido como resultado do processamento da amostra). Usaremos um intervalo arredondado de 0,1

Se o valor verdadeiro for desconhecido, você deve usar não, mas s. Assim, a regra de três sigma é transformada em regra de três s. É esta regra que nos ajudará a determinar a estabilidade das vendas, mas mais sobre isso mais tarde...

Agora função de desvio padrão no Excel

Espero não ter sobrecarregado você com matemática. Talvez alguém precise dessas informações para um resumo ou outro propósito. Agora vamos mastigar como essas fórmulas funcionam no Excel...

Para determinar a estabilidade das vendas, não precisamos nos aprofundar em todas as opções de funções de desvio padrão. Usaremos apenas um:

função STDEV

STDEV(número 1;número 2;... )

Número1, Número2,..- de 1 a 30 argumentos numéricos correspondentes à população em geral.

Agora vejamos um exemplo:

Vamos criar um livro e uma planilha improvisada. Este exemplo em Excel você fará o download no final do artigo.

Continua!!!

Olá de novo. Nós iremos!? Tem um minuto grátis. Vamos continuar?

E assim a estabilidade das vendas com a ajuda funções STDEV

Para maior clareza, vamos pegar alguns produtos improvisados:

Em analytics, seja uma previsão, pesquisa ou qualquer outra coisa relacionada a estatística, é sempre necessário levar três períodos. Pode ser uma semana, mês, trimestre ou ano. É possível e até melhor fazer tantos períodos quanto possível, mas não menos que três.

Eu mostrei especificamente vendas exageradas, onde você pode ver a olho nu o que está sendo vendido de forma consistente e o que não está. Isso facilitará o entendimento de como as fórmulas funcionam.

E assim temos vendas, agora precisamos calcular os valores médios de vendas por período.

Fórmula do valor médio AVERAGE(dados do período) no meu caso, a fórmula se parece com isso =AVERAGE(C6:E6)

Esticamos a fórmula para todos os produtos. Isso pode ser feito segurando o canto direito da célula selecionada e arrastando-o para o final da lista. Ou coloque o cursor na coluna com o produto e pressione as seguintes combinações de teclas:

Ctrl + Baixo move o cursor para o final da lista.

Ctrl + Direita, cursor move para lado direito tabelas. Mais uma vez à direita e chegaremos à coluna com a fórmula.

Agora nós apertamos

Ctrl + Shift e pressione para cima. Então, selecionamos a área de alongamento da fórmula.

E a combinação de teclas Ctrl + D estenderá a função onde precisarmos.

Lembre-se dessas combinações, elas realmente aumentam sua velocidade no Excel, principalmente quando você trabalha com arrays grandes.

O próximo passo, a própria função de desvio padrão, como eu disse, vamos usar apenas um STDEV

Prescrevemos a função e nos valores da função colocamos os valores de vendas de cada período. Se você tiver vendas na tabela uma após a outra, poderá usar o intervalo, como na minha fórmula =STDEV(C6:E6) ou listar as células necessárias com um ponto e vírgula =STDEV(C6;D6;E6)

Aqui estão todos os cálculos e pronto. Mas como você sabe o que vende consistentemente e o que não? Vamos apenas colocar a convenção XYZ onde,

X é estável

Y - com pequenos desvios

Z - não estável

Para fazer isso, usamos intervalos de erro. se ocorrerem flutuações dentro de 10%, assumiremos que as vendas estão estáveis.

Se estiver entre 10 e 25 por cento, será Y.

E se os valores de variação excederem 25% - isso não é estabilidade.

Para definir corretamente as letras de cada produto, usaremos a fórmula SE com mais detalhes. na minha mesa dada função ficará assim:

SE(H6<0,1;"X";ЕСЛИ(H6<0,25;"Y";"Z"))

Assim, estendemos todas as fórmulas para todos os nomes.

Vou tentar responder imediatamente à pergunta: Por que os intervalos de 10% e 25%?

Na verdade, os intervalos podem ser diferentes, tudo depende da tarefa específica. Mostrei especificamente para vocês valores de vendas exagerados, onde a diferença é visível a "olho". É óbvio que o produto 1 não é vendido de forma consistente, mas a dinâmica mostra um aumento nas vendas. Deixe este item em paz...

Mas produto 2, já existe uma desestabilização no rosto. E nossos cálculos mostram Z, que nos fala sobre a instabilidade das vendas. O item 3 e o item 5 apresentam desempenho estável, observe que a variação está dentro de 10%.

Aqueles. O item 5 com pontuações de 45, 46 e 45 apresenta uma variação de 1%, que é uma série numérica estável.

Mas o Produto 2 com pontuações de 10, 50 e 5 mostra uma variação de 93%, o que NÃO é uma série numérica estável.

Após todos os cálculos, você pode colocar um filtro e filtrar a estabilidade, portanto, se sua tabela for composta por vários milhares de itens, você poderá selecionar facilmente quais não são estáveis ​​\u200b\u200bnas vendas ou, pelo contrário, quais são estáveis.

"Y" não funcionou na minha tabela, acho que para maior clareza da série numérica, ela precisa ser adicionada. Vou sortear Bens 6...

Veja bem, as séries numéricas 40, 50 e 30 mostram uma variação de 20%. Parece que não há grande erro, mas mesmo assim o spread é significativo...

E assim resumindo:

10,50,5 - Z não é estável. Variação acima de 25%

40,50,30 - E você pode dar atenção a este produto e aumentar suas vendas. Variação menor que 25%, mas maior que 10%

45,46,45 - X é estabilidade, nada precisa ser feito com este produto ainda. Variação inferior a 10%

Isso é tudo! Espero ter explicado tudo com clareza, se não, pergunte o que não ficou claro. E ficarei grato a você por cada comentário, seja elogio ou crítica. Assim saberei que você está me lendo e você, o que é muito IMPORTANTE, interessante. E, consequentemente, novas lições aparecerão.

Uma das principais ferramentas da análise estatística é o cálculo do desvio padrão. Este indicador permite fazer uma estimativa do desvio padrão para uma amostra ou para a população em geral. Vamos aprender como usar a fórmula de desvio padrão no Excel.

Vamos definir imediatamente o que é o desvio padrão e como é sua fórmula. Este valor é a raiz quadrada da média aritmética dos quadrados da diferença entre todos os valores da série e sua média aritmética. Existe um nome idêntico para este indicador - desvio padrão. Ambos os nomes são completamente equivalentes.

Mas, claro, no Excel, o usuário não precisa calcular isso, já que o programa faz tudo por ele. Vamos aprender a calcular o desvio padrão no Excel.

Cálculo em Excel

Você pode calcular o valor especificado no Excel usando duas funções especiais STDEV.V(de acordo com a amostra) e STDEV.G(de acordo com a população em geral). O princípio de sua operação é absolutamente o mesmo, mas podem ser chamados de três maneiras, que discutiremos a seguir.

Método 1: Assistente de função


Método 2: guia Fórmulas


Método 3: Inserir a fórmula manualmente

Há também uma maneira em que você não precisa chamar a janela de argumento. Para fazer isso, insira a fórmula manualmente.


Como você pode ver, o mecanismo para calcular o desvio padrão no Excel é muito simples. O usuário só precisa inserir números da população ou links para células que os contenham. Todos os cálculos são realizados pelo próprio programa. É muito mais difícil entender qual é o indicador calculado e como os resultados do cálculo podem ser aplicados na prática. Mas entender isso já pertence mais ao reino da estatística do que aprender a trabalhar com software.

Instrução

Que haja vários números caracterizando - ou quantidades homogêneas. Por exemplo, os resultados de medições, pesagens, observações estatísticas, etc. Todas as grandezas apresentadas devem ser medidas pela mesma medida. Para encontrar o desvio padrão, faça o seguinte.

Determine a média aritmética de todos os números: adicione todos os números e divida a soma pelo número total de números.

Determine a dispersão (dispersão) dos números: some os quadrados dos desvios encontrados anteriormente e divida a soma resultante pelo número de números.

Há sete pacientes na enfermaria com temperatura de 34, 35, 36, 37, 38, 39 e 40 graus Celsius.

É necessário determinar o desvio médio da média.
Solução:
"na enfermaria": (34+35+36+37+38+39+40)/7=37 ºС;

Desvios de temperatura da média (neste caso, o valor normal): 34-37, 35-37, 36-37, 37-37, 38-37, 39-37, 40-37, resulta: -3, -2, -1, 0, 1, 2, 3 (ºС);

Divida a soma dos números obtidos anteriormente por seu número. Para a precisão do cálculo, é melhor usar uma calculadora. O resultado da divisão é a média aritmética das somas.

Preste muita atenção em todas as etapas do cálculo, pois um erro em pelo menos um dos cálculos levará a um indicador final incorreto. Confira os cálculos recebidos em cada etapa. A média aritmética tem o mesmo metro que a soma dos números, ou seja, se você determinar a média de atendimento, então todos os indicadores serão “pessoa”.

Este método de cálculo é usado apenas em cálculos matemáticos e estatísticos. Assim, por exemplo, a média aritmética na ciência da computação tem um algoritmo de cálculo diferente. A média aritmética é um indicador muito condicional. Mostra a probabilidade de um evento, desde que tenha apenas um fator ou indicador. Para uma análise mais aprofundada, muitos fatores devem ser levados em consideração. Para isso, utiliza-se o cálculo de grandezas mais gerais.

A média aritmética é uma das medidas de tendência central, amplamente utilizada em cálculos matemáticos e estatísticos. Encontrar a média aritmética de vários valores é muito simples, mas cada tarefa tem suas próprias nuances, que você simplesmente precisa saber para fazer cálculos corretos.

Resultados quantitativos de tais experimentos.

Como encontrar a média aritmética

A busca pela média aritmética para uma matriz de números deve começar com a determinação da soma algébrica desses valores. Por exemplo, se a matriz contiver os números 23, 43, 10, 74 e 34, sua soma algébrica será 184. Ao escrever, a média aritmética é indicada pela letra μ (mu) ou x (x com uma barra) . Em seguida, a soma algébrica deve ser dividida pelo número de números na matriz. Neste exemplo, havia cinco números, então a média aritmética será 184/5 e será 36,8.

Características de trabalhar com números negativos

Se houver números negativos na matriz, a média aritmética será encontrada usando um algoritmo semelhante. Há diferença apenas ao calcular no ambiente de programação ou se houver condições adicionais na tarefa. Nesses casos, encontrar a média aritmética de números com sinais diferentes se resume a três etapas:

1. Encontrar a média aritmética comum pelo método padrão;
2. Encontrar a média aritmética de números negativos.
3. Cálculo da média aritmética dos números positivos.

As respostas de cada uma das ações são escritas separadas por vírgulas.

Frações naturais e decimais

Se a matriz de números for representada por frações decimais, a solução ocorre de acordo com o método de cálculo da média aritmética de inteiros, mas o resultado é reduzido de acordo com as exigências do problema para a precisão da resposta.

Ao trabalhar com frações naturais, elas devem ser reduzidas a um denominador comum, que é multiplicado pelo número de números na matriz. O numerador da resposta será a soma dos numeradores dados dos elementos fracionários originais.

A característica mais perfeita da variação é o desvio padrão, que é chamado de padrão (ou desvio padrão). Desvio padrão() é igual à raiz quadrada do quadrado médio dos desvios dos valores dos recursos individuais da média aritmética:

O desvio padrão é simples:

O desvio padrão ponderado é aplicado para dados agrupados:

Entre o quadrado médio e os desvios lineares médios em condições de distribuição normal, ocorre a seguinte relação: ~ 1,25.

O desvio padrão, sendo a principal medida absoluta de variação, é utilizado na determinação dos valores das ordenadas da curva de distribuição normal, em cálculos relacionados à organização da observação da amostra e no estabelecimento da precisão das características da amostra, bem como na avaliar os limites da variação de uma característica em uma população homogênea.

Dispersão, seus tipos, desvio padrão.

Variância de uma variável aleatória- uma medida da dispersão de uma determinada variável aleatória, ou seja, seu desvio da expectativa matemática. Em estatística, a designação ou é freqüentemente usada. A raiz quadrada da variância é chamada de desvio padrão, desvio padrão ou dispersão padrão.

variância total (σ2) mede a variação de uma característica em toda a população sob a influência de todos os fatores que causaram essa variação. Ao mesmo tempo, graças ao método de agrupamento, é possível isolar e medir a variação devido ao recurso de agrupamento e a variação que ocorre sob a influência de fatores não contabilizados.

variância intergrupo (σ 2 m.gr) caracteriza a variação sistemática, ou seja, diferenças na magnitude do traço estudado decorrentes da influência do traço - o fator subjacente ao agrupamento.

desvio padrão(sinônimos: desvio padrão, desvio padrão, desvio padrão; termos semelhantes: desvio padrão, dispersão padrão) - na teoria e estatística da probabilidade, o indicador mais comum da dispersão dos valores de uma variável aleatória em relação à sua expectativa matemática. Com matrizes limitadas de amostras de valores, em vez da expectativa matemática, é usada a média aritmética do conjunto de amostras.

O desvio padrão é medido em unidades da própria variável aleatória e é usado no cálculo do erro padrão da média aritmética, na construção de intervalos de confiança, no teste estatístico de hipóteses e na medição da relação linear entre variáveis ​​aleatórias. É definido como a raiz quadrada da variância de uma variável aleatória.


Desvio padrão:

Desvio padrão(estimativa do desvio padrão de uma variável aleatória x em relação à sua expectativa matemática com base em uma estimativa imparcial de sua variância):

onde é a dispersão; — eu-th elemento de amostra; — tamanho da amostra; - média aritmética da amostra:

Deve-se notar que ambas as estimativas são viesadas. No caso geral, é impossível construir uma estimativa imparcial. No entanto, uma estimativa baseada em uma estimativa de variância imparcial é consistente.

Essência, escopo e procedimento para determinação da moda e mediana.

Além das médias de lei de potência em estatísticas, para uma característica relativa da magnitude de um traço variável e da estrutura interna das séries de distribuição, são usadas médias estruturais, que são representadas principalmente por modo e mediana.

Moda- Esta é a variante mais comum da série. A moda é usada, por exemplo, para determinar o tamanho de roupas, sapatos, que são os mais procurados pelos compradores. A moda para uma série discreta é a variante com a maior frequência. Ao calcular a moda para a série de variação do intervalo, você deve primeiro determinar o intervalo modal (pela frequência máxima) e, em seguida, o valor do valor modal do atributo de acordo com a fórmula:

- - valor da moda

- - limite inferior do intervalo modal

- - valor do intervalo

- - frequência de intervalo modal

- - frequência do intervalo que precede o modal

- - frequência do intervalo seguindo o modal

Mediana - este é o valor do recurso que fundamenta a série classificada e divide essa série em duas partes iguais em número.

Para determinar a mediana em uma série discreta na presença de frequências, primeiro calcule a meia-soma das frequências e, em seguida, determine qual valor da variante cai sobre ela. (Se a linha classificada contiver um número ímpar de recursos, o número mediano será calculado pela fórmula:

M e \u003d (n (número de recursos no agregado) + 1) / 2,

no caso de número par de feições, a mediana será igual à média das duas feições do meio da linha).

ao calcular medianas para uma série de variação de intervalo, primeiro determine o intervalo mediano dentro do qual a mediana está localizada e, em seguida, o valor da mediana de acordo com a fórmula:

- é a mediana desejada

- é o limite inferior do intervalo que contém a mediana

- - valor do intervalo

- - a soma das frequências ou o número de membros da série

A soma das frequências acumuladas dos intervalos que precedem a mediana

- é a frequência do intervalo mediano

Exemplo. Encontre a moda e a mediana.

Solução:
Nesse exemplo, o intervalo modal está dentro da faixa etária de 25 a 30 anos, pois esse intervalo representa a maior frequência (1054).

Vamos calcular o valor da moda:

Isto significa que a idade modal dos alunos é de 27 anos.

Calcule a mediana. O intervalo mediano está na faixa etária de 25-30 anos, pois dentro deste intervalo existe uma variante que divide a população em duas partes iguais (Σf i /2 = 3462/2 = 1731). Em seguida, substituímos os dados numéricos necessários na fórmula e obtemos o valor da mediana:

Isso significa que metade dos alunos tem menos de 27,4 anos e a outra metade tem mais de 27,4 anos.

Além da moda e da mediana, podem ser utilizados indicadores como quartis, dividindo a série ranqueada em 4 partes iguais, decis- 10 partes e percentis - por 100 partes.

O conceito de observação seletiva e seu alcance.

Observação seletiva aplica-se ao aplicar a observação contínua fisicamente impossível devido a uma grande quantidade de dados ou economicamente impraticável. A impossibilidade física ocorre, por exemplo, quando se estuda fluxos de passageiros, preços de mercado, orçamentos familiares. A inadequação econômica ocorre ao avaliar a qualidade dos bens associados à sua destruição, por exemplo, degustação, teste de resistência de tijolos, etc.

As unidades estatísticas selecionadas para observação constituem uma amostra ou amostra e toda a sua matriz - a população geral (GS). Neste caso, o número de unidades na amostra denota n, e em todo o HS - N. Atitude n/n chamado de tamanho relativo ou proporção da amostra.

A qualidade dos resultados da amostragem depende da representatividade da amostra, ou seja, quão representativa ela é no SH. Para garantir a representatividade da amostra, é necessário observar princípio da seleção aleatória de unidades, que assume que a inclusão de uma unidade de SS na amostra não pode ser influenciada por nenhum outro fator que não seja o acaso.

Existe 4 maneiras de seleção aleatória para provar:

  1. Na verdade aleatório seleção ou "método de loteria", quando números de série são atribuídos a valores estatísticos, inseridos em certos objetos (por exemplo, barris), que são então misturados em algum recipiente (por exemplo, em uma sacola) e selecionados aleatoriamente. Na prática, esse método é realizado usando um gerador de números aleatórios ou tabelas matemáticas de números aleatórios.
  2. Mecânico seleção, segundo a qual cada ( N/n)-ésimo valor da população geral. Por exemplo, se contiver 100.000 valores e você quiser selecionar 1.000, então cada 100.000/1.000 = 100º valor cairá na amostra. Além disso, se eles não forem classificados, o primeiro será escolhido aleatoriamente entre os primeiros cem, e o número dos outros será mais cem. Por exemplo, se o número da unidade 19 for o primeiro, o número 119 deve ser o próximo, depois o número 219, depois o número 319 e assim por diante. Se as unidades populacionais forem classificadas, o número 50 será selecionado primeiro, depois o número 150, depois o número 250 e assim por diante.
  3. A seleção de valores de uma matriz de dados heterogênea é realizada estratificado método (estratificado), quando a população geral é previamente dividida em grupos homogêneos, aos quais se aplica seleção aleatória ou mecânica.
  4. Um método especial de amostragem é serial seleção, na qual não quantidades individuais são escolhidas aleatoriamente ou mecanicamente, mas suas séries (sequências de algum número para algum em uma linha), dentro da qual a observação contínua é realizada.

A qualidade das observações da amostra também depende tipo de amostragem: repetido ou Não repetitivo.

No re-seleção os valores estatísticos ou suas séries que caíram na amostra são devolvidos à população em geral após o uso, tendo a chance de entrar em uma nova amostra. Ao mesmo tempo, todos os valores da população geral têm a mesma probabilidade de serem incluídos na amostra.

Seleção não repetitiva significa que os valores estatísticos ou suas séries incluídos na amostra não são devolvidos à população em geral após o uso e, portanto, a probabilidade de entrar na próxima amostra aumenta para os valores restantes desta última.

A amostragem não repetitiva fornece resultados mais precisos, por isso é usada com mais frequência. Mas há situações em que não pode ser aplicado (estudo dos fluxos de passageiros, demanda do consumidor, etc.) e então é feita uma re-seleção.

O erro marginal da amostra de observação, o erro médio da amostra, a ordem em que são calculados.

Vamos considerar em detalhes os métodos acima para formar uma população amostral e os erros que surgem neste caso. representatividade .
Na verdade, aleatório a amostra é baseada na seleção de unidades da população geral de forma aleatória, sem quaisquer elementos de consistência. Tecnicamente, a seleção aleatória adequada é realizada por sorteio (por exemplo, loterias) ou por uma tabela de números aleatórios.

Na verdade, a seleção aleatória "em sua forma pura" na prática da observação seletiva raramente é usada, mas é a inicial entre outros tipos de seleção, implementa os princípios básicos da observação seletiva. Consideremos algumas questões da teoria do método de amostragem e da fórmula de erro para uma amostra aleatória simples.

Erro de amostragem- esta é a diferença entre o valor do parâmetro na população geral e seu valor calculado a partir dos resultados da observação da amostra. Para uma característica quantitativa média, o erro de amostragem é determinado por

O indicador é chamado de erro amostral marginal.
A média amostral é uma variável aleatória que pode assumir diferentes valores dependendo de quais unidades estão na amostra. Portanto, os erros amostrais também são variáveis ​​aleatórias e podem assumir valores diferentes. Portanto, determine a média dos possíveis erros - erro médio de amostragem, que depende de:

Tamanho da amostra: quanto maior o número, menor o erro médio;

O grau de mudança da característica estudada: quanto menor a variação da característica e, consequentemente, a variância, menor o erro amostral médio.

No re-seleção aleatória o erro médio é calculado:
.
Na prática, a variância geral não é exatamente conhecida, mas em teoria da probabilidade provou que
.
Como o valor para n suficientemente grande é próximo de 1, podemos assumir que . Então o erro médio de amostragem pode ser calculado:
.
Mas em casos de uma pequena amostra (para n<30) коэффициент необходимо учитывать, и среднюю ошибку малой выборки рассчитывать по формуле
.

No amostragem aleatória as fórmulas dadas são corrigidas pelo valor . Então o erro médio de não amostragem é:
e .
Porque é sempre menor que , então o fator () é sempre menor que 1. Isso significa que o erro médio na seleção não repetitiva é sempre menor do que na seleção repetida.
Amostragem mecânicaé usado quando a população em geral é ordenada de alguma forma (por exemplo, listas de eleitores em ordem alfabética, números de telefone, números de casas, apartamentos). A seleção das unidades é realizada em um determinado intervalo, que é igual ao recíproco da porcentagem da amostra. Assim, com uma amostra de 2%, cada 50 unidades = 1 / 0,02 é selecionada, com 5%, cada 1 / 0,05 = 20 unidades da população geral.

A origem é escolhida de diferentes maneiras: aleatoriamente, a partir do meio do intervalo, com mudança na origem. O principal é evitar erros sistemáticos. Por exemplo, com uma amostra de 5%, se a 13ª for escolhida como a primeira unidade, então as próximas 33, 53, 73, etc.

Em termos de precisão, a seleção mecânica está próxima da amostragem aleatória adequada. Portanto, para determinar o erro médio da amostragem mecânica, são utilizadas fórmulas de seleção aleatória apropriadas.

No seleção típica a população pesquisada é preliminarmente dividida em grupos homogêneos de tipo único. Por exemplo, ao pesquisar empresas, estas podem ser indústrias, subsetores, enquanto estuda a população - áreas, grupos sociais ou etários. Em seguida, uma seleção independente é feita de cada grupo de maneira mecânica ou aleatória adequada.

A amostragem típica fornece resultados mais precisos do que outros métodos. A tipificação da população geral garante a representação de cada grupo tipológico na amostra, o que permite excluir a influência da variância intergrupo no erro amostral médio. Portanto, ao encontrar o erro de uma amostra típica segundo a regra de adição de variâncias (), é necessário levar em consideração apenas a média das variâncias do grupo. Então o erro amostral médio é:
na re-seleção
,
com seleção não recorrente
,
Onde é a média das variâncias intragrupo na amostra.

Seleção serial (ou aninhada) usado quando a população é dividida em séries ou grupos antes do início do levantamento amostral. Essas séries podem ser pacotes de produtos acabados, grupos de alunos, equipes. As séries para exame são selecionadas mecanicamente ou aleatoriamente, e dentro da série é realizado um levantamento completo das unidades. Portanto, o erro amostral médio depende apenas da variância intergrupos (interséries), que é calculada pela fórmula:

onde r é o número de séries selecionadas;
- a média da i-ésima série.

O erro médio de amostragem serial é calculado:

quando selecionado novamente:
,
com seleção não recorrente:
,
onde R é o número total de séries.

Combinado seleçãoé uma combinação dos métodos de seleção considerados.

O erro médio de amostragem para qualquer método de seleção depende principalmente do tamanho absoluto da amostra e, em menor grau, da porcentagem da amostra. Suponha que 225 observações sejam feitas no primeiro caso de uma população de 4.500 unidades e no segundo caso de 225.000 unidades. As variâncias em ambos os casos são iguais a 25. Então, no primeiro caso, com uma seleção de 5%, o erro amostral será:

No segundo caso, com uma seleção de 0,1%, será igual a:


Nesse caminho, com a diminuição do percentual amostral em 50 vezes, o erro amostral aumentou um pouco, pois o tamanho da amostra não mudou.
Suponha que o tamanho da amostra seja aumentado para 625 observações. Neste caso, o erro amostral é:

Um aumento na amostra de 2,8 vezes com o mesmo tamanho da população geral reduz o tamanho do erro de amostragem em mais de 1,6 vezes.

Métodos e meios de formação de uma população amostral.

Na estatística, vários métodos de formação de conjuntos de amostras são usados, o que é determinado pelos objetivos do estudo e depende das especificidades do objeto de estudo.

A principal condição para a realização de um inquérito por amostragem é evitar a ocorrência de erros sistemáticos decorrentes da violação do princípio da igualdade de oportunidades para cada unidade da população em geral entrar na amostra. A prevenção de erros sistemáticos é alcançada como resultado do uso de métodos cientificamente fundamentados para a formação de uma população amostral.

Existem as seguintes maneiras de selecionar unidades da população geral:

1) seleção individual - unidades individuais são selecionadas na amostra;

2) seleção do grupo - grupos qualitativamente homogêneos ou séries de unidades em estudo enquadram-se na amostra;

3) seleção combinada é uma combinação de seleção individual e de grupo.
Os métodos de seleção são determinados pelas regras para a formação da população amostral.

A amostra pode ser:

  • aleatório adequado consiste no fato de que a amostra é formada como resultado da seleção aleatória (não intencional) de unidades individuais da população geral. Nesse caso, o número de unidades selecionadas no conjunto de amostras geralmente é determinado com base na proporção aceita da amostra. A parcela da amostra é a razão entre o número de unidades na população amostral n e o número de unidades na população geral N, ou seja,
  • mecânico consiste no fato de que a seleção das unidades da amostra é feita a partir da população geral, dividida em intervalos (grupos) iguais. Nesse caso, o tamanho do intervalo na população geral é igual ao recíproco da proporção da amostra. Assim, com uma amostra de 2%, cada 50ª unidade é selecionada (1:0,02), com uma amostra de 5%, a cada 20ª unidade (1:0,05), etc. Assim, de acordo com a proporção aceita de seleção, a população geral é, por assim dizer, mecanicamente dividida em grupos iguais. Apenas uma unidade é selecionada de cada grupo na amostra.
  • típica - em que a população geral é primeiro dividida em grupos típicos homogêneos. Então, de cada grupo típico, uma seleção individual de unidades na amostra é feita por uma amostra aleatória ou mecânica. Uma característica importante de uma amostra típica é que ela fornece resultados mais precisos em comparação com outros métodos de seleção de unidades em uma amostra;
  • serial- em que a população geral é dividida em grupos do mesmo tamanho - série. As séries são selecionadas no conjunto de amostras. Dentro da série, é realizada uma observação contínua das unidades que caíram na série;
  • combinado- a amostragem pode ser em duas fases. Nesse caso, a população geral é primeiro dividida em grupos. Em seguida, os grupos são selecionados e, dentro destes, as unidades individuais são selecionadas.

Em estatística, distinguem-se os seguintes métodos de seleção de unidades em uma amostra::

  • estágio único amostra - cada unidade selecionada é imediatamente submetida a estudo em uma determinada base (na verdade, amostras aleatórias e seriadas);
  • multiestágio amostragem - a seleção é feita da população geral de grupos individuais e unidades individuais são selecionadas dos grupos (uma amostra típica com um método mecânico de selecionar unidades na população amostral).

Além disso, existem:

  • nova seleção- de acordo com o esquema da bola devolvida. Nesse caso, cada unidade ou série que caiu na amostra é devolvida à população geral e, portanto, tem chance de ser incluída na amostra novamente;
  • seleção não repetitiva- de acordo com o esquema da bola não devolvida. Tem resultados mais precisos para o mesmo tamanho de amostra.

Determinação do tamanho da amostra necessária (usando a tabela de Student).

Um dos princípios científicos na teoria da amostragem é garantir que um número suficiente de unidades seja selecionado. Teoricamente, a necessidade de cumprir este princípio é apresentada nas provas dos teoremas do limite da teoria da probabilidade, que permitem estabelecer quantas unidades devem ser selecionadas da população geral para que seja suficiente e garanta a representatividade da amostra.

A diminuição do erro padrão da amostra e, consequentemente, o aumento da precisão da estimativa estão sempre associados ao aumento do tamanho da amostra, portanto, já na fase de organização de uma observação amostral, é necessário decidir qual deve ser o tamanho da amostra para garantir a precisão necessária dos resultados da observação. O cálculo do tamanho amostral necessário é construído a partir de fórmulas derivadas das fórmulas dos erros amostrais marginais (A), correspondentes a um ou outro tipo e método de seleção. Então, para um tamanho de amostra repetido aleatório (n), temos:

A essência desta fórmula é que, com uma nova seleção aleatória do número necessário, o tamanho da amostra é diretamente proporcional ao quadrado do coeficiente de confiança (t2) e variância da característica de variação (?2) e é inversamente proporcional ao quadrado do erro amostral marginal (?2). Em particular, dobrando o erro marginal, o tamanho amostral necessário pode ser reduzido por um fator de quatro. Dos três parâmetros, dois (t e?) são definidos pelo pesquisador.

Ao mesmo tempo, o pesquisador Para fins de pesquisa amostral, a questão deve ser decidida: em que combinação quantitativa é melhor incluir esses parâmetros para fornecer a variante ótima? Em um caso, ele pode estar mais satisfeito com a confiabilidade dos resultados obtidos (t) do que com a medida de precisão (?), no outro - vice-versa. É mais difícil resolver a questão do valor do erro amostral marginal, pois o pesquisador não possui esse indicador na fase de desenho de uma observação amostral, portanto, na prática, costuma-se definir o erro amostral marginal, como uma regra, dentro de 10% do nível médio esperado do traço. O estabelecimento de um nível médio presumido pode ser abordado de diferentes maneiras: usando dados de pesquisas anteriores semelhantes ou usando dados do quadro de amostragem e obtendo uma pequena amostra piloto.

A coisa mais difícil de estabelecer ao projetar uma observação amostral é o terceiro parâmetro na fórmula (5.2) - a variância da população amostral. Neste caso, é necessário utilizar todas as informações de que o investigador dispõe, obtidas em levantamentos anteriores similares e pilotos.

Questão de definição O tamanho amostral necessário torna-se mais complicado se o levantamento amostral envolver o estudo de várias características das unidades amostrais. Neste caso, os níveis médios de cada uma das características e a sua variação, em regra, são diferentes, pelo que é possível decidir qual a dispersão de qual das características dar preferência apenas tendo em conta a finalidade e os objetivos da a pesquisa.

Ao projetar uma observação de amostra, um valor predeterminado do erro de amostragem permissível é assumido de acordo com os objetivos de um determinado estudo e a probabilidade de conclusões com base nos resultados da observação.

Em geral, a fórmula para o erro marginal do valor médio da amostra permite determinar:

A magnitude dos possíveis desvios dos indicadores da população geral em relação aos indicadores da população amostral;

O tamanho de amostra necessário, fornecendo a precisão necessária, na qual os limites de um possível erro não excederão um determinado valor especificado;

A probabilidade de que o erro na amostra tenha um determinado limite.

distribuição do aluno na teoria da probabilidade, é uma família de um parâmetro de distribuições absolutamente contínuas.

Série de dinâmicas (intervalo, momento), fechamento de séries de dinâmicas.

Série de dinâmicas- estes são os valores dos indicadores estatísticos que são apresentados em uma determinada sequência cronológica.

Cada série temporal contém dois componentes:

1) indicadores de períodos de tempo (anos, trimestres, meses, dias ou datas);

2) indicadores que caracterizam o objeto em estudo por períodos de tempo ou nas datas correspondentes, que são chamados de níveis da série.

Os níveis da série são expressos valores absolutos e médios ou relativos. Dependendo da natureza dos indicadores, são construídas séries dinâmicas de valores absolutos, relativos e médios. Séries dinâmicas de valores relativos e médios são construídas com base em séries derivadas de valores absolutos. Existem intervalos e séries de momentos de dinâmica.

Série de intervalos dinâmicos contém os valores dos indicadores para determinados períodos de tempo. Nas séries intervalares, os níveis podem ser somados, obtendo-se o volume do fenômeno por um período maior, ou os chamados totais acumulados.

Série de momentos dinâmicos reflete os valores dos indicadores em um determinado momento (data do tempo). Nas séries momentâneas, o pesquisador pode estar interessado apenas na diferença dos fenômenos, refletindo a mudança de nível da série entre certas datas, pois a soma dos níveis aqui não tem conteúdo real. Os totais cumulativos não são calculados aqui.

A condição mais importante para a correta construção de séries dinâmicas é a comparabilidade dos níveis das séries referentes a diferentes períodos. Os níveis devem ser apresentados em quantidades homogêneas, deve haver a mesma abrangência de cobertura de várias partes do fenômeno.

Para Para evitar distorções da dinâmica real, no estudo estatístico são realizados cálculos preliminares (fechamento da série temporal), que precedem a análise estatística da série temporal. O fechamento de série temporal é entendido como a combinação de duas ou mais séries em uma série, cujos níveis são calculados de acordo com metodologia diferente ou não correspondem a limites territoriais, etc. O fechamento das séries de dinâmicas também pode implicar na redução dos níveis absolutos das séries de dinâmicas a uma base comum, o que elimina a incompatibilidade dos níveis das séries de dinâmicas.

O conceito de comparabilidade de séries temporais, coeficientes, crescimento e taxas de crescimento.

Série de dinâmicas- são séries de indicadores estatísticos que caracterizam o desenvolvimento dos fenômenos naturais e sociais no tempo. As coleções estatísticas publicadas pelo Comitê Estadual de Estatísticas da Rússia contêm um grande número de séries temporais em forma de tabela. Séries de dinâmicas permitem revelar padrões de desenvolvimento dos fenômenos estudados.

As séries temporais contêm dois tipos de indicadores. Indicadores de tempo(anos, trimestres, meses, etc.) ou pontos no tempo (no início do ano, no início de cada mês, etc.). Indicadores de nível de linha. Os indicadores dos níveis das séries temporais podem ser expressos em valores absolutos (produção de um produto em toneladas ou rublos), valores relativos (participação da população urbana em %) e valores médios (salários médios dos trabalhadores da indústria por anos, etc.). Na forma tabular, a série temporal contém duas colunas ou duas linhas.

A construção correta de séries temporais envolve o cumprimento de uma série de requisitos:

  1. todos os indicadores de uma série de dinâmicas devem ser cientificamente fundamentados, confiáveis;
  2. indicadores de uma série de dinâmicas devem ser comparáveis ​​no tempo, ou seja, devem ser calculados para os mesmos períodos de tempo ou nas mesmas datas;
  3. indicadores de várias dinâmicas devem ser comparáveis ​​em todo o território;
  4. indicadores de uma série de dinâmicas devem ser comparáveis ​​em conteúdo, ou seja, calculados de acordo com uma única metodologia, da mesma forma;
  5. indicadores de uma série de dinâmicas devem ser comparáveis ​​em toda a gama de fazendas consideradas. Todos os indicadores de uma série de dinâmicas devem ser dados nas mesmas unidades de medida.

indicadores estatísticos pode caracterizar os resultados do processo em estudo durante um período de tempo, ou o estado do fenômeno em estudo em um determinado momento, ou seja, os indicadores podem ser intervalados (periódicos) e instantâneos. Assim, inicialmente a série de dinâmicas pode ser de intervalo ou momento. A série de momentos da dinâmica, por sua vez, pode ser com intervalos de tempo iguais e desiguais.

A série inicial da dinâmica pode ser convertida em uma série de valores médios e uma série de valores relativos (cadeia e base). Essas séries temporais são chamadas de séries temporais derivadas.

O método de cálculo do nível médio na série da dinâmica é diferente, devido ao tipo de série da dinâmica. Usando exemplos, considere os tipos de séries temporais e fórmulas para calcular o nível médio.

Ganhos absolutos (Δy) mostram quantas unidades o nível subseqüente da série mudou em relação ao anterior (coluna 3. - incrementos absolutos da cadeia) ou em relação ao nível inicial (coluna 4. - incrementos absolutos básicos). As fórmulas de cálculo podem ser escritas da seguinte forma:

Com uma diminuição nos valores absolutos da série, haverá uma "diminuição", "diminuição", respectivamente.

Os indicadores de crescimento absoluto indicam que, por exemplo, em 1998 a produção do produto “A” aumentou 4.000 toneladas em relação a 1997, e em 34.000 toneladas em relação a 1994; para outros anos, ver tabela. 11,5gr. 3 e 4.

Fator de crescimento mostra quantas vezes o nível da série mudou em relação à anterior (coluna 5 - fatores de crescimento ou declínio da cadeia) ou em relação ao nível inicial (coluna 6 - fatores básicos de crescimento ou declínio). As fórmulas de cálculo podem ser escritas da seguinte forma:

Taxas de crescimento mostram quantos por cento o próximo nível da série é comparado ao anterior (coluna 7 - taxas de crescimento da cadeia) ou comparado ao nível inicial (coluna 8 - taxas básicas de crescimento). As fórmulas de cálculo podem ser escritas da seguinte forma:

Assim, por exemplo, em 1997, o volume de produção do produto “A” em relação a 1996 foi de 105,5% (

Taxas de crescimento mostram quantos por cento o nível do período do relatório aumentou em relação ao anterior (coluna 9 - taxas de crescimento da cadeia) ou em relação ao nível inicial (coluna 10 - taxas básicas de crescimento). As fórmulas de cálculo podem ser escritas da seguinte forma:

T pr \u003d T p - 100% ou T pr \u003d aumento absoluto / nível do período anterior * 100%

Assim, por exemplo, em 1996, em comparação com 1995, o produto "A" foi produzido a mais em 3,8% (103,8% - 100%) ou (8:210) x 100%, e em comparação com 1994. - em 9% ( 109% - 100%).

Se os níveis absolutos da série diminuírem, a taxa será inferior a 100% e, portanto, haverá uma taxa de declínio (taxa de crescimento com sinal de menos).

Valor absoluto de 1% de aumento(coluna 11) mostra quantas unidades devem ser produzidas em um determinado período para que o nível do período anterior aumente 1%. No nosso exemplo, em 1995 era necessário produzir 2,0 mil toneladas, e em 1998 - 2,3 mil toneladas, ou seja, Muito maior.

Existem duas maneiras de determinar a magnitude do valor absoluto de 1% de crescimento:

Divida o nível do período anterior por 100;

Divida as taxas absolutas de crescimento da cadeia pelas taxas de crescimento da cadeia correspondentes.

Valor absoluto de 1% de aumento =

Em dinâmicas, principalmente de longo prazo, é importante analisar conjuntamente a taxa de crescimento com o conteúdo de cada aumento ou diminuição percentual.

Observe que a metodologia considerada para analisar séries temporais é aplicável tanto para séries temporais, cujos níveis são expressos em valores absolutos (t, mil rublos, número de funcionários, etc.), quanto para séries temporais, os níveis de que são expressos em indicadores relativos (% de sucata, % de cinzas de carvão, etc.) ou valores médios (rendimento médio em c/ha, salários médios, etc.).

Juntamente com os indicadores analíticos considerados calculados para cada ano em comparação com o nível anterior ou inicial, ao analisar a série temporal, é necessário calcular os indicadores analíticos médios do período: o nível médio da série, o aumento absoluto médio anual (redução) e a taxa média de crescimento anual e a taxa de crescimento.

Métodos para calcular o nível médio de uma série de dinâmicas foram discutidos acima. Na série intervalar da dinâmica que estamos considerando, o nível médio da série é calculado pela fórmula da média aritmética simples:

A produção média anual do produto para 1994-1998. totalizaram 218,4 mil toneladas.

O aumento absoluto médio anual também é calculado pela fórmula da média aritmética simples:

Os incrementos absolutos anuais variaram ao longo dos anos de 4 a 12 mil toneladas (ver gr. 3), e o aumento médio anual da produção no período 1995 - 1998. totalizaram 8,5 mil toneladas.

Os métodos para calcular a taxa média de crescimento e a taxa média de crescimento requerem consideração mais detalhada. Vamos considerá-los no exemplo dos indicadores anuais do nível de série dado na tabela.

O nível médio da faixa de dinâmica.

Série de dinâmicas (ou séries temporais)- estes são os valores numéricos de um determinado indicador estatístico em momentos ou períodos de tempo sucessivos (ou seja, organizados em ordem cronológica).

Os valores numéricos de um determinado indicador estatístico que compõe uma série de dinâmicas são chamados níveis de um número e geralmente é indicado pela letra y. Primeiro membro da série a 1 chamado inicial ou linha de base, e o último y n - final. Os momentos ou períodos de tempo a que se referem os níveis são denotados por t.

As séries dinâmicas, em regra, são apresentadas na forma de uma tabela ou gráfico, e uma escala de tempo é construída ao longo do eixo x t, e ao longo da ordenada - a escala dos níveis da série y.

Indicadores médios de uma série de dinâmicas

Cada série de dinâmicas pode ser considerada como um determinado conjunto n indicadores variáveis ​​no tempo que podem ser resumidos como médias. Esses indicadores generalizados (médios) são especialmente necessários ao comparar as mudanças em um ou outro indicador em diferentes períodos, em diferentes países, etc.

Uma característica generalizada de uma série de dinâmicas pode ser, antes de tudo, nível médio de linha. O método de cálculo do nível médio depende se é uma série de momentos ou uma série de intervalo (período).

Quando intervalo série, seu nível médio é determinado pela fórmula de uma média aritmética simples dos níveis da série, ou seja,

=
Se disponível momento linha contendo n níveis ( y1, y2, …, yn) com intervalos iguais entre datas (pontos de tempo), então tal série pode ser facilmente convertida em uma série de valores médios. Ao mesmo tempo, o indicador (nível) no início de cada período é simultaneamente o indicador no final do período anterior. Então o valor médio do indicador para cada período (intervalo entre as datas) pode ser calculado como meia-soma dos valores no no início e no final do período, ou seja, Como as . O número de tais médias será . Conforme mencionado anteriormente, para séries de médias, o nível médio é calculado a partir da média aritmética.

Portanto, podemos escrever:
.
Depois de converter o numerador, obtemos:
,

Onde A1 e Yn- o primeiro e o último nível da série; Yi- níveis intermediários.

Essa média é conhecida nas estatísticas como média cronológica para séries de momentos. Ela recebeu esse nome da palavra "cronos" (tempo, lat.), pois é calculado a partir de indicadores que mudam com o tempo.

Em caso de desigualdade intervalos entre datas, a média cronológica para a série de momentos pode ser calculada como a média aritmética dos valores médios dos níveis para cada par de momentos, ponderados pelas distâncias (intervalos de tempo) entre as datas, ou seja,
.
Nesse caso supõe-se que nos intervalos entre as datas os níveis assumiram valores diferentes, e somos de dois conhecidos ( sim e sim+1) determinamos as médias, a partir das quais calculamos a média geral para todo o período analisado.
Se for assumido que cada valor sim permanece inalterado até o próximo (eu+ 1)- º momento, ou seja a data exata da mudança nos níveis é conhecida, então o cálculo pode ser realizado usando a fórmula da média aritmética ponderada:
,

onde é o tempo durante o qual o nível permaneceu inalterado.

Além do nível médio na série de dinâmicas, outros indicadores médios também são calculados - a variação média nos níveis da série (métodos básicos e encadeados), a taxa média de variação.

Mudança absoluta média da linha de baseé o quociente da última alteração absoluta básica dividido pelo número de alterações. Aquilo é

Cadeia significa mudança absoluta níveis de uma série é o quociente da divisão da soma de todas as alterações absolutas da cadeia pelo número de alterações, ou seja,

Pelo sinal das mudanças médias absolutas, a natureza da mudança no fenômeno também é julgada em média: crescimento, declínio ou estabilidade.

Da regra para controlar as mudanças básicas e absolutas da cadeia, segue-se que as mudanças básicas e médias da cadeia devem ser iguais.

Juntamente com a mudança média absoluta, a média relativa também é calculada usando os métodos básico e encadeado.

Alteração relativa média da linha de baseé determinado pela fórmula:

Alteração relativa média da cadeiaé determinado pela fórmula:

Naturalmente, as mudanças relativas da média básica e da cadeia devem ser as mesmas e, comparando-as com o valor do critério de 1, conclui-se sobre a natureza da mudança do fenômeno na média: crescimento, declínio ou estabilidade.
Ao subtrair 1 da mudança relativa média de base ou cadeia, o correspondente taxa média de variação, por cujo signo se pode também julgar a natureza da mudança do fenômeno em estudo, refletida por essa série de dinâmicas.

Flutuações sazonais e índices de sazonalidade.

Flutuações sazonais são flutuações intra-anuais estáveis.

O princípio básico para conseguir obter o máximo efeito é a maximização dos rendimentos e a minimização dos custos. Ao estudar as flutuações sazonais, resolve-se o problema da equação máxima em cada nível do ano.

Ao estudar as flutuações sazonais, duas tarefas inter-relacionadas são resolvidas:

1. Identificação das especificidades da evolução do fenómeno na dinâmica intra-anual;

2. Medição de flutuações sazonais com a construção de um modelo de ondas sazonais;

Perus sazonais são geralmente contados para medir a sazonalidade. Em termos gerais, são determinados pela razão das equações originais de uma série de dinâmicas com as equações teóricas que servem de base de comparação.

Como os desvios aleatórios são sobrepostos às flutuações sazonais, os índices de sazonalidade são calculados para eliminá-los.

Nesse caso, para cada período do ciclo anual, indicadores generalizados são determinados na forma de índices sazonais médios:

Os índices médios de flutuações sazonais estão livres da influência de desvios aleatórios da tendência principal de desenvolvimento.

Dependendo da natureza da tendência, a fórmula do índice médio de sazonalidade pode assumir as seguintes formas:

1.Para séries de dinâmica intra-anual com uma tendência de desenvolvimento principal pronunciada:

2. Para a série da dinâmica intra-anual em que não existe tendência ascendente ou descendente, ou é insignificante:

Onde está a média geral;

Métodos de análise da tendência principal.

O desenvolvimento dos fenômenos ao longo do tempo é influenciado por fatores de natureza e força de influência diferentes. Alguns deles são de natureza aleatória, outros têm um efeito quase constante e formam uma certa tendência de desenvolvimento na série de dinâmicas.

Uma tarefa importante da estatística é identificar uma tendência na série da dinâmica, livre da ação de vários fatores aleatórios. Para tanto, as séries temporais são processadas pelos métodos de ampliação de intervalo, média móvel e alinhamento analítico, etc.

Método de engrossamento de intervalo baseia-se no alargamento de períodos de tempo, que incluem os níveis de uma série de dinâmicas, ou seja, é a substituição de dados relativos a pequenos períodos de tempo por dados de períodos maiores. É especialmente eficaz quando os níveis iniciais da série são por curtos períodos de tempo. Por exemplo, séries de indicadores relacionados a eventos diários são substituídos por séries relacionadas a semanais, mensais, etc. Isso mostrará mais claramente "Eixo de Desenvolvimento do Fenômeno". A média, calculada a partir de intervalos ampliados, permite identificar a direção e o caráter (aceleração ou desaceleração do crescimento) da principal tendência de desenvolvimento.

método de média móvel semelhante ao anterior, mas neste caso, os níveis reais são substituídos por níveis médios calculados para mover sucessivamente (deslizar) intervalos ampliados cobrindo m níveis de linha.

Por exemplo se aceito m=3, então, primeiro, é calculada a média dos três primeiros níveis da série, então - do mesmo número de níveis, mas começando do segundo consecutivo, então - começando do terceiro, etc. Assim, a média, por assim dizer, "desliza" ao longo da série de dinâmicas, movendo-se por um período. Calculado a partir de m os membros das médias móveis referem-se ao meio (centro) de cada intervalo.

Este método elimina apenas flutuações aleatórias. Se a série tiver uma onda sazonal, ela permanecerá após a suavização pelo método da média móvel.

Alinhamento analítico. Para eliminar flutuações aleatórias e identificar uma tendência, os níveis das séries são alinhados de acordo com fórmulas analíticas (ou alinhamento analítico). Sua essência é substituir os níveis empíricos (reais) por teóricos, que são calculados de acordo com uma determinada equação, tomada como um modelo matemático da tendência, onde os níveis teóricos são considerados em função do tempo: . Neste caso, cada nível real é considerado como a soma de dois componentes: , onde é um componente sistemático e expresso por uma determinada equação, e é uma variável aleatória que causa flutuações em torno da tendência.

A tarefa do alinhamento analítico é a seguinte:

1. Determinar com base em dados reais o tipo de função hipotética que pode refletir mais adequadamente a tendência de evolução do indicador em estudo.

2. Encontrar os parâmetros da função especificada (equação) a partir de dados empíricos

3. Cálculo de acordo com a equação encontrada de níveis teóricos (nivelados).

A escolha de uma determinada função é realizada, via de regra, com base em uma representação gráfica de dados empíricos.

Os modelos são equações de regressão, cujos parâmetros são calculados pelo método dos mínimos quadrados

Abaixo estão as equações de regressão mais comumente usadas para nivelar séries temporais, indicando quais tendências de desenvolvimento elas são mais adequadas para refletir.

Para encontrar os parâmetros das equações acima, existem algoritmos especiais e programas de computador. Em particular, para encontrar os parâmetros da equação de uma reta, o seguinte algoritmo pode ser usado:

Se os períodos ou momentos de tempo forem numerados de modo que St = 0 seja obtido, os algoritmos acima serão significativamente simplificados e se transformarão em

Os níveis alinhados no gráfico estarão localizados em uma linha reta passando na distância mais próxima dos níveis reais desta série dinâmica. A soma dos desvios quadrados é um reflexo da influência de fatores aleatórios.

Com sua ajuda, calculamos o erro médio (padrão) da equação:

Aqui n é o número de observações e m é o número de parâmetros na equação (temos dois deles - b 1 e b 0).

A tendência principal (tendência) mostra como os fatores sistemáticos afetam os níveis de uma série de dinâmicas, e a flutuação dos níveis em torno da tendência () serve como uma medida do impacto dos fatores residuais.

Para avaliar a qualidade do modelo de série temporal utilizado, também é utilizado Teste F de Fisher. É a razão de duas variâncias, ou seja, a razão da variância causada pela regressão, ou seja, fator estudado, à dispersão causada por causas aleatórias, ou seja, variância residual:

De forma expandida, a fórmula para este critério pode ser representada da seguinte forma:

onde n é o número de observações, ou seja, número de níveis de linha,

m é o número de parâmetros na equação, y é o nível real da série,

Nível alinhado da linha, - o nível médio da linha.

Mais bem-sucedido do que outros, o modelo pode nem sempre ser suficientemente satisfatório. Ele pode ser reconhecido como tal apenas se o critério F para ele cruzar um certo limite crítico. Esse limite é definido usando as tabelas de distribuição F.

Essência e classificação dos índices.

Um índice em estatística é entendido como um indicador relativo que caracteriza a mudança na magnitude de um fenômeno no tempo, no espaço ou em comparação com qualquer padrão.

O elemento principal da relação de índice é o valor indexado. Entende-se por valor indexado o valor de um sinal de uma população estatística, cuja variação é objeto de estudo.

Os índices servem a três propósitos principais:

1) avaliação de mudanças em um fenômeno complexo;

2) determinação da influência de fatores individuais na mudança de um fenômeno complexo;

3) comparação da magnitude de algum fenômeno com a magnitude do período passado, a magnitude de outro território, bem como com padrões, planos, previsões.

Os índices são classificados de acordo com 3 critérios:

2) pelo grau de cobertura dos elementos da população;

3) por métodos de cálculo de índices gerais.

Por conteúdo de valores indexados, os índices são divididos em índices de indicadores quantitativos (volumétricos) e índices de indicadores qualitativos. Índices de indicadores quantitativos - índices de volume físico da produção industrial, volume físico de vendas, número, etc. Índices de indicadores qualitativos - índices de preços, custos, produtividade do trabalho, salários médios, etc.

De acordo com o grau de cobertura das unidades da população, os índices são divididos em duas classes: individual e geral. Para caracterizá-los, introduzimos as seguintes convenções adotadas na prática de aplicação do método do índice:

q- quantidade (volume) de qualquer produto em espécie ; R- preço unitário de produção; z- custo unitário de produção; t- tempo gasto na produção de uma unidade de produção (intensidade de trabalho) ; W- saída de produção em termos de valor por unidade de tempo; v- saída em termos físicos por unidade de tempo; T- tempo total gasto ou número de funcionários.

Para distinguir a que período ou objeto pertencem os valores indexados, costuma-se colocar subscritos após o símbolo correspondente no canto inferior direito. Assim, por exemplo, nos índices de dinâmica, via de regra, para os períodos comparados (atual, reporte), é utilizado o subscrito 1 e para os períodos com os quais a comparação é feita,

índices individuais servem para caracterizar a mudança em elementos individuais de um fenômeno complexo (por exemplo, uma mudança no volume de produção de um tipo de produto). Eles representam os valores relativos da dinâmica, cumprimento de obrigações, comparação de valores indexados.

O índice individual do volume físico de produção é determinado

Do ponto de vista analítico, os índices dinâmicos individuais dados são semelhantes aos coeficientes (taxas) de crescimento e caracterizam a mudança no valor indexado no período atual em relação ao período base, ou seja, mostram quantas vezes ele aumentou (diminuiu ) ou quantos por cento é crescimento (diminuição). Os valores do índice são expressos em coeficientes ou porcentagens.

Índice geral (composto) reflete a mudança em todos os elementos de um fenômeno complexo.

índice agregadoé a forma básica do índice. É chamado agregado porque seu numerador e denominador são um conjunto de "agregados"

Índices médios, sua definição.

Além dos índices agregados, outra forma deles é usada nas estatísticas - índices de média ponderada. Recorre-se ao seu cálculo quando a informação disponível não permite calcular o índice agregado geral. Portanto, se não houver dados sobre preços, mas houver informações sobre o custo dos produtos no período atual e os índices de preços individuais de cada produto forem conhecidos, o índice geral de preços não pode ser determinado como agregado, mas é possível para calculá-lo como uma média dos individuais. Da mesma forma, se as quantidades de produtos individuais produzidos não são conhecidas, mas os índices individuais e o custo de produção do período-base são conhecidos, então o índice geral do volume físico de produção pode ser determinado como uma média ponderada.

índice médio - isto é um índice calculado como uma média de índices individuais. O índice agregado é a forma básica do índice geral, portanto o índice médio deve ser idêntico ao índice agregado. Ao calcular índices médios, duas formas de médias são usadas: aritmética e harmônica.

O índice de média aritmética é idêntico ao índice agregado se os pesos dos índices individuais forem os termos do denominador do índice agregado. Somente neste caso o valor do índice calculado pela fórmula da média aritmética será igual ao índice agregado.

Boa tarde!

No artigo, decidi considerar como funciona o desvio padrão no Excel usando a função STDEV. Faz muito tempo que não descrevo ou comento, e também simplesmente porque esse é um recurso muito útil para quem estuda matemática superior. E ajudar os alunos é sagrado, sei por experiência própria como é difícil dominar. Na realidade, as funções de desvio padrão podem ser usadas para determinar a estabilidade dos produtos vendidos, criar um preço, ajustar ou criar um sortimento e outras análises igualmente úteis de suas vendas.

O Excel usa várias variantes dessa função de variação:


teoria matemática

Para começar, um pouco sobre a teoria de como a função desvio padrão pode ser descrita em linguagem matemática para aplicá-la no Excel, para analisar, por exemplo, dados estatísticos de vendas, mas mais sobre isso depois. Já aviso, vou escrever muitas palavras incompreensíveis ...)))), se houver algo abaixo no texto, veja a aplicação prática no programa imediatamente.

O que exatamente o desvio padrão faz? Ele estima o desvio padrão de uma variável aleatória X em relação à sua expectativa matemática com base em uma estimativa imparcial de sua variância. Concordo, parece confuso, mas acho que os alunos entenderão do que se trata!

Para começar, precisamos determinar o "desvio padrão", para calcular ainda mais o "desvio padrão", a fórmula nos ajudará nisso: É possível descrever a fórmula da seguinte forma: ela será medida nas mesmas unidades que a medida de uma variável aleatória e é usada ao calcular o erro médio aritmético padrão, ao construir intervalos de confiança, ao testar hipóteses para estatísticas ou ao analisar uma relação linear entre variáveis ​​independentes. A função é definida como a raiz quadrada da variância das variáveis ​​independentes.

Agora podemos definir e desvio padrãoé uma análise do desvio padrão de uma variável aleatória X em comparação com sua perspectiva matemática com base em uma estimativa imparcial de sua variância. A fórmula é escrita assim:
Observe que todas as duas estimativas são fornecidas com viés. Em casos gerais, não é possível construir uma estimativa imparcial. Mas uma estimativa baseada em uma estimativa de variância imparcial será consistente.

Implementação prática em Excel

Bem, agora vamos nos afastar da teoria chata e na prática vamos ver como funciona a função STDEV. Não vou considerar todas as variações da função desvio padrão no Excel, uma já é suficiente, mas em exemplos. Como exemplo, considere como as estatísticas de estabilidade de vendas são determinadas.

Primeiro, observe a grafia da função e, como você pode ver, é muito simples:

STDEV.G(_number1_;_number2_; ....), onde:


Agora vamos criar um arquivo de exemplo e com base nele vamos considerar o funcionamento desta função. Como para cálculos analíticos é necessário usar pelo menos três valores, como em princípio em qualquer análise estatística, também peguei condicionalmente 3 períodos, pode ser um ano, trimestre, mês ou semana. No meu caso, um mês. Para maior confiabilidade, recomendo fazer o maior número possível de períodos, mas não menos que três. Todos os dados da tabela são muito simples para clareza de trabalho e funcionalidade da fórmula.

Para começar, precisamos calcular o valor médio por mês. Usaremos a função MÉDIA para isso e obteremos a fórmula: =MÉDIA(C4:E4).
Agora, de fato, podemos encontrar o desvio padrão usando a função STDEV.G, em cujo valor precisamos registrar as vendas de mercadorias de cada período. O resultado é uma fórmula da seguinte forma: \u003d STDEV.G (C4; D4; E4).
Bem, isso é metade do trabalho feito. Na próxima etapa, formamos a “Variação”, esta é obtida dividindo-se pelo valor médio, desvio padrão e convertendo o resultado em porcentagens. Obtemos a seguinte tabela:
Bem, os cálculos principais acabaram, resta descobrir como as vendas estão estáveis ​​\u200b\u200bou não. Tomemos como condição que desvios de 10% sejam considerados estáveis, de 10 a 25% são pequenos desvios, mas tudo acima de 25% não é mais estável. Para obter o resultado de acordo com as condições, usaremos o lógico e para obter o resultado escreveremos a fórmula:

SE(H4<0,1;"стабильно";ЕСЛИ(H4<0,25;"нормально";"не стабильно"))

Todos os intervalos são tomados condicionalmente para maior clareza, suas tarefas podem ter condições completamente diferentes.
Para melhorar a visualização dos dados, quando sua tabela tiver milhares de posições, você deve aproveitar para impor certas condições que precisa ou usar para destacar certas opções com um esquema de cores, ficará muito visual.

Primeiro, selecione aqueles aos quais deseja aplicar a formatação condicional. No painel de controle "Página inicial", selecione "Formatação condicional" e, no menu suspenso, o item "Regras de seleção de células" e, a seguir, clique no item de menu "O texto contém ...". Uma caixa de diálogo aparece na qual você insere suas condições.

Depois que as condições são escritas, por exemplo, “estável” - verde, “normal” - amarelo e “não estável” - vermelho, obtemos uma tabela bonita e compreensível na qual você pode ver no que prestar atenção antes de tudo.

Usando VBA para a função STDEV.H

Os interessados ​​podem automatizar seus cálculos utilizando macros e utilizar a seguinte função:

Função MyStDevP(Arr) Dim x, aCnt&, aSum#, aAver#, tmp# For Each x In Arr aSum = aSum + x "calcula a soma dos elementos do array aCnt = aCnt + 1 "calcula o número de elementos Next x aAver = aSum / aCnt "valor médio para cada x In Arr tmp = tmp + (x - aAver) ^ 2 "calcula a soma dos quadrados da diferença entre os elementos da matriz e a média Next x MyStDevP = Sqr(tmp / aCnt ) "compute STDEV.G() End Function

Função MyStDevP(Arr )

Dim x , aCnt & , aSum #, aAver#, tmp#

Para cada x In Arr

aSoma = aSoma + x "calcula a soma dos elementos do array