Fórmula para variância de característica.  Variações absolutas

Fórmula para variância de característica. Variações absolutas

Muitas vezes nas estatísticas, ao analisar um fenômeno ou processo, é necessário levar em consideração não apenas informações sobre os níveis médios dos indicadores em estudo, mas também dispersão ou variação nos valores de unidades individuais , o que é uma característica importante da população em estudo.

Os mais sujeitos a variações são os preços das ações, os volumes de oferta e demanda, as taxas de juros em períodos diferentes tempo e em lugares diferentes.

Os principais indicadores que caracterizam a variação , são alcance, dispersão, desvio padrão e coeficiente de variação.

Faixa de variação representa a diferença entre os valores máximo e mínimo da característica: R = Xmáx – Xmín. A desvantagem deste indicador é que ele avalia apenas os limites de variação de uma característica e não reflete sua variabilidade dentro desses limites.

Dispersão carece dessa deficiência. É calculado como o quadrado médio dos desvios dos valores característicos de seu valor médio:

Uma maneira simplificada de calcular a variância realizado utilizando as seguintes fórmulas (simples e ponderadas):

Exemplos de aplicação destas fórmulas são apresentados nas tarefas 1 e 2.

Um indicador amplamente utilizado na prática é desvio padrão :

Média desvio padrãoé definido como Raiz quadrada da variância e tem a mesma dimensão da característica em estudo.

Os indicadores considerados permitem-nos obter o valor absoluto da variação, ou seja, avaliá-lo em unidades de medida da característica que está sendo estudada. Ao contrário deles, o coeficiente de variação mede a variabilidade em termos relativos - em relação ao nível médio, que em muitos casos é preferível.

Fórmula para cálculo do coeficiente de variação.

Exemplos de resolução de problemas sobre o tema “Indicadores de variação nas estatísticas”

Problema 1 . Ao estudar a influência da publicidade no tamanho do depósito médio mensal nos bancos da região, foram examinados 2 bancos. Os seguintes resultados foram obtidos:

Definir:
1) para cada banco: a) o tamanho médio depósito mensal; b) dispersão das contribuições;
2) o depósito médio mensal de dois bancos juntos;
3) Variação de depósito para 2 bancos, dependendo de publicidade;
4) Variação de depósitos para 2 bancos, dependendo de todos os fatores exceto publicidade;
5) Variância total utilizando a regra da adição;
6) Coeficiente de determinação;
7) Relação de correlação.

Solução

1) Vamos criar uma tabela de cálculo para um banco com publicidade . Para determinar o depósito médio mensal, encontraremos os pontos médios dos intervalos. Neste caso, o valor do intervalo aberto (o primeiro) é condicionalmente igualado ao valor do intervalo adjacente a ele (o segundo).

Encontraremos o tamanho médio do depósito usando a fórmula da média aritmética ponderada:

29.000/50 = 580 rublos.

Encontramos a variação da contribuição usando a fórmula:

23 400/50 = 468

Realizaremos ações semelhantes para um banco sem publicidade :

2) Vamos encontrar o tamanho médio dos depósitos dos dois bancos juntos. Хср =(580×50+542,8×50)/100 = 561,4 esfregar.

3) Encontraremos a variação do depósito para dois bancos, dependendo da publicidade, utilizando a fórmula: σ 2 =pq (fórmula para a variação de um atributo alternativo). Aqui p=0,5 é a proporção de fatores dependentes da publicidade; q=1-0,5, então σ 2 =0,5*0,5=0,25.

4) Como a participação de outros fatores é de 0,5, a variação do depósito para dois bancos, dependendo de todos os fatores, exceto publicidade, também é de 0,25.

5) Determine a variância total usando a regra de adição.

= (468*50+636,16*50)/100=552,08

= [(580-561,4)250+(542,8-561,4)250] / 100= 34 596/ 100=345,96

σ 2 = σ 2 fato + σ 2 resto = 552,08+345,96 = 898,04

6) Coeficiente de determinação η 2 = σ 2 fato / σ 2 = 345,96/898,04 = 0,39 = 39% - o tamanho da contribuição depende da publicidade em 39%.

7) Razão de correlação empírica η = √η 2 = √0,39 = 0,62 – a relação é bastante próxima.

Problema 2 . Existe um agrupamento de empresas de acordo com o tamanho dos produtos comercializáveis:

Determinar: 1) a dispersão do valor dos produtos comercializáveis; 2) desvio padrão; 3) coeficiente de variação.

Solução

1) Por condição apresentada série de intervalo distribuições. Deve ser expresso de forma discreta, ou seja, encontrar o meio do intervalo (x"). Em grupos de intervalos fechados, encontramos o meio por meio de uma média aritmética simples. Em grupos com limite superior - como a diferença entre este limite superior e metade do tamanho do próximo intervalo (200-(400 -200):2=100).

Em grupos com limite inferior - a soma deste limite inferior e metade do tamanho do intervalo anterior (800+(800-600):2=900).

Calculamos o valor médio dos produtos comercializáveis ​​usando a fórmula:

Хср = k×((Σ((x"-a):k)×f):Σf)+a. Aqui a=500 é o tamanho da opção na frequência mais alta, k=600-400=200 é o tamanho do intervalo na frequência mais alta Vamos colocar o resultado na tabela:

Assim, o valor médio da produção comercial para o período em estudo é geralmente igual a Хср = (-5:37)×200+500=472,97 mil rublos.

2) Encontramos a variância usando a seguinte fórmula:

σ 2 = (33/37)*2002-(472,97-500)2 = 35.675,67-730,62 = 34.945,05

3) desvio padrão: σ = ±√σ 2 = ±√34.945,05 ≈ ±186,94 mil rublos.

4) coeficiente de variação: V = (σ /Хср)*100 = (186,94 / 472,97)*100 = 39,52%

Faixa de variação (ou faixa de variação) - esta é a diferença entre os valores máximo e mínimo da característica:

No nosso exemplo, a amplitude de variação na produção por turnos dos trabalhadores é: na primeira brigada R = 105-95 = 10 crianças, na segunda brigada R = 125-75 = 50 crianças. (5 vezes mais). Isto sugere que a produção da 1ª brigada é mais “estável”, mas a segunda brigada tem mais reservas para aumentar a produção, porque Se todos os trabalhadores atingirem a produção máxima para esta brigada, ela poderá produzir 3 * 125 = 375 peças, e na 1ª brigada apenas 105 * 3 = 315 peças.
Se os valores extremos de uma característica não forem típicos da população, serão usados ​​​​intervalos de quartil ou decil. O intervalo quartil RQ= Q3-Q1 cobre 50% do volume populacional, o intervalo do primeiro decil RD1 = D9-D1 cobre 80% dos dados, o intervalo do segundo decil RD2= D8-D2 – 60%.
A desvantagem do indicador de faixa de variação é que seu valor não reflete todas as flutuações da característica.
O indicador geral mais simples que reflete todas as flutuações de uma característica é desvio linear médio, que é a média aritmética dos desvios absolutos das opções individuais em relação ao seu valor médio:

,
para dados agrupados
,
onde xi é o valor da característica em série discreta ou no meio de um intervalo em uma distribuição de intervalo.
Nas fórmulas acima, as diferenças no numerador são tomadas módulo, caso contrário, de acordo com a propriedade da média aritmética, o numerador será sempre igual a zero. Portanto, o desvio linear médio raramente é utilizado na prática estatística, apenas nos casos em que a soma dos indicadores sem levar em conta o sinal faz sentido do ponto de vista econômico. Com sua ajuda, por exemplo, são analisadas a composição da força de trabalho, a rentabilidade da produção e o volume de negócios do comércio exterior.
Variância de uma característicaé o quadrado médio dos desvios de seu valor médio:
variação simples
,
variância ponderada
.
A fórmula para calcular a variância pode ser simplificada:

Assim, a variância é igual à diferença entre a média dos quadrados da opção e o quadrado da média da opção da população:
.
Porém, devido ao somatório dos desvios quadrados, a variância dá uma ideia distorcida dos desvios, então a média é calculada com base nela desvio padrão, que mostra o quanto, em média, variantes específicas de uma característica se desviam de seu valor médio. Calculado tirando a raiz quadrada da variância:
para dados desagrupados
,
Para série de variação

Quanto menor for o valor da variância e do desvio padrão, mais homogênea será a população e mais confiável (típico) será o valor médio.
Média linear e média desvio padrão- os números nomeados, ou seja, expressos em unidades de medida de uma característica, são idênticos em conteúdo e próximos em significado.
Recomenda-se calcular variações absolutas através de tabelas.
Tabela 3 - Cálculo das características de variação (usando o exemplo do período de dados sobre a produção por turnos dos tripulantes)


Número de trabalhadores

No meio do intervalo

Valores calculados

Total:

Produção média por turnos dos trabalhadores:

Desvio linear médio:

Variação de produção:

O desvio padrão da produção de trabalhadores individuais em relação à produção média:
.

1 Cálculo da dispersão pelo método dos momentos

O cálculo das variâncias envolve cálculos complicados (especialmente se o valor médio for expresso um grande número com múltiplas casas decimais). Os cálculos podem ser simplificados usando uma fórmula simplificada e propriedades de dispersão.
A dispersão tem as seguintes propriedades:

  1. Se todos os valores de uma característica forem reduzidos ou aumentados no mesmo valor A, então a dispersão não diminuirá:

,

, então ou
Utilizando as propriedades de dispersão e reduzindo primeiro todas as variantes da população pelo valor A, e depois dividindo pelo valor do intervalo h, obtemos uma fórmula para calcular a dispersão em séries de variação com intervalos iguais de certa forma:
,
onde está a dispersão calculada pelo método dos momentos;
h – o valor do intervalo da série de variação;
– opção de novos valores (transformados);
A é um valor constante, que é utilizado como meio do intervalo de maior frequência; ou a opção com maior frequência;
– quadrado do momento de primeira ordem;
– momento de segunda ordem.
Calculemos a dispersão pelo método dos momentos com base nos dados da produção por turnos dos trabalhadores da equipe.
Tabela 4 - Cálculo da variância pelo método dos momentos


Grupos de trabalhadores da produção, unid.

Número de trabalhadores

No meio do intervalo

Valores calculados

Procedimento de cálculo:


  1. Calculamos a variância:

2 Cálculo da variância de uma característica alternativa

Dentre as características estudadas pela estatística, há também aquelas que possuem apenas dois significados mutuamente exclusivos. Estes são sinais alternativos. São atribuídos, respectivamente, dois valores quantitativos: opções 1 e 0. A frequência da opção 1, que é denotada por p, é a proporção de unidades que possuem esta característica. A diferença 1-р=q é a frequência das opções 0. Assim,


XI

Média aritmética do sinal alternativo
, porque p + q = 1.

Variância de característica alternativa
, porque 1-р=q
Assim, a variância de uma característica alternativa é igual ao produto da proporção de unidades que possuem esta característica e da proporção de unidades que não possuem esta característica.
Se os valores 1 e 0 ocorrerem com a mesma frequência, ou seja, p=q, a variância atinge seu máximo pq=0,25.
A variância de um atributo alternativo é usada em pesquisas por amostragem, por exemplo, de qualidade do produto.

3 Variância entre grupos. Regra de adição de variância

A dispersão, ao contrário de outras características de variação, é uma quantidade aditiva. Ou seja, no agregado, que é dividido em grupos de acordo com as características dos fatores X , variância da característica resultante sim pode ser decomposto na variância dentro de cada grupo (dentro dos grupos) e na variância entre grupos (entre grupos). Então, além de estudar a variação de uma característica em toda a população como um todo, torna-se possível estudar a variação em cada grupo, bem como entre esses grupos.

Variância total mede a variação em uma característica no na sua totalidade sob a influência de todos os fatores que provocaram esta variação (desvios). É igual ao desvio quadrático médio dos valores individuais do atributo no da média geral e pode ser calculada como variância simples ou ponderada.
Variância intergrupo caracteriza a variação da característica resultante no causado pela influência do sinal do fator X, que formou a base do agrupamento. Caracteriza a variação das médias dos grupos e é igual ao quadrado médio dos desvios das médias dos grupos em relação à média geral:
,
onde está a média aritmética do i-ésimo grupo;
– número de unidades do i-ésimo grupo (frequência do i-ésimo grupo);
– a média geral da população.
Variância dentro do grupo reflete a variação aleatória, ou seja, aquela parte da variação que é causada pela influência de fatores não contabilizados e não depende do atributo do fator que forma a base do agrupamento. Caracteriza a variação valores individuais em relação às médias do grupo, igual ao desvio quadrático médio dos valores individuais do atributo no dentro de um grupo a partir da média aritmética deste grupo (média do grupo) e é calculada como uma variância simples ou ponderada para cada grupo:
ou ,
onde está o número de unidades no grupo.
Com base nas variações dentro do grupo para cada grupo, pode-se determinar média geral das variações dentro do grupo:
.
A relação entre as três dispersões é chamada regras para adicionar variações, segundo o qual a variância total é igual à soma da variância entre grupos e a média das variâncias dentro do grupo:

Exemplo. Ao estudar a influência da categoria tarifária (qualificação) dos trabalhadores no nível de produtividade do seu trabalho, foram obtidos os seguintes dados.
Tabela 5 – Distribuição dos trabalhadores por produção horária média.



p/p

Trabalhadores da 4ª categoria

Trabalhadores da 5ª categoria

Saída
trabalhador, unid.,

Saída
trabalhador, unid.,

1
2
3
4
5
6

7
9
9
10
12
13

7-10=-3
9-10=-1
-1
0
2
3

9
1
1
0
4
9

1
2
3
4

14
14
15
17

14-15=-1
-1
0
2

1
1
0
4

EM neste exemplo os trabalhadores são divididos em dois grupos de acordo com as características dos fatores X– qualificações, que são caracterizadas pela sua classificação. A característica resultante – produção – varia tanto sob sua influência (variação intergrupo) quanto devido a outros fatores aleatórios (variação intragrupo). O objetivo é medir essas variações usando três variações: total, entre grupos e dentro dos grupos. O coeficiente empírico de determinação mostra a proporção de variação na característica resultante no sob a influência de um sinal de fator X. Resto da variação total no causada por alterações em outros fatores.
No exemplo, o coeficiente empírico de determinação é:
ou 66,7%,
Isto significa que 66,7% da variação da produtividade dos trabalhadores se deve a diferenças nas qualificações e 33,3% se deve à influência de outros factores.
Relação de correlação empírica mostra a estreita conexão entre agrupamento e características de desempenho. Calculado como a raiz quadrada do coeficiente de determinação empírico:

A razão de correlação empírica, assim como , pode assumir valores de 0 a 1.
Se não houver conexão, então =0. Neste caso =0, ou seja, as médias dos grupos são iguais entre si e não há variação intergrupos. Isso significa que a característica de agrupamento - fator não afeta a formação da variação geral.
Se a conexão estiver funcional, então =1. Neste caso, a variância das médias do grupo é igual à variância total (), ou seja, não há variação dentro do grupo. Isso significa que a característica de agrupamento determina completamente a variação da característica resultante que está sendo estudada.
Quanto mais próximo o valor do índice de correlação estiver da unidade, mais próxima, mais próxima da dependência funcional, estará a conexão entre as características.
Para avaliar qualitativamente a proximidade das conexões entre as características, são utilizadas as relações de Chaddock.

No exemplo , o que indica uma estreita ligação entre a produtividade dos trabalhadores e as suas qualificações.

Para dados agrupados variância residual- média das variâncias intragrupo:

Onde σ 2 j é a variância intragrupo do j-ésimo grupo.

Para dados desagrupados variância residual– medida de precisão de aproximação, ou seja, aproximação da linha de regressão aos dados originais:
onde y(t) – previsão de acordo com a equação de tendência; y t – série dinâmica inicial; n – número de pontos; p – número de coeficientes da equação de regressão (número de variáveis ​​explicativas).
Neste exemplo é chamado estimador de variância imparcial.

Exemplo nº 1. A distribuição dos trabalhadores de três empresas de uma associação por categorias tarifárias é caracterizada pelos seguintes dados:

Categoria tarifária do trabalhadorNúmero de trabalhadores na empresa
empresa 1empresa 2empresa 3
1 50 20 40
2 100 80 60
3 150 150 200
4 350 300 400
5 200 150 250
6 150 100 150

Definir:
1. variação para cada empresa (variações intragrupo);
2. a média das variâncias intragrupo;
3. dispersão intergrupal;
4. variância total.

Solução.
Antes de começar a resolver o problema, é necessário descobrir qual recurso é eficaz e qual é fatorial. No exemplo em consideração, o atributo resultante é “Categoria tarifária” e o atributo fator é “Número (nome) da empresa”.
Temos então três grupos (empresas), para os quais é necessário calcular a média do grupo e as variâncias intragrupo:


EmpresaMédia do grupo,Variância dentro do grupo,
1 4 1,8

A média das variações dentro do grupo ( variância residual) será calculado usando a fórmula:


onde você pode calcular:
ou:


Então:
A variância total será igual a: s 2 = 1,6 + 0 = 1,6.
A variância total também pode ser calculada usando uma das duas fórmulas a seguir:

Ao resolver problemas práticos, muitas vezes é preciso lidar com um recurso que assume apenas dois valores alternativos. Neste caso, não estamos falando do peso de um determinado valor de um recurso, mas da sua participação na totalidade. Se a proporção de unidades populacionais que possuem a característica em estudo for denotada por “ R", e aqueles que não têm - através de" q", então a variação pode ser calculada usando a fórmula:
s 2 = p×q

Exemplo nº 2. Com base nos dados de produção de seis trabalhadores de uma equipe, determine a variância intergrupo e avalie o impacto do turno de trabalho na produtividade do trabalho se a variância total for 12,2.

Trabalhador da equipe não.Produção do trabalhador, unid.
no primeiro turnono segundo turno
1 18 13
2 19 14
3 22 15
4 20 17
5 24 16
6 23 15

Solução. Dados iniciais

Xf1f2f3f4f5f6Total
1 18 19 22 20 24 23 126
2 13 14 15 17 16 15 90
Total 31 33 37 37 40 38

Temos então 6 grupos para os quais é necessário calcular a média do grupo e as variâncias intragrupos.
1. Encontre os valores médios de cada grupo.







2. Encontre o quadrado médio de cada grupo.







Vamos resumir os resultados do cálculo em uma tabela:
Número do grupoMédia do grupoVariância dentro do grupo
1 1.42 0.24
2 1.42 0.24
3 1.41 0.24
4 1.46 0.25
5 1.4 0.24
6 1.39 0.24

3. Variância dentro do grupo caracteriza a mudança (variação) da característica estudada (resultativa) dentro de um grupo sob a influência de todos os fatores sobre ele, exceto o fator subjacente ao agrupamento:
A média das variâncias intragrupo será calculada pela fórmula:


4. Variância intergrupo caracteriza a mudança (variação) da característica estudada (resultativa) sob a influência de um fator (característica fatorial) que forma a base do grupo.
Definimos a variação intergrupo como:

Onde


Então

Variância total caracteriza a mudança (variação) da característica estudada (resultativa) sob a influência de todos os fatores (características fatoriais) sem exceção. Pelas condições do problema, é igual a 12,2.
Relação de correlação empírica mede que parte da variabilidade total da característica resultante é causada pelo fator que está sendo estudado. Esta é a razão entre a variância do fator e a variância total:

Definimos a relação de correlação empírica:

As conexões entre as características podem ser fracas e fortes (próximas). Seus critérios são avaliados na escala Chaddock:
0,1 0,3 0,5 0,7 0,9 Em nosso exemplo, a relação entre a característica Y e o fator X é fraca
Coeficiente de determinação.

Vamos determinar o coeficiente de determinação:

Assim, 0,67% da variação se deve a diferenças entre características e 99,37% se deve a outros fatores.
Conclusão:V nesse caso A produção dos trabalhadores não depende do trabalho em um turno específico, ou seja, a influência do turno de trabalho na produtividade do trabalho não é significativa e se deve a outros fatores.

Exemplo nº 3. Com base na média remunerações e os desvios quadrados de seu valor para dois grupos de trabalhadores, encontre a variância total aplicando a regra de adição de variâncias:

Solução:
Média das variações dentro do grupo

Definimos a variação intergrupo como:


A variação total será: 480 + 13824 = 14304

Dispersão variável aleatória - medida da propagação de um determinado variável aleatória, isto é, ela desvios de expectativa matemática. Nas estatísticas, a notação (sigma ao quadrado) é frequentemente usada para denotar dispersão. A raiz quadrada da variância igual a é chamada desvio padrão ou spread padrão. O desvio padrão é medido nas mesmas unidades que a própria variável aleatória, e a variância é medida nos quadrados dessa unidade.

Embora seja muito conveniente usar apenas um valor (como a média ou moda e mediana) para estimar a amostra inteira, esta abordagem pode facilmente levar a conclusões incorretas. A razão para esta situação não reside no valor em si, mas no facto de um valor não reflectir de forma alguma a dispersão dos valores dos dados.

Por exemplo, na amostra:

o valor médio é 5.

No entanto, na própria amostra não existe um único elemento com valor 5. Talvez seja necessário saber o grau de proximidade de cada elemento na amostra com seu valor médio. Ou em outras palavras, você precisará saber a variação dos valores. Conhecendo o grau de mudança nos dados, você pode interpretar melhor valor médio, mediana E moda. O grau em que os valores da amostra mudam é determinado calculando sua variância e desvio padrão.



A variância e a raiz quadrada da variância, chamada de desvio padrão, caracterizam o desvio médio da média amostral. Entre essas duas quantidades valor mais alto Tem desvio padrão. Este valor pode ser pensado como a distância média que os elementos estão do elemento central da amostra.

A variação é difícil de interpretar de forma significativa. Contudo, a raiz quadrada deste valor é o desvio padrão e pode ser facilmente interpretado.

O desvio padrão é calculado determinando primeiro a variância e depois calculando a raiz quadrada da variância.

Por exemplo, para o array de dados mostrado na figura, serão obtidos os seguintes valores:

Imagem 1

Aqui o valor médio das diferenças quadradas é 717,43. Para obter o desvio padrão, basta extrair a raiz quadrada desse número.

O resultado será de aproximadamente 26,78.

Lembre-se de que o desvio padrão é interpretado como a distância média que os itens estão da média amostral.

O desvio padrão mede quão bem a média descreve toda a amostra.

Digamos que você seja o chefe de um departamento de produção de montagem de PCs. O relatório trimestral afirma que a produção no último trimestre foi de 2.500 PCs. Isso é bom ou ruim? Você solicitou (ou já existe esta coluna no relatório) para exibir o desvio padrão desses dados no relatório. O valor do desvio padrão, por exemplo, é 2.000. Fica claro para você, como chefe do departamento, que a linha de produção requer um melhor gerenciamento (desvios muito grandes no número de PCs montados).

Lembre-se de que quando o desvio padrão é grande, os dados estão amplamente dispersos em torno da média e, quando o desvio padrão é pequeno, eles se agrupam perto da média.

As quatro funções estatísticas VAR(), VAR(), STDEV() e STDEV() são projetadas para calcular a variância e o desvio padrão de números em um intervalo de células. Antes de poder calcular a variância e o desvio padrão de um conjunto de dados, é necessário determinar se os dados representam a população ou uma amostra de população. No caso de uma amostra de uma população geral, devem ser utilizadas as funções VAR() e STDEV(), e no caso de uma população geral, as funções VAR() e STDEV():

População Função

DISPR()

STANDOTLONP()
Amostra

DISP()

DESVPAD()

A dispersão (assim como o desvio padrão), como observamos, indica até que ponto os valores incluídos no conjunto de dados estão espalhados em torno da média aritmética.

Um pequeno valor de variância ou desvio padrão indica que todos os dados estão concentrados em torno da média aritmética, e grande importância Esses valores indicam que os dados estão espalhados por uma ampla faixa de valores.

A dispersão é bastante difícil de interpretar de forma significativa (o que significa um valor pequeno, um valor grande?). Desempenho Tarefas 3 permitirá que você mostre visualmente, em um gráfico, o significado da variação de um conjunto de dados.

Tarefas

· Exercício 1.

· 2.1. Dê os conceitos: dispersão e desvio padrão; sua designação simbólica para processamento de dados estatísticos.

· 2.2. Preencha a planilha conforme Figura 1 e faça os cálculos necessários.

· 2.3. Dê as fórmulas básicas usadas nos cálculos

· 2.4. Explique todas as designações ( , , )

· 2.5. Explicar significado prático conceitos de dispersão e desvio padrão.

Tarefa 2.

1.1. Dê os conceitos: população geral e amostra; expectativa matemática e sua designação simbólica média aritmética para processamento de dados estatísticos.

1.2. De acordo com a Figura 2, prepare uma planilha e faça os cálculos.

1.3. Forneça as fórmulas básicas utilizadas nos cálculos (para população geral e amostra).

Figura 2

1.4. Explique por que é possível obter médias aritméticas em amostras como 46,43 e 48,78 (ver arquivo Apêndice). Tire conclusões.

Tarefa 3.

Existem duas amostras com conjuntos de dados diferentes, mas a média delas será a mesma:

Figura 3

3.1. Preencha a planilha conforme Figura 3 e faça os cálculos necessários.

3.2. Dê as fórmulas básicas de cálculo.

3.3. Construa gráficos de acordo com as Figuras 4, 5.

3.4. Explique as dependências obtidas.

3.5. Faça cálculos semelhantes para os dados de duas amostras.

Amostra original 11119999

Selecione os valores da segunda amostra para que a média aritmética da segunda amostra seja a mesma, por exemplo:

Selecione você mesmo os valores para a segunda amostra. Organize cálculos e gráficos semelhantes às Figuras 3, 4, 5. Mostre as fórmulas básicas utilizadas nos cálculos.

Tire conclusões apropriadas.

Prepare todas as tarefas em forma de relatório com todas as imagens, gráficos, fórmulas e breves explicações necessárias.

Nota: a construção dos gráficos deverá ser explicada com desenhos e breves explicações.

Porém, esta característica por si só não é suficiente para estudar uma variável aleatória. Imaginemos dois atiradores atirando em um alvo. Um atira com precisão e acerta perto do centro, enquanto o outro... está apenas se divertindo e nem mira. Mas o que é engraçado é que ele média o resultado será exatamente igual ao do primeiro atirador! Esta situação é convencionalmente ilustrada pelas seguintes variáveis ​​aleatórias:

A expectativa matemática do “atirador” é igual a , porém, para a “pessoa interessante”: – também é zero!

Portanto, é necessário quantificar até que ponto espalhado marcadores (valores de variáveis ​​​​aleatórias) em relação ao centro do alvo (expectativa matemática). bem e espalhamento traduzido do latim não é outra maneira senão dispersão .

Vejamos como essa característica numérica é determinada usando um dos exemplos da 1ª parte da lição:

Lá encontramos uma expectativa matemática decepcionante para este jogo, e agora temos que calcular sua variância, que denotado por através .

Vamos descobrir até que ponto as vitórias/derrotas estão “dispersas” em relação ao valor médio. Obviamente, para isso precisamos calcular diferenças entre valores de variáveis ​​​​aleatórias e ela expectativa matemática:

–5 – (–0,5) = –4,5
2,5 – (–0,5) = 3
10 – (–0,5) = 10,5

Agora parece que você precisa resumir os resultados, mas este método não é adequado - porque as flutuações para a esquerda se anulam com as flutuações para a direita. Então, por exemplo, um atirador “amador” (exemplo acima) as diferenças serão , e quando somados darão zero, portanto não obteremos nenhuma estimativa da dispersão de seu disparo.

Para contornar esse problema você pode considerar módulos diferenças, mas por razões técnicas a abordagem enraizou-se quando elas foram elevadas ao quadrado. É mais conveniente formular a solução em uma tabela:

E aqui implora para calcular média ponderada o valor dos desvios quadrados. O que é? É deles valor esperado, que é uma medida de dispersão:

definição variações. Da definição fica imediatamente claro que a variância não pode ser negativa– tome nota para praticar!

Vamos lembrar como encontrar o valor esperado. Multiplique as diferenças quadradas pelas probabilidades correspondentes (Continuação da tabela):
– falando figurativamente, isso é “força de tração”,
e resumir os resultados:

Você não acha que comparado aos ganhos o resultado acabou sendo muito grande? É isso mesmo - elevamos ao quadrado e, para voltar à dimensão do nosso jogo, precisamos extrair a raiz quadrada. Essa quantidade é chamada desvio padrão e é denotado pela letra grega “sigma”:

Este valor às vezes é chamado desvio padrão .

Qual é o seu significado? Se nos desviarmos da expectativa matemática para a esquerda e para a direita pelo desvio padrão:

– então os valores mais prováveis ​​da variável aleatória ficarão “concentrados” neste intervalo. O que realmente observamos:

Porém, acontece que ao analisar a dispersão quase sempre se opera com o conceito de dispersão. Vamos descobrir o que isso significa em relação aos jogos. Se no caso das flechas estamos falando da “precisão” dos acertos em relação ao centro do alvo, então aqui a dispersão caracteriza duas coisas:

Em primeiro lugar, é óbvio que à medida que as apostas aumentam, a dispersão também aumenta. Assim, por exemplo, se aumentarmos 10 vezes, a expectativa matemática aumentará 10 vezes e a variância aumentará 100 vezes. (já que esta é uma quantidade quadrática). Mas observe que as regras do jogo não mudaram! Apenas as taxas mudaram, grosso modo, antes de apostarmos 10 rublos, agora são 100.

O segundo ponto, mais interessante, é que a variância caracteriza o estilo de jogo. Corrija mentalmente as apostas do jogo em algum certo nível, e vamos ver o que é:

Um jogo de baixa variância é um jogo cauteloso. O jogador tende a escolher os esquemas mais confiáveis, onde não perde/ganha muito de uma só vez. Por exemplo, o sistema vermelho/preto na roleta (ver exemplo 4 do artigo Variáveis ​​aleatórias) .

Jogo de alta variância. Ela é frequentemente chamada dispersivo jogo. Este é um estilo de jogo aventureiro ou agressivo, onde o jogador escolhe esquemas de “adrenalina”. Vamos pelo menos lembrar "Martingale", em que os valores em jogo são ordens de grandeza superiores ao jogo “silencioso” do ponto anterior.

A situação no pôquer é indicativa: existem os chamados apertado jogadores que tendem a ser cautelosos e “instáveis” em relação aos seus fundos de jogo (banca). Não é de surpreender que o seu saldo não flutue significativamente (baixa variância). Pelo contrário, se um jogador tem uma variância elevada, então ele é um agressor. Ele muitas vezes assume riscos, faz grandes apostas e pode quebrar uma grande banca ou perder em pedacinhos.

A mesma coisa acontece no Forex e assim por diante - há muitos exemplos.

Além disso, em todos os casos não importa se o jogo é jogado por centavos ou por milhares de dólares. Cada nível tem jogadores de baixa e alta dispersão. Bem, como lembramos, a vitória média é “responsável” valor esperado.

Você provavelmente notou que encontrar a variação é um processo longo e trabalhoso. Mas a matemática é generosa:

Fórmula para encontrar variância

Esta fórmula deriva diretamente da definição de variância e imediatamente a colocamos em uso. Vou copiar a placa do nosso jogo acima:

e a expectativa matemática encontrada.

Vamos calcular a variância da segunda maneira. Primeiro, vamos encontrar a expectativa matemática - o quadrado da variável aleatória. Por determinação da expectativa matemática:

Nesse caso:

Assim, de acordo com a fórmula:

Como dizem, sinta a diferença. E na prática, é claro, é melhor usar a fórmula (a menos que a condição exija o contrário).

Dominamos a técnica de resolução e design:

Exemplo 6

Encontre sua expectativa matemática, variância e desvio padrão.

Esta tarefa é encontrada em todos os lugares e, via de regra, não tem significado significativo.
Você pode imaginar várias lâmpadas com números que acendem em um hospício com certas probabilidades :)

Solução: É conveniente resumir os cálculos básicos em uma tabela. Primeiro, escrevemos os dados iniciais nas duas linhas superiores. Em seguida calculamos os produtos e, finalmente, as somas na coluna da direita:

Na verdade, quase tudo está pronto. A terceira linha mostra uma expectativa matemática pronta: .

Calculamos a variância usando a fórmula:

E por fim, o desvio padrão:
– Pessoalmente, costumo arredondar para 2 casas decimais.

Todos os cálculos podem ser feitos em uma calculadora, ou melhor ainda, no Excel:

É difícil errar aqui :)

Responder:

Quem quiser pode simplificar ainda mais a vida e aproveitar meu calculadora (demonstração), que não só resolverá instantaneamente este problema, mas também construirá gráficos temáticos (chegaremos lá em breve). O programa pode ser baixar da biblioteca– se você baixou pelo menos um material educacional, ou obter outra maneira. Obrigado por apoiar o projeto!

Algumas tarefas para resolver sozinho:

Exemplo 7

Calcule a variância da variável aleatória no exemplo anterior por definição.

E um exemplo semelhante:

Exemplo 8

Uma variável aleatória discreta é especificada por sua lei de distribuição:

Sim, os valores das variáveis ​​​​aleatórias podem ser muito grandes (exemplo de trabalho de verdade) , e aqui, se possível, use o Excel. Como, aliás, no Exemplo 7 - é mais rápido, mais confiável e mais agradável.

Soluções e respostas na parte inferior da página.

No final da 2ª parte da lição, veremos mais um tarefa típica, pode-se até dizer, um pequeno rebus:

Exemplo 9

Uma variável aleatória discreta pode assumir apenas dois valores: e, e. A probabilidade, a expectativa matemática e a variância são conhecidas.

Solução: Vamos começar com uma probabilidade desconhecida. Como uma variável aleatória pode assumir apenas dois valores, a soma das probabilidades dos eventos correspondentes é:

e desde então .

Só falta encontrar..., é fácil dizer :) Mas tudo bem, vamos lá. Por definição de expectativa matemática:
– substitua quantidades conhecidas:

– e nada mais pode ser extraído desta equação, exceto que você pode reescrevê-la na direção usual:

ou:

Acho que você pode adivinhar os próximos passos. Vamos compor e resolver o sistema:

Decimais- isso, claro, é uma vergonha completa; multiplique ambas as equações por 10:

e divida por 2:

Isso é melhor. Da 1ª equação expressamos:
(esta é a maneira mais fácil)– substitua na 2ª equação:


Estamos construindo ao quadrado e faça simplificações:

Multiplique por:

O resultado foi Equação quadrática, encontramos seu discriminante:
- Ótimo!

e obtemos duas soluções:

1) se , Que ;

2) se , Que .

A condição é satisfeita pelo primeiro par de valores. Com grande probabilidade tudo está correto, mas, mesmo assim, vamos anotar a lei de distribuição:

e faça uma verificação, ou seja, encontre a expectativa: