Как правильно рассчитать объем выборки? Генеральная совокупность и выборочный метод

Как правильно рассчитать объем выборки? Генеральная совокупность и выборочный метод

Статистика знает все. И Ильф и Е. Петров, «12 Стульев»

Представьте себе, что вы строите крупный торговый центр и желаете оценить автомобильный поток въезда на территорию парковки. Нет, давайте другой пример… они все равно этого никогда не будут делать. Вам необходимо оценить вкусовые предпочтения посетителей вашего портала, для чего необходимо провести среди них опрос. Как увязать количество данных и возможную погрешность? Ничего сложного - чем больше ваша выборка, тем меньше погрешность. Однако и здесь есть нюансы.

Теоретический минимум

Не будет лишним освежить память, эти термины нам пригодятся далее.

  • Популяция – Множество всех объектов, среди которых проводится исследования.
  • Выборка – Подмножество, часть объектов из всей популяции, которая непосредственно участвует в исследовании.
  • Ошибка первого рода - (α) Вероятность отвергнуть нулевую гипотезу, в то время как она верна.
  • Ошибка второго рода - (β) Вероятность не отвергнуть нулевую гипотезу, в то время как она ложна.
  • 1 - β - Статистическая мощность критерия.
  • μ 0 и μ 1 - Средние значения при нулевой и альтернативной гипотезе.


Уже в самих определениях ошибки первого и второго рода имеется простор для дебатов и толкований. Как с ними определиться и какую выбрать в качестве нулевой? Если вы исследуете уровень загрязнения почвы или вод, то как сформулируете нулевую гипотезу: загрязнение присутствует, или нет загрязнения? А ведь от этого зависит объем выборки из общей популяции объектов.



Исходная популяция , также как и выборка может иметь любое распределение, однако среднее значение имеет нормальное или гауссово распределение благодаря Центральной Предельной Теореме .


Относительно параметров распределения и среднего значения в частности возможно несколько типов умозаключений. Первое из них называется доверительным интервалом . Он указывает на интервал возможных значений параметра, с указанным коэффициентом доверия . Так например 100(1-α)% доверительный интервал для μ будет таким (Ур. 1).




Второе из умозаключений - проверка гипотезы . Оно может быть примерно таким.

  • H 0: μ = h
  • H 1: μ > h
  • H 2: μ < h

С доверительным интервалом 100(1-α) для μ можно сделать выбор в пользу H 1 и H 2:

  • Если нижний предел доверительного интервала 100(1-α) < h , то тогда отвергаем H 0 в пользу H 2 .
  • Если верхний предел доверительного интервала 100(1-α) > h, то тогда отвергаем H 0 в пользу H 1 .
  • Если доверительного интервала 100(1-α) включает в себя h, то тогда мы не может отвергнуть H 0 и такой результат считается неопределенным .

Если нам нужно проверить значение μ для одной выборки из общей совокупности, то критерий обретет вид.



Доверительный интервал, погрешность и размер выборки

Возьмем самое первое уравнение и выразим оттуда ширину доверительного интервала (Ур. 2).



В некоторых случаях мы можем заменить t-статистику Стьюдента на z стандартного нормального распределения. Еще одним упрощением заменим половину от w на погрешность измерения E. Тогда наше уравнения примет вид (Ур. 3).



Как видим погрешность действительно уменьшается вместе с ростом количества входных данных . Откуда легко вывести искомое (Ур. 4).


Практика - считаем с R

Проверим гипотезу о том, что среднее значение данной выборки количества насекомых в ловушке равно 1.

  • H 0: μ = 1
  • H 1: μ > 1
Насекомые 0 1 2 3 4 5 6
Ловушки 10 9 5 5 1 2 1

> x <- read.table("/tmp/tcounts.txt") > y = unlist(x, use.names="false") > mean(z);sd(z) 1.636364 1.654883

Обратите внимание, что среднее и стандартное отклонение практически равны, что естественно для распределения Пуассона. Доверительный интервал 95% для t-статистики Стьюдента и df=32 .


> qt(.975, 32) 2.036933

и наконец получаем критический интервал для среднего значения: 1.05 - 2.22 .


> μ=mean(z) > st = qt(.975, 32) > μ + st * sd(z)/sqrt(33) 2.223159 > μ - st * sd(z)/sqrt(33) 1.049568

В итоге, следует отбраковать H 0 и принять H 1 так как с вероятностью 95%, μ > 1.


В том же самом примере, если принять, что нам известно действительное стандартное отклонение - σ , а не ее оценка полученная с помощью случайной выборки, можно рассчитать необходимое n для данной погрешности. Посчитаем для E=0.5 .


> za2 = qnorm(.975) > (za2*sd(z)/.5)^2 42.08144

Поправка на ветер

На самом деле нет никаких причин, полагать, что нам будет известна σ (дисперсия), в то время как μ (среднее) нам еще только предстоит оценить. Из-за этого уравнение 4 имеет мало практической пользы, кроме особо рафинированных примеров из области комбинаторики, а реалистичное уравнение для n несколько сложнее при неизвестной σ (Ур. 5).



Обратите внимание, что σ в последнем уравнении не с шапкой (^), а тильдой (~). Это следствие того, что в самом начале у нас нет даже оценочного стандартного отклонения случайной выборки - , и вместо нее мы используем запланированное - . Откуда же мы берем последнее? Можно сказать, что с потолка: экспертная оценка, грубые прикидки, прошлый опыт и т. д.


А что на счет второго слагаемого правой стороны 5-го уравнения, откуда оно взялось? Так как , необходима поправка Гюнтера .


Помимо уравнений 4 и 5 есть еще несколько приблизительно-оценочных формул, но это уже заслуживает отдельного поста.

Если тип выборки говорит о том, как попадают люди в выборочную совокупность , то объем выборки сообщает о том, какое их количество попало сюда .

Объем выборки количество единиц выборочной совокупности .

Поскольку выборочная совокупность (или выборка, что одно и то же) – это часть генеральной совокупности, отобранной с помощью специальных методов, – ее объем всегда меньше объема генеральной . Поэтому так важно, чтобы часть не искажала представления о целом, т.е. была репрезентативной.

Социологов, особенно проводящих эмпирические исследования, часто волнует вопрос о том, какое количество человек следует опросить для получения достоверной информации. Институт Гэллапа в США проводит регулярные опросы по национальной выборке объемом в 1500 ч еловек и достигает поразительной точности (ошибка выборки составляет от 1 до 1,5%)1. Центр <Социо-Экспресс> Института социологии РАН проводит исследования на выборке объемом в 2000 человек, при этом ошибка выборки не превышает 3%.

7. Репрезентативность – свойство выборочной совокупности представлять основные параметры генеральной совокупности.

Если совпадения нет, говорят об ошибке репрезентативности –мере отклонения статистической структуры выборки от структуры соответствующей генеральной совокупности.

Предположим, что средний ежемесячный семейный доход пенсионеров в генеральной совокупности составляет 2 тыс. руб., а в выборочной - 6 тыс. руб. Это означает, что социолог опрашивал только зажиточную часть пенсионеров, в его исследование вкралась ошибка репрезентативности. Иными словами, ошибкой репрезентативности называется расхождение между двумя совокупностями – генеральной и выборочной. Последняя выступает и как объект обследования и как средство получения информации о генеральной совокупности.

8. Ошибка выборки – отклонение средних характеристик выборочной совокупности от средних характеристик генеральной совокупности.

На практике она определяется путем сравнения известных характеристик генеральной совокупности с выборочными средними величинами. В социологии при обследованиях взрослого населения чаще всего используют данные переписей населения, текущего статистического учета, результаты предшествующих опросов.

В опросах института Дж. Гэллапа репрезентативность контролируется по имеющимся в национальных переписях данным о распределении населения по

· полу,

· возрасту,

· образованию,

· доходу,

· профессии,

· расовой принадлежности,

· месту проживания,

· величине населенного пункта.

Всероссийский центр изучения общественного мнения (ВЦИОМ ) использует для подобных целей такие показатели, как



· пол,

· возраст,

· образование,

· тип поселения,

· семейное положение,

· сфера занятости,

· должностной статус респондента ,

которые заимствуют в Государственном комитете по статистике РФ. В том и другом случае известна генеральная совокупность. Ошибку выборки невозможно установить, если неизвестны значения переменной в выборочной и генеральной совокупностях.

Ошибки выборки подразделяются на два типа – случайные и систематические.

Случайная ошибка – это статистические погрешности, присущие самому выборочному методу. Они уменьшаются при возрастании объема выборочной совокупности.

Систематические ошибки результат деятельности самого исследователя; вызваны неконтролируемыми перекосами в распределении выборочных наблюдений; предумышленным смещением выборки.

Например, если социолог решил узнать мнение всех жителей города о проводимой местными органами власти социальной политике, а опросил только тех, у кого есть телефон, то возникает предумышленное смещение выборки в пользу зажиточных слоев, т.е. систематическая ошибка .

Систематические ошибки возникают, когда:

1) выборка не соответствует задачам исследования (социолог решил изучить только работающих пенсионеров, а опросил всех подряд);

2) незнание характера генеральной совокупности (социолог думал, что 70% всех пенсионеров не работает, неработающих оказалось только 10%);

3) отбираются только «выигрышные» элементы генеральной совокупности (например, только обеспеченные пенсионеры). Для исследователя оценить последствия систематической ошибки – задача непростая.

Чтобы избежать ошибки репрезентативности :

1) каждая единица генеральной совокупности должна иметь равную вероятность попасть в выборку;

2) отбор желательно производить из однородных совокупностей;

3) надо знать характеристики генеральной совокупности;

4) при составлении выборочной совокупности надо учитывать случайные и систематические ошибки.

Если выборочная совокупность (или просто выборка) составлена правильно, то социолог получает надежные результаты, характеризующие всю генеральную совокупность. Если неправильно, то возникшая на этапе составления выборки ошибка возрастает на каждом следующем этапе проведения социологического исследования и достигает в конечном счете такой величины, которая обесценивает проведенное исследование.

Социометрический опрос существенно отличается от других видов социологического опроса по характеру исходных данных, способам их представления, процедуре опроса и методам анализа собранной информации. В данном виде опроса результатом измерения здесь является не характеристика респондента, а отношение между респондентами. Метод социометрии исследует межличностные отношения в малых группах. Социометрия, по определению Морено, является одной из трех составных частей социономии - науки о социальных законах и представляет собой науку об измерении межличностных отношений. В узком смысле под социометрическими методами понимаются методы исследования структуры межличностных отношений в малой группе путем изучения выборов, сделанных членами группы по тому или иному критерию.

Метод опроса изобретен не социологами, его активно используют медики, юристы, журналисты, педагоги и др. Он имеет в социологии давние традиции. Специфика опроса состоит прежде всего в том, что при его использовании источником первичной социологической информации является человек (респондент) – непосредственный участник исследуемых социальных явлений. Преимущества опроса заключаются: а) в максимально коротких сроках сбора информации; б) в возможности получения разнообразной информации; в) в возможности охвата больших совокупностей людей; г) в широте охвата различных областей социальной практики. А несовершенство - в возможности искажения информации в силу субъективного восприятия и оценки социального факта респондентами.

Чтобы полученная первичная социологическая информация начала активно служить, ее необходимо обработать, обобщить, проанализировать и научно проинтерпретировать. Только после этих процедур появится реальная возможность сформулировать выводы и практические рекомендации, которые и откроют социологической информации выход на практику.

Обработка информации осуществляется вручную или с помощью ЭВМ, ее результат – социологические данные, т.е. показатели ответов на вопросы в числовом и процентном выражении. Обобщение информации идет путем группировки ответивших на вопросы и через ряды распределений (в том числе с помощью таблиц). Анализ и интерпретация данных проводятся в рамках теоретической обработки полученной информации и впрямую зависят от профессионализма социологов, их гипотез, проверка которых и производится прежде всего.

Итоги работы выливаются в служебные документы: отчет, приложение к отчету и аналитическая справка, содержащая выводы и рекомендации.

Использование результатов социологического исследования зависит от актуальности изучаемой социальной проблемы, анализа достоверности собранной информации и заинтересованности в ней общества.

НАБЛЮДЕНИЕ–

На практике решение вопроса об объеме выборки является компромиссным между предположением о точности результатов обследования и возможностями их практической реализации (т.е. исходя из затрат на проведение опроса).

На практике используется несколько подходов к определению объема выборки. Обратим внимание на самые простые из них. Первый из них называется произвольным подходом и основан он на применении «правила большого пальца».

Например, бездоказательно принимается, что для получения точных результатов выборка должна составлять 5 % от совокупности. Данный подход простой и доступный в исполнении, не позволяет получать точные результаты. Его достоинством является относительная дешевизна затрат. В соответствии со вторым подходом объем выборки может быть установлен исходя из заранее оговоренных условий. Заказчик маркетингового исследования, например, знает, что при изучении общественного мнения выборка обычно составляет 1000 – 1200 человек, поэтому он рекомендует исследователю придерживаться данной цифры.

Третий подход означает, что в некоторых случаях главным аргументом при определении объема выборки может быть стоимость проведения опроса. Хотя при этом ценность и достоверность получаемой информации не принимается в расчет.

В случае четвертого подхода объем выборки определяется на основе статистического анализа. Данный подход предполагает определение минимального объема выборки с учетом требований к надежности и достоверности получаемых результатов.

Пятый подход считается наиболее теоретически обоснованным и правильным подходом в определении объема выборки. Он основан на расчете доверительного интервала.

Доверительный интервал – это диапазон, крайние точки которого характеризуют процент определенных ответов на какой-то вопрос. Данное понятие тесто связано с понятием «среднее квадратичное отклонение получаемого признака в генеральной совокупности». Чем оно больше, тем шире должен быть доверительный интервал, чтобы включить в свой состав, например 9,5 % ответов.

Из свойств нормальной кривой распределения вытекает, что конечные точки доверительного интервала, равного к примеру 9,5 % определяются как произведение: 1,96 (нормированное отклонение) и среднего квадратичного отклонения.

Числа 1,96 и 2,58 (для 99 % доверительного интервала) обозначаются как z.

Существуют таблицы «Значение интеграла вероятности», которые дают возможность определить величины z для различных доверительных интервалов. Доверительный интервал равный 95% или 99% является стандартным при проведении маркетинговых исследований.

Например, проведено исследование числа визитов автовладельцев в сервисные мастерские за год. Доверительный интервал для среднего числа визитов был рассчитан равным 5 – 7 визитам при 99 % уровне доверительности. Это означает, что если появится возможность, провести независимо 100 раз выборочные исследования, то для 99 выборочных исследований среднее значение числа визитов попадут в диапазон от 5 до 7 визитов, Если сказать иначе, то 99 % автовладельцев попадут в доверительный интервал.

Допустим, было проведено исследование до 50 независимых выборок. Средние оценки для этих выборок образовали нормальную кривую распределения, которое называется выборочным распределением.

Средняя оценка для совокупности в целом равна средней оценке кривой распределения. Понятие «выборочное распределение» рассматривается также в качестве одного из базовых понятий теоретической концепции, лежащее в основе определения V выборки.

Естественно ни одна компания не в состоянии сформировать 10, 20, 50 независимых выборок. Обычно используется только одна выборка.

Математическая статистика позволяет получить некую информацию о выборочном распределении, владея точными данными о вариации единственной выборки.

Индикатором степени отличия оценки, истинной для совокупности в целом, которая ожидается для типичной выборки, является средне квадратическая ошибка . К примеру, исследуется мнение потребителей о новом товаре и заказчик данного исследования указал, что его устроит точность полученных результатов, равная плюс минус 5%.

Предположим, что 30 % членов выборки высказались за новый продукт. Это означает, что диапазон возможных оценок для всей совокупности составляет 25 – 35 %. Причем, чем больше объем выборки, тем меньше ошибка. Высокое значение вариации обусловливает высокое значение ошибки и наоборот.

Определим объем выборки на основе расчета доверительного интервала. Исходной информацией, необходимой для реализации данного подхода, является:

  • · величина вариации, которой, как считается, обладает совокупность;
  • · желаемая точность;
  • · уровень достоверности, которому должны удовлетворять результаты проводимого обследования.

Когда на заданный вопрос существует только два варианта ответов, выраженных в процентах (используется процентная мера), объем выборки определяется по следующей формуле:

где n – объем выборки;

z – нормированное отклонение, определяемое исходя из выбранного уровня доверительности (табл. 7);

р – найденная вариация для выборки;

q = (100 – p);

е – допустимая ошибка.

Таблица 7

Значение нормированного отклонения оценки z от среднего значения

в зависимости от доверительной вероятности (а) полученного результата

Например, предприятием, выпускающим покрышки, проводится опрос автолюбителей, использующих радиальные покрышки.

Поэтому на вопрос: «Используете ли Вы радиальные покрышки?» возможны только 2 ответа: «Да» или «Нет». Если предположить, что совокупность автолюбителей обладает низким показателем вариации, то это означает, что почти каждый опрошенный использует радиальные покрышки. В данном случае может быть сформирована выборка достаточно малых размеров. В формуле (1) произведение pg выражает вариацию, свойственную совокупности. Например, пусть 90 % единиц совокупности используют радиальные покрышки. Это означает, что pg = 900. Если принять, что показатель вариации выше (р = 70 %), то pg = 2100. Наибольшая вариация достигается в случае, когда одна половина совокупности (50 %) использует радиальные покрышки, а другие не используют. В этом случае произведение достигает значения равного 2500.

При проведении опроса важно указывать точность полученных оценок. Например, было установлено, что 44 % респондентов используют радиальные покрышки. Результаты измерения необходимо представить в виде: процент автолюбителей, использующих радиальные покрышки, составляет 44 плюс – минус е %. Величина допустимой ошибки заранее совместно определяется заказчиком исследования и исполнителем.

Уровень достоверности при проведении маркетинговых исследований обычно оценивается с учетом двух его значений: 95% или 99%. Первому значению соответствует значение z = 1,96; второму – z = 2,58. Если выбирается уровень доверительности равный 99 %, то это говорит о следующем: мы уверены на 99 % (иными словами доверительная вероятность равна 0,99) в том, что процент членов совокупности, попавший в диапазон плюс – минус е %, равен проценту членов выборки, попавших в тот же диапазон ошибки. Принимая вариацию равной 50 %, точность равной 10 % при 95 %-м уровне доверительности рассчитаем размер выборки:

n = 1,962 (50 х 50) / 102 = 96.

При уровне доверительности равном 99 %, и е = ±3 %, n = 1067.

При определении показателя вариации для конкретной совокупности целесообразно проводить предварительно качественный анализ исследуемой совокупности и установить схожесть единиц совокупности в демографическом, социальном и других отношениях, представляющих интерес для исследователя. Возможно определение объема выборки на основе использования средних значений, а не процентных величин. Предположим, что выбран уровень достоверности равный 95 % (z = 1.96,), среднеквадратическое отклонение (S) рассчитано и равно 100, и желаемая точность (погрешность) составляет ±10. Тогда объем выборки составит

Реально на практике, если выборка формируется заново и схожие опросы не проводились, S неизвестно.

В этом случае целесообразно задавать погрешность е в долях от среднеквадратического отклонения. Расчетная формула преобразуется и приобретает следующий вид:

Мы в основном говорили о совокупности очень больших размеров, характерных для рынков потребительских товаров. Но в отдельных случаях совокупности не являются столь большим, и например на рынках отдельных видов продукции производственного назначения.

Обычно, если выборка составляет менее 5 % совокупности, то совокупность считается большой, и расчеты проводятся по вышеприведенным правилам.

Если же V выборки превышает 5 % совокупности, то последняя считается малой, и в вышеприведенные формулы вводится поправочный коэффициент. Объем выборки в данном случае определяется следующим образом:

где n1 – объем выборки для малой совокупности,

n – объем выборки (или для процентных мер или для средних), рассчитанный по приведенным выше формулам,

N – объем генеральной совокупности.

Например, изучается мнение членов совокупности, состоящей из 1000 компаний, относительно строительства химического комбината в границах города Томска. Вследствие отсутствия информации о вариации принимается наихудший случай: 50:50. Исследователь вынес решение использовать уровень доверительности равный 95 %. Заказчик исследования указал, что его устроит точность результатов плюс минус 5 %. В этом случае используется следующая формула для процентной меры:

Данный подход к формированию V выборки с определенными оговорками может быть использован и при расчете численности панели и экспертной группы.

Приведенные формулы расчета выборки основаны на предположении, что все правила формирования выборки были соблюдены, и единственной ошибкой является ошибка, обусловленная ее объемом.

Глава из книги "Маркетинговые исследования"

  • Психология: личность и бизнес

Наиболее корректный статистический анализ общественного процесса обеспечивают сведения о каждом его проявлении. Или, говоря статистическим языком, полный анализ всей совокупности возможен только при учете значения признака у каждой единицы совокупности. В качестве примера такого анализа можно привести всеобщие переписи населения.

Однако, массовый характер общественного явления часто влечет за собой невозможность исследования его в полном объеме, т.е. во всех его проявлениях. В статистической науке разработан специальный метод, позволяющей исследовать лишь часть явления, а результаты и выводы транспонировать на все явление в целом. Такой метод называется «выборочное наблюдение». Основой метода выборочного наблюдения служит взаимосвязь между единичным и общим, между частью и целым, которая существует в общественных явлениях.

Исследуемая часть статистической совокупности называется выборочной, а количество единиц, составляющих ее объем принято обозначать n. Вся совокупность называется генеральной, объем генеральной совокупности обычно обозначают N.

Можно выделить ряд причин применения выборочного наблюдения:

— недостаток временных ресурсов (как для проведения обследования, так и для анализа полученного большого объема данных);

— недостаток кадровых ресурсов, т.е. квалифицированных специалистов для проведения наблюдения и анализа;

— недостаток материальных ресурсов, т.е. слишком дорогостоящее наблюдение;

— практическая невозможность учета всех единиц совокупности в связи с их уничтожением в результате наблюдения (например, в случае обследования всхожести партии семян, продолжительности горения электроламп и т.д.);

— практическая нецелесообразность наблюдения каждой единицы совокупности (например, определения уровня потребления продукта питания населением региона и т.д.)

Основным принципом выборочного наблюдения является принцип рэндомизации (от англ. random – случай), т.е. принцип случайности отбора единиц совокупности, определяющий равенство единиц по возможности быть отобранными в выборочную совокупность. Данный принцип должен выполняться даже в случае планомерного отбора единиц.

В результате неполного обследования генеральной совокупности могут возникнуть ошибки наблюдения – ошибки репрезентативности. Поэтому, основной задачей исследователя является, во-первых, обеспечение представительности (репрезентативности) выборки, и, во-вторых, определение степени уверенности в соответствии параметров выборочной и генеральной совокупностей.

Определение способа отбора единиц совокупности является важной частью выборочного исследования. Существует множество способов отбора единиц совокупности, все их можно представить в виде трех групп (см. рис. 1.):


Рис. 1 Способы отбора единиц совокупности

Собственно-случайный отбор – выбор единиц совокупности без какой-либо схемы или системы. Может осуществляться методом жеребьевки или с помощью таблицы случайных чисел. При применении данного способа отбора необходимо удостовериться в выполнении принципа рэндомизации.

Отбор с предварительным выделением структуры генеральной совокупности применяется, если исследуется структурированная распределенная на группы) совокупность. Серийный отбор предполагает выбор одной группы единиц, внутри которой производится сплошное обследование, среди всех групп. Районированный отбор представляет собой определение границ выборочной совокупности с учетом территориальной принадлежности единиц генеральной совокупности. Механический отбор применяется для совокупности, в которой каждой единице присвоен отдельный номер, а выбор осуществляется пропорционально количеству единиц, например, каждая десятая единица и др.

Ступенчатый или смешанный отбор применяется в случае поэтапного проведения выборочного наблюдения, когда на разных этапах наблюдения используют различные варианты отбора единиц.

Серийный отбор – с генеральной совокупности отбираются не отдельные единицы, а целые серии, группы, а затем в каждой попавшей в выборку серии обследуются все без исключения единицы. Например, рабочих отбирают бригадами.

Комбинированный отбор – генеральная совокупность делится на одинаковые группы, затем производится отбор групп из которых отбираются отдельные единицы.

Типический отбор
— генеральная совокупность делится на однородные типические группы из которых собственно случайным или механическим способом производится отбор единиц.

Типический отбор дает самые точные результаты по сравнению с другими способами, т.к. обеспечивается репрезентативность в выборке. Например, рабочие делятся на группы по квалификации.

Прежде чем приступить к осуществлению выборочного наблюдения необходимо определить количество единиц выборочной совокупности, обеспечивающее репрезентативность, и, следовательно, надежность результатов исследования.

На практике для реализации выборочного наблюдения исследователем задаются:

— степень точности исследования (вероятность);

— предельная ошибка, т.е. интервал отклонения, определяемый целями исследования.

Исходя из этих критериев, рассчитывается необходимая численность выборочной совокупности (n) на основе формулы предельной ошибки выборки.

Разность между показателями выборочной и генеральной совокупности называется
ошибкой выборки .
Ошибки выборки подразделяются на ошибки регистрации и ошибки репрезентативности.

Ошибки регистрации возникают из-за неправильных или неточных сведений. Источниками таких ошибок могут быть непонимание существа вопроса, невнимательность регистратора, пропуск или повторный счет некоторых единиц совокупности, описки при заполнении формуляров и т. д.

Среди ошибок регистрации выделяются систематические, обусловленные причинами, действующими в каком-то одном направлении и искажающими результаты работы (например, округление цифр, тяготение к полным пятеркам, десяткам, сотням и т. д.), и случайные, проявляющиеся в различных направлениях, уравновешивающие друг друга и лишь изредка дающие заметный суммарный итог.

Ошибки репрезентативности также могут быть систематическими и случайными. Систематические ошибки репрезентативности возникают из-за неправильного, тенденциозного отбора единиц, при котором нарушается основной принцип научно организованной выборки - принцип случайности. Случайные ошибки репрезентативности означают, что, несмотря на принцип случайности отбора единиц, все же имеются расхождения между характеристиками выборочной и генеральной совокупности. Изучение и измерение случайных ошибок репрезентативности и является основной задачей выборочного метода.

Предельная ошибка выборки определяется для средней величины () и для доли (w), то, соответственно, имеем два варианта определения необходимой численности выборочной совокупности:

а) для повторного отбора:


б) для бесповторного отбора:


Разрабатывая программу выборочного наблюдения, сразу задают величину допустимой ошибки выборки и доверительную вероятность. Неизвестным остается тот минимальный объем выборки, который должен обеспечить требуемую точность формулы для определения численности выборки (п) зависят от метода отбора.

n i =

где n i – объем выборки из I – й группы;

N – общий объем выборки;

N i — объем i – й группы;

N — объем генеральной совокупности.

ЗАДАНИЕ 1

В результате выборочного обследования заработной платы 60-ти работников предприятия промышленности были получены следующие данные (табл. 1).

Постройте интервальный ряд распределения по результативному признаку, образовав пять групп с равными интервалами.

Определите основные показатели вариации (дисперсию, среднее квадратическое отклонение, коэффициент вариации), среднюю степенную величину (среднее значение признака) и структурные средние. Изобразите графически в виде: а) гистограммы; б) кумуляты; в) огивы. Сделайте вывод.

РЕШЕНИЕ

1. Определим размах вариации по результативному признаку – по производственному стажу по формуле:

R = Хmax – Хmin = 36 – 5 = 31

где Хmax – максимальный размер активов

Хmin – минимальный размер активов

2. Определим величину интервала

i = R/n = 31/5= 6,2

с учетом полученной величины интервалов производим группировку банков и получаем

3. Построим вспомогательную таблицу

Группа призна-ка

Значение значений в группе

х i

Количество частота признака (частота)

f i

в % к итогу

ω

Накопленная частота

S i

Середина интервала

* f i

ω

I

5 – 11,2

6,8,7,5,8,6,10,9,9,6,66,9,10,7,9,10,10,11,89,8,7,6,6,10

43,3

43,3

210,6

350,73

44,89

1167,14

II

11,2 – 17,4

16,15,13,12,17,14, 14, 12,14,17,13,15,17, 14

23,3

66,6

14,3

200,2

333,19

0,25

III

17,4 – 23,6

18,21,20, 21,18, 19,22,21,21,21,18, 19

20,0

86,6

20,5

410,0

32,49

389,88

IV

23,6 –29,8

28,29,25,28, 24

26,7

133,5

221,61

11,9

141,61

708,05

V

29,8 – 36

36,35,33

32,9

98,7

164,5

18,1

327,61

982,83

ИТОГО

1480,03

546,85

3251,4

4. Среднее значение признака в изучаемой совокупности определяется по формуле арифметической взвешенной:

года

5. Дисперсия и среднее квадратическое отклонение признака определяется по формуле



Определение колеблемости


Таким образом, V>33,3%, следовательно, совокупность неоднородна.

6. Определение моды

Мода – значение признака, наиболее часто встречающееся в изучаемой совокупности. В исследуемом интервальном вариационном ряду мода рассчитывается по формуле:


где

x M0
– нижняя граница модального интервала:

i M0 – величина модального интервала;

f M0-1 f M0 f M0+1 – частоты (частости) соответственно модального, домо-дального и послемодального интервалов.

Модальный интервал – это интервал, имеющий наибольшую частоту (частость). В нашей задаче – это первый интервал.


7. Рассчитаем медиану.

Медиана – вариант, расположенный в середине упорядоченного вариационного ряда, делящий его на две равные части, таким образом, что половина единиц совокупности имеют значения признака меньше, чем медиана, а половина– больше, чем медиана.

В интервальном ряду медиана определяется по формуле:


где – начало медианного интервала;

– величина медианного интервала

– частота медианного интервала;

– сумма накопленных частот в домедианном интервале.

Медианный интервал – это интервал, в котором находится порядковый номер медианы. Для его определения необходимо подсчитать сумму накопленных частот до числа, превышающего половину совокупности.

По данным гр. 5 вспомогательной таблицы находим интервал, сумму накопленных часто в котором превышает 50%. Это второй интервал – от 11,6 до 18,4, он и является медианным.

Тогда


Следовательно, половина работников имеющих стаж работы меньше 12,971 лет, а половина – больше этой величины.

6. Изобразим ряд в виде полигона, гистограммы, кумулятивной прямой, огивы.

Графическое представление играет важную роль в изучении вариационных рядов, так как позволяет в простой и наглядной форме проводить анализ статистических данных.

Существует несколько способов графического изображения рядов (гистограмма, полигон, кумулята, огива), выбор которых зависит от цели исследования и от вида вариационного ряда.

Полигон распределения в основном используется для изображения дискретного ряда, но можно построить полигон и для интервального ряда, если предварительно привести его к декретному. Полигон распределения представляет собой замкнутую ломаную линию в прямоугольной системе координат с координатами (x i , q i), где x i — значение i-го признака, q i — частота или частость i-ro признака.

Гистограмма распределения применяется для изображения интервального ряда. Для построения гистограммы на горизонтальной оси откладывают последовательно отрезки, равные интервалам признака, и на этих отрезках, как на основаниях, строят прямоугольники, высоты которых равны частотам или частностям для ряда с равными интервалами, плотностям; для ряда с неравными интервалами.


Кумулята есть графическое изображение вариационного ряда, когда на вертикальной оси откладываются накопленные частоты или частности, а на горизонтальной – значения признака. Кумулята служит для графического представления как дискретных, так и интервальных вариационных рядов.


Вывод: Таким образом, были рассчитаны основные показатели вариации исследуемого ряда: среднее значение признака – производственного стажа составляет 14,8 лет, рассчитана дисперсия равная 54,19, в свою очередь среднее квадратическое отклонение признака – 7,36. Мода имеет значение 9,5, в модальным интервалом является первый интервал изучаемого ряда. Медиана ряда равная 12,971, делит ряд на две равные части говорит о том что в исследуемой организации половина работников имеет стаж работы меньше 12,971 лет, а половина – больше.

ЗАДАНИЕ 2

Имеются следующие исходные данные, характеризующие динамику за 2000 – 2004 г.г. (таблица 2). Исчислите основные показатели рядов динамики. Расчет представьте в виде таблицы. Рассчитайте среднегодовые значения показателей. В виде графического изображения – полигона, обозначьте динамику анализируемого показателя. Сделайте вывод.

Таблица 2 Исходные данные

Год

2000

2001

2002

2003

2004

РЕШЕНИЕ

1) Средний уровень динамики рассчитывается по формуле


2) Цепные и базисные темпы роста рассчитываем следующим образом:

1. Абсолютный прирост определяется по формуле:

Аiб = yi – y0

Аiц = yi – yi-1

2. Темп роста определяется по формуле: (%)

Трб = (yi / y0) *100

Трц = (yi / yi-1)*100

3. Темп прироста определяется по формуле: (%)

Тnрб = Трб –100%:

Тnрц = Трц – 100%

4. Средний абсолютный прирост:


y n
– конечный уровень динамического ряда;

y 0
– начальный уровень динамического ряда;

n ц
– число цепных абсолютных приростов.

5. Среднегодовой темп роста:


6. Среднегодовой темп прироста:


3) Абсолютное содержание 1% прироста:

А = Хi-1 / 100.

Все рассчитанные показатели сводим в таблицу.

Показатели

Годы

2000

2001

2002

2003

2004

Средняя численность работающих на предприятии

2. Абсолютный прирост

Aiц

3. Темп роста

Трib

81,25

50,0

62,5

56,25

Трiц

81,25

61,54

125,0

90,0

4. Темп прироста

Тпib

18,75

50,0

37,5

53,75

Тпiц

18,75

38,46

25,0

10,0

5. Значение 1% прироста

0,65

7. Изобразим графически в виде полигона.

Xi


Таким образом, получено следующее. Наибольшее значение средней численности работающих на предприятии отмечается в базовом 2000 году. Средний уровень численности работников предприятия равен 56 человек, средний абсолютный прирост имеет отрицательную величину и равен 8,75. Среднегодовой темп роста равен 75%. Ввиду отрицательной динамики ряда среднегодовой темп прироста равен -25%. Максимальное снижение численности работников по сравнению с базовым 2000 годом отмечается в 2002 году и равен -40 человек (темп роста 50%). Цепной рост в 2003 году имеет положительную величину (+10 человек, темп роста цепной 125%), в 2004 году продолжилось снижение численности работников.

ЗАДАНИЕ 3

Имеются данные о реализации товаров (см. таблицу 3)

Таблица 3 Исходные данные о реализации товаров

Товар

Базовый год

Отчетный год

кол-во

цена

кол-во

цена

1200

1300

1100

1000

Определить: а) индивидуальные индексы (i p , i q ); б) сводные индексы (I p , I q , I pq); в) абсолютное изменение товарооборота за счет: 1) количества товаров; 2) изменения цены. Сделать вывод по решению задачи.

РЕШЕНИЕ

Составим вспомогательную таблицу

Вид

Базисный период

Отчетный период

Произведение

Индексы

Кол-во, q 0

Цена, p 0

Кол-во, q 1

Цена, p 1

q 0 * p 0

q 1 * p 1

q 1 * p 0

i q =q 1 /q 0

i p =p 1 /p 0

49140

54780

51480

1,048

1,064

61320

54780

67200

1,096

0,941

62400

56700

50400

0,808

1,125

1848

2432

2128

1,152

1,143

1200

1300

90000

106600

97500

1,0833

1,093

1100

1000

92400

88000

84000

0,909

1,077

ИТОГО

357108

363292

352708


Вывод: Как видим общий прирост товарооборота за год составил 6184 усл.ед., включая влияние изменения количества проданного товара на — 4400 и из-за изменения цены на товар увеличение на 10584 усл.ед. Общий прирост товарооборота составил 101,7%. В тоже время в общем цены на реализуемые товары выросли на 103%, а объем реализации снизился на 1,1%.

ЗАДАНИЕ 4

Из исходных данных таблицы № 1 (выбрать строки с 14 до 23 провести корреляционно-регрессионный анализ, определить параметры корреляции и детерминации. Построить график корреляционной зависимости между двумя признаками (результативным и факторным). Сделать вывод.

РЕШЕНИЕ

Исходные данные

Производственный стаж

Размер заработной платы

1800

2500

1750

1580

1750

1560

1210

1160

1355

1480

Прямолинейная зависимость

Параметры уравнения определяются по методу наименьших квадратов, по системе нормальных уравнения


Для решения системы используем метод определителей.

Параметры рассчитывает по формулам


x

y

Один из главных компонентов тщательно продуманного исследования – определение выборки и что такое репрезентативная выборка. Это как в примере с тортом. Ведь не обязательно съедать весь десерт, чтобы понять его вкус? Достаточно небольшой части.

Так вот, торт – это генеральная совокупность (то есть все респонденты, которые подходят для опроса). Она может быть выражена территориально, например, лишь жители Московской области. Гендерно – только женщины. Или иметь ограничения по возрасту – россияне старше 65 лет.

Высчитать генеральную совокупность сложно: нужно иметь данные переписи населения или предварительных оценочных опросов. Поэтому обычно генеральную совокупность «прикидывают», а из полученного числа высчитывают выборочную совокупность или выборку .

Что такое репрезентативная выборка?

Выборка – это чётко определенное количество респондентов. Её структура должна максимально совпадать со структурой генеральной совокупности по основным характеристикам отбора.

Например, если потенциальные респонденты – всё население России, где 54% — это женщины, а 46% — мужчины, то выборка должна содержать точно такое же процентное соотношение. Если совпадение параметров происходит, то выборку можно назвать репрезентативной. Это значит, что неточности и ошибки в исследовании сводятся к минимуму.

Объем выборки определяется с учётом требований точности и экономичности. Эти требования обратно пропорциональны друг другу: чем больше объем выборки, тем точнее результат. При этом чем выше точность, тем соответственно больше затрат необходимо на проведение исследования. И наоборот, чем меньше выборка, тем меньше на неё затрат, тем менее точно и более случайно воспроизводятся свойства генеральной совокупности.

Поэтому для вычисления объема выбора социологами была изобретена формула и создан специальный калькулятор :

Доверительная вероятность и доверительная погрешность

Что означают термины «доверительная вероятность » и «доверительная погрешность »? Доверительная вероятность – это показатель точности измерений. А доверительная погрешность – это возможная ошибка результатов исследования. К примеру, при генеральной совокупности более 500 00 человек (допустим, проживающие в Новокузнецке) выборка будет равняться 384 человека при доверительной вероятности 95% и погрешности 5% ИЛИ (при доверительном интервале 95±5%).

Что из этого следует? При проведении 100 исследований с такой выборкой (384 человека) в 95 процентов случаев получаемые ответы по законам статистики будут находиться в пределах ±5% от исходного. И мы получим репрезентативную выборку с минимальной вероятностью статистической ошибки.

После того, как подсчет объема выборки выполнен, можно посмотреть есть ли достаточное число респондентов в демо-версии Панели Анкетолога . А как провести панельный опрос можно подробнее узнать .