Понятие и практическое применение выборки в математической статистике *

Случайные выборки

Они предполагают, что в выборке каждый элемент генеральной совокупности имеет заранее заданную вероятность быть отобранным в исследование.

Простая случайная выборка. Сначала нужно присвоить каждому потенциальному респонденту идентификационный номер. Дальше с помощью генератора случайных чисел определить номера, которые будут включены в выборку для опроса.

Механическая выборка. Как и в простой выборке пользователям присваивается порядковый номер. Только отбор происходит не с помощью генератора случайных чисел, а с шагом равным n. Например, каждый сотый.

Стратифицированная выборка. Для такой выборки нужно поделить генеральную совокупность на сегменты или страты. После чего респонденты внутри каждой группы отбираются случайным образом. Из каждого сегмента выделяют пользователей пропорционально их доле в генеральной совокупности.

Кластерный отбор или гнездовая выборка. Группа потенциальных респондентов отбирается случайным образом из всей генеральной совокупности. Далее внутри этой группы опрашиваются все пользователи. Например, можно опросить всех пользователей, которые зарегистрировались в сервисе в прошлом квартале.

При таком отборе риск искажений выше и важно учитывать внешние и внутренние факторы. Может быть в прошлом квартале в жизни пользователей произошло что-то важное, что повлияло на их желание воспользоваться сервисом. Тогда эта группа будет сильно отличаться от генеральной совокупности.

Видео

Калькулятор расчета ошибки и размера выборки (для простой случайной выборки)

Пояснения к полям: Доверительная вероятность Вероятность того, что доверительный интервал накроет неизвестное истинное значение параметра, оцениваемого по выборочным данным. В практике исследований чаще всего используют 95%-ую доверительную вероятность Ошибка выборки (доверительный интервал) Интервал, вычисленный по выборочным данным, который с заданной вероятностью (доверительной) накрывает неизвестное истинное значение оцениваемого параметра распределения. Доля признака Ожидаемая доля признака, для которого рассчитывается ошибка. В случае, если данные о доле признака отсутствуют, необходимо использовать значение равное 50, при котором достигается максимальная ошибка.

Репрезентативность

Выборка может рассматриваться в качестве репрезентативной или нерепрезентативной.

Пример нерепрезентативной выборки

В США одним из наиболее известных исторических примеров нерепрезентативной выборки считается случай, происшедший во время президентских выборов в 1936 году[1]. Журнал «Литрери Дайджест», успешно прогнозировавший события нескольких предшествующих выборов, ошибся в своих предсказаниях, разослав десять миллионов пробных бюллетеней своим подписчикам, людям, выбранным по телефонным книгам всей страны, и людям из регистрационных списков автомобилей. В 25 % вернувшихся бюллетеней (почти 2,5 миллиона) голоса были распределены следующим образом:

  • 57 % отдавали предпочтение кандидату-республиканцу Альфу Лэндону
  • 40 % выбрали действующего в то время президента-демократа Франклина Рузвельта

На действительных же выборах, как известно, победил Рузвельт, набрав более 60 % голосов. Ошибка «Литрери Дайджест» заключалась в следующем: желая увеличить репрезентативность выборки, — так как им было известно, что большинство их подписчиков считают себя республиканцами, — они расширили выборку за счёт людей, выбранных из телефонных книг и регистрационных списков. Однако они не учли современных им реалий и в действительности набрали ещё больше республиканцев: во время Великой депрессии обладать телефонами и автомобилями могли себе позволить в основном представители среднего и верхнего класса (то есть большинство республиканцев, а не демократов).

Квотные выборки

Третий тип детерминированной выборки — квотные выборки; известная ее представительность достигается включением в нее той же, что и в обследуемой популяции, доли элементов, обладающих определенными характеристиками (см. «Исследовательское окно 15.1»). В качестве примера вы можете рассмотреть попытку создания репрезентативной выборки студентов, проживающих на территории университета. Если в некой выборке, состоящей из 500 индивидов, не будет ни одного старшекурсника, мы будем вправе усомниться в ее репрезентативности и в правомерности применения полученных на этой выборке результатов к обследуемой совокупности. При работе с пропорциональной выборкой исследователь может проследить за тем, чтобы доля старшекурсников в выборке соответствовала их доле в общем количестве студентов.

Выборочное среднее и генеральное среднее

Вправе ли мы приравнивать выборочное среднее к значению истинного среднего генеральной совокупности? В любом случае мы исходим из того, что они взаимосвязаны. Однако мы также полагаем, что будет иметь место ошибка. Например, можно полагать, что информация, полученная от пользователей Интернета, будет существенно отличаться от результатов опроса «обычного» населения. В других случаях можно предполагать достаточно точное соответствие, иначе мы не смогли бы использовать выборочное значение для оценки значения генерального. Но сколь большой может быть совершаемая нами при этом ошибка?

Давайте сложим все выборочные средние, содержащиеся в табл. 15.2, и разделим полученную сумму на количество выборок, т. е. давайте усредним средние. Нами будет получен следующий результат:

Он совпадает со средним значением генеральной сово

Он совпадает со средним значением генеральной совокупности. Говорят, что в таком случае мы имеем дело с несмещенной статистикой.

Статистика называется несмещенной, если ее среднее значение по всем возможным выборкам оказывается равным оцениваемому параметру генеральной совокупности. Заметьте, что речь здесь не идет о некоем частном значении. Частная оценка может быть весьма далека от истинного значения — возьмите, к примеру, выборки АВ или ST. В некоторых случаях истинное значение генеральной совокупности может оказаться недостижимым при рассмотрении любой возможной выборки, пусть статистика и будет при этом несмещенной. В нашем случае это не так: целый ряд возможных выборок — например AT — дает выборочное среднее, равное истинному среднему генеральной совокупности.

Имеет смысл рассмотреть распределение этих выборочных оценок, и в особенности зависимость между этим разбросом оценок и вариацией уровня доходов в генеральной совокупности. В качестве меры вариации используют дисперсию генеральной совокупности. Для определения дисперсии генеральной совокупности мы должны вычислить отклонение каждой величины от среднего значения, сложить квадраты всех отклонений и разделить полученную сумму на количество слагаемых. Обозначим а^ дисперсию генеральной совокупности. Тогда:

Дисперсия совокупности σ2 = Сумма квадратов разностей каждого элемента совокупности и среднего по совокупности / Число элементов совокупности = Дисперсия среднего значения уровня доходов может б

Дисперсия среднего значения уровня доходов может быть определена таким же образом. То есть мы можем найти ее, определив отклонения каждого среднего от их общего среднего, суммировав квадраты отклонений и разделив полученную сумму на количество слагаемых.

Мы можем определить дисперсию среднего значения уровня доходов и иным образом, используя для этого дисперсию значений уровня доходов в генеральной совокупности, поскольку между двумя этими величинами существует прямая связь. Если быть точным, в тех случаях, когда выборка представляет лишь малую часть генеральной совокупности, дисперсия выборочного среднего равняется дисперсии генеральной совокупности, поделенной на объем выборки:

 где σx 2— дисперсия среднего выборочн

где σx2— дисперсия среднего выборочного значения уровня доходов, σ2 — дисперсия уровня доходов в генеральной совокупности, n — объем выборки.

Теперь сравним распределение результатов с распределением количественного признака в генеральной совокупности. Рисунок 15.5 демонстрирует, что распределение количественного признака в генеральной совокупности, показанное на поле A, является многовершинным (каждое из 20 значений появляется только раз) и симметричным относительно истинного среднего генеральной совокупности, равного 9400.

Выборочное распределение      
   Распределение з

Выборочное распределение Распределение значений определенной статистики, рассчитанной для всех возможных различимых выборок, которые могут быть выделены из генеральной совокупности по данному плану выборочного контроля.

Распределение оценок, показанное на поле В, основывается на данных табл. 15.3, которая, в свою очередь, составлялась путем отнесения значений из табл. 15.2 к той или иной группе в зависимости от их величины с последующим подсчетом их количества в группе. Поле В — традиционная гистограмма, рассматриваемая в самом начале изучения курса статистики, которая представляет выборочное распределение статистики. Заметим попутно следующее: понятие выборочного распределения является наиважнейшим понятием статистики, это краеугольный камень построения статистических выводов. По известному выборочному распределению исследуемой статистики можно сделать вывод о соответствующем параметре генеральной совокупности. Если же известно только то, что выборочная оценка изменяется от выборки к выборке, но сам характер этого изменения неизвестен, определение ошибки выборочного обследования, связанного с этой оценкой, становится невозможным. Поскольку выборочное распределение оценки описывает ее изменение от выборки к выборке, оно обеспечивает основу для определения достоверности выборочной оценки. Именно по этой причине план вероятностной выборки столь важен для статистического вывода.

По известным вероятностям включения в выборку каждого элемента совокупности интервьюеры могут найти выборочное распределение различных статистик. Исследователи опираются именно на эти распределения — будь это выборочное среднее, доля выборки, выборочная дисперсия или какая-то иная статистика — при распространении результата выборочного наблюдения на генеральную совокупность. Заметьте также, что для выборок с объемом 2 распределение выборочных средних является одновершинным и симметричным относительно истинного среднего.

Итак, мы показали, что:

Итак, мы показали, что:

  1. Среднее значение всех возможных выборочных средних равно генеральному среднему.
  2. Дисперсия выборочных средних определенным образом связана с генеральной дисперсией.
  3. Распределение выборочных средних является одновершинным, в то время как распределение значений количественного признака в генеральной совокупности является многовершинным.

Ошибка выборки (доверительный интервал)

Отклонение результатов, полученных с помощью выборочного наблюдения от истинных данных генеральной совокупности. Ошибка выборки бывает двух видов – статистическая и систематическая. Статистическая ошибка зависит от размера выборки. Чем больше размер выборки, тем она ниже. Пример: Для простой случайной выборки размером 400 единиц максимальная статистическая ошибка (с 95% доверительной вероятностью) составляет 5%, для выборки в 600 единиц – 4%, для выборки в 1100 единиц – 3% Обычно, когда говорят об ошибке выборки, подразумевают именно статистическую ошибку. Систематическая ошибка зависит от различных факторов, оказывающих постоянное воздействие на исследование и смещающих результаты исследования в определенную сторону. Пример:

  • Использование любых вероятностных выборок занижает долю людей с высоким доходом, ведущих активный образ жизни. Происходит это в силу того, что таких людей гораздо сложней застать в каком-либо определенном месте (например, дома).
  • Проблема респондентов, отказывающихся отвечать на вопросы  анкеты (доля «отказников» в Москве, для разных опросов, колеблется от 50% до 80%)

Неслучайные выборки

Обычно такие методы отбора применяют, если нет возможности или ресурсов для формирования случайной выборки. Например, у тебя мало времени на опрос или нет данных о генеральной совокупности или респонденты труднодоступны.

Квотная выборка. Такой метод можно применять, если у вас есть знания о составе генеральной совокупности. Например, вы знаете, как ваши пользователи распределяются в разрезе по должности, отрасли компании, возрасту и так далее. Тогда можно пропорционально этим долям сформировать выборку: в каждом разрезе выбрать такое число респондентов, которое будет отображать статистику по всей аудитории.

Стихийная выборка. Это метод без особых правил. В опрос попадают все, кто захочет пройти опрос. Такая выборка типична для онлайн-опросов, размещенных в свободном доступе.

«Снежный ком». Тоже достаточно популярная и простая методика. Каждого респондента просят порекомендовать нового среди его друзей, коллег и знакомых, которые подходили бы под параметры исследования. Такая выборка часто применяется когда самостоятельно найти интересующих респондентов затруднительно. Например, пользователи, занимающие высокую должность или с высоким доходом.

«Типичный представитель». Из генеральной совокупности отбираются респонденты с типичными признаками целевой аудитории. Только определить, что взять за такой признак, обычно сложно.

Отдельно стоит сказать про многоступенчатые выборки. На практике чаще всего (иногда интуитивно) исследователи используют как раз многоступенчатый метод. Такой отбор предполагает наличие двух или более этапов формирования выборки. Проще говоря, это микс нескольких методов отбора.

Например, ты собрал статистику по своей аудитории и знаешь, что большинство пользователей находятся в Москве. Это будет первая ступень отбора по «типичному представителю». Далее среди пользователей-москвичей ты приглашаешь на опрос каждого сотого (механическая выборка).

Теги

Adblock
detector