Метод выборки. Генеральная и выборочная совокупности

Лекция 6. Элементы математической статистики

Вопросы для контроля знаний и подведения итога прочитанной лекции

1. Дайте определение случайной величины.

2.Напишите формулы для математического ожидания и дисперсии дискретной и непрерывной случайных величин.

3. Дайте определение локальной интегральной предельная теорем Лапласа

4. Напишите формулы, задающие биномиальное распределение, гипергеометрическое распределение, распределение Пуассона, равномерное распределение и нормальное распределение.

Цель: Изучить основные понятия математической статистики

1. Генеральная совокупность и выборка

2. Статистическое распределение выборки. Полигон. Гистограмма.

3. Оценки параметров генеральной совокупности по ее выборке

4. Генеральная и выборочная средние. Методы их расчета.

5. Генеральная и выборочная дисперсии.

6. Вопросы для контроля знаний и подведения итога прочитанной лекции

Мы приступаем к изучению элементов математической статистики, в которой разрабатываются научно обоснованные методы сбора статистических данных и их обработки.

1. Генеральная совокупность и выборка. Пусть требуется изучить множество однородных объектов (это множество называется статистической совокупностью) относительно некоторого качественного или количественного признака, характеризующего эти объекты. Например, если имеется партия деталей, то качественным признаком может служить стандартность детали, а количественным - контролируемый размер детали.

Лучше всего произвести сплошное обследование, т.е. изучить каждый объект. Однако в большинстве случаев по разным причинам это сделать невозможно. Препятствовать сплошному обследованию может большое число объектов, недоступность их. Если, например, нужно знать среднюю глубину воронки при взрыве снаряда из опытной партии, то, производя сплошное обследование, мы уничтожим всю партию.

Если сплошное обследование невозможно, то из всей совокупности выбирают для изучения часть объектов.

Статистическая совокупность, из которой отбирают часть объектов, называется генеральной совокупностью. Множество объектов, случайно отобранных из генеральной совокупности, называют выборкой.

Число объектов генеральной совокупности и выборки называют соответственно объемом генеральной совокупности и объемом выборки.

Пример 10.1. Плоды одного дерева (200 шт.) обследуют на наличие специфического для данного сорта вкуса. Для этого отбирают 10 шт. Здесь 200 - объем генеральной совокупности, а 10 - объем выборки.

Если выборку отбирают по одному объекту, который обследуют и снова возвращают в генеральную совокупность, то выборка называется повторной. Если объекты выборки уже не возвращаются в генеральную совокупность, то выборка называется бесповторной.



На практике чаще используется бесповторная выборка. Если объем выборки составляет небольшую долю объема генеральной совокупности, то разница между повторной и бесповторной выборками незначительна.

Свойства объектов выборки должны правильно отражать свойства объектов генеральной совокупности, или, как говорят, выборка должна быть репрезентативной (представительной). Считается, что выборка репрезентативна, если все объекты генеральной совокупности имеют одинаковую вероятность попасть в выборку, т. е. выбор производится случайно. Например, для того чтобы оценить будущий урожай, можно сделать выборку из генеральной совокупности еще не созревших плодов и исследовать их характеристики (массу, качество и пр.). Если вся выборка будет сделана с одного дерева, то она не будет репрезентативной. Репрезентативная выборка должна состоять из случайно выбранных плодов со случайно выбранных деревьев.

2. Статистическое распределение выборки. Полигон. Гистограмма. Пусть из генеральной совокупности извлечена выборка, причем х 1 наблюдалось n 1 , раз, х 2 - п 2 раз, ..., х k - n k раз и n 1 +n 2 +…+ п k = п - объем выборки. Наблюдаемые значения x 1 , x 2 , …, x k называют вариантами, а последовательность вариант, записанная в возрастающем порядке, - вариационным рядом. Числа наблюдений n 1 , n 2 , …, n k называют частотами, а их отношения к объему выборки , , …, - относительными частотами. Отметим, что сумма относительных частот равна единице: .

Статистическим распределением выборки называют перечень вариант и соответствующих им частот или относительных частот. Статистическое распределение можно задать также в виде последовательности интервалов и соответствующих им частот (непрерывное распределение). В качестве частоты, соответствующей интервалу, принимают сумму частот вариант, попавших в этот интервал. Для графического изображения статистического распределения используют полигоны и гистограммы.

Для построения полигона на оси Ох откладывают значения вариант х i , на оси Оу - значения частот п i (относительных частот ).

Пример 10.2. На рис. 10.1 показан полигон следующего распределения

Полигоном обычно пользуются в случае небольшого числа вариант. В случае большого числа вариант и в случае непрерывного распределения признака чаще строят гистограммы. Для этого интервал, в котором заключены все наблюдаемые значения признака, разбивают на несколько частичных интервалов длиной h и находят для каждого частичного интервала п i , - сумму частот вариант, попавших в i -интервал. Затем на этих интервалах, как на основаниях, строят прямоугольники с высотами (или , где п - объем выборки).

Площадь i частичного прямоугольника равна , (или ).

Следовательно, площадь гистограммы равна сумме всех частот (или относительных частот), т.е. объему выборки (или единице).

Пример 10.3. На рис. 10.2 показана гистограмма непрерывного распределения объема n = 100, приведенного в следующей таблице.

Исследование обычно начинается с некоторого предположения, требующего проверки с привлечением фактов. Это предположение - гипотеза - формулируется в отношении связи явлений или свойств в некоторой совокупности объектов. Для проверки подобных предположений на фактах необходимо измерить соответствующие свойства у их носителей. Но невозможно измерить, например, тревожность у всех подростков. Поэтому при проведений исследования ограничиваются лишь относительно небольшой группой представителей соответствующих совокупностей людей.

Генеральная совокупность - это все множество объектов, в отношении которого формулируется исследовательская гипотеза. Теоретически считается, что объем генеральной совокупности не ограничен. Практически же объем генеральной совокупности всегда ограничен и может быть различным в зависимости от предмета наблюдения и той задачи, которую предстоит решать психологу. Обычно генеральная совокупность включает в себя очень большое число объектов- студентов вуза, школьников, работников предприятия, пенсионеров и т.д. Сплошное исследование генеральных совокупностей чрезвычайно затруднительно, поэтому, как правило, изучается небольшая часть генеральной совокупности, называемая выборочной совокупностью, или выборкой.

Выборка - это ограниченная по численности группа объектов (в психологии - испытуемых, респондентов), специально отбираемая из генеральной совокупности для изучения ее свойств. Соответственно, изучение на выборке свойств генеральной совокупности называется выборочным исследованием. Практически все психологические исследования являются выборочными, а их выводы распространяются на генеральные совокупности.

К выборке применяется ряд обязательных требований, определенных, прежде всего, целями и задачами исследования. Она должна быть такой, чтобы обосновалась генерализация выводов выборочного исследования - обобщение, распространение их на генеральную совокупность.

Выборка должна удовлетворять следующим условиям:



1. Это группа объектов, доступная для изучения. Объем выборки опре­деляется задачами и возможностями наблюдения и эксперимента.

2. Это часть заранее намеченной генеральной совокупности.

3. Это группа, отобранная случайным образом так, чтобы любой объект генеральной совокупности имел одинаковую вероятность попасть в выборку.

Основные критерии обоснованности выводов исследования - это репрезентативность выборки и статистическая достоверность (эмпири­ческих) результатов.

Репрезентативность - иными словами, ее представительность - это способность характеризовать соответствующую генеральную совокупность с определенной точностью и достаточной надежностью. Если выборка испытуемых по своим характеристикам репрезентативна генеральной совокупности, то есть основания, полученные при ее изучении результаты распространить на всю генеральную совокупность.

В идеале репрезентативная выборка должна быть такой, чтобы каж­дая из основных изучаемых психологом характеристик, черт, особенностей личности и т. п. представлялась в ней пропорционально этим же особенностям в генеральной совокупности.

Ошибки репрезентативности возникают в двух случаях:

1. Малая выборка, характеризующая генеральную совокупность.

2. Несовпадение свойств (параметров) выборки с параметрами генеральной совокупности.

Статистическая достоверность , или статистическая значимость, результатов исследования определяется при помощи методов статистического вывода. Эти методы будут подробнее рассмотрены в теме «Проверка гипотез». Отметим, что они предъявляют определенные требования к численности, или объему выборки.

Наибольший объем выборки необходим при разработке диагности­ческой методики - от 200 до 1000-2500 человек.

Если необходимо сравнить 2 выборки, их общая численность должна быть не менее 50 человек; численность сравниваемых выборок должна быть приблизительно одинаковой.

Если изучается взаимосвязь между какими-либо свойствами, то объем выборки должен быть не меньше 30-35 человек.

Чем больше изменчивость изучаемого свойства, тем больше должен быть объем выборки. Поэтому изменчивость можно уменьшить, увеличивая однородность выборки, например по полу, возрасту и т.д. При этом, естественно, уменьшаются возможности генерализации выводов.

Зависимые и независимые выборки. Обычна ситуация исследования, когда интересующее исследователя свойство изучается на двух или более выборках с целью их дальнейшего сравнения. Эти выборки могут находиться в различных соотношениях - в зависимости от процедуры их организации. Независимые выборки характеризуются тем, что вероятность отбора любого испытуемого одной выборки не зависит от отбора любого из испытуемых другой выборки. Напротив, зависимые выборки характеризуются тем, что каждому испытуемому одной выборки поставлен в соответствие по определенному критерию испытуемый из другой выборки.

Наиболее типичным примером независимой выборки является, например, сравнение мужчин и женщин по уровню интеллекта.

Распределение случайной величины содержит всю информацию о ее статистических свойствах. Много ли нужно знать значений случайной величины, чтобы построить ее распределение? Для этого нужно исследовать ее генеральную совокупность .

Генеральная совокупность - множество всех значений, которые может принимать данная случайная величина.

Число единиц в генеральной совокупности называется ее объемом N . Эта величина может быть конечной и бесконечной. Например, если исследуется рост жителей некоторого города, то объем генеральной совокупности будет равен числу жителей города. Если выполняется любой физический эксперимент, то объем генеральной совокупности будет бесконечным, т.к. число всех возможных значений любого физического параметра равно бесконечности.

Исследование генеральной совокупности не всегда возможно и целесообразно. Оно невозможно, если объем генеральной совокупности бесконечен. Но и при конечных объемах полное исследование не всегда оправдано, поскольку требует больших затрат времени и труда, а абсолютная точность результатов обычно не требуется. Менее точные результаты, но со значительно меньшими затратами сил и средств можно получить при исследовании только части генеральной совокупности. Такие исследования называются выборочными.

Статистические исследования, проводимые только на части генеральной совокупности, называются выборочными, а исследуемая часть генеральной совокупности называется выборкой.

На рисунке 7.2 символически показаны генеральная совокупность и выборка в виде множества и его подмножества.

Рисунок 7.2 Генеральная совокупность и выборка

Работая с некоторым подмножеством данной генеральной совокупности, часто составляющим незначительную ее часть, мы получаем результаты, по точности вполне удовлетворительные для практических целей. Исследование большей части генеральной совокупности только увеличивает точность, но не изменяет сути результатов, если выборка взята правильно со статистической точки зрения.

Для того, чтобы выборка отражала свойства генеральной совокупности и результаты были достоверными, она должна быть репрезентативной (представительной).

У некоторых генеральных совокупностей любая их часть является репрезентативной в силу их природы. Однако в большинстве случаев необходимо принимать специальные меры для обеспечения репрезентативности выборок.

Одним из главных достижений современной математической статистики считается разработка теории и практики метода случай ных выборок, обеспечивающих репрезентативность отбора данных.

Выборочные исследования всегда проигрывают в точности по сравнению с исследованием всей генеральной совокупности. Однако с этим можно примириться, если величина погрешности будет известной. Очевидно, что чем больше объем выборки будет приближаться к объему генеральной совокупности, тем погрешность будет меньшей. Отсюда ясно, что проблемы статистического вывода становятся особенно актуальными при работе с малыми выборками (N ? 10-50).

Множество социальных объектов, явлений, процессов, которые являются предметом изучения социологического исследования, образуют генеральную совокупность . Любую генеральную совокупность характеризует некоторый явно задаваемый признак (или набор признаков), по значению которого всегда можно однозначно определить, относится данный объект к генеральной совокупности или нет.

Часть объектов генеральной совокупности, выступающих в качестве объектов наблюдения, называется выборочной совокупностью .

Иными словами, если генеральная совокупность включает все без исключения единицы, составляющие объект исследования, то выборочная совокупность представляет собой специальным образом отобранную часть генеральной совокупности. Выборочная совокупность конструируется таким образом, чтобы при минимуме исследуемых объектов удавалось с необходимой степенью гарантии представить всю генеральную совокупность.

Единицей отбора называют элементы генеральной совокупности, которые выступают единицами счета в различных процедурах отбора, формирующих выборку.

Единицами наблюдения называют элементы сформированной выборочной совокупности, которые непосредственно подвергаются исследованию.

Единица отбора и единица наблюдения представляют собой социальные объекты, обладающие характеристиками, существенными для предмета конкретного социологического исследования. Они могут совпадать (в простых схемах отбора) и различаться (при сложных комбинированных схемах отбора). Единицами отбора могут выступать как отдельные индивиды, так и целые коллективы или целые группы (например, при проведении сплошного опроса).

При совпадении единицы наблюдения с единицей отбора применяется одноступенчатая (простая) выборка, при несовпадении – многоступенчатая (сложная) выборка.

Объем выборки зависит от ряда факторов:

· от цели и задач исследования,

· от степени однородности генеральной совокупности,

· от величины доверительной вероятности,

· от точности результатов (величины допускаемой ошибки репрезентативности).

В таблице 4 приведено соотношение генеральной совокупности и объема выборки.

Таблица 4. Соотношение объемов генеральной и выборочной совокупностей.

Представленная таблица отражает многолетний опыт работы социологов, нередко используется при отсутствии данных о генеральной совокупности, что делает невозможным применение формулы.

Определения объема выборочной совокупности недостаточно для ее изучения. Необходимо определиться с видом выборки.

Различаются выборки вероятностные и целенаправленные .

Модель вероятностной (случайной ) выборки связана с понятием вероятности, широко используемым во многих социальных науках. В самом общем случае вероятность некоторого ожидаемого события есть отношение числа всех возможных событий к числу ожидаемых. При этом общее число событий должно быть достаточно большим (статистически значимым). Кроме этого, необходимо создать условия равновероятности отбора единиц. Условие равновероятности должно гарантировать для каждого элемента генеральной совокупности попасть в выборочную. Такая ситуация возможна при равномерном распределении элементов генеральной совокупности.

Существуют различные методы вероятностной (случайной) выборки:

· метод собственно-случайного отбора,

· случайно-бесповторный метод,

· случайно-повторный,

· метод механической выборки (например, каждый десятый элемент генеральной совокупности включается в выборочную).

Нередко используется довольно точный метод отбора выборочной совокупности - метод серийной выборки. Суть этого метода заключается в расчленении генеральной совокупности на однородные части (серии) по заданному признаку. После этого отбор респондентов осуществляетсяв каждой серии по заданному признаку.

Кроме этого, существует метод гнездовой выборки . «Гнездо» представляет собой группу каких-либо объектов, состоящих из ряда элементов. В качестве единиц исследования используют не отдельных респондентов, а группы, коллективы.

Наряду с вероятностной выборкой в социологических исследованиях применяется также и целенаправленная выборка. Целенаправленная выборка осуществляется не с помощью теории вероятности, а при использовании ряда методов:

· стихийной выборки,

· основного массива,

· квотной выборки.

Стихийная выборка чаще всего применяется в журналистике. Примером стихийной выборки может служить почтовый опрос. Достоверность и качество полученной при этом информации очень низкие и распространяются только на опрошенную совокупность.

Метод основного массива применяется как «зондаж» при проведении пилотажного исследования, при этом изучается 60-70% генеральной совокупности.

Наиболее точным из методов целенаправленных выборок можно считать метод квотной выборки . Однако, применение этого метода возможно при наличии статистических данных о генеральной совокупности. Все данные о признаках генеральной совокупности выступают в качестве квот, а отдельные числовые значения – в качестве параметров квот. При квотной выборке респонденты отбираются целенаправленно с соблюдением параметров квот. В качестве квоты могут выступать не более четырех признаков. Например, пол, возраст, стаж работы, уровень образования и т.д.

Определение объема и вида выборки - недостаточное условие правомерности распространения выводов исследования на всю генеральную совокупность. Из всего многообразия возможных выборочных совокупностей необходимо отобрать одну, наиболее точную. Способность выборки отражать, моделировать значимые свойства генеральной совокупности – есть репрезентативность выборки.

Отклонение результатов выборочного исследования от существенных характеристик генеральной совокупности называется ошибкой репрезентативности .

Ошибки репрезентативности могут быть случайными и систематическими. Случайные ошибки репрезентативности носят вероятностный характер и при повторном измерении изменяются по вероятностным законам. Систематическими ошибками репрезентативности называют ошибки смещения, нарушающие точность выборочной совокупности. Систематические ошибки возникают при просчетах на стадии проектирования выборки, при отсутствии информации о социальном объекте, при неправильном выборочном отборе. Систематические ошибки репрезентативности могут быть также непреднамеренными (например, просчет на стадии проектирования выборки) и преднамеренными (обусловленными идеологическими, экономическими и т.д. факторами).

При исследовании генеральной совокупности выборочный метод значительно облегчает задачу исследователя, однако необходимо помнить о возможных трудностях связанных с методом выборочного исследования.

Итак, закономерности, которым подчиняется исследуемая случайная величина, физически полностью обусловливаются реальным комплексом условий ее наблюдения (или эксперимента), а математически задаются соответствующим вероятностным пространством или, что то же, соответствующим законом распределения вероятностей. Однако при проведении статистических исследований несколько более удобной оказывается другая терминология, связанная с понятием генеральной совокупности.

Генеральной совокупностью называют совокупность всех мыслимых наблюдений (или всех мысленно возможных объектов интересующего нас типа, с которых «снимаются» наблюдения), которые могли бы быть произведены при данном реальном комплексе условий. Поскольку в определении речь идет о всех мысленно возможных наблюдениях (или объектах), то понятие генеральной совокупности есть понятие условно-математическое, абстрактное и его не следует смешивать с реальными совокупностями, подлежащими статистическому исследованию. Так, обследовав даже все предприятия подотрасли с точки зрения регистрации значений характеризующих их технико-экономических показателей, мы можем рассматривать обследованную совокупность лишь как представителя гипотетически возможной более широкой совокупности предприятий, которые могли бы функционировать в рамках того же самого реального комплекса условий

В практической работе удобнее выбор связывать с объектами наблюдения, чем с характеристиками этих объектов. Мы отбираем для изучения машины, геологические пробы, людей, но не значения характеристик машин, проб, людей. С другой стороны, в математической теории объекты и совокупность их характеристик не различаются и двойственность введенного определения исчезает.

Как видим, математическое понятие «генеральная совокупность» физически полностью обусловливается, так же как и понятия «вероятностное пространство», «случайная величина» и «закон распределения вероятностей», соответствующим реальным комплексом условий, а потому все эти четыре математических понятия можно считать в определенном смысле синонимами. Генеральная совокупность называется конечной или бесконечной в зависимости от того, конечна или бесконечна совокупность всех мыслимых наблюдений.

Из определения следует, что непрерывные генеральные совокупности (состоящие из наблюдений признаков непрерывной природы) всегда бесконечны. Дискретные же генеральные совокупности могут быть как бесконечными, так и конечными. Скажем, если анализируется партия из N изделий на сортность (см. пример в п. 4.1.3), когда каждое изделие может быть отнесено к одному из четырех сортов, исследуемой случайной величиной является номер сорта случайно извлеченного из партии изделия, а множество возможных значений случайной величины состоит соответственно из четырех точек (1, 2, 3 и 4) то, очевидно, генеральная совокупность будет конечной (всего N мыслимых наблюдений).

Понятие бесконечной генеральной совокупности есть математическая абстракция, как и представление о том, что измерение случайной величины можно повторить бесконечное число раз. Приближенно бесконечную генеральную совокупность можно истолковывать как предельный случай конечной, когда число объектов, порождаемых данным реальным комплексом условий, неограниченно возрастает. Так, если в только что приведенном примере вместо партий изделий рассматривать непрерывное массовое производство тех же изделий, то мы и придем к понятию бесконечной генеральной совокупности. Практически же такое видоизменение равносильно требованию

Выборка из данной генеральной совокупности - это результаты ограниченного ряда наблюдений случайной величины . Выборку можно рассматривать как некий эмпирический аналог генеральной совокупности, то, с чем мы чаще всего на практике имеем дело, поскольку обследование всей генеральной совокупности бывает либо слишком трудоемко (в случае больших N), либо принципиально невозможно (в случае бесконечных генеральных совокупностей).

Число наблюдений, образующих выборку, называют объемом выборки.

Если объем выборки велик и при этом мы имеем дело с одномерной непрерывной величиной (или с одномерной дискретной, число возможных значений которой достаточно велико, скажем больше 10), то часто удобнее, с точки зрения упрощения дальнейшей статистической обработки результатов наблюдений, перейти к так называемым «группированным» выборочным данным. Этот переход осуществляется обычно следующим образом:

а) отмечаются наименьшее и наибольшее значения в выборке;

б) весь обследованный диапазон разбивается на определенное число 5 равных интервалов группирования; при этом количество интервалов s не должно быть меньше 8-10 и больше 20-25: выбор количества интервалов существенно зависит от объема выборки для примерной ориентации в выборе 5 можно пользоваться приближенной формулой

которую следует воспринимать скорее как оценку снизу для s (особенно при больших

в) отмечаются крайние точки каждого из интервалов в порядке возрастания, а также их середины

г) подсчитываются числа выборочных данных, попавших в каждый из интервалов: (очевидно, ); выборочные данные, попавшие на границы интервалов, либо равномерно распределяются по двум соседним интервалам, либо условливаются относить их только к какому-либо одному из них, например к левому.

В зависимости от конкретного содержания задачи в данную схему группирования могут быть внесены некоторые видоизменения (например, в некоторых случаях целесообразно отказаться от требования равной длины интервалов группирования).

Во всех дальнейших рассуждениях, использующих выборочные данные, будем исходить из только что описанной системы обозначений.

Напомним, что сущность статистических методов состоит в том, чтобы по некоторой части генеральной совокупности (т.е. по выборке) выносить суждения о ее свойствах в целом.

Один из важнейших вопросов, от успешного решения которого зависит достоверность получаемых в результате статистической обработки данных выводов, является вопрос репрезентативности выборки, т.е. вопрос полноты и адекватности представления ею интересующих нас свойств анализируемой генеральной совокупности. В практической работе одна и та же группа объектов, взятых для изучения, может рассматриваться как выборка из разных генеральных совокупностей. Так, группу семей, наудачу отобранных из кооперативных домов одной из жилищноэксплуатационных контор (ЖЭК) одного из районов города для подробного социологического обследования, можно рассматривать и как выборку из генеральной совокупности семей (с кооперативной формой жилья) данной ЖЭК, и как выборку из генеральной совокупности семей данного района, и как выборку из генеральной совокупности всех семей города, и, наконец, как выборку из генеральной совокупности всех семей города, проживающих в кооперативных домах. Содержательная интерпретация результатов апробации существенно зависит от того, представителем какой генеральной совокупности мы рассматриваем отобранную группу семей, для какой генеральной совокупности эту выборку можно считать представительной (репрезентативной). Ответ на этот вопрос зависит от многих факторов. В приведенном выше примере, в частности, от наличия или отсутствия специального (быть может, скрытого) фактора, определяющего принадлежность семьи к данной ЖЭК или району в целом (таким фактором может быть, например, среднедушевой доход семьи, географическое расположение района в городе, «возраст» района и т. п.).