Характеристики центра распределения

Тема 6. Анализ рядов распределения.

  1. Понятие рядов распределения.

  2. Характеристики центра распределения: мода и медиана.

  3. Показатели вариации.

  4. Дисперсионный анализ.

  1. Понятие рядов распределения

Отдельный вид группировок в статистике — ряды распределения, которые являются наипростейшим способом обобщения статистических данных.

Ряд распределения – это группировка, которая характеризует состав (структуру) явления в данный период времени.

В зависимости от того, какой признак (количественный или качественный) положен в основу группировки, ряды распределения бывают:

— атрибутивные (качественные) (например, распределение населения по возрасту, занятости, национальности, профессии и т.д.);

— вариационные (количественные).

Вариационные ряды распределения бывают дискретными и интервальными.

Дискретный ряд – это ряд, в котором варианты (отдельные значения группировочного признака) выражены целыми числами (табл. 6.1.).

Таблица 6.1.

Распределение работников по тарифным разрядам

Тарифный разряд

Количество работников, чел.

Итого

Интервальный ряд распределения – ряд, в котором значения признака заданы в виде интервалов (табл.6.2.).

Таблица 6.2.

Распределение коммерческих банков по величине капитала

Размер капитала, млн.грн.

Количество банков, ед.

Итого

Ряд распределения состоит из двух элементов: вариант и частот.

Варианты – числовые значения количественного признака в группировке (они могут быть абсолютными, относительными, отрицательные, положительные) (первая графа таблицы).

Частоты – числа, которые показывают, сколько раз повторяются отдельные значения вариант (выражаются в виде коэффициентов или процентов (доля)). Накопленную частоту называют кумулятивной.

Ранжированным рядом распределения называют ряд, в котором значения признака располагаются в возрастающем (снижающемся) порядке и расчет ведется по группам.

Графически дискретный ряд изображается в виде полигона, а вариационный ряд с равными интервалами – в виде гистограммы. Ряд распределения с неравными интервалами также представляется в виде гистограммы, которая строится на основе тесноты распределения.

Теснота распределения – количество элементов совокупности, которое приходится на единицу ширины интервала группировочного признака. Например, по количеству ученических мест 400 школ области находятся в интервале от 800-1000. Тогда теснота распределения составляет 400/(1000-800) =2.

  1. Характеристики центра распределения: мода и медиана

К характеристикам центра распределения, кроме обобщающих характеристик совокупности (средней арифметической, средней гармонической), принадлежат вспомогательные описательные характеристики распределения вариационного признака, которые называют структурными средними – мода и медиана.

Мода и медиана – это типовые характеристики в тех случаях, когда совокупности однородные и значительные по численности.

Мода – это величина признака (варианта), которая чаще всего встречается в данной совокупности.

Мода используется в тех случаях, когда нужно охарактеризовать величину признака, которая наиболее часто повторяется. Например, наиболее распространенный размер заработной платы на предприятии, цены на рынке, по которой было продано наибольшее количество товара, размер обуви, который имеет наибольший спрос среди населения.

Способ расчета моды зависит от вида статистического ряда. В атрибутивных и дискретных рядах модой является варианта, которая имеет наибольшую частоту. Например, рассмотрим распределение семей по числу детей (табл. 6.3.)

Таблица 6.3.

Распределение семей по числу детей

Группы семей по числу детей

Число семей

Всего

Модой будет группа семей, которая имеет двух детей, т.к. этому значению варианты соответствует наибольшее число семей (75).

Если в распределениях все варианты встречаются одинаково часто, они все считаются модальными. Если не одна, а две варианты имеют наибольшие частоты распределение будет бимодальным.

В интервальном ряду для определения моды вначале находят модальный интервал исследуемого ряда (интервал с наибольшей частотой). Например, рассмотрим распределение работников по размеру заработной платы (табл. 6.4.).

Таблица 6.4.

Распределение работников по размеру заработной платы

Группы работников по размеру заработной платы, грн.

Количество работников

Итого

Наибольшая частота (f) соответствует интервалу, где варианта находится в границах 1700-1800. Это и будет модальный интервал.

Для расчета значения модальной величины признака, который находится в этом интервале используют зависимость:

В нашем случае (табл. 6.4):

Медианой называется варианта, которая находится в середине упорядоченного вариационного ряда. Медиана делит ряд на две, равные по численности, части.

Для ранжированного ряда с нечетным числом членов медианой является варианта, расположенная в центре ряда. Для ранжированного ряда с четным числом членов медианой будет средняя арифметическая из двух смежных вариант:

.

В интервальном вариационном ряду порядок нахождения медианы следующий:

  1. Располагаем индивидуальные значения признака ранжировано.

  2. Определяем для данного ранжированного ряда накопленные (кумулятивные) частоты (путем постепенного добавления частот, начиная с интервала, который имеет наименьшее значение признака).

  3. По данным о накопленных частотах находим медианный интервал (кумулятивная частота котрого равна или превышает половину суммы частот).

  4. Определяем медиану по формуле:

де -нижняя граница медианного интервала; — размер медианного интервала; — полусумма частот ряда; — сумма накопленных частот, предшествующих медианному интервалу;- частота медианного интервала.

Рассчитаем медиану для нашего случая (табл. 6.4):

Таблица 6.5.

Расчет медианы в интервальном ряду

Группы работников по размеру заработной платы, грн.

Количество работников

Кумулятивная частота

Итого

Половина суммы частот составляет 250 (500/2). Таким образом, медианным будет интервал со значеним заработной платы 1600-1700. Для предыдущего интервала сумма накопленнях частот составляет 160. Значит медиана будет равна:

Дополнительно к медиане для характеристики вариационного ряда рссчитываются квартили (делят ряд по сумме частот на 4 равные части) и децили (делят ряд по сумме частот на 10 равных частей).

  1. Показатели вариации

После определения средней величины встает вопрос, в какой мере индивидуальные значения признака отличаются между собой и от средней. Для этого определяют показатели вариации.

Вариацией признака называют разницу в числовых значениях признаков единиц совокупности и их колебания вокруг средней величины, которая характеризует совокупность. Чем меньше вариация, тем более однородной является совокупность и более надежной (типовой) – средняя величина.

К основным абсолютным и относительным показателям, характеризующим вариацию относятся:

— размах вариации;

— среднее линейное отклонение;

— коэффициент осцилляции;

— дисперсия;

— стандартное среднее квадратическое отклонение;

— коэффициент вариации.

Размах вариации – это разница между наибольшим и наименьшим значениями признака:

Среднее линейное отклонение – это средний модуль отклонений индивидуальных значений признака от их средней величины:

— для несгруппированных данных

— для сгруппированных данных

Коэффициент осцилляции – это отношение размаха вариации к среднему значению признака:

Дисперсия – это средняя арифметическая квадратов отклонений каждого значения признака от средней величины:

  • для несгруппированных даннях

  • для сгруппированных данных

Среднее квадратическое отклонение – это обобщающая характеристика абсолютних размеров вариации признака в совокупности.Определяется как корень квадратный из дисперсии:

Среднее квадратическое отклонение всегда выражается в тех же единицах измерения, что и признак (в метрах, тоннах, процентах, гектарах и т.д.) и является абсолютной мерой вариации.

Чем меньше среднее квадратическое отклонение, тем более типовой является средняя и тем более однородной является совокупность.

Коэффициент вариации является относительной мерой вариации и позволяет сравнивать степень вариации признаков в рядах вариации с разным уровнем средних. Рассчитывается как отношение среднего квадратического отклонения к средней величине:

Если коэффициент вариации <33 %, то такая совокупность считается однородной.

  1. Дисперсионный анализ

Основной целью дисперсионного анализа является выявление на основе величины общей дисперсии влияния отдельных факторов на вариацию признака. Для оценки доли вариации, обусловленной тем или иным признаком, совокупность разделяют на группы по тому признаку, свойства которого исследуются. Это позволяет разложить общую дисперсию на 2 дисперсии, из которых одна часть вариации определяется влиянием фактора, который положен в основу группировки, а вторая – вариацией всех факторов, кроме того, который изучается. Т.е. соответственно с правилом сложения дисперсий, если данные представлены в виде аналитической группировки, определяют общую, межгрупповую, внутригрупповую дисперсии.

Общая дисперсия характеризует вариацию признака в статистической совокупности в результате влияния всех факторов.

Общая дисперсия для сгруппированных данных определяется по формуле:

для несгруппированных даннях:

Кроме того, применяются два упрощенных способа расчета общей дисперсии:

  1. Если варианты выражены небольшими числами, дисперсия определяется как разность средних:

  1. Если варианты выражены большими числами, то применяют способ моментов:

,

где μ1 – момент первого порядка;

μ2 – момент второго порядка.

Межгрупповая дисперсия показывает уровень отклонения групповых средних от общей средней, т.е. характеризует влияние фактора, положенного в основу группировки:

Внутригрупповая дисперсия характеризует вариацию признака в средине каждой группы статистической группировки:

Средняя из внутригрупповых дисперсий определяется следующим образом:

Связь между общей дисперсией, средней из групповых и межгрупповой дисперсиями можно проследить с помощью правила сложения дисперсий:

Сущность связи между признаками характеризует коэффициент детерминации, который рассчитывается как отношение межгрупповой дисперсии к общей дисперсии:

Эмпирическое корреляционное отношение – это корень квадратный из коэффициента детерминации:

Корреляционное отношение характеризует степень приближения связи к функциональной, т.е. тесноту корреляционной зависимости и колеблется от 0 до 1.

Наряду с вариацией индивидуальных значений признака вокруг средней может наблюдаться и вариация индивидуальных долей признака вокруг средней доли. Такое изучение вариации достигается посредством вычисления и анализа следующих видов дисперсий:

— внутригрупповая:

— средняя из внутригрупповых дисперсий:

— межгрупповая:

— общая:

При этом — численность единиц в отдельных группах;

— доля изучаемого признака во всей совокупности, которая определяется по формуле:

Анализ рядов распределения

Введение

1. Характеристики центра распределения

1.1 Мода

1.2 Медиана

1.3 Показатели дифференциации

2. Характеристики вариации

2.1 Абсолютные характеристики вариации

2.1.1 Расчет дисперсии способом моментов

2.1.2 Расчет дисперсии альтернативного признака

2.1.3 Межгрупповая дисперсия. Правило сложения дисперсий

2.2 Относительные характеристики вариации

3. Теоретические кривые распределения

3.1 Нормальное распределение

3.2 Выравнивание эмпирического распределения по кривой нормального распределения

3.3 Критерии согласия

3.4 Характеристики неравномерности распределения

Введение

Ряд распределения (т.е. упорядоченное распределение единиц изучаемой совокупности на группы по определенному варьирующему признаку) характеризует состав, структуру совокупности по определенному признаку. Его строят для того, чтобы выявить характер распределения единиц совокупности по варьирующему признаку, определить закономерности в этом распределении.

Для анализа ряда распределения используют ряд статистических характеристик:

частотные характеристики;

характеристики центра распределения;

характеристики вариации;

характеристики неравномерности распределения.

Частотные характеристики ряда распределения, а именно, частоты и частости (или другое название — доля ), накопленные (или кумулятивные) частоты и частости , абсолютная и относительная плотность распределения, были рассмотрены в теме «Сводка и группировка статистических данных».

1. Характеристики центра распределения

К характеристикам центра распределения относят среднюю, моду и медиану. Эти характеристики принято также называть структурными средними, они определяют вид полигона и гистограммы, эмпирического закона распределения.

В качестве средней для характеристики центра распределения чаще всего используют среднюю арифметическую простую или взвешенную.

1.1 Мода

Мода (Мо) — это варианта, которая чаще всего встречается в изучаемой совокупности. Мода не зависит от крайних значений вариант и может применяется для характеристики центра в рядах распределения с неопределенными границами.

В дискретном вариационном ряду мода определяется визуально и равна варианте с наибольшей частотой или частостью. Данные распределения рабочих по стажу работы (см. лекцию «Сводка и группировка статистических данных») показывают, что наибольшее рабочих имеют стаж работы 4 года, т.е. варианта, равная 4, является модой признака. Мо = 4.

В интервальных рядах распределения для нахождения моды сначала по наибольшей частоте определяют модальный интервал, т.е. интервал, содержащий моду, а затем приблизительно рассчитывают ее по формуле:

,

где — нижняя граница модального интервала;

— величина модального интервала;

— частоты соответственно в предыдущем и следующим за модальным интервалах.

Встречаются ряды, которые имеют две моды (бимодальный ряд) или несколько (полимодальный).

Рассчитаем моду интервального ряда распределения рабочих по размеру заработной платы (см. лекцию «Сводка и группировка статистических данных»).

В этом вариационном ряду интервал 900-1000 грн., в который попало максимальное количество рабочих (9 чел), является модальным.

грн.

Полученное значение моды свидетельствует о том, что в рассматриваемой совокупности наиболее типичной является заработная плата 914,29 грн., что выше ранее рассчитанной средней зарплаты (870 грн).

Для ряда с неравными интервалами модальный интервал определяется по наибольшей плотности распределения, а в расчетной формуле моды вместо частот используют абсолютные плотности распределения.

Для интервальных вариационных рядов с равными интервалами моду можно приближенно определить графически.

Для этого на гистограмме этого ряда (см. гистограмму в лекции «Сводка и группировка статистических данных») выбирают самый высокий прямоугольник, который и является модальным.

Далее правую верхнюю вершину прямоугольника, предшествующего модальному (частота fMо-1), соединяют с правой верхней вершиной модального прямоугольника (частота fMо), а левую верхнюю вершину этого прямоугольника — с левой верхней вершиной прямоугольника, следующего за модальным (частота fMо+1).

Из точки пересечения опускают перпендикуляр на горизонтальную ось. Основание перпендикуляра покажет значение моды Мо. Точность определения зависит от масштаба графика.

1.2 Медиана

Медианой Ме называют такое значение признака, которое приходится на середину ранжированного ряда и делит его на две равные по числу единиц части. Таким образом, в ранжированном ряду распределения одна половина ряда имеет значения признака, превышающие медиану, другая — меньше медианы. Медиану используют вместо средней арифметической, когда крайние варианты ранжированного ряда (наименьшая и наибольшая) по сравнению с остальными оказываются чрезмерно большими или чрезмерно малыми.

В дискретном вариационном ряду, содержащем нечетное число единиц, медиана равна варианте признака, имеющей номер

,

где N — число единиц совокупности.

В дискретном ряду, состоящем из четного числа единиц совокупности, медиана определяется как средняя из вариант, имеющих номера

и : .

В распределении рабочих по стажу работы медиана равна средней из вариант, имеющих в ранжированном ряду номера 10: 2 = 5 и 10: 2 + 1 = 6. Варианты пятого и шестого признака равны 4 годам, таким образом

года

При вычислении медианы в интервальном ряду сначала находят медианный интервал, (т.е. содержащий медиану), для чего используют накопленные частоты или частости. Медианным является интервал, накопленная частота которого равна или превышает половину всего объема совокупности. Затем значение медианы рассчитывается по формуле:

,

где — нижняя граница медианного интервала; — ширина медианного интервала; — накопленная частота интервала, предшествующего медианному; — частота медианного интервала.

Рассчитаем медиану ряда распределения рабочих по размеру зарплаты (см. лекцию «Сводка и группировка статистических данных»).

Медианным является интервал заработной платы 800-900 грн., поскольку его кумулятивная частота равна 17, что превышает половину суммы всех частот (). Тогда

Ме=800+100грн.

Полученное значение говорит о том, половина рабочих имеют заработную плату ниже 875 грн., но это выше среднего ее размера.

Для определения медианы можно вместо кумулятивных частот использовать кумулятивные частости .

Медиана, как и мода, не зависит от крайних значений вариант, поэтому также применяется для характеристики центра в рядах распределения с неопределенными границами.

Свойство медианы: сумма абсолютных величин отклонений вариант от медианы меньше, чем от любой другой величины (в том числе и от средней арифметической):

Это свойство медианы используется на транспорте при проектировании расположения трамвайных и троллейбусных остановок, бензоколонок, сборочных пунктов и т. д.

Пример. На шоссе длиной 100 км расположено 10 гаражей. Для проектирования строительства бензоколонки были собраны данные о числе предполагаемых ездок на заправку по каждому гаражу.

Таблица 2 — Данные о количестве ездок на заправку по каждому гаражу.

Километр шоссе, на котором расположен гараж

Всего ездок

Проектируемое число ездок

Нужно поставить бензоколонку так, чтобы общий пробег автомашин на заправку был наименьшим.

Вариант 1. Если бензоколонку поставить в середине шоссе, т.е. на 50-ом километре (центр диапазона изменения признака), то пробеги с учетом числа ездок составят:

а) в одном направлении:

б) в противоположном:

в) общий пробег в оба направления: .

Вариант 2. Если бензоколонку поставить на среднем участке шоссе, определенном по формуле средней арифметической с учетом числа ездок:

Тогда пробеги составят:

а) в одном направлении:

б) в противоположном:

в) общий пробег в оба направления, равный меньше, чем в первом варианте на 438,5 км.

Вариант 3. Если поставить бензоколонку на 78-м километре, что будет соответствовать медиане по количеству ездок (накопленное число ездок для 60 км — 95, для 78 км — 125).

Тогда пробеги составят:

а) в одном направлении:

б) в противоположном:

в) общий пробег: , меньше общих пробегов, рассчитанных по предыдущим вариантам.

Таким образом, медиане соответствует наилучший результат, т.е. минимальный общий пробег.

Медиану можно определить графически, по кумуляте (см. лекцию «Сводка и группировка статистических данных»). Для этого последнюю ординату, равную сумме всех частот или частостей, делят пополам. Из полученной точки восстанавливают перпендикуляр до пересечения с кумулятой. Абсцисса точки пересечения и дает значение медианы.

1.3 Показатели дифференциации

Если возникает необходимость изучить структуру вариационного ряда более подробно, вычисляют значения признака, аналогичные медиане. Такие значения признака, которые делят все единицы распределения на равные численности, называют квантилями, или градиентами. Квартили и децили — частные случаи квантилей.

Квартилями (Q) называют значения признака, которые делят совокупность на четыре равные по числу единиц части. Децили (D) — признаки, делящие совокупность на десять равных частей.

Следовательно, кроме медианы, в ряду распределения имеются три квартиля и девять децилей. Медиана одновременно является вторым квартилем и пятым децилем. Расчет первого (Q1) и третьего (Q3) квартилей аналогичен расчету медианы, только вместо медианного интервала берется для первого квартиля интервал, в котором находится варианта, отсекающая ј численности частот, а для третьего квартиля — ѕ численности частот:

и .

Логика построения квинтилей и децилей аналогична.

2. Характеристики вариации

Показатели вариации характеризует колеблемость индивидуальных значений признака по отношению к среднему значению, что не менее важно, чем определение самой средней. Средняя не показывает строения совокупности, как располагаются около нее варианты осредняемого признака, сосредоточены ли они вблизи средней или значительно отклоняются от нее. Средняя величина признака в двух совокупностях может быть одинаковой, но в одном случае все индивидуальные значения отличаются от нее мало, а в другом эти отличия велики, т.е. в одном случае вариация признака мала, а в другом велика.

Это можно показать на таком примере. Предположим, что две бригады из 3-х человек каждая выполняют одинаковую работу. Количество деталей, изготовленных за смену отдельными рабочими, составило:

в первой бригаде — 95, 100, 105;

во второй бригаде — 75, 100, 125.

Средняя выработка на одного рабочего в бригадах составила

, .

Средняя выработка одинакова, но колеблемость выработки отдельных рабочих в первой бригаде значительно меньше, чем во второй.

Следовательно, чем больше варианты отдельных единиц совокупности различаются между собой, тем больше они отличаются от своей средней, и наоборот — варианты, мало отличающиеся друг от друга, более близки по значению к средней, которая в таком случае будет более реально представлять всю совокупность.

Поэтому для характеристики и измерения вариации признака в совокупности кроме средней используют следующие показатели:

абсолютные — вариационный размах, среднее линейное и среднее квадратическое отклонение, дисперсию;

относительные — коэффициенты вариации.

2.1 Абсолютные характеристики вариации

Вариационный размах (или размах вариации) — это разница между максимальным и минимальным значениями признака:

В нашем примере размах вариации сменной выработки рабочих составляет: в первой бригаде R=105-95=10 дет., во второй бригаде R=125-75=50 дет. (в 5 раз больше). Это говорит о том, что выработка 1-й бригады более «устойчива», но резервов роста выработки больше у второй бригады, т.к в случае достижения всеми рабочими максимальной для этой бригады выработки, ею может быть изготовлено 3*125=375 деталей, а в 1-й бригаде только 105*3=315 деталей.

Если крайние значения признака не типичны для совокупности, то используют квартильный или децильный размахи. Квартильный размах RQ= Q3-Q1 охватывает 50% объема совокупности, децильный размах первый RD1 = D9-D1 охватывает 80% данных, второй децильный размах RD2= D8-D2 — 60%.

Недостатком показателя вариационного размаха является, но что его величина не отражает все колебания признака.

Простейшим обобщающим показателем, отражающим все колебания признака, является среднее линейное отклонение, представляющее собой среднюю арифметическую абсолютных отклонений отдельных вариант от их средней величины: для несгруппированных данных

,

для сгруппированных данных

,

где хi — значение признака в дискретном ряду или середина интервала в интервальном распределении.

В вышеприведенных формулах разности в числителе взяты по модулю, иначе, согласно свойству средней арифметической, числитель всегда будет равен нулю. Поэтому среднее линейное отклонение в статистической практике применяют редко, только в тех случаях, когда суммирование показателей без учета знака имеет экономический смысл. С его помощью, например, анализируется состав работающих, рентабельность производства, оборот внешней торговли.

Дисперсия признака — это средний квадрат отклонений вариант от их средней величины:

простая дисперсия

,

взвешенная дисперсия

Формулу для расчета дисперсии можно упростить:

Таким образом, дисперсия равна разности средней из квадратов вариант и квадрата средней из вариант совокупности:

Однако, вследствие суммирования квадратов отклонений дисперсия дает искаженное представление об отклонениях, поэтому ее на основе рассчитывают среднее квадратическое отклонение, которое показывает, на сколько в среднем отклоняются конкретные варианты признака от их среднего значения. Вычисляется путем извлечения квадратного корня из дисперсии:

для несгруппированных данных

,

для вариационного ряда

Чем меньше значение дисперсии и среднего квадратического отклонения, тем однороднее совокупность, тем более надежной (типичной) будет средняя величина.

Среднее линейное и среднее квадратичное отклонение — именованные числа, т.е. выражаются в единицах измерения признака, идентичны по содержанию и близки по значению. Рассчитывать абсолютные показатели вариации рекомендуется с помощью таблиц.

Таблица 3 — Расчет характеристик вариации (на примере срока данных о сменной выработке рабочих бригады)

Группы рабочих по выработке, шт.

Число рабочих,

Середина интервала,

Расчетные значения

Итого:

Среднесменная выработка рабочих:

Среднее линейное отклонение:

Дисперсия выработки:

Среднее квадратическое отклонение выработки отдельных рабочих от средней выработки:

2.1.1 Расчет дисперсии способом моментов

Вычисление дисперсий связано с громоздкими расчетами (особенно если средняя величина выражена большим числом с несколькими десятичными знаками). Расчеты можно упростить, если использовать упрощенную формулу и свойства дисперсии.

Дисперсия обладает следующими свойствами:

если все значения признака уменьшить или увеличить на одну и ту же величину А, то дисперсия от этого не уменьшится:

,

если все значения признака уменьшить или увеличить в одно и то же число раз (h раз), то дисперсия соответственно уменьшится или увеличится в раз.

То есть, если дисперсию уменьшенных значений признака описать следующим выражением

, то или

Используя свойства дисперсии и сначала уменьшив все варианты совокупности на величину А, а затем разделив на величину интервала h, получим формулу вычисления дисперсии в вариационных рядах с равными интервалами способом моментов:

,

где — дисперсия, исчисленная по способу моментов;

h — величина интервала вариационного ряда;

— новые (преобразованные) значения вариант;

А — постоянная величина, в качестве которой используют середину интервала, обладающего наибольшей частотой; либо вариант, имеющий наибольшую частоту;

— квадрат момента первого порядка;

— момент второго порядка.

Выполним расчет дисперсии способом моментов на основе данных о сменной выработке рабочих бригады.

Таблица 4 — Расчет дисперсии по способу моментов

Порядок расчета:

определяем постоянное число А, это варианта с наибольшей частотой: А=220;

определяем ;

рассчитываем и ;

определяем моменты 1-го и 2-го порядка:

рассчитываем дисперсию:

2.1.2 Расчет дисперсии альтернативного признака

Среди признаков, изучаемых статистикой, есть и такие, которым свойственны лишь два взаимно исключающих значения.

Это альтернативные признаки.

Им придается соответственно два количественных значения: варианты 1 и 0.

Частостью варианты 1, которая обозначается p, является доля единиц, обладающих данным признаком. Разность 1-р=q является частостью варианты 0. Таким образом,

хi

Средняя арифметическая альтернативного признака

, т.к p+q=1.

Дисперсия альтернативного признака

, т.к1-р=q

Таким образом, дисперсия альтернативного признака равна произведению доли единиц, обладающих данным признаком, и доли единиц, не обладающих этим признаком.

Если значения 1 и 0 встречаются одинаково часто, т.е. p=q, дисперсия достигает своего максимума pq=0,25.

Дисперсия альтернативного признака используется в выборочных обследованиях, например, качества продукции.

2.1.3 Межгрупповая дисперсия. Правило сложения дисперсий

Дисперсия, в отличие от других характеристик вариации, является аддитивной величиной. То есть в совокупности, которая разделена на группы по факторному признаку х, дисперсия результативного признака y может быть разложена на дисперсию в каждой группе (внутригрупповую) и дисперсию между группами (межгрупповую). Тогда, наряду с изучением вариации признака по всей совокупности в целом, становится возможным изучение вариации в каждой группе, а также между этими группами.

Общая дисперсияизмеряет вариацию признака у по всей совокупности под влиянием всех факторов, вызвавших эту вариацию (отклонения). Она равна среднему квадрату отклонений отдельных значений признака у от общей средней и может быть вычислена как простая или взвешенная дисперсия.

Межгрупповая дисперсия характеризует вариацию результативного признака у, вызванную влиянием признака-фактора х, положенного в основу группировки. Она характеризует вариацию групповых средних и равна среднему квадрату отклонений групповых средних от общей средней :

,

где — средняя арифметическая i-той группы;

— численность единиц в i-той группе (частота i-той группы);

— общая средняя совокупности.

Внутригрупповая дисперсия отражает случайную вариацию, т.е. ту часть вариации, которая вызвана влиянием неучтенных факторов и не зависит от признака-фактора, положенного в основу группировки. Она характеризует вариацию индивидуальных значений относительно групповых средних, равна среднему квадрату отклонений отдельных значений признака у внутри группы от средней арифметической этой группы (групповой средней) и вычисляется как простая или взвешенная дисперсия для каждой группы:

или ,

где — число единиц в группе.

На основании внутригрупповых дисперсий по каждой группе можно определить общую среднюю из внутригрупповых дисперсий:

Взаимосвязь между тремя дисперсиями получила название правила сложения дисперсий, согласно которому общая дисперсия равна сумме межгрупповой дисперсии и средней из внутригрупповых дисперсий:

Пример. При изучении влияния тарифного разряда (квалификации) рабочих на уровень производительности их труда получены следующие данные.

Таблица 5 — Распределение рабочих по среднечасовой выработке.

АНАЛИЗ РЯДОВ РАСПРЕДЕЛЕНИЯ

Введение

1. Характеристики центра распределения

1.1 Мода

1.2 Медиана

1.3 Показатели дифференциации

2. Характеристики вариации

2.1 Абсолютные характеристики вариации

2.1.1 Расчет дисперсии способом моментов

2.1.2 Расчет дисперсии альтернативного признака

2.1.3 Межгрупповая дисперсия. Правило сложения дисперсий

2.2 Относительные характеристики вариации

3. Теоретические кривые распределения

3.1 Нормальное распределение

3.2 Выравнивание эмпирического распределения по кривой нормального распределения

3.3 Критерии согласия

3.4 Характеристики неравномерности распределения

Введение

Ряд распределения (т.е. упорядоченное распределение единиц изучаемой совокупности на группы по определенному варьирующему признаку) характеризует состав, структуру совокупности по определенному признаку. Его строят для того, чтобы выявить характер распределения единиц совокупности по варьирующему признаку, определить закономерности в этом распределении.

Для анализа ряда распределения используют ряд статистических характеристик:

частотные характеристики;

характеристики центра распределения;

характеристики вариации;

характеристики неравномерности распределения.

Частотные характеристики ряда распределения, а именно, частоты и частости (или другое название — доля ), накопленные (или кумулятивные) частоты и частости , абсолютная и относительная плотность распределения, были рассмотрены в теме «Сводка и группировка статистических данных».

1. Характеристики центра распределения

К характеристикам центра распределения относят среднюю, моду и медиану. Эти характеристики принято также называть структурными средними, они определяют вид полигона и гистограммы, эмпирического закона распределения.

В качестве средней для характеристики центра распределения чаще всего используют среднюю арифметическую простую или взвешенную.

1.1 Мода

Мода (Мо) — это варианта, которая чаще всего встречается в изучаемой совокупности. Мода не зависит от крайних значений вариант и может применяется для характеристики центра в рядах распределения с неопределенными границами.

В дискретном вариационном ряду мода определяется визуально и равна варианте с наибольшей частотой или частостью. Данные распределения рабочих по стажу работы (см. лекцию «Сводка и группировка статистических данных») показывают, что наибольшее рабочих имеют стаж работы 4 года, т.е. варианта, равная 4, является модой признака. Мо = 4.

В интервальных рядах распределения для нахождения моды сначала по наибольшей частоте определяют модальный интервал, т.е. интервал, содержащий моду, а затем приблизительно рассчитывают ее по формуле:

,

где — нижняя граница модального интервала;

— величина модального интервала;

— частоты соответственно в предыдущем и следующим за модальным интервалах.

Встречаются ряды, которые имеют две моды (бимодальный ряд) или несколько (полимодальный).

Рассчитаем моду интервального ряда распределения рабочих по размеру заработной платы (см. лекцию «Сводка и группировка статистических данных»).

В этом вариационном ряду интервал 900-1000 грн., в который попало максимальное количество рабочих (9 чел), является модальным.

грн.

Полученное значение моды свидетельствует о том, что в рассматриваемой совокупности наиболее типичной является заработная плата 914,29 грн., что выше ранее рассчитанной средней зарплаты (870 грн).

Для ряда с неравными интервалами модальный интервал определяется по наибольшей плотности распределения, а в расчетной формуле моды вместо частот используют абсолютные плотности распределения.

Для интервальных вариационных рядов с равными интервалами моду можно приближенно определить графически.

Для этого на гистограмме этого ряда (см. гистограмму в лекции «Сводка и группировка статистических данных») выбирают самый высокий прямоугольник, который и является модальным.

Далее правую верхнюю вершину прямоугольника, предшествующего модальному (частота fMо-1), соединяют с правой верхней вершиной модального прямоугольника (частота fMо), а левую верхнюю вершину этого прямоугольника — с левой верхней вершиной прямоугольника, следующего за модальным (частота fMо+1).

Из точки пересечения опускают перпендикуляр на горизонтальную ось. Основание перпендикуляра покажет значение моды Мо. Точность определения зависит от масштаба графика.

1.2 Медиана

Медианой Ме называют такое значение признака, которое приходится на середину ранжированного ряда и делит его на две равные по числу единиц части. Таким образом, в ранжированном ряду распределения одна половина ряда имеет значения признака, превышающие медиану, другая — меньше медианы. Медиану используют вместо средней арифметической, когда крайние варианты ранжированного ряда (наименьшая и наибольшая) по сравнению с остальными оказываются чрезмерно большими или чрезмерно малыми.

В дискретном вариационном ряду, содержащем нечетное число единиц, медиана равна варианте признака, имеющей номер

,

где N — число единиц совокупности.

В дискретном ряду, состоящем из четного числа единиц совокупности, медиана определяется как средняя из вариант, имеющих номера

и : .

В распределении рабочих по стажу работы медиана равна средней из вариант, имеющих в ранжированном ряду номера 10: 2 = 5 и 10: 2 + 1 = 6. Варианты пятого и шестого признака равны 4 годам, таким образом

года

При вычислении медианы в интервальном ряду сначала находят медианный интервал, (т.е. содержащий медиану), для чего используют накопленные частоты или частости. Медианным является интервал, накопленная частота которого равна или превышает половину всего объема совокупности. Затем значение медианы рассчитывается по формуле:

,

где — нижняя граница медианного интервала; — ширина медианного интервала; — накопленная частота интервала, предшествующего медианному; — частота медианного интервала.

Рассчитаем медиану ряда распределения рабочих по размеру зарплаты (см. лекцию «Сводка и группировка статистических данных»).

Медианным является интервал заработной платы 800-900 грн., поскольку его кумулятивная частота равна 17, что превышает половину суммы всех частот (). Тогда

Ме=800+100грн.

Полученное значение говорит о том, половина рабочих имеют заработную плату ниже 875 грн., но это выше среднего ее размера.

Для определения медианы можно вместо кумулятивных частот использовать кумулятивные частости .

Медиана, как и мода, не зависит от крайних значений вариант, поэтому также применяется для характеристики центра в рядах распределения с неопределенными границами.

Свойство медианы: сумма абсолютных величин отклонений вариант от медианы меньше, чем от любой другой величины (в том числе и от средней арифметической):

Это свойство медианы используется на транспорте при проектировании расположения трамвайных и троллейбусных остановок, бензоколонок, сборочных пунктов и т. д.

Пример. На шоссе длиной 100 км расположено 10 гаражей. Для проектирования строительства бензоколонки были собраны данные о числе предполагаемых ездок на заправку по каждому гаражу.

Таблица 2 — Данные о количестве ездок на заправку по каждому гаражу.

Километр шоссе, на котором расположен гараж7262837404660788692Всего ездокПроектируемое число ездок101552052515301065200

Нужно поставить бензоколонку так, чтобы общий пробег автомашин на заправку был наименьшим.

Вариант 1. Если бензоколонку поставить в середине шоссе, т.е. на 50-ом километре (центр диапазона изменения признака), то пробеги с учетом числа ездок составят:

а) в одном направлении:

б) в противоположном:

в) общий пробег в оба направления: .

Вариант 2. Если бензоколонку поставить на среднем участке шоссе, определенном по формуле средней арифметической с учетом числа ездок:

Тогда пробеги составят:

а) в одном направлении:

б) в противоположном:

в) общий пробег в оба направления, равный меньше, чем в первом варианте на 438,5 км.

Вариант 3. Если поставить бензоколонку на 78-м километре, что будет соответствовать медиане по количеству ездок (накопленное число ездок для 60 км — 95, для 78 км — 125).

Тогда пробеги составят:

а) в одном направлении:

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *