Группировка данных в статистике. Формула Стерджесса
Провести группировку жителей поселка по доходу с равными интервалами и оптимальным числом групп и представить полученные данные в виде статистического ряда распределения и гистограммы. На основе гистограммы построить полигон, кумуляту и огиву распределения жителей поселка по доходу.
№ | Дох. | № | Дох. |
1 | 3820 | 13 | 6660 |
2 | 9470 | 14 | 5490 |
3 | 3490 | 15 | 5980 |
4 | 7790 | 16 | 6250 |
5 | 4210 | 17 | 8390 |
6 | 3870 | 18 | 3630 |
7 | 4490 | 19 | 6090 |
8 | 9620 | 20 | 10450 |
9 | 6200 | 21 | 6800 |
10 | 6350 | 22 | 6470 |
11 | 7430 | 23 | 9160 |
12 | 7670 | 24 | 5110 |
Определяем число групп по формуле Стерджесса:
n = 1 + 3,322lgN = 1 + 3,322lg24 = 5,6
принимаем n = 5
Определяем шаг интервала:
Xmax, Xmin- максимальное и минимальное значение
n – число групп
Произведем группировку с равными интервалами
Интервалы | Диапазон | частота, f | Накопленная частота, f |
1 | 3490 — 4882 | 6 | 6 |
| 2 | 4882 – 6274 | 6 | 12 |
3 | 6274 – 7666 | 5 | 17 |
4 | 7666 – 9058 | 3 | 20 |
5 | 9058 — 10450 | 4 | 24 |
Гистограмма.
Полигон. Кумулята. ОгиваЕсли Вас интересуют задачи по статистике заходите сюда.
Материалы сайта
Обращаем Ваше внимание на то, что все материалы опубликованы для образовательных целей.
Статистическая сводка и группировка. Решение задач и контрольных работ по статистике онлайн
Краткая теория
Группировка — это разграничение изучаемой совокупности по значениям одного или нескольких признаков на качественно однородные группы и характеристика их системой показателей. В зависимости от поставленной цели и конкретного содержания исследуемого материала посредством группировок решают три основные задачи:
- выделяются социально-экономические
типы явлений;выявляются состав и структура совокупности;устанавливаются, изучаются причинно-следственные связи между признаками явлений.
Соответственно
этим задачам используются три вида группировок — типологические, структурные и
факторные.
На основе типологических группировок осуществляется образование однокачественных групп или типов явлений. Структурные группировки позволяют выявить внутреннее состояние явлений. При построении структурных группировок по количественным признакам устанавливаются границы выделяемых групп. Решая вопрос о величине интервала групп (или, что то же, о числе групп), необходимо иметь в виду, что следует выбирать такое число групп, чтобы при этом не наблюдалось существенных отклонений от равномерного распределения внутри каждой группы. Величина равного интервала в этом случае определяется по формуле:
и -минимальное и максимальное значения группировочного признака; n — число выделяемых групп. Хороший способ приближенного определения интервала группировки может быть получен на основе формулы Стерджесса:
где
-
число единиц совокупности.
Статистические ряды, в которых показывается только распределение единиц в изучаемой совокупности в зависимости от величины признака, обычно называют рядами распределения или вариационными рядами.
Величина равного интервала при построении вариационных рядов распределения используется в тех случаях, если соотношение максимального и минимального значений группировочного признака не превышает десятикратного значения. В случаях значительной вариации группировочного признака целесообразно применять кратные интервалы. В практике статистических исследований обычно используют удвоенные кратные интервалы, т. е. величина каждого последующего интервала по сравнению с предыдущим удваивается. Для выявления специфических особенностей распределений, допустим изучение характера концентрации производства, могут быть использованы неравные интервалы.
Интервалы группировки считаются обоснованными, если
коэффициент вариации признака в них не превышают 33%.
Пример решения задачи
Имеются следующие данные об урожайности картофеля и количеством внесенных минеральных удобрений по 10 сельскохозяйственным предприятиям:
| Номер колхоза | Урожайность, ц/га | Внесено минеральных удобрений на 1 га, кг | Номер колхоза | Урожайность, ц/га | Внесено минеральных удобрений на 1 га, кг |
| 1 | 128 | 140 | 6 | 183 | 197 |
| 2 | 179 | 262 | 7 | 201 | 246 |
| 3 | 221 | 289 | 8 | 195 | 276 |
| 4 | 136 | 191 | 9 | 141 | 187 |
| 5 | 164 | 202 | 10 | 192 | 253 |
Для изучения зависимости
между урожайностью картофеля и внесенными минеральными удобрениями произведите
группировку сельскохозяйственных предприятий, образовав 3 группы предприятий с
равными интервалами.
По каждой группе и по совокупности в целом подсчитайте:
- число предприятий;
- среднюю урожайность картофеля;
- средний объем внесенных минеральных удобрений на 1 га, кг.
Результаты представьте в таблице и сделайте выводы.
Если не находите примера, аналогичного вашему, если сами не успеваете выполнить работу, если впереди экзамен по предмету и нужна помощь — свяжитесь со мной:
ВКонтакте
WhatsApp
Telegram
Я буду работать с вами, над вашей проблемой, пока она не решится.
Решение
Расположим предприятия в таблице по возрастанию урожайности.
Произведем расчет групп:
Длина интервала:
1-я группа: 128 –159 ц/га
2-я группа: 159 –190 ц/га
3-я группа: 190 –221 ц/га
| Номер колхоза | Урожайность, ц/га | Внесено минеральных удобрений на 1 га, кг |
| 128 — 159 | ||
| 1 | 128 | 140 |
| 4 | 136 | 191 |
| 9 | 141 | 187 |
| Итого | 405 | 518 |
| 159 – 190 | ||
| 5 | 164 | 202 |
| 2 | 179 | 262 |
| 6 | 183 | 197 |
| Итого | 526 | 661 |
| 190 – 221 | ||
| 10 | 192 | 253 |
| 8 | 195 | 276 |
| 7 | 201 | 246 |
| 3 | 221 | 289 |
| Итого | 809 | 1064 |
Получаем следующую группировку:
Группировка сельскохозяйственных предприятий по урожайности
| Урожайность, ц/га | Число предприятий | Средняя урожайность, ц/га | Средний объем внесенных минеральных удобрений на 1 га, кг |
| 128 – 159 | 3 | 135,0 | 172,7 |
| 159 – 190 | 3 | 175,3 | 220,3 |
| 190 -221 | 4 | 202,3 | 266,0 |
| Итого | 10 | 174,0 | 224,3 |
Таким
образом получаем, что между урожайностью и внесением
минеральных удобрений существует прямая зависимость.
Чем больше урожайность на
предприятии, тем больше предприятие вносило минеральных удобрений на 1 га.
Правило Стерджеса для определения числа классов $\\left( n \\right)$ в частотном распределении с общей частотой $N$: (A) $n = 1 + 2,3108\\,N$(B) $ N = 1 + 3.3108\\,N$(C) $n = 1 + 3.3\\log \\,N$(D) $n = 1
Ответ
Подтверждено
169,4 тыс.+ просмотров
Подсказка: В этом вопросе нам просто нужно вспомнить формулу правила Стерджеса, а затем мы подставим значение количества классов, значение общей частоты в правиле Стерджеса. Правило Стерджеса используется для определения количества классов, когда дано общее количество наблюдений.
Используемая формула: Правило Стерджеса для определения количества классов определяется как $K = 1 + 3,322\log \,N$, где $K$ — количество классов, а $N$ — общая частота.
Полное пошаговое решение:
Количество классов, указанное в вопросе, равно $n$, а общая частота равна $N$
Мы знаем, что правило Стерджеса используется для определения количества классов, которые используются в гистограмма или частотное распределение.
Из правила Стерджеса мы можем написать.
$K = 1 + 3,322\log \,N$
Подставьте значения количества классов и общей частоты в приведенное выше уравнение. Следовательно, мы получим
$n = 1 + 3,322\log \,N$
Мы можем записать приведенное выше уравнение в виде $n = 1 + 3,3\log \,N$ .
Следовательно, правильный вариант (C).
Дополнительная информация: в этом примере мы увидим, как применять правило Стерджеса. Пример: если общее количество наблюдений равно $1000$, то мы можем найти количество классов по правилу Стерджеса $K = 1 + 3,322\log \,N$
$
\Стрелка вправо K = 1 + 3,322\log 1000 \\
\Стрелка вправо K = 1 + 3,322\left( 3 \right) = 10,966
$
Примечание: В этом вопросе важно данное правило. Стерджес, который мы должны помнить. Правило Стерджеса является функцией $\log $, поэтому при решении вопроса, связанного с правилом Стерджеса, просто убедитесь, что нас устраивают свойства $\log $.
Недавно обновленные страницы
Рассчитать изменение энтропии, связанное с преобразованием класса 11 химии JEE_Main
Закон, сформулированный доктором Нернстом, представляет собой Первый закон термодинамики Химический класс 11 JEE_Main
Для реакции при rm0rm0rmC и нормальном давлении Химический класс 11 JEE_Main
Двигатель, работающий между rm15rm0rm0rmC и rm2rm5rm0rmC Класс 11 2 Для химической реакции JEE03
rm2Clg to rmCrmlrm2rmg знаки химии класса 11 JEE_Main
Изменение энтальпии для перехода жидкой воды класса 11 химии JEE_Main
Рассчитать изменение энтропии, связанное с конверсией химии класса 11 JEE_Main
Закон, сформулированный доктором Нернстом, представляет собой Первый закон термодинамики Химический класс 11 JEE_Main
Для реакции при rm0rm0rmC и нормальном давлении Химический класс 11 JEE_Main
Двигатель, работающий между rm15rm0rm0rmC и rm2rm5rm0rmC Класс 11 2 Для химической реакции JEE03
rm2Clg to rmCrmlrm2rmg признаки 11 класса химии JEE_Main
Изменение энтальпии перехода жидкой воды 11 класса химии JEE_Main
Тенденции сомнений
Правило Стерджа; Метод выбора количества интервалов в гистограмме мощная гистограмма.
Эта специализированная гистограмма является одной из наиболее распространенных отправных точек для анализа непрерывных данных. Он не только отображает частоту числовых данных в диапазоне значений, но также дает подсказки относительно лежащего в основе данных распределения вероятностей. Хотя гистограммы, подобные показанной выше, могут быть автоматически сгенерированы статистическими программами, такими как Minitab, аналитики нередко строят их «с нуля» с помощью программ для работы с электронными таблицами.
Одним из предпочтительных аспектов построения гистограммы является выбор подходящего количества бинов, поскольку на этот вопрос нет правильного или неправильного ответа. Но слишком мало бинов «слишком сглаживает» данные, потенциально маскируя намеки на основное распределение. А слишком много бинов делают данные прерывистыми и прерывистыми.
В начале 20-го века немецкий статистик Герберт Стерджес сформулировал метод (теперь называемый правилом Стерджеса) выбора оптимального количества интервалов в гистограмме, который сводит к минимуму возможность возникновения этих ловушек.
Его формула проста:
k = 1 + 3,322 log n
Где:
k = количество интервалов
n = количество наблюдений в наборе данных.
Применяя правило Стерджа к некоторым распространенным размерам выборки, мы получаем следующее количество бинов:
Большинство специалистов по визуализации данных согласны с тем, что правило Стерджа обеспечивает наиболее привлекательный результат, когда данные 1) не сильно показаны и 2) содержат между 30 и 200 наблюдений. Применение правила Стерджеса к наборам данных с более чем 200 точками может снова привести к чрезмерному сглаживанию, но оно по-прежнему остается хорошей отправной точкой.
Менее популярные, но не обязательно менее эффективные способы выбора наилучшего количества интервалов для вашей гистограммы включают выбор квадратного корня, правило Райса, формулу Доана, нормальное эталонное правило Скотта и выбор Фридмана-Диакониса.
После того, как вы выбрали количество ячеек, рассчитайте минимальную ширину ячейки по следующей формуле:
Минимальная ширина ячейки = (Максимальное наблюдаемое значение – Минимальное наблюдаемое значение) / k до удобного десятичного числа, чтобы сделать приращения по оси x немного более читабельными.
