как найти, чем отличается от генеральной, формула для вычисления
Содержание:
- Генеральная и выборочная дисперсия
- Выборочная дисперсия, определение, формулы для вычисления
- Генеральная дисперсия, определение, что является оценкой, формулы для вычисления
- Оценки параметров распределения
- Примеры решения задач
Содержание
- Генеральная и выборочная дисперсия
- Выборочная дисперсия, определение, формулы для вычисления
- Генеральная дисперсия, определение, что является оценкой, формулы для вычисления
- Оценки параметров распределения
- Примеры решения задач
Генеральная и выборочная дисперсия
Для анализа полученных данных в математической статистике используют различные виды показателей вариации, среди которых:
- размах вариации;
- среднее абсолютное отклонение;
- дисперсия.
Разберем понятие дисперсии, ее виды и свойства.
Дисперсия — величина, являющаяся мерой разброса полученных в ходе наблюдений данных относительно истинного значения.
Осторожно! Если преподаватель обнаружит плагиат в работе, не избежать крупных проблем (вплоть до отчисления). Если нет возможности написать самому, закажите тут.
Дисперсия является точечной оценкой параметра, так как имеет одно конкретное числовое значение.
Статистический анализ при исследовании некоторого объекта может быть сплошным или выборочным в зависимости от охватываемого объема данных.
В обоих вариантах результаты анализа распространяют на генеральную совокупность, однако при сплошном анализе наблюдению подвергают абсолютно все имеющиеся данные. Выборочный анализ, напротив, предполагает наблюдение только за некоторой выбранной частью данных. При этом выбранная совокупность должна сохранять структуру и закономерности генеральной.
Дисперсию также делят на два вида в зависимости от используемых данных:
- генеральная дисперсия;
Значение теоретической дисперсии бывает сложно вычислить из-за большого объема данных или их недостатка. Тогда для оценки используют выборочную дисперсию. Но если для оценки генеральной дисперсии применить выборочную, это приведет к возникновению ряда систематических ошибок. В результате оценка будет произведена неверно, а значение генеральной дисперсии занижено.
Чтобы устранить возникающую погрешность в качестве оценки генеральной дисперсии используют исправленную или несмещенную выборочную дисперсию, формула которой представлена выше.
Оценки параметров распределения
Оценкой параметра в статистике считают численное значение какого-либо параметра данной выборки.
Приведем оценки параметров распределения случайной величины, которые связаны с дисперсией.
Среднеквадратическое отклонение (δ) — характеристика рассеивания случайной величины относительно ее математического ожидания. Определяется как корень квадратный из дисперсии.
2}9\cdot\frac98=\frac{398}8\approx50.\)Теперь найдем среднеквадратическое отклонение:
\(\delta=\sqrt{D_в}=\sqrt{\frac{398}8}=\frac{\sqrt{199}}2\approx7.\)
Насколько полезной была для вас статья?
У этой статьи пока нет оценок.
Выделите текст и нажмите одновременно клавиши «Ctrl» и «Enter»
Поиск по содержимому
Почему выборочная дисперсия делится на n-1
Перевод Ссылка на автора
фото Тим Беннетт на Unsplash
Если вы читаете эту статью, я предполагаю, что вы столкнулись с формулой выборочной дисперсии и знаете, что она представляет. Но остается загадкой, почему знаменатель
Оглавление
- настройки
- 1. Степень свободы
- 2. Источник смещения
- 3. Исправление Бесселя
Первоначально опубликовано на edenau.github.io ,
терминология
Население: набор, который содержитВСЕчлены группы
Образец: набор, который содержитнесколькоЧлены населения (технически это множественная часть населения)Независимые и одинаково распределенные (i.i.d.) случайные величины:
Предположение, что все образцы (а)взаимно независимыеи (б) имеют одинаковое распределение вероятностей.Центральная предельная теорема:
Распределение выборки из i.i.d. случайные величины имеют тенденцию кнормальное (гауссово) распределениекогда размер выборки достаточно велик.Ожидаемое значение:
Долгосрочный среднийценностьповторений одного и того же эксперимента.Беспристрастная оценка:
фото Остин Нил на Unsplash
Беспристрастная оценкаожидаемое значениеравно истинному значению оцениваемого параметра. Другими словами, распределения несмещенных оценок центрированы на правильном значении.Учитывая большое распределение населения Гаусса снеизвестныйСредняя численность населенияμи дисперсия населенияσ², мы рисуемNi.i.d. образцы из популяции, так что для каждого образцаx_iиз набораИкс,
В то время как ожидаемое значениеx_iявляетсяμ, ожидаемое значениеx_i²являетсябольше, чемμ², Это из-за нелинейного отображения функции квадрата, где приращение больших чисел больше, чем приращение меньших чисел. Например, множество (1,2,3,4,5) имеет среднее значение 3 и дисперсию 2. Возводя в квадрат каждый элемент, мы получаем (1,4,9,16,25) со средним значением 11 = 3² + 2.Нам нужно это свойство на более позднем этапе. μ, у нас есть
Подставим эти формулы обратно, и мы обнаружим, чтоожидаемое значениепсевдо-дисперсии это не популяционная дисперсия, но(П-1) / пэтого Поскольку коэффициент масштабирования меньше1для всего конечного позитиваNэто еще раз доказывает, что наша псевдоверсия недооценивает истинную популяционную дисперсию.
Чтобы настроить объективную оценку дисперсии, мы просто применяемКоррекция Бесселяэто приводит ожидаемое значение оценки в соответствие с истинной дисперсией населения.
Там у вас есть это. Мы определяемs²таким образом, что этонесмещенная выборочная дисперсия,(П-1)знаменатель возникает из поправки Бесселя, которая является результатом1 / пвероятность отбора одного и того же образца (с заменой) в двух последовательных испытаниях.
фото брак с фредди на UnsplashПо мере увеличения количества образцов до бесконечностип → ∞Смещение уходит (п-1) / п → 1, поскольку вероятность отбора одной и той же выборки в двух испытаниях имеет тенденцию к0,
Статьи по Теме
Спасибо за чтение. Если вы заинтересованы в визуализации данных, вам могут пригодиться следующие статьи:
Визуализация Bike Mobility в Лондоне с использованием интерактивных карт и анимации
Изучение инструментов визуализации данных в Python
towardsdatascience.com
Вы выжили бы на Титанике?
Путешествие по непотопляемому — чему ИИ может научиться после катастрофы
hackernoon.com
Первоначально опубликовано на edenau.github.io ,
R: Выборочная дисперсия и стандартное отклонение
Дисперсия и SD
R может рассчитать выборочную дисперсию и выборочное стандартное отклонение наших данных о весе крупного рогатого скота, используя следующие инструкции:# введите данные у=с(445, 530, 540, 510, 570, 530, 545, 545, 505, 535, 450, 500, 520, 460, 430, 520, 520, 430, 535, 535, 475, 545, 420, 495, 485, 570, 480, 495, 470, 490)
вар(у) сд (г)
Предоставление:
> вар(у)
[1] 1713. 333
> сд(у)
[1] 41.39243Отклонение от частот и средних точек
R может вычислить дисперсию по частотам ( f ) частотного распределения со средними точками класса (y), используя следующие инструкции: 92) / (сумма(f)-1)Дарение:
[1] 143.8768 - Примечание:
- y=c(110, 125, 135, 155) копирует средние точки интервала класса в переменную с именем y.
- f=c(23, 15, 6, 2) копирует частоту каждого класса в переменную с именем f.
- ybar=sum(y*f)/sum(f) создает переменную с именем ybar, содержащую среднее арифметическое, рассчитанное на основе этих частот и средних точек. 92)/(сумма(f)-1)
- Помните, что это дает только оценку дисперсии, которую вы могли бы получить из исходных данных, и зависит от выбора средних точек и количества используемых интервалов классов.
Выборочная дисперсия
Выборочная дисперсия относится к дисперсии выборки, а не генеральной совокупности. Дисперсия — это статистическое измерение изменчивости, показывающее, насколько данные в наборе отличаются от своего среднего значения; более высокая дисперсия указывает на более широкий диапазон значений в наборе, а более низкая дисперсия указывает на более узкий диапазон. Он часто используется вместе с другими мерами центральной тенденции, такими как среднее значение, медиана и мода, которые иногда могут давать неполное представление данных. Например, два набора данных могут иметь одно и то же среднее, но очень разные формы в зависимости от дисперсии:
На приведенном выше рисунке оба набора данных имеют одинаковое среднее значение, но очень разные распределения. Распределение, обведенное синим цветом, имеет гораздо более высокую дисперсию, чем распределение, выделенное зеленым цветом. Учитывая только среднее значение обоих наборов данных, можно сделать вывод, что данные одинаковы или очень похожи, но, учитывая дисперсию, мы видим, что данные на самом деле сильно различаются. Это одна из причин, по которой важно учитывать ряд статистических показателей: разные показатели предоставляют разную информацию, и ни один показатель не может действительно сказать нам все, что мы можем узнать из заданного набора данных.
Выборка и совокупность
В контексте статистики совокупность — это целая группа объектов или наблюдений. Статистическая популяция не обязательно должна быть какой-то группой людей; он может состоять из роста, веса, результатов тестов, температуры и так далее.
В то время как совокупность представляет собой целую группу объектов или наблюдений, выборка представляет собой любую меньшую совокупность указанных объектов или наблюдений, взятых из совокупности. Выборка часто используется в статистических экспериментах, потому что во многих случаях может оказаться непрактичным или даже невозможным собрать данные для всего населения. Например, может быть нецелесообразно собирать данные о весе всех студентов, посещающих крупный университет. Однако данные могут быть собраны из выборки учащихся, а статистические показатели (включая дисперсию) могут использоваться для того, чтобы делать выводы об остальной части населения на основе выборки.
Формула дисперсии выборки
Дисперсия выборки, s 2 , может быть вычислена по формуле
где x i — i-й элемент выборки, x — среднее значение, а n — размер выборки. .
Значение выражения
называется суммой квадратов (СС). Это выражение стоит отметить, поскольку оно используется как часть ряда других статистических показателей в дополнение к дисперсии. Как правило, более высокое значение суммы квадратов указывает на большую степень изменчивости, в то время как более низкое значение указывает на то, что данные меньше варьируются по отношению к среднему значению.
Поскольку наборы данных в экспериментах обычно большие, статистические показатели, такие как дисперсия, обычно вычисляются с помощью калькулятора или компьютера. Чтобы продемонстрировать использование формулы, ниже приведен рабочий пример.
Найдите дисперсию по выборке количества часов сна группы студентов в ночь перед экзаменом:
7, 6,5, 6, 5, 5, 4, 4, 3, 3, 2,5 Среднее значение выборки:
Сумма квадратов:
СС = (7 — 4,6) 2 + (6,5 — 4,6) 2 + (6 — 4,6) 2 + (5 — 4,6) 2 + (5 — 4,6) 2 + (4 — 4,6) 2 + (4 — 4,6) 2 + (3 — 4,6) 2 + (3 — 4,6) 2 + (2,5 — 4,6) 2 = 21,9 Дисперсия:
Таким образом, выборочная дисперсия составляет 2,43 часа 2 .