Дисперсия и ее свойства. Среднее квадратическое отклонение
Дисперсия (или варианса) — это средний квадрат отклонений вариант данной совокупности от их средней величины.
Дисперсия или, если используется интервальный вариационный ряд
.
Свойства дисперсии
Свойство 1. Если каждую варианту совокупности уменьшить или увеличить на одно и тоже постоянное число А, то дисперсия не изменится.
Упражнение 4. Доказать свойство 1.
Свойство 2. Если каждую варианту разделить (или умножить) на одно и тоже постоянное число А, то дисперсия уменьшится (или увеличится в А2 раз.
Упражнение 2. Доказать свойство 2.
Среднее квадратическое отклонение определяется по следующей формуле:
. Чем сильнее варьирует признак, тем больше величина этого показателя и наоборот.
Коэффициент вариации
Один из этих показателей — показатель Пирсона (коэффициент вариации)
.
Чем выше %, тем более изменчив признак.
Структурные средние
Медиана () эмпирического распределения — средняя, относительно которой ряд распределения делится на две половины: в обе стороны от медианы располагается определенное число вариант. Если число вариант нечетно — центральная варианта его медиана. При четном — определяется по полусумме соседних вариант, расположенных в центре ряда.
Мода () — величина, которая встречается в данной совокупности наиболее часто. Класс с наибольшей частотой называется модальным.
О чем можно судить по медиане выборки? Важна эта характеристика особенно в тех случаях, когда обнаруживается значительная или резкая асимметрия в распределении частот по классам вариационного ряда. Часто используется для установления границ тех или иных нормативов.
Законы распределения случайных величин
Между отдельными значениями варьирующих признаков и частотой их встречаемости в генеральной совокупности существует определенная связь (это наглядно можно увидеть на графике зависимости частот от значения вариат).
Реализация того или иного эначения варьирующего признака представляет собой случайное событие. Предсказать появление случайного события в отдельных испытаниях (наблюдениях) можно лишь с некоторой уверенностью, или вероятностью, которое имеет данное событие. Случайной называется переменная величина, способная в одних и тех же условиях испытания принимать различные числовые значения. Функция , связывающая значения вариант с вероятностями называется законом распределения случайной величины.
В природе широко распространена закономерность: в массе относительно однородных членов, составляющих статистическую совокупность, большинство их оказывается среднего или близкого к нему размера, и чем дальше они отстоят от среднего уровня варьирующего признака , тем реже встречаются в данной совокупности. Такое поведение может описано законом нормального распределения (формула Гаусса-Лапласа)
, где — дисперсия генеральной совокупности, — генеральная средняя арифметическая или математическое ожидание.
Величина получила название нормированного отклонения.
Выборочные характеристики рассматриваются как приближенные значения или точечные оценки соответствующих генеральных параметров, которые, как правило, остаются неизвестными. Средняя арифметическая выборки служит оценкой средней арифметической генеральной совокупности , выборочная дисперсия является оценкой генеральной дисперсии , — в качестве точечной оценки стандартного отклонения генеральной совокупности.
Формально математическое ожидание соответствует средней арифметической эмпирических распределений. Однако отождествлять эти величины нельзя. Средняя арифметическая выражается отношением суммы всех членов ряда к их общему числу, а математическое ожидание представляет сумму произведений членов ряда на их вероятности. Эмпирическая средняя стремится к своей вероятной величине, то есть, к математическому ожиданию по мере увеличения числа испытаний: чем больше число испытаний, тем ближе эмпирическая средняя к математическому ожиданию.
Учебные материалы по математике | Значение показателей вариации
2. среднее линейное отклонение (
3. cреднее квадратическое отклонение (s)
4. дисперсия (s2)
5. коэффициент вариации (V)
6. корреляционное отношение (h)
Значение показателей вариации
1) показатели вариации дополняют средние величины, за ней скрываются индивидуальные различия значений признака
2) показатели вариации позволяют оценить границы изменения признаков совокупности
3) показатели вариации позволяют выявить степень однородности совокупности по изучаемому признаку
4) с помощью показателей вариации можно оценить тесноту связи между признаками
6. 2 Абсолютные показатели вариации (именованные)
I. РАЗМАХ ВАРИАЦИИ (R)
характеризует пределы колеблемости индивидуальных значений признака статистической совокупности. Определяется как разность экстремальных значений вариационного ряда.
R=xmax—xmin
Величина размаха вариации неустойчива и зависит от случайных обстоятельств. К этому показателю прибегают в случаях необходимой приблизительной оценки колеблемости признака. Размах вариации имеет ту же размерность, что и изучаемый признак.
II. СРЕДНЕЕ ЛИНЕЙНОЕ ОТКЛОНЕНИЕ (l)
есть средняя арифметическая из абсолютных отклонений значний вариантов от их средней величины.
Так как S(х-х0)=0, прибегают к модулю отклонения. Недостаток состоит в абстрагировании о знаков отклонения. Размерность среднего линейного отклонения соответствует размерности признака. Среднее линейное отклонение исчисляется как по ряду распределения, так и по неупорядоченным данным.
Формулы среднего линейного отклонения:
l=
l=Sïx—x0ï*f/n — средняя невзвешенная
III.ДИСПЕРСИЯ (s2)
Средний квадрат отклонений вариантов признака от их средней арифметической.
Дисперсия измеряет вариацию признака, порождаемую всей совокупностью действующих на него факторов.
Чем меньше величина дисперсии, тем однороднее совокупность по изучаемому признаку. Значение дисперсии необходимо сопоставлять со значением средней величины. Дисперсия имеет размерность равную квадрату размерности признаков совокупности.
Взвешенная и невзвешенная дисперсия:
s2=S(x—x0)2*f/Sf s2=S(x—x0
)2*f/nЕсли нет ряда распределения:
s2=х2-(х)2 s2=Sх2*f/Sf
IV. СРЕДНЕЕ КВАДРАТИЧЕСКОЕ (СТАНДАРТНОЕ) ОТКЛОНЕНИЕ (s)
Есть мера колеблемости признаков совокупности.
Вычисляется как средняя квадратическая из отклонений вариантов признаков от их средней арифметической или как корень из дисперсии:
s=ÖS(x—x0)2*f/Sf — взвешенная
s=ÖS(x—x0)2*f/n — невзвешенная
s=Ös2
Пример расчета показателей вариации:
Размер торговой площади магазина, тыс. м2 (х) | Число магазин, (f) | 1 x*f | 2 x-x | 3 (x-x)2 |
0,5 | 2 | 1,0 | -2,1 | 4,41 |
1,5 | 8 | 12,0 | -1,. 1 | 1,21 |
2,5 | 23 | 57,5 | -0,1 | 0,01 |
3,5 | 13 | 45,5 | 0,9 | 0,81 |
4,5 | 2 | 9,0 | 1,9 | 3,61 |
Итого | 48 | 125,0 | — | — |
4 (x-x)2*f | 5 ïx-xï*f | 6 x2*f |
8,82 | 4,2 | 0,5 |
9,68 | 8,8 | 18,0 |
0,23 | 2,3 | 143,75 |
10,53 | 11,7 | 159,25 |
7,22 | 3,8 | 40,5 |
36,48 | 30,8 | 362 |
s2=S(x-x0)2*f/Sf=36,48/48=0,76 (тыс. м2)
s=Ös2=Ö0,76=0,87 (тыс. м2)
l=Sïx-x0ï*f/Sf=30,8/48=0,64 (тыс. м2)
s2=х2-(х)2
x2=Sx2*f/Sf=362/48=7,54
s2=7,54-(2,6)2=0,76
6.3. Относительные показатели вариации
Абсолютные показатели вариации, исчисленные по различным признакам совокупности неудобны для сравнительной характеристики вариантов этих признаков. Для сравнения вариантов различных признаков или одного и того же признака в разных совокупностях применяются относительные показатели вариации. Кроме того, относительные показатели вариации используются для характеристики степени однородности совокупности по изучаемому признаку, типичности и устойчивости средней.
Принципы построения относительных показателей вариации
Коэффициент вариации = Абсолютный показатель вариации (именованный)/средняя арифметическая (мода или медина — реже)
Наименование числителя и знаменателя при исчислении коэффициента вариации должны быть одинаковыми.
Различаются три разновидности коэффициента вариации:
Коэффициент осцилляции
VR=R/x*100%
Пользуются этим показателем достаточно редко в силу того, что R носит случайный, неустановленный характер.
‚ Коэффициент вариации линейный
Vl=l/x*100%
ƒ Коэффициент вариации
Vs=s/x*100%
Чаще всего коэффициент вариации показывает, какую долю или сколько процентов составляет средний показатель колеблемости по совокупности от значения средней величины.
Это позволяет судить о степени однородности совокупности по изучаемому признаку. Чем меньше значение относительного показателя вариации, тем типичнее и устойчивее средняя, и наоборот.
Если относительный показатель вариации равен нулю, то все значения признаков равны, т. е. вариация отсутствует. Если значение вариации меньше либо равно 0,3 или 30%, то колеблемость признаков совокупности слабая и средняя типична и устойчива.
Если вариация Î(0,3;0,6], то совокупность недостаточно однородна по изучаемому признаку и средняя недостаточно типична.
Если вариация больше 0,6, это говорит о неоднородности совокупности и о нетипичности средней.
6.4. Меры вариации для сгруппированных данных
Если совокупность неоднородна по изучаемому признаку прибегают к ее разбиению на однородные группы. Вариации сгруппированных данных также оцениваются дисперсией. В этом случае различают 3 вида дисперсий:
Œ Общая дисперсия результативного признака измеряет вариацию i-того признака под воздействием всех существенных факторов.
Пример: s2=S(x-x)2*f/Sf
Для того чтобы измерить вариацию признака внутри отдельной группы совокупности, вычисляют частные (групповые, внутригрупповые) дисперсии. Внутригрупповая дисперсия вычисляется по формуле:
s2=S(x-xi)2*f/Sf,
где xi — средняя, исчисленная для i-той групп
Sf — объем i-той группы
Групповая или частная дисперсия характеризует вариацию результативного признака за счет всех прочих признаков, кроме факторного признака, положенного в основу группировки. В основу группировки закладывается тот признак, который оказывает наиболее сильное влияние на величину результативного признака. Для оценки величины вариации результативного признака за счет всех прочих факторов, положенных в основу группировки средней по совокупности, вычисляется средняя из групповых дисперсий, т. е. осредняется групповая дисперсия.
Показатели изменчивости: размах, межквартильный размах, дисперсия и стандартное отклонение
Мера изменчивости — это сводная статистика, представляющая величину дисперсии в наборе данных. Насколько распространены ценности? В то время как мера центральной тенденции описывает типичное значение, меры изменчивости определяют, насколько далеко точки данных имеют тенденцию отходить от центра. Мы говорим об изменчивости в контексте распределения значений. Низкая дисперсия указывает на то, что точки данных, как правило, плотно сгруппированы вокруг центра. Высокая дисперсия означает, что они имеют тенденцию падать дальше.
В статистике изменчивость, дисперсия и разброс являются синонимами, обозначающими ширину распределения. Точно так же, как существует несколько мер центральной тенденции, существует несколько мер изменчивости. В этом сообщении блога вы узнаете, почему понимание изменчивости ваших данных имеет решающее значение. Затем я исследую наиболее распространенные меры изменчивости — размах, межквартильный размах, дисперсию и стандартное отклонение. Я помогу вам определить, какой из них лучше всего подходит для ваших данных.
На двух приведенных ниже графиках графически показаны различия для распределений с одинаковым средним значением, но большей и меньшей дисперсией. На панели слева показано распределение, плотно сгруппированное вокруг среднего значения, в то время как распределение на правой панели более разбросано.
Связанный пост : Показатели центральной тенденции: среднее значение, медиана и мода
Почему важно понимать изменчивость
Давайте сделаем шаг назад и сначала разберемся, почему понимание изменчивости так важно. Аналитики часто используют среднее значение для обобщения центра совокупности или процесса. Хотя среднее значение имеет значение, люди часто еще больше реагируют на изменчивость. Когда распределение имеет более низкую изменчивость, значения в наборе данных являются более согласованными. Однако, когда изменчивость выше, точки данных более непохожи, и экстремальные значения становятся более вероятными. Следовательно, понимание изменчивости помогает понять вероятность необычных событий.
В некоторых ситуациях экстремальные значения могут вызвать проблемы! Вы когда-нибудь видели отчет о погоде, где метеоролог показывает сильную жару и засуху в одном районе и наводнение в другом? Было бы неплохо усреднить их вместе! Часто мы чувствуем дискомфорт в крайностях больше, чем в среднем. Понимание того, что изменчивость вокруг среднего дает важную информацию.
Изменчивость повсюду. Время, которое вы тратите на дорогу до работы, немного меняется каждый день. Когда вы неоднократно заказываете любимое блюдо в ресторане, оно каждый раз не одно и то же. Детали, сходящие с конвейера, могут казаться идентичными, но они имеют несколько разные длину и ширину.
Все это примеры реальной изменчивости. Некоторая степень изменчивости неизбежна. Однако слишком большое несоответствие может вызвать проблемы. Если ваша утренняя поездка на работу занимает намного больше времени, чем среднее время в пути, вы опоздаете на работу. Если ресторанное блюдо сильно отличается от обычного, оно может вам совсем не понравиться. И, если изготовленная деталь слишком сильно отличается от спецификации, она не будет работать должным образом.
Некоторые отклонения неизбежны, но проблемы возникают в крайних случаях. Распределения с большей изменчивостью дают наблюдения с необычно большими и малыми значениями чаще, чем распределения с меньшей изменчивостью.
Изменчивость также может помочь вам оценить неоднородность образца.
Пример разной степени изменчивости
Давайте рассмотрим два гипотетических ресторана-пиццерии. Они оба рекламируют среднее время доставки 20 минут. Когда мы голодны, они оба звучат одинаково хорошо! Однако эта эквивалентность может быть обманчива! Чтобы определить ресторан, в котором вы должны заказать, когда вы голодны, нам нужно проанализировать их изменчивость.
Предположим, мы изучаем их время доставки, вычисляем изменчивость для каждого места и определяем, что их изменчивость различна. Мы рассчитали стандартные отклонения для обоих ресторанов — это показатель, к которому мы вернемся позже в этом посте. Насколько существенна эта разница в быстрой доставке пиццы своим клиентам?
Графики ниже показывают распределение времени доставки и дают ответ. Ресторан с более изменчивым временем доставки имеет более широкую кривую распределения. Я использовал одинаковые шкалы на обоих графиках, чтобы вы могли визуально сравнить два распределения.
На этих графиках мы считаем неприемлемым 30-минутное ожидание или дольше. Ведь мы голодны! Заштрихованная область на каждой диаграмме представляет долю времени доставки, которое превышает 30 минут. Почти 16% доставок для ресторана с высокой вариативностью превышают 30 минут. С другой стороны, только 2% доставок занимают слишком много времени в ресторане с низкой изменчивостью. У них обоих среднее время доставки составляет 20 минут, но я знаю, где бы я разместил свой заказ, когда проголодался!
Как показывает этот пример, центральная тенденция не предоставляет полной информации. Нам также необходимо понять изменчивость в середине распределения, чтобы получить полную картину. Теперь давайте перейдем к различным способам измерения изменчивости!
Диапазон
Начнем с диапазона, потому что это наиболее простая для расчета и понимания мера изменчивости. Диапазон набора данных — это разница между наибольшим и наименьшим значениями в этом наборе данных. Например, в двух приведенных ниже наборах данных набор данных 1 имеет диапазон 20–38 = 18, а набор данных 2 имеет диапазон 11–52 = 41. Набор данных 2 имеет более широкий диапазон и, следовательно, большую изменчивость, чем набор данных 19.0003
Хотя диапазон легко понять, он основан только на двух самых крайних значениях в наборе данных, что делает его очень восприимчивым к выбросам. Если одно из этих чисел необычно высокое или низкое, оно влияет на весь диапазон, даже если оно нетипично.
Кроме того, на диапазон влияет размер набора данных. В целом, вы с меньшей вероятностью будете наблюдать экстремальные значения. Однако по мере увеличения размера выборки у вас появляется больше возможностей для получения этих экстремальных значений. Следовательно, когда вы берете случайные выборки из одной и той же совокупности, диапазон имеет тенденцию увеличиваться по мере увеличения размера выборки. Следовательно, используйте диапазон для сравнения изменчивости только в том случае, если размеры выборки схожи.
Подробнее читайте в моем посте Диапазон в статистике.
Межквартильный диапазон (IQR) . . . и другие Процентили
Межквартильный диапазон представляет собой среднюю половину данных. Чтобы визуализировать это, подумайте о среднем значении, которое делит набор данных пополам. Точно так же вы можете разделить данные на кварталы. Статистики называют эти кварталы квартилями и обозначают их от низкого к высокому как Q1, Q2 и Q3. Нижний квартиль (Q1) содержит четверть набора данных с наименьшими значениями. Верхний квартиль (Q4) содержит четверть набора данных с самыми высокими значениями. Межквартильный диапазон — это средняя половина данных, которая находится между верхним и нижним квартилями. Другими словами, межквартильный диапазон включает 50% точек данных, которые попадают между Q1 и Q3. IQR — красная область на графике ниже.
Межквартильный размах является надежной мерой изменчивости, аналогично тому, как медиана является надежной мерой центральной тенденции. Ни на один из показателей резко не влияют выбросы, потому что они не зависят от каждого значения. Кроме того, межквартильный диапазон отлично подходит для асимметричных распределений, как и медиана. Как вы узнаете, когда у вас есть нормальное распределение, стандартное отклонение говорит вам о проценте наблюдений, которые отклоняются на определенное расстояние от среднего значения. Однако это не работает для асимметричных распределений, и IQR — отличная альтернатива.
Я разделил приведенный ниже набор данных на квартили. Межквартильный диапазон (IQR) простирается от нижней границы Q2 до верхней границы Q3. Для этого набора данных диапазон составляет 39 – 20 = 19.
Связанные сообщения : Квартиль: определение, поиск и использование, межквартильный диапазон: определение и использование, и что такое робастная статистика?
Использование других процентилей
Когда у вас есть асимметричное распределение, я считаю, что представление медианы с межквартильным диапазоном является особенно хорошей комбинацией. Межквартильный диапазон эквивалентен области между 75-м и 25-м процентилем (75 – 25 = 50% данных). Вы также можете использовать другие процентили для определения разброса различных пропорций. Например, диапазон между 97,5-й процентиль и 2,5-й процентиль покрывают 95% данных. Чем шире эти диапазоны, тем выше изменчивость в вашем наборе данных.
Связанный пост : Процентили: Интерпретация и расчеты
Дисперсия
Дисперсия — это среднее квадратичное отличие значений от среднего. В отличие от предыдущих мер изменчивости, дисперсия включает в расчет все значения путем сравнения каждого значения со средним значением. Чтобы вычислить эту статистику, вы вычисляете набор квадратов разностей между точками данных и средним значением, суммируете их, а затем делите на количество наблюдений. Следовательно, это среднеквадратическая разница.
Существуют две формулы для дисперсии в зависимости от того, рассчитываете ли вы дисперсию для всей совокупности или используете выборку для оценки дисперсии совокупности. Уравнения приведены ниже, а затем я работаю с примером в таблице, чтобы воплотить его в жизнь.
Дисперсия совокупности
Формула дисперсии всей совокупности следующая:
— количество точек данных, которое должно включать все население.
Выборочная дисперсия
Чтобы использовать выборку для оценки дисперсии совокупности, используйте следующую формулу. Использование предыдущего уравнения с выборочными данными приводит к недооценке изменчивости. Поскольку обычно невозможно измерить всю совокупность, статистики гораздо чаще используют уравнение выборочной дисперсии.
В уравнении s 2 — выборочная дисперсия, а M — выборочное среднее. N-1 в знаменателе корректирует тенденцию выборки к недооценке дисперсии генеральной совокупности.
Пример расчета выборочной дисперсии
Я рассмотрю пример, используя формулу для выборки на наборе данных с 17 наблюдениями в таблице ниже. Цифры в скобках представляют собой соответствующий номер столбца таблицы. Процедура включает в себя каждое наблюдение (1), вычитание среднего значения выборки (2) для вычисления разницы (3) и возведение этой разницы в квадрат (4). Затем я суммирую квадраты разностей в нижней части таблицы. Наконец, я беру сумму и делю на 16, потому что использую уравнение выборочной дисперсии с 17 наблюдениями (17 — 1 = 16). Дисперсия для этого набора данных составляет 201.
Поскольку в расчетах используются квадраты разностей, дисперсия выражается в квадратах, а не в исходных единицах данных. Хотя более высокие значения дисперсии указывают на большую изменчивость, нет интуитивной интерпретации конкретных значений. Несмотря на это ограничение, различные статистические тесты используют дисперсию в своих расчетах. Например, прочитайте мой пост о F-тесте и ANOVA.
Хотя трудно интерпретировать саму дисперсию, стандартное отклонение решает эту проблему!
Подробности читайте в моем посте про дисперсию.
Стандартное отклонение
Стандартное отклонение — это стандартная или типичная разница между каждой точкой данных и средним значением. Когда значения в наборе данных сгруппированы ближе друг к другу, у вас меньше стандартное отклонение. С другой стороны, когда значения разбросаны больше, стандартное отклонение больше, потому что стандартное расстояние больше.
Для удобства стандартное отклонение использует исходные единицы данных, что облегчает интерпретацию. Следовательно, стандартное отклонение является наиболее широко используемой мерой изменчивости. Например, в примере с доставкой пиццы стандартное отклонение 5 указывает на то, что типичное время доставки составляет плюс-минус 5 минут от среднего значения. Его часто указывают вместе со средним значением: 20 минут (стандартное отклонение 5).
Стандартное отклонение равно квадратному корню из дисперсии. Напомним, что дисперсия измеряется в квадратах. Следовательно, квадратный корень возвращает значение в натуральных единицах. Символом стандартного отклонения как параметра генеральной совокупности является σ, а s представляет его как выборочную оценку. Чтобы вычислить стандартное отклонение, рассчитайте дисперсию, как показано выше, а затем извлеките из нее квадратный корень. Вуаля! У вас стандартное отклонение!
В разделе дисперсии мы рассчитали дисперсию 201 в таблице.
Следовательно, стандартное отклонение для этого набора данных равно 14,177.
Стандартное отклонение аналогично среднему абсолютному отклонению. Оба используют исходные единицы данных и сравнивают значения данных со средними для оценки изменчивости. Однако есть различия. Чтобы узнать больше, прочитайте мой пост о среднем абсолютном отклонении (MAD).
Люди часто путают стандартное отклонение со стандартной ошибкой среднего. Обе меры оценивают изменчивость, но они имеют совершенно разные цели. Чтобы узнать больше, прочитайте мой пост «Стандартная ошибка среднего».
Связанный пост : Использование стандартного отклонения
Эмпирическое правило для стандартного отклонения нормального распределения
Когда у вас есть нормально распределенные данные или примерно так, стандартное отклонение становится особенно ценным. Его можно использовать для определения доли значений, попадающих в заданное число стандартных отклонений от среднего значения. Например, при нормальном распределении 68% значений будут находиться в пределах +/- 1 стандартного отклонения от среднего. Это свойство является частью эмпирического правила. Это правило описывает процент данных, которые попадают в определенные числа стандартных отклонений от среднего значения для колоколообразных кривых.
Среднее +/- стандартное отклонение | Процент содержащихся данных |
1 | 68% |
2 | 95% |
3 | 99,7% |
Давайте еще раз взглянем на пример доставки пиццы, где у нас есть среднее время доставки 20 минут и стандартное отклонение 5 минут. Используя эмпирическое правило, мы можем использовать среднее значение и стандартное отклонение, чтобы определить, что 68% времени доставки приходится на промежуток между 15-25 минутами (20 +/- 5) и 9 минутами.5% попадут между 10-30 минутами (20 +/- 2*5).
Похожие сообщения : Нормальное распределение и эмпирическое правило
Что лучше — диапазон, межквартильный диапазон или стандартное отклонение?
Во-первых, вы, вероятно, заметили, что я не включил дисперсию в качестве одного из параметров в заголовке выше. Это связано с тем, что дисперсия выражена в квадратах и не дает интуитивной интерпретации. Итак, я вычеркнул это из списка. Давайте рассмотрим остальные три меры изменчивости.
При сравнении выборок одинакового размера рассмотрите возможность использования диапазона в качестве меры изменчивости. Это достаточно интуитивная статистика. Просто имейте в виду, что один выброс может сбить диапазон. Диапазон особенно подходит для небольших выборок, когда у вас недостаточно данных для надежного расчета других показателей, а вероятность получения выброса также ниже.
При асимметричном распределении медиана является лучшим показателем центральной тенденции, и имеет смысл сочетать ее либо с межквартильным диапазоном, либо с другими диапазонами на основе процентилей, поскольку все эти статистические данные делят набор данных на группы с определенными пропорциями. .
Для нормально распределенных данных или даже данных, которые не сильно искажены, использование проверенной и надежной комбинации, сообщающей среднее значение и стандартное отклонение, — это путь. Эта комбинация является наиболее распространенной. Вы по-прежнему можете дополнить этот подход диапазонами процентилей по мере необходимости.
За исключением отклонений, статистика в этом посте является абсолютным показателем изменчивости, поскольку они используют единицы измерения исходной переменной. Прочитайте мой пост о коэффициенте вариации, чтобы узнать о относительная мера изменчивости, которая может оказаться полезной в некоторых обстоятельствах.
Аналитики часто используют меры изменчивости для описания своих наборов данных. Узнайте, как анализировать описательную статистику в Excel.
Если вы изучаете статистику и вам нравится подход, который я использую в своем блоге, ознакомьтесь с моей книгой «Введение в статистику»! Он доступен на Amazon и других розничных магазинах.
машинное обучение. Почему в вариационных автоматических кодировщиках (VAE) прогнозируемая кодером дисперсия ниже для шумовых изображений?
спросил
Изменено 3 года, 4 месяца назад
Просмотрено 565 раз
$\begingroup$
Я тренирую VAE на некоторых изображениях и хочу иметь какой-то квантификатор уверенности. По входному изображению кодировщик предсказывает векторы среднего и дисперсии, поэтому, естественно, я подумал, что вектор дисперсии подойдет для этой задачи.
Однако я заметил, что даже с цифровыми данными MNIST, как только сеть обучена очень хорошо восстанавливать цифры, кодировщик дает большую дисперсию (векторную норму) для реальных изображений цифр, чем для полного изображения шума. Почему это? Почему прогнозируемая дисперсия выше для «чистых» данных, чем для случайного пиксельного изображения?
- машинное обучение
- нейронные сети
- вариационно-байесовские
$\endgroup$
$\begingroup$
VAE моделирует распределение как
$$\log P(x) = \log \int P(x|z)P(z) dz \geq E_{z \sim q}[\log P(x| z)] — \text{KL}(q(z)||p(z))$$
Как видите, нет прямой зависимости между дисперсией $q$ и вероятностью, приписываемой моделью заданная точка данных $x$.