Дисперсия статистика: Дисперсия (Variance) · Loginom Wiki

Простое объяснение того, как интерпретировать дисперсию


В статистике нам часто интересно понять, как «разбросаны» значения в наборе данных. Чтобы измерить это, мы часто используем следующие меры дисперсии :

  • Диапазон: разница между наибольшим и наименьшим значением в наборе данных.
  • Межквартильный диапазон: разница между первым квартилем и третьим квартилем в наборе данных (квартиль — это просто значения, которые делят набор данных на четыре равные части).
  • Стандартное отклонение: способ измерения типичного расстояния, на котором значения находятся от среднего значения.
  • Дисперсия: квадрат стандартного отклонения.

Из этих четырех показателей дисперсию , как правило, труднее всего понять интуитивно. Этот пост призван дать простое объяснение дисперсии.

Стандартное отклонение

Прежде чем мы сможем понять дисперсию, нам сначала нужно понять стандартное отклонение , обычно обозначаемое как σ .

Формула для расчета стандартного отклонения:

σ = √(Σ (x i – μ) 2 / N)

где μ — среднее значение совокупности, x i — i -й элемент совокупности, N — размер совокупности, а Σ — просто причудливый символ, означающий «сумма».

На практике вам редко придется вычислять стандартное отклонение вручную; вместо этого вы можете использовать статистическое программное обеспечение или калькулятор.

На самом базовом уровне стандартное отклонение говорит нам, насколько разбросаны значения данных в наборе данных. Чтобы проиллюстрировать это, рассмотрим следующие три набора данных вместе с соответствующими стандартными отклонениями:

[5, 5, 5] стандартное отклонение = 0 (совсем нет разброса)

[3, 5, 7] стандартное отклонение = 1,63 (некоторый разброс)

[1, 5, 99] стандартное отклонение = 45,28 (большой разброс)

Термин «стандартное отклонение» можно понять, взглянув на два слова, которые его составляют:

  • «отклонение» — это относится к расстоянию от среднего значения.
  • «Стандарт» — это относится к «стандартному» или «типичному» расстоянию, на котором значение находится от среднего значения.

Как только вы поймете стандартное отклонение, вам будет намного легче понять дисперсию.

Понимание дисперсии

Дисперсия, обычно обозначаемая как σ 2 , представляет собой просто квадрат стандартного отклонения. Формула для нахождения дисперсии набора данных:

σ 2 = Σ (xi – μ) 2 / N

где μ — среднее значение совокупности, x i — i -й элемент совокупности, N — размер совокупности, а Σ — просто причудливый символ, означающий «сумма».

Итак, если стандартное отклонение набора данных равно 8, то вариация будет 8 2 = 64.

Или, если стандартное отклонение набора данных равно 10, тогда вариация будет 10 2 = 100.

Или, если стандартное отклонение набора данных равно 3,7, тогда вариация будет 3,7 2 = 13,69.

Чем более разбросаны значения в наборе данных, тем выше дисперсия. Чтобы проиллюстрировать это, рассмотрим следующие три набора данных вместе с соответствующими им отклонениями:

[5, 5, 5] дисперсия = 0 (совсем нет разброса)

[3, 5, 7] дисперсия = 2,67 (некоторый разброс)

[1, 5, 99] дисперсия = 2050,67 (большой разброс)

Когда бы вы использовали дисперсию вместо стандартного отклонения?

После прочтения приведенных выше объяснений стандартного отклонения и дисперсии вам может быть интересно, когда вы когда-либо использовали дисперсию вместо стандартного отклонения для описания набора данных.

В конце концов, стандартное отклонение говорит нам о среднем расстоянии, на котором значение находится от среднего, а дисперсия говорит нам о квадрате этого значения. Казалось бы, стандартное отклонение гораздо проще понять и интерпретировать.

На самом деле вы почти всегда будете использовать стандартное отклонение, чтобы описать, насколько разбросаны значения в наборе данных.

Однако дисперсия может быть полезна, когда вы используете такой метод, как дисперсионный анализ или регрессия , и пытаетесь объяснить общую дисперсию в модели из-за определенных факторов.

Например, вы можете захотеть понять, в какой степени дисперсия результатов тестов может быть объяснена коэффициентом интеллекта, а в какой степени дисперсия может быть объяснена часами обучения.

Если 36 % вариаций связано с IQ, а 64 % — с часами обучения, это легко понять. Но если мы используем стандартные отклонения 6 и 8, это гораздо менее интуитивно понятно и не имеет особого смысла в контексте проблемы.

Другой случай, когда лучше использовать дисперсию, чем стандартное отклонение, — это когда вы выполняете теоретическую статистическую работу.

В этом случае намного проще использовать дисперсию при вычислениях, поскольку вам не нужно использовать знак квадратного корня.

Дополнительные ресурсы

В следующих руководствах представлена дополнительная информация о дисперсии:

Дисперсия выборки и дисперсия населения: в чем разница?
Как рассчитать выборку и дисперсию населения в Excel

Что такое дисперсия? Определение и как его рассчитать • BUOM

Дисперсия — это мера расстояния каждой переменной от среднего значения или среднего значения в ее наборе данных. Он используется для расчета отклонения в наборе и является ценным инструментом для инвесторов и финансовых специалистов. В этой статье мы определяем дисперсию, как ее рассчитать, а также преимущества и недостатки использования дисперсии.

Что такое дисперсия?

Дисперсия — это расчет, в котором случайные переменные рассматриваются с точки зрения их отношения к среднему значению набора данных. Дисперсию можно использовать для определения того, насколько далеко каждая переменная от среднего и, в свою очередь, насколько далеко каждая переменная отстоит друг от друга. Он также используется в статистических выводах, проверке гипотез, методах Монте-Карло (случайная выборка) и анализе согласия.

Как используется дисперсия?

Дисперсия используется в инвестировании для определения индивидуальной эффективности отдельных частей инвестиционного портфеля. Это помогает управляющим активами и инвесторам повысить эффективность своих инвестиций.

Другими профессионалами, которые могут использовать дисперсию, являются ученые, статистики, математики, аналитики данных и все, кто отвечает за выявление риска или получение информации о популяции эксперимента или выборки.

В некоторых случаях дисперсия и стандартное отклонение могут использоваться взаимозаменяемо. Кто-то может выбрать стандартное отклонение, а не дисперсию, потому что это меньшее число, с которым в некоторых случаях может быть легче работать, и на него с меньшей вероятностью повлияет перекос. Чтобы найти стандартное отклонение, просто возьмите квадратный корень из дисперсии. С этим числом вы можете делать те же выводы, что и при использовании дисперсии, но с меньшими вычислениями.

Как рассчитать дисперсию

Чтобы вычислить дисперсию, вам нужно возвести в квадрат каждое отклонение данной переменной (X) и среднего значения.

В выборочном наборе данных вы должны вычесть каждое значение из среднего значения по отдельности, а затем возвести значение в квадрат, например: (μ — X)². Затем вы должны добавить все квадраты отклонений и разделить их на общее количество значений, чтобы получить среднее значение. Это число и есть дисперсия.

Чтобы найти стандартное отклонение, вы можете просто взять квадратный корень из дисперсии.

Формула дисперсии выглядит следующим образом:

Var(X) = E (x — μ)**² / N**

Формула показывает, что дисперсия X (Var[X]) равно среднему квадрату X минус квадрат его среднего. И вы можете решить это, разделив его на количество чисел в наборе, или N.

Как использовать данные дисперсии

При оценке риска инвесторы используют среднее значение для определения изменчивости, которая может быть приравнена к риску в пределах портфеля. Это часто используется при рассмотрении новой покупки, чтобы решить, стоит ли вложение риска. Дисперсия помогает аналитикам риска определить меру неопределенности, которую без дисперсии и стандартного отклонения трудно определить количественно.

Хотя неопределенность не поддается прямому измерению, дисперсия и стандартное отклонение позволяют аналитикам определить предполагаемое влияние конкретной акции на портфель.

В статистике дисперсия используется для определения того, насколько хорошо среднее значение представляет весь набор данных.

Например, чем выше дисперсия, тем больше диапазон существует в наборе. Исследователи данных могут использовать эту информацию, чтобы сделать вывод о том, что среднее значение может не отражать набор так же хорошо, как если бы набор имел более низкую дисперсию. Исследователи могут искать различия между тестовыми группами, чтобы определить, достаточно ли они похожи для успешной проверки гипотезы.

Каковы преимущества использования дисперсии?

Самым большим преимуществом использования дисперсии является получение информации о наборе данных. Независимо от того, являетесь ли вы инвестором, стремящимся снизить риск, или статистиком, которому необходимо понять разброс выборки, дисперсия — это информация, которую люди могут использовать для быстрых выводов.

Быстрее использовать дисперсию, чем наносить каждое число на спред и определять приблизительное расстояние от среднего значения и каждой переменной. Эта мера позволяет людям, которые используют статистику, делать важные оценки с помощью относительно быстрого расчета, который предоставляет информацию о диапазоне выборки.

Дисперсия обрабатывает все числа в наборе одинаково, независимо от того, положительные они или отрицательные, что является еще одним преимуществом использования этой формулы.

Каковы недостатки использования дисперсии?

Одним из недостатков использования дисперсии является то, что большие выбросы в наборе могут привести к некоторому искажению данных, поэтому это вычисление не обязательно обеспечивает идеальную точность. Это связано с тем, что после возведения в квадрат выбросы по обе стороны совокупности могут иметь значительный вес, связанный с ними, в зависимости от значений в остальной части выборки.

Это усугубляется тем фактом, что некоторые исследователи предпочитают работать с меньшими числами, поэтому они могут предпочесть работать со стандартными отклонениями, которые берут квадратный корень из дисперсии и с меньшей вероятностью сильно смещаются в сторону больших чисел. Дисперсию также бывает трудно интерпретировать, что является еще одной причиной, по которой ее квадратный корень может быть предпочтительнее.

Пример дисперсии

Предположим, в этом инвестиционном примере доходность ваших акций составляет 10 % в первый год инвестиций, 20 % во второй год и 15 % в третий год. Средняя доходность составляет 15%.

Теперь давайте возьмем разницу каждой доходности и средней доходности, которая выглядит так:

Доходность Средняя доходность за первый год 10% — 15% = -5% -5%² = 25% за второй год 20% — 15% = 5% 5%² = 25% за третий год 15% — 15% = 0% 0%² = 0

Статистическая дисперсия

Статистическая дисперсия показывает, как данные распределяются относительно среднего или ожидаемого значения. В отличие от диапазона, который рассматривает только крайние значения, дисперсия рассматривает все точки данных, а затем определяет их распределение.

Откройте для себя еще 17 статей по этой теме

Не пропустите эти статьи по теме:

  1. Расчет стандартного отклонения
  2. Стандартная ошибка среднего
  3. Предположения
  4. Нормальное распределение
  5. Стандартное отклонение

Во многих случаях статистики и экспериментов именно дисперсия дает бесценную информацию о распределении данных.

Расчет дисперсии (набор баллов)

Математическая формула для расчета дисперсии: — µ) 2 для всех точек данных

X = отдельные точки данных

µ = среднее значение генеральной совокупности

N = количество точек данных

Это означает, что квадрат дисперсии определяется как среднее значение квадратов разницы между точками данных и средним значением .

Пошаговый расчет

Например, предположим, что вы хотите найти дисперсию результатов теста. Предположим, что баллы равны 67, 72, 85, 93 и 98.

Сначала запишите формулу дисперсии:

σ 2 = ∑ (x — µ) 2 / N

Далее всего пять баллов, поэтому N = 5.

σ 2 = ∑ (x — µ) 32 / 5

Рассчитайте среднее значение (µ) для пяти показателей: 67 + 72 + 85 + 93 + 98 / 5, поэтому µ = 83.

σ 2 = ∑ ) 2 / 5

Теперь сравните каждую оценку (x = 67, 72, 85, 93, 98) со средним значением (µ = 83)

σ 2 = [ ( 67  — 83) 2 +( 72  — 83) 2 +( 85  — 83) 2 +( 93  — 83) 2 +( 98  — 83) 2 ] / 5

Проведите вычитание в каждой скобке.

67 — 83 = -16

72 — 83 = -11

85 — 83 = 2

93 — 83 = 10

98 — 83 = 15

. Формула теперь будет выглядеть как:

о 2 = [ ( -16 ) 2 +( -11 ) 2 +( 2 ) 2 +( 10 ) 2 +( 15 ) 2 ] / 5

Затем по квадратных скобок . Получаем 256, 121, 4, 100 и 225.

Вот как:

σ 2 = [ (-16)x(-16)+(-11)x(-11)+(2)x (2)+(10)x(10)+(15)x(15)] / 5

σ 2 = [16×16 + 11×11 + 2×2 + 10×10 + 15×15] / 5

, что равно:

σ 2 = [ 256 + 121 + 4 + 100 + 225 ] / 5

7 , затем суммируйте числа внутри кронштейнов:

σ 2 = 706 /5

до Get Got Got To Get To Get Got To Get To Get To Get To Get To Get To окончательный ответ, мы делим сумму на 5  (Потому что в сумме было пять баллов). Это окончательная дисперсия для набора данных:

          σ 2  =  141,2

Это дисперсия совокупности баллов.

Дисперсия выборки

Во многих случаях вместо совокупности мы имеем дело с выборками.

В этом случае нам нужно немного изменить формулу для дисперсии на:

S 2  = дисперсия выборки.

Обратите внимание, что в этом случае знаменатель на единицу меньше размера выборки.

Применение

Понятие дисперсии можно распространить и на наборы непрерывных данных. В этом случае вместо суммирования индивидуальных отличий от среднего нам нужно их интегрировать. Этот подход также полезен, когда количество точек данных очень велико, например, население страны.

Дисперсия широко используется в теории вероятностей, где из заданного небольшого набора выборок необходимо сделать более общие выводы. Это связано с тем, что дисперсия дает нам представление о распределении данных вокруг среднего значения, и, таким образом, из этого распределения мы можем определить, где мы можем ожидать неизвестную точку данных.

Variance — StatPearls — Книжная полка NCBI

Книжная полка NCBI. Служба Национальной медицинской библиотеки, Национальных институтов здоровья.

StatPearls [Интернет]. Остров сокровищ (Флорида): StatPearls Publishing; 2022 янв.

StatPearls [Интернет].

Показать подробности

Критерий поиска

Рауль Р. Вадхва; Даниэль Аззам.

Информация об авторе и организациях

Последнее обновление: 18 июля 2022 г.

Определение/Введение

Хотя среднее арифметическое набора чисел дает информацию о центре этого набора, исследователям нужна информация о распределении чисел вокруг этого центра для правильной интерпретации данных.[1] Дисперсия обеспечивает количественную меру того, насколько близко набор данных распределен вокруг своего центра.[2] Дисперсия меньшей величины (ближе к нулю) означает, что набор чисел довольно плотно сгруппирован вокруг центра. Дисперсия большей величины (дальше от нуля) означает, что по крайней мере некоторые числа в наборе данных находятся далеко от центра. Важно: (1) дисперсия никогда не может быть меньше нуля; (2) дисперсия равна нулю только тогда, когда все числа в наборе данных равны, т. е. когда набор данных состоит из одного и того же числа, повторяющегося много раз. Помимо того, что это сводная статистика, дисперсия часто включается в другие статистические данные, такие как доверительные интервалы.[3]

Вопросы, вызывающие озабоченность

При рассмотрении дисперсии в клиническом и исследовательском контекстах возникают две проблемы: (1) использование соответствующей эталонной популяции; (2) обеспечение соблюдения статистических допущений при использовании дисперсии для получения статистических результатов. При интерпретации количественных клинических измерений с использованием референтных диапазонов (разработанных с использованием дисперсии) крайне важно использовать правильный референтный диапазон. Например, референтный диапазон частоты сердечных сокращений в состоянии покоя составляет от 60 до 100 ударов в минуту. Однако это относится только к взрослой популяции пациентов. Естественно, использование этого референтного диапазона для новорожденных было бы неуместным. Таким образом, несмотря на то, что следует помнить о дисперсии вокруг среднего значения, клинический контекст будет решать, какое среднее значение и дисперсия будут использоваться для построения соответствующего референтного диапазона. Вторая проблема больше относится к исследовательскому контексту. При разработке доверительных интервалов и других статистических значений, зависящих от дисперсии, исследователи должны помнить, что ценность каждого статистического результата сильно зависит от соблюдения соответствующих допущений. В таких ситуациях серьезного рассмотрения заслуживает формальный методологический обзор, подготовленный обученным статистиком. В идеале обученный статистик должен участвовать в начальных этапах разработки и реализации исследований, в дополнение к этапу анализа данных.

Клиническая значимость

Количественные клинические значения всегда следует интерпретировать не только с учетом среднего значения, но и с учетом дисперсии показателя в эталонной популяции. Дисперсия (или кратная ей) часто включается в контрольный диапазон, предоставляемый с каждым лабораторным результатом. Например, частота сердечных сокращений в состоянии покоя 65 ударов в минуту, как правило, не имеет значения. Хотя средняя частота сердечных сокращений в покое может быть в пределах 70 или 80, соответствующий референтный диапазон (включая дисперсию средней частоты сердечных сокращений в покое) составляет от 60 до 100 ударов в минуту. Поскольку 65 попадает в этот референтный диапазон, он не настолько далеко от среднего значения, чтобы вызывать беспокойство. Таким образом, знание дисперсии имеет решающее значение для интерпретации любых количественных клинических измерений, включая значения, которые являются частью физического обследования (например, частота сердечных сокращений, артериальное давление) и результаты лабораторных исследований (например, гематокрит, уровень натрия в сыворотке).

Различия также играют роль в выборе и дозировке лекарств. Мы рассматриваем случай левотироксина, аналога Т4, и лиотиронина, аналога Т3, в качестве препаратов для лечения гипотиреоза. Причина, по которой клиницисты обычно предпочитают левотироксин лиотиронину, заключается в более длительном периоде полувыведения левотироксина. Поскольку организм метаболизирует левотироксин медленнее, его уровни менее изменчивы и более стабильны во времени. Более низкая дисперсия левотироксина обеспечивает пациенту более постоянный уровень гормонов щитовидной железы, что часто делает его более желательным для лечения гипотиреоза. Конечно, другие клинические причины делают левотироксин, подобный аналогу Т4, более желательной терапией первой линии, чем аналог Т3, подобный лиотиронину, включая периферическое физиологическое превращение Т4 в Т3 посредством дейодирования. Таким образом, надежное концептуальное понимание дисперсии может помочь врачу в принятии решений в клинических условиях.

Сестринское дело, союзное здравоохранение и межпрофессиональные группы вмешательства

Успешная междисциплинарная команда по уходу, включающая как медсестер, так и врачей, должна сосредоточиться как на сотрудничестве, так и на общении для достижения хороших результатов лечения пациентов. [4] Важно знать, когда следует включать информацию о разбросе или отклонении данных в отчеты межпрофессиональной группе. Примером этого является случай, когда медсестра сообщает лечащей бригаде, что средняя частота сердечных сокращений пациента за предыдущие 24 часа составляла 65 ударов в минуту. Медсестра не упомянула о высокой дисперсии или разбросе данных, что означает, что некоторые показания частоты сердечных сокращений в наборе данных были далеко от центра. Таким образом, врач может не знать, что у пациента была брадикардия, что повышает заболеваемость и смертность пациента.[5] [Уровень 3]

Контрольные вопросы

  • Доступ к бесплатным вопросам с несколькими вариантами ответов по этой теме.

  • Комментарий к этой статье.

Ссылки

1.

Wissing DR, Timm D. Статистика для нестатистиков: Часть I. South Med J. 2012 Mar;105(3):126-30. [PubMed: 22392207]

2.

Yang Y, Tokita M, Ishiguchi A. Существует ли общий суммарный статистический процесс для представления среднего значения и дисперсии? Исследование с использованием иллюстраций знакомых предметов. Восприятие. 2018 янв-февраль;9(1): 2041669517747297. [Бесплатная статья PMC: PMC5788105] [PubMed: 29399318]

3.

Nakagawa S, Cuthill IC. Величина эффекта, доверительный интервал и статистическая значимость: практическое руководство для биологов. Biol Rev Camb Philos Soc. 2007 ноябрь; 82 (4): 591-605. [PubMed: 17944619]

4.

Foronda C, MacWilliams B, McArthur E. Межпрофессиональное общение в здравоохранении: комплексный обзор. Медсестра Образовательная Практика. 2016 июль;19:36-40. [В паблике: 27428690]

5.

Уитли Э., Болл Дж. Статистический обзор 1: представление и обобщение данных. Критический уход. 2002 Февраль; 6 (1): 66-71. [Статья PMC бесплатно: PMC137399] [PubMed: 11940268]

Copyright © 2022, StatPearls Publishing LLC.

Эта книга распространяется на условиях Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International (CC BY-NC-ND 4.0) ( http://creativecommons.org/licenses/by-nc-nd/4.0/ ), что позволяет другим распространять произведение при условии, что статья не изменена и не используется в коммерческих целях. Вам не требуется получать разрешение на распространение этой статьи при условии, что вы указываете автора и журнал.

Bookshelf ID: NBK551689PMID: 31869153

  • PubReader
  • Print View
  • Cite this Page

In this Page

  • Definition/Introduction
  • Issues of Concern
  • Clinical Significance
  • Nursing, Allied Health , и Interprofessional Team Interventions
  • Контрольные вопросы
  • Ссылки

Массовая загрузка

Дополнительная информация

Похожие статьи в PubMed

  • Суицидальные мысли.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *