Формула медиана в статистике: Медиана в статистике — statanaliz.info

Медиана (Median) · Loginom Wiki

Синонимы: Медиана статистическая, Непараметрическая средняя

Разделы: Метрики

Медиана (от лат. mediana — средина, срединный) — статистическая характеристика распределения случайной величины. Наряду с модой и математическим ожиданием медиана определяет центр распределения, т.е. область, в которой его значения наиболее вероятны.

На практике это означает, что если признак некоторого объекта принимает значение, близкое к медианному, то оно является типичным для данной выборки. Если же значение оказывается далёким от медианы (как говорят, расположено в «хвосте» распределения), то у аналитика возникает повод задуматься о том, какими закономерностями исследуемого процесса вызвано такое отклонение и не является ли оно выбросом или аномальным значением.

Если определять медиану в контексте распределения случайной величины, то она представляет собой значение, которое делит площадь под кривой функции распределения на две равные части.

Это означает, что суммарные вероятности значений слева и справа от медианы равны, т.е.

M_{e})»>P(x<Me)=P(x>Me),

где x — случайная величина, Me — медиана.

Если распределение симметричное, то мода, математическое ожидание и медиана совпадают. Если симметрия распределения нарушается, то медиана смещается от моды в сторону более длинного «хвоста». При этом медиана всегда меньше математического ожидания.

Медиана относится к классу непараметрических статистик, поскольку для её определения не требуется каких-либо предположений о распределении случайной величины, для которой она вычисляется. Медиана имеет смысл только для упорядочиваемых данных, значения которых могут быть ранжированы.

Если случайная величина x задана не функцией распределения вероятности P(x), а набором выборочных значений признака (дискретным рядом), то медиана вычисляется следующим образом:

  1. Упорядочить (расположить в порядке неубывания) значения набора данных: x1≤x2≤⋯≤x(n−1)≤xn, где n — количество элементов выборки.

  2. Определить номер медианного элемента выборки по формуле NME=(n+1)/2.

Полученное значение будет точно показывать, где находится элемент ряда, значение которого является медианным.

Например, пусть задана последовательность [7, 14, 10, 12, 16, 9, 11]. Для вычисления медианы упорядочим её: [7, 9, 10, 11, 12, 14, 16]. Тогда номер медианного элемента NME=(7+1)/2=4, следовательно, медиана равна 11.

Если n чётное, то номер медианного элемента оказывается дробным. Например, при n=8 номер медианного элемента окажется NME=(7+1)/2=4.5. В этом случае берут значения 4-го и 5-го элементов и вычисляют их среднее. Т.е. медиана в случае нечётного размера выборки определяется как среднее двух срединных значений ряда её ранжированных элементов. Легко увидеть, что номер первого усредняемого значения при чётном n будет NME+0.5, а второго NME−0.5.

В анализе данных медиана может использоваться как альтернатива среднего значения, устойчивая к выбросам и аномальным значениям. Действительно, из-за ранжирования аномально большие и аномально низкие значения всегда будут оказываться в начале или конце ряда и никогда не станут медианными.

Медиана является порядковой статистикой распределения и может быть выражена через другие порядковые статистики (т.е. получаемые при ранжировании). Она является 50-м персентилем, 0,5-квантилем или вторым квартилем выборки или распределения.

В Loginom существует специализированный обработчик группировка, который позволяет объединять записи избранных полей в группы, а для оставшихся полей вычислять статистические показатели (медиану, сумму, среднее, минимум и т.д.). А также визуализаторы статистика и качество данных, в перечень показателей которых включена медиана.

Среднее арифметическое, мода и медиана в математической статистики с примерами

  1. Предмет, цели и методы математической статистики
  2. Метод выборочных исследований
  3. Средняя арифметическая, простая и взвешенная
  4. Мода и медиана
  5. Примеры

Предмет, цели и методы математической статистики

Начиная с XVIII века, в общем направлении статистических исследований начинает активно формироваться математическая статистика.

Математическая статистика – раздел математики, разрабатывающий методы регистрации, описания и анализа данных наблюдений и экспериментов с целью построения вероятностных моделей массовых случайных явлений.

В зависимости от предмета исследований математическая статистика делится на:

  • статистику чисел;
  • многомерный статистический анализ;
  • анализ функций (процессов) и временных рядов;
  • статистику объектов с нечисловыми характеристиками.

В зависимости от цели и методов исследований математическая статистика делится на: описательную статистику; теорию оценивания; теорию проверки гипотез.

Описательная статистикаТеория оцениванияТеория проверки гипотез
ЦельОбработка и систематизация эмпирических данныхОценивание ненаблюдаемых данных и сигналов от объектов наблюдения на основе наблюдаемых данныхОбоснование предположений о виде распределения и свойствах случайной величины
Методы

1. Наглядное представление в форме графиков и таблиц.

2. Количественное описание с помощью статистических показателей.

1. Параметрические методы (наименьших квадратов, максимального правдоподобия и др.).

2. Непараметрические методы.

1. Последовательный анализ.

2. Статистические критерии.

Метод выборочных исследований

Статистика получила признание в различных областях человеческой деятельности благодаря заметной экономии времени и прочих ресурсов. Её основная идея: не нужно измерять всё, измерьте только часть всего и сделайте предположение об остальном.

«Всё» в статистике называется генеральной совокупностью.

«Часть всего», которую мы тщательно исследуем, называется выборкой.

Метод выборочных исследований – способ определения свойств группы объектов (генеральной совокупности) на основании статистического исследования её части (выборки).

Например, чтобы оценить средние размеры апельсина, который продаётся в магазине в декабре, необязательно денно и нощно мерить все апельсины во всех ящиках (сколько же для этого нужно времени и людей?!). K n_i , i = \overline{1,K} $$

где K – количество групп с повторяющимися вариантами, $x_i$ — значение варианты в -й группе, $n_i$ – частота варианты $x_i$.

Например:

Рассматриваем тот же ряд оценок: 5,4,3,5,4,4,5,4,3,5,5,4,3,5,4,4 и составляем таблицу:

x_i

3

4

5

Σ

n_i

3

7

6

16

x_i n_i

9

28

30

67

$$ x_cp = \frac{3\cdot3+4\cdot7+5\cdot6}{3+7+6} ≈ 4,2 $$

Вычисления заметно упростились.

Мода и медиана

Мода дискретного вариационного ряда – это варианта с максимальной частотой. Мод может быть несколько. Тогда говорят, что ряд мультимодальный.

В примере с оценками по алгебре мода $M_0 = 4$ — эта оценка встречается чаще всего, её частота равна 7.

В примере с оценками по алгебре N = 16 — четное. $m = \frac{N}{2} = 8 $.

Сортируем ряд оценок по возрастанию: 3,3,3,4,4,4,4, 4,4, 4,5,5,5,5,5,5

$$ x_8 = 4, x_9 = 4 \Rightarrow M_e = \frac{4+4}{2} = 4 $$

Примеры

Пример 1. В исследовании месячных доходов десяти человек были получены следующие данные: 200,100,300,300,1000,5000,100,200, 300,400 (дол.).

Найдите выборочную среднюю, моду и медиану.

Почему при оценке доходов мода и медиана предпочтительней выборочной средней?

Составим таблицу:

$x_i$, дол.

100

200

300

400

1000

5000

$\sum$

$n_i$, чел.

2

2

3

1

1

1

10

$x_i n_i$

200

400

900

400

1000

5000

7900

Выборочная средняя:$ x_{cp} = \frac{7900}{10} = 790$ (дол.)

Мода: $M_o$ = 300 (дол.) – максимальная частота 3

Медиана:

100, 100, 200, 200, 300, 300, 300, 400, 1000, 5000

$$ m = \frac{10}{2} = 5, x_5 = x_6 = 300, M_e = \frac{300+300}{2} = 300 (дол.) $$

Выборочная средняя не отражает доходов большей части людей в выборке, поскольку даже один человек с большими доходами может резко сместить оценку вправо. Мода и медиана хорошо отражают доходы большей части людей в выборке.

Пример 2. Исследовалось время решения задачи. В исследовании принимало участие 20 человек, из них двое задачу не решили. Время решения остальных участников:

$x_i$, мин

10

15

20

25

30

n_i, чел

2

5

5

4

2

Найдите выборочную среднюю, моду и медиану.

При подборе задач для контрольной работы, сколько времени следует отвести на решение подобной задачи?

Проведём вычисления:

$x_i$

10

15

20

25

30

$\sum$

$n_i$, чел

2

5

5

4

2

18

$x_i n_i$

20

75

100

100

60

355

$$x_cp = \frac{355}{18} ≈ 19,7 мин $$

В выборке 2 моды: $M_{o1}$ = 15 мин, $M_{o2}$ = 20 мин

Положение медианы: $m = \frac{N}{2} = \frac{18}{2} = 9, x_9 = x_10 = 20, Me = 20$ мин

Средняя, одна из мод и медиана равны 20 мин. Поэтому при составлении контрольной следует отвести на подобную задачу 20 мин.

Пример 3. работа по геометрии показала следующие результаты:

$x_i$

2

3

4

5

$n_i$, чел

5

22

10

2

Найдите выборочную среднюю, моду и медиану.

Что вы можете сказать об уровне понимания материала?

Проведём вычисления:

$x_i$

2

3

4

5

$\sum$

$n_i$

5

22

10

2

39

$x_i n_i$

10

66

40

10

126

$$x_cp = \frac{126}{39} ≈ 3,2$$

Мода: $M_o$ = 3 — эта оценка получена 22 раза

Положение медианы: $m = ⌈ \frac{N}{2}⌉ = ⌈\frac{39}{2}⌉ = 20, x_{20} = 3, Me = 3$

Средняя, мода и медиана равны 3.

Уровень понимания удовлетворительный, «на троечку».

Медианные понятия и определения

По вашему доходу вы входите в верхнюю половину всех получателей дохода? Вы можете найти ответ, сравнив свой доход со средним доходом.
 

Но что такое медиана? Это «среднее значение» в группе после того, как все наблюдения расположены в порядке возрастания, т. е. от меньшего к большему. По крайней мере половина наблюдений равна или меньше медианы, и по крайней мере половина измерений равна или больше медианы. Медиана отделяет нижнюю половину наблюдений от верхней половины.

Как найти медиану?

Шаг 1: Имея набор данных (например, заработную плату), расположите числа в порядке возрастания , т. е. от меньшего к большему.

 

Шаг 2:

Если число наблюдений нечетное , число в середине списка является медианой. Это можно найти, взяв значение (n+1)/2 -го члена, где n — количество наблюдений.

В противном случае, если количество наблюдений равно даже , то медиана представляет собой простое среднее двух средних чисел. В расчетах медиана представляет собой простое среднее n/2 -го и (n/2 + 1) -го членов.

 

 

Поскольку имеется четыре наблюдения (т. е. четное число), медиана представляет собой простое среднее 2-го и 3-го самых низких заработных плат людей. Следовательно,

Медиана = ½ (заработная плата лица D + заработная плата лица C)

= ½ (3400 + 5000) = 4200 долларов США.

 

Пример 1: Кто посередине? (Нечетное число наблюдений)

 

Чтобы сравнить возрастной профиль своих сотрудников с возрастным профилем других компаний отрасли, ваша компания Middle World Co. попросила вас рассчитать средний возраст ваших коллег по работе.

 

 

Каков средний возраст этих девяти рабочих?

 

Решение: Поскольку число наблюдений нечетное, а возраст расположен от самого младшего к самому старшему (т. не нанимает новых рабочих и рабочие не увольняются, возраст Люциуса всегда будет средним, независимо от того, сколько лет прошло.


Пример 2: Сравнение заработной платы (четное число наблюдений)

 

Предположим, у нас есть месячная заработная плата 10 сотрудников компании. Как бы вы нашли медианную заработную плату?

 

 

Решение: Обратите внимание, что мы расположили их заработную плату от самой низкой к самой высокой. Этот рейтинг поможет нам определить медиану. Используя метод, введенный ранее, медиана вычисляется путем взятия простого среднего из (n/2)-го = (10/2)-го = 5-го и (n/2 + 1)-го = (10/2+). 1)-е = 6-е наблюдения.

 

Следовательно, медиана равна 

 

Чем медиана отличается от среднего?

Обратите внимание, что среднее значение составляет 7 214 долларов США, что намного выше среднего значения. Эта разница в значениях показывает, что на медиану не влияет небольшое количество экстремальных значений. (Экстремальные значения здесь, или выбросы, составляют 20 000 и 25 000 долларов США.

Что это такое и как его рассчитать, с примерами

Что такое медиана?

Медиана — это среднее число в отсортированном, восходящем или нисходящем списке чисел, и оно может быть более информативным для этого набора данных, чем среднее значение. Это точка, выше и ниже которой падает половина (50%) наблюдаемых данных, и, таким образом, она представляет собой среднюю точку данных.

Медиану часто сравнивают с другими описательными статистическими данными, такими как среднее (среднее), мода и стандартное отклонение.

Ключевые выводы

  • Медиана — это среднее число в отсортированном списке чисел, которое может быть более информативным для этого набора данных, чем среднее значение.
  • Медиана иногда используется вместо среднего, когда в последовательности есть выбросы, которые могут исказить среднее значение значений.
  • Если имеется нечетное количество чисел, медианное значение — это число, которое находится в середине, с одинаковым количеством чисел ниже и выше.
  • Если в списке четное количество чисел, необходимо определить среднюю пару, сложить ее и разделить на два, чтобы найти медианное значение.
  • В нормальном распределении медиана совпадает со средним значением и модой.

Понимание медианы

Медиана — это среднее число в отсортированном списке чисел. Чтобы определить среднее значение в последовательности чисел, числа должны быть сначала отсортированы или расположены в порядке значений от наименьшего к наибольшему или от наибольшего к наименьшему. Медиану можно использовать для определения приблизительного среднего или среднего значения, но ее не следует путать с фактическим средним значением.

  • Если имеется нечетное количество чисел, медианным значением является число, которое находится в середине, с одинаковым количеством чисел ниже и выше.
  • Если в списке четное количество чисел, необходимо определить среднюю пару, сложить ее и разделить на два, чтобы найти медианное значение.

Медиана иногда используется вместо среднего, когда в последовательности есть выбросы, которые могут исказить среднее значение. Медиана последовательности может меньше зависеть от выбросов, чем среднее значение.

Пример медианы

Чтобы найти медианное значение в списке с нечетными числами, нужно найти число, которое находится в середине с одинаковым количеством чисел по обе стороны от медианы. Чтобы найти медиану, сначала расположите числа по порядку, обычно от меньшего к большему.

Например, в наборе данных {3, 13, 2, 34, 11, 26, 47} порядок сортировки становится {2, 3, 11, 13, 26, 34, 47}. Медиана — это число в середине {2, 3, 11, 13 , 26, 34, 47}, что в данном случае равно 13, поскольку с каждой стороны по три числа.

Чтобы найти медианное значение в списке из даже чисел, нужно определить среднюю пару, сложить их и разделить на два. Опять же, расположите числа в порядке от меньшего к большему.

Например, в наборе данных {3, 13, 2, 34, 11, 17, 27, 47} порядок сортировки становится {2, 3, 11, 13, 17, 27, 34, 47}. Медиана — это среднее двух чисел в середине {2, 3, 11, 13 , 17 , 26 34, 47}, что в данном случае равно пятнадцати {(13 + 17) ÷ 2 = 15}.

Медиана тесно связана с квартилями или делением наблюдаемых данных на четыре равные части. Медиана будет центральной точкой, при этом первые два квартиля окажутся ниже нее, а вторые два выше нее. Другие способы группировки данных включают квинтиль (в пяти разделах) и децили (в 10 разделах).

Как рассчитать медиану?

Медиана — это среднее значение в наборе данных. Во-первых, организуйте и упорядочите данные от меньшего к большему. Чтобы найти среднее значение, разделите количество наблюдений на два. Если имеется нечетное количество наблюдений, округлите это число в большую сторону, и значение в этой позиции будет медианой.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *