Коэффициент корреляции спирмена: Коэффициент ранговой корреляции Спирмена (Spearman’s rank correlation coefficient) · Loginom Wiki

Коэффициент ранговой корреляции Спирмена (Spearman’s rank correlation coefficient) · Loginom Wiki

Синонимы: Spearman’s rank-order correlation coefficient, ро-коэффициент

Разделы: Метрики

Как и любой коэффициент ранговой корреляции, коэффициент Спирмена используется для обнаружения и описания статистической зависимости между признаками, а также проверки гипотез о наличии этой зависимости. Он был предложен английским статистиком и психологом Чарльзом Спирманом в 1904 году и обычно обозначается греческой буквой ρ или rs. Получил популярность при решении задач в бизнес-аналитике.

Расчет коэффициента ранговой корреляции Спирмена включает следующие этапы:

  1. Присвоить по каждому из признаков, зависимость между которыми требуется определить, порядковый номер (ранг) для каждого наблюдения по возрастанию или убыванию.
  2. Определить разности рангов каждой пары сопоставляемых значений (d).
  3. Возвести в квадрат каждую разность и суммировать полученные результаты.
  4. Вычислить коэффициент ранговой корреляции по формуле:

ρ=1−6⋅n∑i=1d2in(n2−1), (1)

где di — разность между рангами di=R(Xi)−R(Yi), n — число наблюдений, по которым вычисляется коэффициент.

Следует отметить, что данная формула может использоваться только если все n рангов являются различными целыми числами. В противном случае следует использовать другое выражение:

ρ=n∑i=1(xi−¯¯¯x)(yi−¯y)√n∑i=1(xi−¯¯¯x)2(yi−¯y)2,

где ¯¯¯x и ¯¯¯y средние значения признаков.

Определить статистическую значимость коэффициента можно с использованием t-критерия Стьюдента, рассчитанного по следующей формуле:

t=r√n−2√1−r2.

Если вычисленное значение t-критерия меньше табличного при заданном числе степеней свободы, статистическая значимость искомой зависимости низкая. Если больше, то корреляционная связь считается статистически значимой.

При использовании коэффициента ранговой корреляции условно оценивают силу зависимости между признаками следующим образом:

  • ρ<0. 3 — слабая зависимость;
  • 0.3≤ρ<0.7 — умеренная зависимость;
  • ρ≥0.7 — сильная зависимость.

Также для оценки тесноты связи может использоваться шкала Чеддока:

Абсолютное значение коэффициента СпирменаСила корреляцонной зависимости
менее 0.3слабая
от 0.3 до 0.5умеренная
от 0.5 до 0.7заметная
от 0.7 до 0.9высокая
более 0.9очень высокая

Рассмотрим пример. Пусть задан исходный набора данных:

Признак 1Признак 2
5666
7570
4540
7160
6265
6456
5859
8077
7667
6163

Упорядочим значения признаков по убыванию и каждому присвоим ранг

РангПризнак 1Признак 2
18077
27670
37567
47166
56465
66263
76160
85859
95656
104540

Вычислим d и d2:

Признак 1Признак 2R1R2d=R1-R2 d^2
566694525
75703211
4540101000
71604739
62656511
645659416
58598800
80771100
76672311
61637611

Где R1 и R2 ранги Признака 1 и Признака 2 соответственно.

Вычисляем сумму квадратов разностей из формулы 1:

∑d2=25+1+0+9+1+16+0+0+1+1=54

Теперь вычислим коэффициент ранговой корреляции по формуле 1:

ρ=1−6n∑i=1d2in(n2−1)=6⋅5410(102−1)=0.67

Таким образом в исходном наборе данных имеет место заметная положительная зависимость между признаками.

Преимущество коэффициента ранговой корреляции Спирмена заключается в возможности ранжирования по качественным признакам, которые нельзя выразить численно: можно ранжировать субъективные экспертные оценки, например, популярности товара или услуги, степени лояльности клиента или надёжности заёмщика. Т.е. он подходит как для непрерывных, так и для дискретных порядковых переменных Можно ранжировать оценки разных экспертов и найти их корреляции, чтобы затем исключить из рассмотрения оценки эксперта, слабо коррелированные с оценками других экспертов.

Не рекомендуется использовать коэффициент Спирмена, если имеет место неравномерное распределение значений измеряемой величины, т. е. в данных присутствуют аномальные значения и выбросы.

В Loginom существует специализированный обработчик Корреляционный анализ с использованием которого можно рассчитывать коэффициент ранговой корреляции Спирмена.

Как рассчитать ранговую корреляцию Спирмена в Excel


В статистике корреляция относится к силе и направлению связи между двумя переменными. Значение коэффициента корреляции может варьироваться от -1 до 1 со следующими интерпретациями:

  • -1: идеальная отрицательная связь между двумя переменными
  • 0: нет связи между двумя переменными
  • 1: идеальная положительная связь между двумя переменными

Один особый тип корреляции называется ранговой корреляцией Спирмена и используется для измерения корреляции между двумя ранжированными переменными. (например, оценка балла учащегося на экзамене по математике и оценка его оценки на экзамене по естественным наукам в классе).

В этом руководстве объясняется, как рассчитать ранговую корреляцию Спирмена между двумя переменными в Excel.

Пример: ранговая корреляция Спирмена в Excel

Выполните следующие шаги, чтобы вычислить ранговую корреляцию Спирмена между результатами экзамена по математике и результатами экзамена по естественным наукам 10 учащихся в определенном классе.

Шаг 1: Введите данные.

Введите экзаменационные баллы для каждого учащегося в два отдельных столбца:

Шаг 2: Рассчитайте ранги для каждого экзаменационного балла.

Далее мы рассчитаем рейтинг для каждого экзаменационного балла. Используйте следующие формулы в ячейках D2 и E2, чтобы вычислить рейтинги по математике и естественным наукам для первого ученика, Остина:

Ячейка D2: =RANK.AVG(B2, $B$2:$B$11, 0)

Ячейка E2: =RANK. AVG(C2, $C$2:$C$11, 0)

Затем выделите оставшиеся ячейки для заполнения:

Затем нажмите Ctrl+D, чтобы заполнить ранги для каждого ученика:

Шаг 3: Рассчитайте коэффициент ранговой корреляции Спирмена.

Наконец, мы рассчитаем коэффициент ранговой корреляции Спирмена между оценками по математике и по естественным наукам с помощью функции CORREL() :

Ранговая корреляция Спирмена оказывается равной -0,41818 .

Шаг 4 (необязательно): Определите, является ли ранговая корреляция Спирмена статистически значимой.

На предыдущем шаге мы обнаружили, что ранговая корреляция Спирмена между результатами экзаменов по математике и естественным наукам составляет -0,41818 , что указывает на отрицательную корреляцию между двумя переменными.

Однако, чтобы определить, является ли эта корреляция статистически значимой, нам нужно будет обратиться к таблице ранговой корреляции Спирмена критических значений, которая показывает критические значения, связанные с различными размерами выборки (n) и уровнями значимости (α).

Если абсолютное значение нашего коэффициента корреляции больше критического значения в таблице, то корреляция между двумя переменными является статистически значимой.

В нашем примере размер выборки составлял n = 10 студентов. Используя уровень значимости 0,05, мы находим, что критическое значение равно 0,564 .

Поскольку рассчитанное нами абсолютное значение рангового коэффициента корреляции Спирмена ( 0,41818 ) не превышает этого критического значения, это означает, что корреляция между баллами по математике и естественным наукам не является статистически значимой.

Коэффициент ранговой корреляции Спирмена

Домашняя страница Связаться с нами Авторизоваться

География Биология Геология Бизнес-исследования

Коэффициент ранговой корреляции Спирмена используется для определения силы связь между двумя наборами данных. В этом примере рассматривается сила ссылки между ценой предмета повседневного спроса (бутылка воды объемом 500 мл) и расстоянием из Музея современного искусства в Эль-Раваль, Барселона.

Пример: проверенная гипотеза заключается в том, что цены должны снижаться по мере удаления от ключевой области джентрификации вокруг Музея современного искусства. Следующей линией является Transect 2 в карту ниже, с непрерывной выборкой цен на бутылку воды объемом 500 мл каждый день. магазин.

Карта, показывающая расположение градиентов окружающей среды для линии пересечения в Эль-Раваль, Барселона

 

Гипотеза

Мы могли бы ожидать, что цена бутылки воды уменьшается по мере удаления от Музея современного искусства. Выше арендная плата за недвижимость рядом с музеем должна отражаться в более высоких ценах в магазины.

Гипотезу можно записать так:

Цена на предмет повседневного спроса уменьшается по мере удаления от Музей современного искусства увеличивается.

Более объективный метод научного исследования всегда предположим, что такого отношения цена-расстояние не существует, и для выражения null гипотеза как:
нет существенной связи между ценой на предмет повседневного спроса и расстояние от Музея современного искусства.

Что может пойти не так?

Определившись с формулировкой гипотезы, следует рассмотреть, есть ли какие-либо другие факторы, которые могут повлиять на исследование. Некоторый факторы, которые могут повлиять на цены, могут включать:

  • Тип торговой точки. Вы должны быть последовательны в выборе розничной торговли выход. Например, бары и рестораны часто взимают значительно большую плату за воды, чем в магазине. Вы должны решить, какой тип розетки использовать и придерживайтесь его для всего сбора данных.
  • В некоторых магазинах разные цены на один и тот же товар: высокая туристическая и более низкая местная цена, зависящая от восприятия покупателя продавцом.
  • В магазинах рядом с основными дорогами может взиматься более высокая плата, чем в магазинах в менее доступных местах. улицах из-за более высокой арендной платы, взимаемой с основных торговых точек.
  • Положительные эффекты распространения от других близлежащих районов джентрификации или из конкурирующих зон туристической привлекательности.
  • Негативные эффекты распространения от близлежащих районов разрухи города.
  • Более высокие цены могут взиматься летом, когда спрос менее гибкий, делает сезонные сравнения менее надежными.
  • Кумулятивная выборка может исказить ожидаемый градиент цены и расстояния, если несколько магазинов группируются на коротком участке вдоль поперечной линии, за которым следует значительный разрыв перед следующей группой торговых точек.

Вы должны упомянуть такие факторы в своем расследовании.

Собранные данные (см. таблицу данных ниже) свидетельствуют о довольно сильном отрицательное отношение, как показано на этом графике разброса:

Точечная диаграмма, показывающая изменение цены предмет удобства на расстоянии от Музея современного искусства. Перевернуть изображение чтобы увидеть линию тренда.

Точечная диаграмма показывает возможность отрицательного корреляция между двумя переменными и ранговая корреляция Спирмена метод должен использоваться, чтобы увидеть, действительно ли существует корреляция, и проверить сила отношений.

Коэффициент ранговой корреляции Спирмена

Корреляцию легко изобразить в виде разброса график, но самый точный способ сравнить несколько пар данных это использовать статистический тест — это устанавливает, действительно ли корреляция значительным или если бы это могло быть результатом только случайности.

Коэффициент ранговой корреляции Спирмена — это метод, можно использовать для обобщения силы и направления (отрицательного или положительного) связь между двумя переменными.

Результат всегда будет между 1 и минус 1.

Метод — вычисление коэффициента

  • Создайте таблицу из ваших данных.
  • Ранжируйте два набора данных. Рейтинг достигается путем присвоения рейтинга «1» самое большое число в столбце, «2» — второе по величине значение и так далее. наименьшее значение в столбце получит самый низкий рейтинг. Это должно быть сделано для обоих наборов измерений.
  • Ничьи очки получают средний (средний) ранг.
    Например, три связанных баллы в 1 евро в приведенном ниже примере занимают пятое место в порядке цены, но занимают три позиции (пятую, шестую и седьмую) в рейтинговой иерархии из десяти. Средний ранг в этом случае рассчитывается как (5+6+7) ÷ 3 = 6,9.0049
  • Найдите разницу в рангах (d): Это разница между ранги двух значений в каждой строке таблицы. Ранг второго значения (цена) вычитается из ранга первого (удаленность от музея).
  • Возведение разностей в квадрат (d²) Удаление отрицательных значений и их суммирование (d²).

Круглосуточный магазин Расстояние от CAM (м) Ранговое расстояние Цена бутылки 500 мл (€) Цена ранга Разница между рангами (г) д²
1
50 10 1,80 2 8 64
2 175 9 1,20 3,5 5,5 30. 25
3 270 8 2,00 1 7 49
4
375
7 1,00 6 1 1
5 425 6 1,00 6 0 0
6 580 5 1,20 3,5 1,5 2,25
7 710 4 0,80 9 -5 25
8 790 3 0,60 10 -7 49
9 890 2 1,00 6 -4 16
10 980 1 0,85 8 -7 49
d² = 285,5

Таблица данных: ранговая корреляция Спирмена

  • Рассчитайте коэффициент ( R s ), используя приведенную ниже формулу. ответ всегда будет между 1,0 (полная положительная корреляция) и -1,0 (полная совершенная отрицательная корреляция).

При записи в математической записи формула ранга Спирмена выглядит так:

Теперь подставим все эти значения в формулу.

  • Найдите значение всех значений d², сложив все значения в Столбец «Разница²». В нашем примере это 285,5 . Умножение это на 6 дает 1713 .
  • Теперь о нижней строке уравнения. Значение n является количество площадок, на которых вы проводили измерения. В нашем примере это 10 . Подставляя эти значения в n³ — n получаем 1000 — 10
  • Теперь у нас есть формула: R = 1 — (1713/990), что дает значение для R :

    1 — 1,73 = -0,73


Что означает это R s значение -0,73?

Чем ближе R s к +1 или -1, тем сильнее вероятная корреляция. Идеальная положительная корреляция +1 и совершенная отрицательная корреляция равна -1. R s значение -0,73 предполагает довольно сильные негативные отношения.

Теперь требуется дополнительная методика для проверки значимости отношений.

Значение R s -0,73 должно быть посмотрел в приведенной ниже таблице значимости ранга Спирмена следующим образом:

  • Определите «степени свободы», которые вам необходимо использовать. Это количество пар в вашем образце минус 2 (n-2). В примере это 8 (10 — 2).
  • Теперь нанесите результат на таблицу.
  • Если он ниже линии с отметкой 5%, то, возможно, ваш результат был продукт случайности, и вы должны отвергнуть эту гипотезу.
  • Если он выше уровня значимости 0,1%, то мы можем быть уверены на 99,9%. корреляция возникла не случайно.
  • Если он выше 1%, но ниже 0,1%, можно сказать, что вы уверены на 99%.
  • Если он выше 5%, но ниже 1%, можно сказать, что вам 9 лет.5% уверен (т.е. статистически существует 5% вероятность того, что результат возник случайно).

В примере значение -0,73 (или +0,73) дает уровень значимости чуть меньше 5%. Это означает, что вероятность отношений, которые вы нашли случайное событие около 5 из 100 . Ты На 95% уверен, что ваша гипотеза верна. Надежность вашего образца может быть указано с точки зрения того, сколько исследователей завершили то же исследование, что и ваше получат те же результаты: 95 из 100.


График уровней значимости коэффициентов ранговой корреляции Спирмена с использованием распределения Стьюдента t исследования могут фактически доказать, что одно влияет на другое.

  • Надежность данных связана с размером выборки. Чем больше данных вы собирайте, тем надежнее ваш результат.

  • Нажмите на график значимости рейтинга Спирмена, чтобы пустая копия приведенного выше графика значимости.

    Коэффициент ранговой корреляции Спирмена R s и калькулятор p-значения

    Ранговая корреляция Спирмена

    по-прежнему измеряют силу и направление их взаимосвязи, используя непараметрическую корреляционную статистику. Наиболее распространенным из них является ранговый коэффициент корреляции Спирмена, ρ, который учитывает ранги значений для двух переменных. Например, рассмотрим длину и вес выборки из пяти котят:

    Котенок Длина (см) Вес (г)
    1 7,8 245
    2 8,2 321
    3 7,5 260
    4 9,0 405
    5 8.1 272

    Ранги этих значений приведены в следующей таблице:

    Котенок Длина Ранг Вес Ранг
    1 2 1
    2 4 4
    3 1 2
    4 5 5
    5 3 3

    Корреляция Спирмена эквивалентна вычислению коэффициента корреляции Пирсона для ранжированных данных. Таким образом, ρ всегда будет значением между -1 и 1. Чем дальше ρ от нуля, тем сильнее связь между двумя переменными. Знак ρ соответствует направлению зависимости. Если она положительна, то при увеличении одной переменной другая имеет тенденцию к увеличению. Если он отрицателен, то при увеличении одной переменной другая имеет тенденцию к уменьшению.

    Возможно, вы захотите использовать корреляцию Спирмена, если ваши данные имеют нелинейную зависимость (например, экспоненциальную зависимость) или у вас есть один или несколько выбросов. Однако корреляция Спирмена подходит только в том случае, если отношение между вашими переменными монотонно , что означает, что по мере увеличения одной переменной другая имеет тенденцию либо к увеличению, либо к уменьшению (но не к обоим):

    Вывод если ρ значительно отличается от нуля при использовании корреляции Пирсона t — тест на ранги двух переменных.

    Предположения:

    • Случайные выборки
    • Независимые наблюдения
    • Связь между двумя переменными монотонна (оценивается визуально с помощью диаграммы рассеяния).

    Добавить комментарий

    Ваш адрес email не будет опубликован. Обязательные поля помечены *