8.2. Корреляционная таблица. Выборочное линейное уравнение регрессии по сгруппированным данным
Пусть имеется п наблюдений двумерной величины При большом числе опытов одно и то же значениеможет приниматьсяраз случайной величиной, а случайная величинаможет принимать значениесоответственнораз. В выборке одна и та же параможет наблюдатьсяраз. Изображение точекна плоскости называетсякорреляционным полем. Выборку двумерной случайной величины удобно занести в таблицу 8.2.1., эта таблица называется корреляционной.
Таблица 8.2.1.
… | |||||
… | |||||
… | |||||
… | … | … | … | … | … |
… | |||||
… | п |
Значения случайных
величин
ипредставлены в вариационных рядах.
В таблице 8.2.1. представлены следующие данные:
В корреляционной таблицу значения ип сразу не даются, их легко вычислить. По данным корреляционной таблицы находятся условные средние
Предположим, что уравнение регрессии налинейно:
Задача состоит в нахождении оценок величин и. При использовании данных корреляционной таблицы формулы вычисления основных оценок примут вид:
Приведем оценку коэффициента корреляции случайных величин и
где иявляются оценками среднеквадратических отклонений.
В параграфе 8.1 было приведено выборочное линейное уравнение регрессии на
Пример
1. Найти
выборочное уравнение линейной регрессии
напо данным, приведенным в корреляционной
таблице:
5 | 10 | 15 | 20 | 25 | 30 | ||
10 | 4 | 6 | 10 | ||||
20 | 2 | 8 | 10 | ||||
35 | 10 | 2 | 8 | 20 | |||
40 | 5 | 8 | 2 | 15 | |||
50 | 5 | 15 | |||||
4 | 8 | 8 | 15 | 20 | 15 | 70 |
Найдем оценки математических ожиданий случайных величин и:
Найдем оценки дисперсий
,
Определим оценку корреляционного момента:
Найдем выборочные коэффициент корреляции:
,
Запишем выборочное уравнение линейной регрессии на
Дать определение случайного процесса.
Найти математическое ожидание и дисперсию случайного процесса , где- случайная величина, причем
Известно, что корреляционная функция случайного процесса равнаНайти корреляционную функцию случайного процесса
Дать определение цепи Маркова.
Какие цепи Маркова называются однородными?
Как задается однородная цепь Маркова?
Дана матрица перехода однородной цепи Маркова:
Найти матрицу перехода за три шага.
Дана матрица перехода однородной цепи Маркова
Какие состояния будут несущественными, сообщающимися, поглощающими? Будет ли цепь Маркова неразложимой?
Задано совместное распределение случайных величин :
1 | 2 | 4 | |
3 | 0,1 | 0,3 | 0,05 |
5 | 0,2 | 0,2 | 0,15 |
Найти
Задано совместное распределение случайных величин
0 | 3 | 5 | |
1 | 0,05 | 0,1 | 0,15 |
2 | 0,2 | 0,2 | 0,1 |
4 | 0,05 | 0,01 | 0,14 |
Записать закон
распределения условного математического
ожидания
и закон распределения условной дисперсииНайти генеральный корреляционный
коэффициент детерминации.
Дать определение функции регрессии.
Сформулировать условие корреляционной зависимости случайных величин.
Какие случайные величины называются не корреляционными: условие отсутствия корреляционной зависимости.
Какие задачи решаются с помощью дисперсионного анализа?
При каких условиях проверяется нулевая гипотеза о равенстве групповых средних?
Проведено 20 испытаний, из них 5 – на первом уровне фактора, 5 – на втором, 6 – на третьем и 4 – на четвертом. Методом дисперсионного анализа при уровне значимости 0,01 проверить гипотезу о равенстве групповых дисперсий. Предполагается, что выборки извлечены из нормальных генеральных совокупностей:
Номер опыта
Уровень фактора Ф
1
50
60
58
60
2
55
53
60
60
3
22
59
58
61
4
54
56
61
59
5
49
52
60
6
59
В трех филиалах одного из банков были организованы три уровня различных услуг для клиентов.
После этого в течение шести месяцев измерялся объем вкладов . Проверить нулевую гипотезу о влиянии организации услуг на объемы вкладов при уровне значимостиПредполагается, что выборки извлечены из нормальных генеральных совокупностей с одинаковыми дисперсиями.
Номер опыта
Уровень фактора Ф
1
10
16
16
2
15
16
18
3
15
25
28
4
17
22
27
5
20
30
34
6
16
28
40
Получена выборка двумерной случайной величины
10 | 18 | 25 | 27 | 30 | 32 | 33 | 35 | |
15 | 20 | 28 | 31 | 30 | 39 | 42 | 48 |
Найти выборочное
уравнение регрессии
на. Найти выборочный коэффициент корреляции.
Найти выборочное уравнение линейной регрессии нана основании корреляционной таблицы.
2 | 3 | 4 | 5 | 6 | |
15 | 3 | 10 | 5 | ||
25 | 6 | 3 | 3 | ||
35 | 9 | 7 | |||
40 | 8 | 6 |
Задачи с решениями.

Поделись с друзьями:
Задача 11.1. Найти выборочный коэффициент корреляции и уравнение линейной регрессии Y на X по данным пяти наблюдений:
Решение. Используем формулы:
1) Выборочный коэффициент корреляции:
= ;
2) линейное уравнение регрессии Y на X:
,
где ,
, , .
Проведем необходимые вычисления, для чего составим расчетную таблицу:
№ | |||||
1,25 | 1,5625 | 2,5 | |||
2,5 | 1,45 | 6,25 | 2,1025 | 3,625 | |
1,65 | 2,7225 | 4,95 | |||
3,5 | 1,85 | 12,25 | 3,4225 | 6,475 | |
2,05 | 4,2025 | 8,2 | |||
∑ | 8,25 | 47,5 | 14,0125 | 25,75 |
Тогда получаем:
,
,
,
.
Запишем уравнение линейной регрессии Y на X:
.
Ответ: , .
Задача 11.2. Найти выборочный коэффициент корреляции и выборочные уравнения линейных регрессий Y на X и X на Y по данным выборки X и Y, сведенным в корреляционную таблицу:
Y X | |||||||||
8 | 6 |
Решение.
1) Найдем оценки математических ожиданий X и Y:
;
2) Найдем выборочные дисперсии:
,
.
3) Найдем выборочные средние квадратические отклонения:
.
4) Найдем выборочный корреляционный момент:
.
5) Найдем выборочный коэффициент корреляции:
= .
6) Напишем выборочное уравнение линейной регрессии Y на X:
7) Напишем выборочное уравнение линейной регрессии X на Y:
Ответ: .
Задача 11.3. Знания 10 студентов проверены по двум тестам А и В. Оценки по стобальной системе оказались следующими:
По А: 92 96 90 50 75 83 65 70 62 55
По В: 94 98 84 52 70 87 62 74 59 50.
Найти выборочный коэффициент ранговой корреляции: а) Спирмена; б) Кендалла и оценить их значимость при уровне значимости α=0,1.
Решение. 1) Присвоим ранги ai оценкам xi по тесту А, расположив эти оценки в порядке убывания:
ai | ||||||||||
xi |
2) Присвоим ранги bi оценкам yi по тесту В, расположив их в порядке убывания:
bi | ||||||||||
yi |
3) Рангу a 1=1 оценки 96 по тесту А соответствует ранг b 1 оценки 98 (первого студента) по тесту В
Рангу a 2=2 оценки 92 по тесту А соответствует ранг b 2=2 оценки 94 по тесту В.
Рангу a 3=3 оценки 90 по тесту А соответствует ранг =4 оценки 84.
Аналогично получаем:
= 3, = 6, =5, =7, =8, =10, =9.
4) Выпишем последовательности рангов и :
и получим разности рангов:
= = 0; = =0; ; ; ; .
5) Вычислим выборочный коэффициент ранговой корреляции Спирмена:
6) Вычислим выборочный коэффициент ранговой корреляции Кендалла:
где 1 + R 2 +…+ Rn —1 = 9 + 8 + 6 + 6 + 4 + 4 + 3 + 2 + 0 = 42.
Тогда получаем:
7) При уровне значимости находим число
Сравниваем числа T крит и : так как 0,96 > 0,186, то > T крит и ранговая корреляция между признаками является значимой.
8) При уровне значимости α = 0,1 находим:
Сравним числа и :
так как 0,87 > 0,43, то >
Значит корреляционная связь между сравниваемыми оценками значимая.
Ответ: гипотеза о наличии корреляционной связи между оценками принимается.
Задачи
11.1. Найдите выборочный коэффициент корреляции и выборочное линейное уравнение Y на X по данным семи наблюдений:
xi | 4,0 | 4,25 | 4,5 | 4,75 | 5,0 | 5,25 | 5,5 |
yi | 1,25 | 1,35 | 1,50 | 1,65 | 1,80 | 2,05 | 2,30 |
11.2. Найдите выборочный коэффициент корреляции и выборочное линейное уравнение Y на X по данным пяти наблюдений:
xi | 1,25 | 2,05 | 3,1 | 3,95 | 5,0 |
yi | 4,2 | 2,5 | 3,5 | 1,0 | 2,1 |
11. 3. Даны результаты 50-ти наблюдений, собранные в корреляционную таблицу:
Y X | my | |||||||
mi |
Найти выборочный коэффициент корреляции и выборочные линейные уравнения регрессий Y на X и X на Y, проверив гипотезу значимости выборочного коэффициента корреляции при уровне значимости
11. 4. По данным 50-ти наблюдений, собранным в корреляционную таблицу:
Y X | my | |||||||
mi |
Найти выборочный коэффициент корреляции и выборочные линейные уравнения регрессий Y на X и X на Y, проверив гипотезу значимости выборочного коэффициента корреляции при уровне значимости
11. 5. В результате 79 опытов получена корреляционная таблица:
Y X | 0,5 | 0,6 | 0,7 | 0,8 | 0,9 | my |
0,5 | ||||||
0,6 | ||||||
0,7 | ||||||
0,8 | ||||||
mi |
Определить выборочный коэффициент корреляции, проверить гипотезу значимости коэффициента корреляции при уровне значимости , написать выборочные уравнения регрессий Y на X и X на Y.
11.6. В результате 60 опытов получена корреляционная таблица величин X и Y:
Y X | 7,0 | 7,5 | 8,0 | 8,5 | 9,0 | 9,5 | my |
mi |
Определить выборочный коэффициент корреляции, проверить гипотезу значимости коэффициента корреляции при уровне значимости , написать выборочные уравнения регрессий Y на X и X на Y.
11.7. Знания 10 студентов оценены двумя преподавателями по стобальной системе и выставлены следующие оценки:
Найти выборочные коэффициенты ранговой корреляции Спирмена и Кендалла и проверить их значимость при уровне значимости .
11.8. Два контролера расположили 10 деталей в порядке ухудшения их качества. В результате получены две последовательности рангов:
Найти выборочные коэффициенты ранговой корреляции Спирмена и Кендалла и проверить их значимость при уровне значимости .
11.9. Три арбитра A, B и C оценили мастерство 10 спортсменов. В итоге были получены три последовательности рангов:
A: | 10; | |||||||||
B: | 4; | |||||||||
C: | 8.![]() |
Определите пару арбитров, оценки которых наиболее согласуются, используя:
а) выборочный коэффициент ранговой корреляции Спирмена;
б) выборочный коэффициент ранговой корреляции Кендалла.
Ответы
11.1. xy = 0,99;
11.2. xy =
11.3. xy = 0,84;
11.4. xy = .
11.5. xy =
11.6. xy = 0,71;
11.7. гипотеза о наличии корреляционной связи между оценками принимается.
11.8. ; гипотеза о наличии корреляционной связи между наблюдаемыми величинами принимается.
11.9. a)
Наиболее согласуются оценки арбитров A и C;
б)
Наиболее согласуются оценки арбитров A и C.
Приложение 1
Контрольные работы и контрольные вопросы по теории
Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:
Корреляция Пирсона и линейная регрессия
Анализ корреляции или простой линейной регрессии может определить, имеют ли две числовые переменные значимую линейную связь. Корреляционный анализ предоставляет информацию о силе и направлении линейной связи между двумя переменными, в то время как простой линейный регрессионный анализ оценивает параметры в линейном уравнении, которое можно использовать для прогнозирования значений одной переменной на основе другой. .
Корреляция
Коэффициент корреляции Пирсона, r , может принимать значения от -1 до 1. Чем дальше r от нуля, тем сильнее линейная связь между двумя переменными. Знак r соответствует направлению отношения. Если r положительно, то при увеличении одной переменной другая имеет тенденцию к увеличению. Если r отрицательно, то при увеличении одной переменной другая имеет тенденцию к уменьшению. Идеальная линейная зависимость ( r= -1 или r= 1) означает, что одна из переменных может быть полностью объяснена линейной функцией другой.
Примеры:
Линейная регрессия
Анализ линейной регрессии дает оценки для наклона и точки пересечения значений линейного уравнения, предсказывающего переменную, Y 90 X. Общая форма этого уравнения показана ниже:
Точка пересечения, b 0 , представляет собой прогнозируемое значение Y , когда X = 0. Наклон, b 1 , представляет собой среднее изменение Y на каждую единицу увеличения X . Помимо определения силы и направления линейной зависимости между X и Y , оценка наклона позволяет интерпретировать, как изменяется Y при увеличении X . Это уравнение также можно использовать для прогнозирования значений Y для значения X .
Примеры:
Логический вывод
Логические тесты могут выполняться как для оценок корреляции, так и для оценок наклона, рассчитанных по случайной выборке из совокупности. Оба анализа представляют собой t -тесты, выполняемые на основе нулевой гипотезы о том, что две переменные не связаны линейно. При выполнении на одних и тех же данных корреляционный тест и тест наклона дают одинаковую статистику теста и значение p .
Предположения:
- Случайные выборки
- Независимые наблюдения
- Переменная-предиктор и переменная-результат связаны линейно (оценивается путем визуальной проверки диаграммы рассеяния).
- Совокупность значений для результата нормально распределена для каждого значения предиктора (оценивается путем подтверждения нормальности остатков).
- Дисперсия распределения результата одинакова для всех значений предиктора (оценивается путем визуальной проверки остаточного графика на наличие воронкообразного паттерна).
Гипотезы:
H o : Эти две переменные не связаны линейно.
H a : Эти две переменные линейно связаны.
Соответствующие уравнения:
градуса свободы: DF = N -2
Пример 1: Расчеты
. измерения размаха рук.
Корреляция:
Регрессия:
Образец вывода: Исследуя взаимосвязь между размахом рук и ростом, мы обнаружили большую положительную корреляцию ( r = 0,95), что указывает на сильную положительную линейную связь между двумя переменными. Мы рассчитали уравнение для линии наилучшего соответствия как Размах рук = -1,27+1,01 (Высота) . Это указывает на то, что для человека ростом ноль дюймов прогнозируемый размах рук будет равен -1,27 дюйма. Это невозможное значение, так как диапазон наших данных упадет намного выше. Предполагается, что на каждый 1 дюйм роста размах рук увеличивается на 1,01 дюйма.
Пример 2. Выполнение анализа в Excel 2016 по номеру
Для некоторых операций этого анализа необходимо, чтобы надстройка Data Analysis ToolPak была включена в Excel.
Набор данных, используемый в видео
Корреляционная матрица и p -значение:
Направления PDF, соответствующие видео
Создание диаграмм рассеивания:
Направления PDF, соответствующие видео
Линейная модель (первая половина руководства PDF): 19 направления PDF: соответствует видео
Создание остаточных графиков:
Инструкции в формате PDF, соответствующие видео
Образец вывода: При оценке зависимости между тем, насколько человек счастлив, и тем, насколько смешно его оценили другие, диаграмма рассеяния показывает, что существует умеренно сильная положительная линейная связь между две переменные, что подтверждается коэффициентом корреляции ( r = 0,65). Проверка предположений с использованием остаточного графика не выявила каких-либо проблем с данными. Линейное уравнение для предсказания счастливого от смешного было Счастливый = 0,04+0,46 (Забавный). Пересечение с осью y указывает на то, что для человека, чей рейтинг забавности равен нулю, прогнозируется, что его счастье будет равно 0,04. Смешной рейтинг действительно в значительной степени предсказывает счастье, так что на каждый 1 пункт увеличения смешного рейтинга прогнозируется увеличение счастья мужчин на 0,46 ( t = 3,70, p = 0,002).
Пример 3: Выполнение анализа в R
В следующих видеороликах исследуется взаимосвязь между ИМТ и артериальным давлением для выборки пациентов.
Набор данных, используемый в видео
Корреляция:
Файл сценария R, используемый в видео
Регрессия:
Файл сценария R, используемый в видео
Поведенческая статистика в действии
Поведенческая статистика в действииСтатистика поведения наук | Урок 8 Линейная регрессия | Роджер Н. |
I. Линейная регрессия (видео Урок 8 I) (версия для YouTube)
На уроке 7 мы построили диаграммы рассеяния и рассчитанные коэффициенты корреляции для определения взаимосвязи между двумя переменные. Линейная регрессия позволяет нам использовать эти корреляционные данные связь между двумя переменными для предсказания одной переменной по другой.
Если мы знаем корреляцию между X и Y, то регрессия позволит нам предсказать значение Y из любого заданного X ценить. Точно так же регрессия также позволяет нам предсказать значение X из любого задан Y, если у нас есть коэффициент корреляции X и Y. Там Есть несколько способов расчета линейной регрессии. Я решил сосредоточиться на то, что я чувствую, является самой простой формулой сырой оценки для регрессии. Следующий раздел описывает, как рассчитать предсказанный X (X’) и предсказанный Y (Y’) ценности.
Первое, что нужно знать о вычислении линейной регрессии заключается в том, что есть два типа прогнозов ты можешь сделать. Вы можете предсказать X по заданному Y. Это называется решением для предсказал X и символизируется как X’ (читай X простое число). Другой предсказание состоит в том, чтобы предсказать Y из заданного X. Это называется решением для предсказал Y и обозначается как Y’ (читай Y штрих). Оба формулы приведены ниже.
Чтобы предсказать X из Y, используйте этот необработанный формула оценки:
Формула гласит: X простое число равно корреляции X:Y, умноженной на стандартное отклонение X, затем разделить на стандартное отклонение Y. Затем умножьте сумму на Y — Y бар (среднее Y). Наконец, возьмите всю эту сумму и добавьте ее к столбцу X (среднее значение ИКС).
Чтобы предсказать Y из X, используйте эту формулу необработанной оценки:
.
Формула гласит: Y простое число равно корреляции X:Y, умноженной на стандартное отклонение Y, затем разделить на стандартное отклонение X. Затем умножить сумму на X — X бар (среднее значение X). Наконец, возьмите всю эту сумму и добавьте ее к бару Y (среднее значение Ю).
Для этих формул:
Х = необработанная оценка из переменной X
Д = необработанная оценка из переменной Y
r XY = корреляция между переменными X и Y
С Д = стандартное отклонение переменной Y
С Х = стандартное отклонение переменной X
X бар = среднее значение переменной X
Y бар = среднее значение переменной Y
Давайте использовать наши же два переменные из главы 8, депрессия и самооценка, чтобы решить как для предсказал X и предсказал Y.
В таблице ниже показаны оценки депрессии и самооценки.
Депрессия (X)
Самоуважение (Д)
10
104
12
100
19
98
4
150
25
75
15
105
21
82
7
133
Чтобы решить предсказанные формулы X или Y, нам нужны сводные данные.
В частности, нам нужны средние значения каждой группы, стандартные отклонения каждого группа и коэффициент корреляции для X:Y. В таблице ниже приведены сводные данные данные, необходимые для решения наших формул регрессии.
Депрессия (Х) |
|
Самоуважение (Y)
| |
Среднее | 14.125 |
| 105,875 |
Стандартное отклонение | 7. |
| 24.805 |
Коэффициент корреляции |
| -0,924 |
|
Допустим, пациент имеет самооценку 76 баллов. Что было бы их прогнозируемый показатель депрессии?
Чтобы решить этот вопрос, нам нужно использовать предсказанную формулу X:
X’ = [[ (-0,924 х 7,220) / 24,805] х (76 — 105,875)] + 14,125
X’ = [(-6,671 / 24,805) x (-29,875)] + 14,125
Х’ = [(-0,269) х (-29,875)] + 14,125
Х’ = 8,035 + 14,125
Х’ = 22,160
Прогнозируемый показатель депрессии (X’) для показателя самооценки 76 будет 22.
160.
Теперь предположим, что у пациента 11 баллов по шкале депрессии. быть их прогнозируемой оценки самооценки?
Чтобы решить этот вопрос, нам нужно использовать предсказанную формулу Y:
Y’ = [[ (-0,924 x 24,805) / 7,220] x (11 — 14,125)] + 105,875
Y’ = [(-22,920 / 7,220) x (-3,125] + 105,875
Y’ = [(-3,175) x (-3,125)] + 105,875
Y’ = 9,922 + 105,875
Y’ = 115,797
Прогнозируемый балл самооценки (Y’) для балла депрессии 11 будет 115,797.
IV. Стандартная ошибка оценки (видео Урок 8 IV) (версия для YouTube)
Ошибка, связанная с проведением линейной регрессии, рассчитывается с использованием стандартной ошибки 90 227 оценки 90 228 или просто стандарт ошибка для краткости.
Это мера изменчивости для линейной регрессии. Существуют две формулы стандартных ошибок: одна для прогнозируемое значение X ( S XY ) и одно для прогнозируемого значения Y ( S YX ).
Стандартная ошибка для предсказанного X:
Формула гласит: Стандартная ошибка X от Y равна стандартному отклонению X, умноженному на квадратный корень из 1 минус квадрат корреляции между X и Y.
Для нашего примера выше Стандартная ошибка всех оценок X будет:
.
С ХУ = (7,220) x [квадратный корень из (1 — (-0,9)24) 2 )]
С ХУ = (7,220) x [квадратный корень из (1 — 0,854)]
С ХУ = (7,220) x (квадратный корень из (0,146)]
С ХУ = (7,220) х (0,382)
S XY = 2,758
Стандартная ошибка для прогнозируемого Y:
.
Формула гласит: Стандартная ошибка Y от X равна стандартному отклонению Y. умножается на квадратный корень из 1 минус квадрат корреляции между X и Ю.
Для нашего примера выше Стандартная ошибка всех оценок Y’ будет:
.
С УХ = (24,805) x [Квадратный корень из (1 — (-0,924) 2 )]
С УХ = (24,805) x [квадратный корень из (1 — 0,854)]
С УХ = (24,805) x (квадратный корень из (0,146)]
С УХ = (24,805) х (0,382)
S YX = 9.476
Дополнительные ссылки о концепциях, которые могут
справка:
ПРЕДУПРЕЖДЕНИЕ! В приведенных ниже ссылках используются разные формулы для
Линейная регрессия, чем те, что использовались в моем уроке.