Контакты

Коэффициент ранговой корреляции rs Спирмена. Корреляционный анализ по методу Спирмена (ранги Спирмена)

Корреляционный анализ является методом, позволяющим обнаруживать зависимости между определенным количеством случайных величин. Цель корреляционного анализа, сводится к выявлению оценки силы связей между такими случайными величинами либо признаками, характеризующими определенные реальные процессы.

Сегодня мы предлагаем рассмотреть, как применяется корреляционный анализ по Спирмену, для наглядного отображения форм связи в практическом трейдинге.

Корреляция по Спирмену или основа корреляционного анализа

Для того чтобы понять, что такое корреляционный анализ, изначально следует уяснить понятие корреляции.

При этом, если цена начнет двигаться в нужном Вам направлении необходимо вовремя произвести разлокирование позиций.


Для данной стратегии в основу которой положен корреляционный анализ, наилучшим образом подходят торговые инструменты имеющие высокую степень корреляции (EUR/USD и GBP/USD, EUR/AUD и EUR/NZD, AUD/USD и NZD/USD, контракты CFD и тому подобные).

Видео: Применение корреляции Спирмена на рынке Форекс

Ранговая корреляция Спирмена (корреляция рангов). Ранговая корреляция Спирмена - самый простой способ определения степени связи между факторами. Название метода свидетельствует о том, что связь определяют между рангами, то есть рядами полученных количественных значений, ранжированных в порядке убывания или возрастания. Надо иметь в виду, что, во-первых, ранговое корреляцию Не рекомендуется проводить, если связь пар меньше четырех и больше двадцати; во-вторых, ранговая корреляция позволяет определять связь и в другом случае, если значение имеют полуколичественный характер, то есть не имеют числового выражения, отражают четкий порядок следования этих величин; в-третьих, ранговое корреляцию целесообразно применять в тех случаях, когда достаточно получить приблизительные данные. Пример расчета коэффициента ранговой корреляции для определения вопрос: замеряют вопросник X и Y подобные личностные качества испытуемых. С помощью двух вопросников (X и Y), которые требуют альтернативных ответов "да" или "нет", получили первичные результаты - ответы 15 испытуемых (N = 10). Результаты подали в виде суммы утвердительных ответов отдельно для вопросника X и для вопросника В. Эти результаты сведены в табл. 5.19.

Таблица 5.19. Табулирование первичных результатов для расчета коэффициента ранговой корреляции по Спирмену (р) *

Анализ сводной корреляционной матрицы. Метод корреляционных плеяд.

Пример. В табл. 6.18 приведены интерпретации одиннадцати переменных, которые тестируют по методике Векслера. Данные получили на однородной выборке в возрасте от 18 до 25 лет (n = 800).

Перед расслаиванием корреляционную матрицу целесообразно ранжировать. Для этого в исходной матрицы вычисляют средние значения коэффициентов корреляции каждой переменной со всеми остальными.

Затем по табл. 5.20 определяют допустимые уровни расслоение корреляционной матрицы при заданных доверительной вероятности 0,95 и n - количества

Таблица 6.20. Восходящая корреляционная матрица

Переменные 1 2 3 4 бы 0 7 8 0 10 11 M (rij) Ранг
1 1 0,637 0,488 0,623 0,282 0,647 0,371 0,485 0,371 0,365 0,336 0,454 1
2 1 0,810 0,557 0,291 0,508 0,173 0,486 0,371 0,273 0,273 0,363 4
3 1 0,346 0,291 0,406 0,360 0,818 0,346 0,291 0,282 0,336 7
4 1 0,273 0,572 0,318 0,442 0,310 0,318 0,291 0,414 3
5 1 0,354 0,254 0,216 0,236 0,207 0,149 0,264 11
6 1 0,365 0,405 0,336 0,345 0,282 0,430 2
7 1 0,310 0,388 0,264 0,266 0,310 9
8 1 0,897 0,363 0,388 0,363 5
9 1 0,388 0,430 0,846 6
10 1 0,336 0,310 8
11 1 0,300 10

Обозначения: 1 - общая осведомленность; 2 - понятийнисть; 3 - внимательность; 4 - вдатнисть К обобщения; б - непосредственное запоминание (на цифрах) 6 - уровень освоения родном языке; 7 - скорость овладения сенсомоторном навыками (кодирование символами) 8 - наблюдательность; 9 - комбинаторные способности (к анализу и синтезу) 10 - способность к организации частей в осмысленное целое; 11 - способность к эвристического синтеза; M (rij) - среднее значение коэффициентов корреляции переменной с остальными переменных наблюдений (в нашем случае n = 800): r (0) - значение нулевой "Рассекая" плоскости - минимальная значимая абсолютная величина коэффициента корреляции (n - 120, r (0) = 0,236; n = 40, r (0) = 0,407) | Δr | - допустимый шаг расслоения (n = 40, | Δr | = 0,558) в - допустимое количество уровней расслоения (n = 40, s = 1 ; n = 120, s = 2); r (1), r (2), ..., r (9) - абсолютное значение секущей плоскости (n = 40, r (1) = 0,965).

Для n = 800 находим значение гтип и границ ги после чего Расслаивающая ранжированы корреляционную матрицу, выделяя корреляционные плеяды внутри слоев, или отделяем части корреляционной матрицы, вырисовывая объединения корреляционных плеяд для вышележащих слоев (рис. 5.5).

Содержательный анализ полученных плеяд выходит за пределы математической статистики. Надо отметить два формальные показатели, которые помогают при содержательной интерпретации плеяд. Одним существенным показателем служит степень вершины, то есть количество ребер, примыкающих к вершине. Переменная с наибольшим количеством ребер является "ядром" плеяды и ее можно рассматривать как индикатор остальных переменных этой плеяды. Другой существенный показатель - плотность связи. Переменная может иметь меньше связей в одной плеяде, но теснее, и больше связей в другой плеяде, однако менее тесных.

Предсказания и оценки. Уравнение у = b1x + b0 называется общим уравнением прямой. Оно свидетельствует о том, что пары точек (x, y), которые

Рис. 5.5. Корреляционные плеяды, полученные расслоением матрицы

лежат на некоторой прямой, связанные так, что для любого значения х величину в в находящегося с ним в паре, можно найти, умножив х на некоторое число b1 добавив вторых, число b0 к этому произведению.

Коэффициент регрессии позволяет определить степень изменения следственной фактора при изменении причинного фактора на одну единицу. Абсолютные величины характеризуют зависимость между переменными факторами по их абсолютными значениями. Коэффициент регрессии вычисляют по формуле:

Планирование и анализ экспериментов. Планирование и анализ экспериментов - это третья важная отрасль статистических методов, разработанных для нахождения и проверки причинных связей между переменными.

Для исследования многофакторных зависимостей в последнее время все чаще используют методы математического планирования эксперимента.

Возможность одновременного варьирования всеми факторами позволяет: а) уменьшить количество опытов;

б) свести ошибку эксперимента к минимуму;

в) упростить обработку полученных данных;

г) обеспечить наглядность и легкость по сравнению результатов.

Каждый фактор может приобретать некоторую соответствующее количество различных значений, которые называются уровнями и обозначают -1, 0 и 1. Фиксированный набор уровней факторов определяет условия одного из возможных опытов.

Совокупность всех возможных сочетаний вычисляют по формуле:

Полным факторным экспериментом называется эксперимент, в котором реализуются все возможные сочетания уровней факторов. Полные факторные эксперименты могут обладать свойством ортогональности. При ортогональном планировании факторы в эксперименте является некоррелированными, коэффициенты регрессии, которые высчитывают в итоге, определяют независимо друг от друга.

Важным преимуществом метода математического планирования эксперимента является его универсальность, пригодность во многих областях исследований.

Рассмотрим пример сравнения влияния некоторых факторов на формирование уровня психического напряжения в регулировщиков цветных телевизоров.

В основу эксперимента положен ортогональный План 2 три (три фактора изменяются на двух уровнях).

Эксперимент проводили с полным части 2 +3 с трехкратным повторением.

Ортогональное планирование базируется на построении уравнения регрессии. Для трех факторов оно выглядит так:

Обработка результатов в этом примере включает:

а) построение ортогонального плана 2 +3 таблице для расчета;

б) вычисления коэффициентов регрессии;

в) проверку их значимости;

г) интерпретацию полученных данных.

Для коэффициентов регрессии упомянутого уравнения надо было поставить N = 2 3 = 8 вариантов, чтобы иметь возможность оценить значимость коэффициентов, где количество повторений К равнялось 3.

Составлена матрица планирования эксперимента выглядела.

- это количественная оценка статистического изучения связи между явлениями, используемая в непараметрических методах.

Показатель показывает, как отличается полученная при наблюдении сумма квадратов разностей между рангами от случая отсутствия связи.

Назначение сервиса . С помощью данного онлайн-калькулятора производится:

  • расчет коэффициента ранговой корреляции Спирмена;
  • вычисление доверительного интервала для коэффициента и оценка его значимости;

Коэффициент ранговой корреляции Спирмена относится к показателям оценки тесноты связи. Качественную характеристику тесноты связи коэффициента ранговой корреляции, как и других коэффициентов корреляции, можно оценить по шкале Чеддока .

Расчет коэффициента состоит из следующих этапов:

Свойства коэффициента ранговой корреляции Спирмена

Область применения . Коэффициент корреляции рангов используется для оценки качества связи между двумя совокупностями. Кроме этого, его статистическая значимость применяется при анализе данных на гетероскедастичность .

Пример . По выборке данных наблюдаемых переменных X и Y:

  1. составить ранговую таблицу;
  2. найти коэффициент ранговой корреляции Спирмена и проверить его значимость на уровне 2a
  3. оценить характер зависимости
Решение. Присвоим ранги признаку Y и фактору X .
X Y ранг X, d x ранг Y, d y
28 21 1 1
30 25 2 2
36 29 4 3
40 31 5 4
30 32 3 5
46 34 6 6
56 35 8 7
54 38 7 8
60 39 10 9
56 41 9 10
60 42 11 11
68 44 12 12
70 46 13 13
76 50 14 14

Матрица рангов.
ранг X, d x ранг Y, d y (d x - d y) 2
1 1 0
2 2 0
4 3 1
5 4 1
3 5 4
6 6 0
8 7 1
7 8 1
10 9 1
9 10 1
11 11 0
12 12 0
13 13 0
14 14 0
105 105 10

Проверка правильности составления матрицы на основе исчисления контрольной суммы:

Сумма по столбцам матрицы равны между собой и контрольной суммы, значит, матрица составлена правильно.
По формуле вычислим коэффициент ранговой корреляции Спирмена.


Связь между признаком Y и фактором X сильная и прямая
Значимость коэффициента ранговой корреляции Спирмена
Для того чтобы при уровне значимости α проверить нулевую гипотезу о равенстве нулю генерального коэффициента ранговой корреляции Спирмена при конкурирующей гипотезе H i . p ≠ 0, надо вычислить критическую точку:

где n - объем выборки; ρ - выборочный коэффициент ранговой корреляции Спирмена: t(α, к) - критическая точка двусторонней критической области, которую находят по таблице критических точек распределения Стьюдента, по уровню значимости α и числу степеней свободы k = n-2.
Если |p| < Т kp - нет оснований отвергнуть нулевую гипотезу. Ранговая корреляционная связь между качественными признаками не значима. Если |p| > T kp - нулевую гипотезу отвергают. Между качественными признаками существует значимая ранговая корреляционная связь.
По таблице Стьюдента находим t(α/2, k) = (0.1/2;12) = 1.782

Поскольку T kp < ρ , то отклоняем гипотезу о равенстве 0 коэффициента ранговой корреляции Спирмена. Другими словами, коэффициент ранговой корреляции статистически - значим и ранговая корреляционная связь между оценками по двум тестам значимая.

Коэффициент корреляции рангов, предложенный К. Спирменом, относится к непараметрическим показателям связи между переменными, измеренными в ранговой шкале. При расчете этого коэффициента не требуется никаких предположений о характере распределений признаков в генеральной совокупности. Этот коэффициент определяет степень тесноты связи порядковых признаков, которые в этом случае представляют собой ранги сравниваемых величин.

Величина коэффициента корреляции Спирмена также лежит в интервале +1 и -1. Он, как и коэффициент Пирсона, может быть положительным и отрицательным, характеризуя направленность связи между двумя признаками, измеренными в ранговой шкале.

В принципе число ранжируемых признаков (качеств, черт и т.п.) может быть любым, но сам процесс ранжирования большего, чем 20 числа признаков -- затруднителен. Возможно, что именно поэтому таблица критических значений рангового коэффициента корреляции рассчитана лишь для сорока ранжируемых признаков (n < 40, табл. 20 приложения 6).

Ранговый коэффициент корреляции Спирмена подсчитывается по формуле:

где n - количество ранжируемых признаков (показателей, испытуемых);

D - разность между рангами по двум переменным для каждого испытуемого;

Сумма квадратов разностей рангов.

Используя ранговый коэффициент корреляции, рассмотрим следующий пример.

Пример : Психолог выясняет, как связаны между собой индивидуальные показатели готовности к школе, полученные до начала обучения в школе у 11 первоклассников и их средняя успеваемость в конце учебного года.

Для решения этой задачи были проранжированы, во-первых, значения показателей школьной готовности, полученные при поступлении в школу, и, во-вторых, итоговые показатели успеваемости в конце года у этих же учащихся в среднем. Результаты представим в табл. 13.

Таблица 13

№ учащихся

Ранги показателей школьной готовности

Ранги среднегодовой успеваемости

Подставляем полученные данные в формулу и производим расчет. Получаем:

Для нахождения уровня значимости обращаемся к табл. 20 приложения 6, в которой приведены критические значения для коэффициентов ранговой корреляции.

Подчеркнем, что в табл. 20 приложения 6, как и в таблице для линейной корреляции Пирсона, все величины коэффициентов корреляции даны по абсолютной величине. Поэтому, знак коэффициента корреляции учитывается только при его интерпретации.

Нахождение уровней значимости в данной таблице осуществляется по числу n, т. е. по числу испытуемых. В нашем случае n = 11. Для этого числа находим :

0,61 для P 0,05

0,76 для P 0,01

Строим соответствующую ``ось значимости"":

Полученный коэффициент корреляции совпал с критическим значением для уровня значимости в 1%. Следовательно, можно утверждать, что показатели школьной готовности и итоговые оценки первоклассников связаны положительной корреляционной зависимостью - иначе говоря, чем выше показатель школьной готовности, тем лучше учится первоклассник. В терминах статистических гипотез психолог должен отклонить нулевую (Нгипотезу о сходстве и принять альтернативную (Но наличии различий, которая говорит о том, что связь между показателями школьной готовности и средней успеваемостью отлична от нуля.

Случай одинаковых (равных) рангов

При наличии одинаковых рангов формула расчета коэффициента линейной корреляции Спирмена будет несколько иной. В этом случае в формулу вычисления коэффициентов корреляции добавляются два новых члена, учитывающие одинаковые ранги. Они называются поправками на одинаковые ранги и добавляются в числитель расчетной формулы.

где n - число одинаковых рангов в первом столбце,

k - число одинаковых рангов во втором столбце.

Если имеется две группы одинаковых рангов, в каком-либо столбце то формула поправки несколько усложняется:

где n - число одинаковых рангов в первой группе ранжируемого столбца,

k - число одинаковых рангов в второй группе ранжируемого столбца. Модификация формулы в общем случае такова:

Пример : Психолог, используя тест умственного развития (ШТУР) проводит исследование интеллекта у 12 учащихся 9 класса. Одновременно с этим, но просит учителей литературы и математики провести ранжирование этих же учащихся по показателям умственного развития. Задача заключается в том, чтобы определить, как связаны между собой объективные показатели умственного развития (данные ШТУРа) и экспертные оценки учителей.

Экспериментальные данные этой задачи и дополнительные столбцы, необходимые для расчета коэффициента корреляции Спирмена, представим в виде табл. 14.

Таблица 14

№ учащихся

Ранги тестирования с помощью ШТУРа

Экспертные оценки учителей по математики

Экспертные оценки учителей по литературе

D (второго и третьего столбцов)

D (второго и четвертого столбцов)

(второго и третьего столбцов)

(второго и четвертого столбцов)

Поскольку при ранжировании использовались одинаковые ранги, то необходимо проверить правильность ранжирования во втором, третьем и четвертом столбцах таблицы. Суммирование в каждом из этих столбцов дает одинаковую сумму - 78.

Проверяем по расчетной формуле. Проверка дает:

В пятом и шестом столбцах таблицы приведены величины разности рангов между экспертными оценками психолога по тесту ШТУР для каждого ученика и величинами экспертных оценок учителей, соответственно по математике и литературе. Сумма величин разностей рангов должна быть равна нулю. Суммирование величин D в пятом и шестом столбцах дало искомый результат. Следовательно, вычитание рангов проведено правильно. Подобную проверку необходимо делать каждый раз при проведении сложных видов ранжирования.

Прежде, чем начать расчет по формуле необходимо рассчитать поправки на одинаковые ранги для второго, третьего и четвертого столбцов таблицы.

В нашем случае во втором столбце таблицы два одинаковых ранга, следовательно, по формуле величина поправки D1 будет:

В третьем столбце три одинаковых ранга, следовательно, по формуле величина поправки D2 будет:

В четвертом столбце таблицы две группы по три одинаковых ранга, следовательно, по формуле величина поправки D3 будет:

Прежде, чем преступить к решению задачи, напомним, что психолог выясняет два вопроса - как связаны величины рангов по тесту ШТУР с экспертными оценками по математике и литературе. Именно поэтому расчет проводится дважды.

Считаем первый ранговый коэффициент с учетом добавок по формуле. Получаем:

Подсчитаем без учета добавки:

Как видим, разница в величинах коэффициентов корреляции оказалась очень незначительной.

Считаем второй ранговый коэффициент с учетом добавок по формуле. Получаем:

Подсчитаем без учета добавки:

И опять, различия оказались очень незначительны. Поскольку число учащихся в обоих случаях одинаково, по табл. 20 приложения 6 находим критические значения при n = 12 сразу для обоих коэффициентов корреляции.

0,58 для P 0,05

0,73 для P 0,01

Откладываем первое значение на ``оси значимости"":

В первом случае полученный коэффициент ранговой корреляции находится в зоне значимости. Поэтому психолог должен отклонить нулевую Нгипотезу о сходстве коэффициента корреляции с нулем и принять альтернативную Но значимом отличии коэффициента корреляции от нуля. Иными словами, полученный результат говорит о том, что чем выше экспертные оценки учащихся по тесту ШТУР, тем выше их экспертные оценки по математике.

Откладываем второе значение на ``оси значимости"":

Во втором случае коэффициент ранговой корреляции находится в зоне неопределенности. Поэтому психолог может принять нулевую Нгипотезу о сходстве коэффициента корреляции с нулем и отклонить альтернативную Но значимом отличии коэффициента корреляции от нуля. В этом случае полученный результат говорит о том, что экспертные оценки учащихся по тесту ШТУР не связаны с экспертными оценками по литературе.

Для применения коэффициента корреляции Спирмена, необходимо соблюдать следующие условия:

1. Сравниваемые переменные должны быть получены в порядковой (ранговой) шкале, но могут быть измерены также в шкале интервалов и отношений.

2. Характер распределения коррелируемых величин не имеет значения.

3. Число варьирующих признаков в сравниваемых переменных X и Y должно быть одинаковым.

Таблицы для определения критических значений коэффициента корреляции Спирмена (табл. 20 приложение 6) рассчитаны от числа признаков равных n = 5 до n = 40 и при большем числе сравниваемых переменных следует использовать таблицу для пирсоновского коэффициента корреляции (табл. 19 приложение 6). Нахождение критических значений осуществляется при k = n.

Корреляция Пирсона есть мера линейной связи между двумя переменными. Она позволяет определить, насколько пропорциональна изменчивость двух переменных. Если переменные пропорциональны друг другу, то графически связь между ними можно представить в виде прямой линии с положительным (прямая пропорция) или отрицательным (обратная пропорция) наклоном.

На практике связь между двумя переменными, если она есть, является вероятностной и графически выглядит как облако рассеивания эллипсоидной формы. Этот эллипсоид, однако, можно представить (аппроксимировать) в виде прямой линии, или линии регрессии. Линия регрессии - это прямая, построенная методом наименьших квадратов: сумма квадратов расстояний (вычисленных по оси Y) от каждой точки графика рассеивания до прямой является минимальной

Особое значение для оценки точности предсказания имеет дисперсия оценок зависимой переменной. По сути, дисперсия оценок зависимой переменной Y - это та часть ее полной дисперсии, которая обусловлена влиянием независимой переменной X. Иначе говоря, отношение дисперсии оценок зависимой переменной к ее истинной дисперсии равно квадрату коэффициента корреляции.

Квадрат коэффициента корреляции зависимой и независимой переменных представляет долю дисперсии зависимой переменной, обусловленной влиянием независимой переменной, и называется коэффициентом детерминации. Коэффициент детерминации, таким образом, показывает, в какой степени изменчивость одной переменной обусловлена (детерминирована) влиянием другой переменной.

Коэффициент детерминации обладает важным преимуществом по сравнению с коэффициентом корреляции. Корреляция __________не является линейной функцией связи между двумя переменными. Поэтому, среднее арифметическое коэффициентов корреляции для нескольких выборок не совпадает с корреляцией, вычисленной сразу для всех испытуемых из этих выборок (т.е. коэффициент корреляции не аддитивен). Напротив, коэффициент детерминации отражает связь линейно и поэтому является аддитивным: допускается его усреднение для нескольких выборок.

Дополнительную информацию о силе связи дает значение коэффициента корреляции в квадрате - коэффициент детерминации: это часть дисперсии одной переменной, которая может быть объяснена влиянием другой переменной. В отличие от коэффициента корреляции коэффициент детерминации линейно возрастает с увеличением силы связи.

Коэффициенты корреляции Спирмена и τ-Кендалла (ранговые корреляции)

Если обе переменные, между которыми изучается связь, представлены в порядковой шкале, или одна из них - в порядковой, а другая - в метрической, то применяются ранговые коэффициенты корреляции: Спирмена или τ-Кенделла. И тот, и другой коэффициент требует для своего применения предварительного ранжирования обеих переменных.

Коэффициент ранговой корреляции Спирмена - это непараметрический метод, который используется с целью статистического изучения связи между явлениями. В этом случае определяется фактическая степень параллелизма между двумя количественными рядами изучаемых признаков и дается оценка тесноты установленной связи с помощью количественно выраженного коэффициента.

Если члены группы численностью были ранжированы сначала по переменной x, затем – по переменной y, то корреляцию между переменными x и y можно получить, просто вычислив коэффициент Пирсона для двух рядов рангов. При условии отсутствия связей в рангах (т.е. отсутствия повторяющихся рангов) по той и другой переменной, формула для Пирсона может быть существенно упрощена в вычислительном отношении и преобразована в формулу, известную как Спирмена.

Мощность коэффициента ранговой корреляции Спирмена несколько уступает мощности параметрического коэффициента корреляции.

Коэффицент ранговой корреляции целесообразно применять при наличии небольшого количества наблюдений. Данный метод может быть использован не только для количественно выраженных данных, но также и в случаях, когда регистрируемые значения определяются описательными признаками различной интенсивности.

Коэффициент ранговой корреляции Спирмена при большом количестве одинаковых рангов по одной или обеим сопоставляемым переменным дает огрубленные значения. В идеале оба коррелируемых ряда должны представлять собой две последовательности несовпадающих значений.

Альтернативу корреляции Спирмена для рангов представляет корреляция τ-Кендалла. В основе корреляции, предложенной М.Кендаллом, лежит идея о том, что о направлении связи можно судить, попарно сравнивая между собой испытуемых: если у пары испытуемых изменение по x совпадает по направлению с изменением по y, то это свидетельствует о положительной связи, если не совпадает - то об отрицательной связи.

Понравилась статья? Поделитесь ей