какие значения может принимать парный коэффициент корреляции
Парные, частные коэффициенты корреляции, совокупные коэффициенты множественной корреляции и детерминации. Понятие и связь между ними
Если факторные признаки различны по своей сущности и/или имеют различные единицы измерения, то коэффициенты регрессии при разных факторах являются несопоставимыми. Поэтому уравнение регрессии дополняют соизмеримыми показателями тесноты связи фактора с результатом, позволяющими ранжировать факторы.
К ним относят: частные коэффициенты эластичности, в-коэффициенты, частные коэффициенты корреляции.
Парные коэффициенты корреляции. Для измерения тесноты связи между двумя из рассматриваемых переменных (без учета их взаимодействия с другими переменными) применяются парные коэффициенты корреляции.
Методика расчета таких коэффициентов и их интерпретации аналогичны линейному коэффициенту корреляции в случае однофакторной связи.
— среднее квадратическое отклонение результативного признака.
Коэффициент частной корреляции измеряет тесноту линейной связи между отдельным фактором и результатом при устранении воздействия прочих факторов модели. Для качественной оценки тесноты связи можно использовать следующую классификацию:
Для расчета частных коэффициентов корреляции могут быть использованы парные коэффициенты корреляции.
Для случая зависимости Y от двух факторов можно вычислить 2 коэффициента частной корреляции:
(2-ой фактор фиксирован);
(1-ый фактор фиксирован).
Это коэффициенты частной корреляции 1-ого порядка (порядок определяется числом факторов, влияние которых на результат устраняется).
При малых значениях нет смысла вводить в уравнение m-ый фактор, т.к. качество уравнения регрессии при его введении возрастет незначительно (т.е. теоретический коэффициент детерминации увеличится незначительно).
Совокупный коэффициент множественной корреляции или индекс множественной корреляции определяет тесноту совместного влияния факторов на результат:
где остаточная дисперсия;
Таким образом, при значении R близком к 1, уравнение регрессии лучше описывает фактические данные и факторы сильнее влияют на результат; при значении R близком к 0 уравнение регрессии плохо описывает фактические данные и факторы оказывают слабое воздействие на результат.
При трех переменных для двух факторного уравнения регрессии данная формула совокупного коэффициента множественной корреляции легко приводится к следующему виду:
Чем R ближе к единице, тем совокупное влияние изучаемых показателей x1 и x2 на результативный фактор y больше (корреляционная связь более интенсивная).
Связь: Частный коэффициент корреляции в отличие от коэффициента (полного) парной корреляции между явлениями показывает тесноту связи после устранения изменений, обусловленных влиянием третьего явления на оба коррелируемых признака (из значений корреляционных признаков вычитаются линейные оценки в связи с третьим признаком).
Также из приведенных ранее формул частных коэффициентов корреляции видна связь этих показателей с совокупным коэффициентом корреляции. Зная частные коэффициенты корреляции (последовательно первого, второго и более высокого порядка), можно определить совокупный коэффициент корреляции по формуле:
Корреляция и коэффициент корреляции
Корреляция — степень связи между 2-мя или несколькими независимыми явлениями.
Корреляция бывает положительной и отрицательной.
Положительная корреляция (прямая) возникает при одновременном изменении 2-х переменных величин в одинаковых направлениях (в положительном или отрицательном). Например, взаимосвязь между количеством пользователей, приходящих на сайт из поисковой выдачи и нагрузкой на сервер: чем больше пользователей, тем больше нагрузка.
Корреляция отрицательна (обратная), если изменение одной величины приводит противоположному изменению другой. Например, с увеличением налоговой нагрузки на компании уменьшается их прибыль. Чем больше налогов, тем меньше денег на развитие.
Типичные виды корреляции
Эффективность корреляции как статистического инструмента заключается в возможности выражения связи между двумя переменными при помощи коэффициента корреляции.
При значении КК равным 1, следует понимать, что при каждом изменении 1-й переменной происходит эквивалентное изменение 2-й переменной в том же направлении.
Положительная корреляция концентраций этанола в синовии и крови
Отрицательная корреляция между показателями результатов в беге на 100 м с барьерами и прыжками в длину
Значение | Интерпретация |
до 0,2 | Очень слабая |
до 0,5 | Слабая |
до 0,7 | Средняя |
до 0,9 | Высокая |
свыше 0,9 | Очень высокая корреляция |
Данный метод обработки статистической информации популярен в экономических, технических, социальных и других науках в виду простоты подсчета КК, простотой интерпретации результатов и отсутствия необходимости владения математикой на высоком уровне.
Корреляционная зависимость отражает только взаимосвязь между переменными и не говорит о причинно-следственных связях: положительная или отрицательная корреляция между 2-мя переменными не обязательно означает, что изменение одной переменной вызывает изменение другой.
Например, есть положительная корреляция между увеличением зарплаты менеджеров по продажам и качеством работы с клиентами (повышения качества обслуживания, работа с возражениями, знание положительных качеств продукта в сравнении с конкурентами) при соответствующей мотивации персонала. Увеличившийся объем продаж, а следовательно и зарплата менеджеров, вовсе не означает что менеджеры улучшили качество работы с клиентами. Вполне вероятно, что случайно поступили крупные заказы и были отгружены или отдел маркетинга увеличил рекламный бюджет или произошло еще что-то.
Возможно существует некая третья переменная, влияющая на причину наличия или отсутствия корреляции.
Коэффициент корреляции не рассчитывается:
Парные, частные коэффициенты корреляции, совокупные коэффициенты множественной корреляции и детерминации. Понятие и связь между ними
Если факторные признаки различны по своей сущности и/или имеют различные единицы измерения, то коэффициенты регрессии при разных факторах являются несопоставимыми. Поэтому уравнение регрессии дополняют соизмеримыми показателями тесноты связи фактора с результатом, позволяющими ранжировать факторы.
К ним относят: частные коэффициенты эластичности, в-коэффициенты, частные коэффициенты корреляции.
Парные коэффициенты корреляции. Для измерения тесноты связи между двумя из рассматриваемых переменных (без учета их взаимодействия с другими переменными) применяются парные коэффициенты корреляции.
Методика расчета таких коэффициентов и их интерпретации аналогичны линейному коэффициенту корреляции в случае однофакторной связи.
— среднее квадратическое отклонение результативного признака.
Коэффициент частной корреляции измеряет тесноту линейной связи между отдельным фактором и результатом при устранении воздействия прочих факторов модели. Для качественной оценки тесноты связи можно использовать следующую классификацию:
Для расчета частных коэффициентов корреляции могут быть использованы парные коэффициенты корреляции.
Для случая зависимости Y от двух факторов можно вычислить 2 коэффициента частной корреляции:
(2-ой фактор фиксирован);
(1-ый фактор фиксирован).
Это коэффициенты частной корреляции 1-ого порядка (порядок определяется числом факторов, влияние которых на результат устраняется).
При малых значениях нет смысла вводить в уравнение m-ый фактор, т.к. качество уравнения регрессии при его введении возрастет незначительно (т.е. теоретический коэффициент детерминации увеличится незначительно).
Совокупный коэффициент множественной корреляции или индекс множественной корреляции определяет тесноту совместного влияния факторов на результат:
где остаточная дисперсия;
Таким образом, при значении R близком к 1, уравнение регрессии лучше описывает фактические данные и факторы сильнее влияют на результат; при значении R близком к 0 уравнение регрессии плохо описывает фактические данные и факторы оказывают слабое воздействие на результат.
При трех переменных для двух факторного уравнения регрессии данная формула совокупного коэффициента множественной корреляции легко приводится к следующему виду:
Чем R ближе к единице, тем совокупное влияние изучаемых показателей x1 и x2 на результативный фактор y больше (корреляционная связь более интенсивная).
Связь: Частный коэффициент корреляции в отличие от коэффициента (полного) парной корреляции между явлениями показывает тесноту связи после устранения изменений, обусловленных влиянием третьего явления на оба коррелируемых признака (из значений корреляционных признаков вычитаются линейные оценки в связи с третьим признаком).
Также из приведенных ранее формул частных коэффициентов корреляции видна связь этих показателей с совокупным коэффициентом корреляции. Зная частные коэффициенты корреляции (последовательно первого, второго и более высокого порядка), можно определить совокупный коэффициент корреляции по формуле:
Основы анализа данных
Корреляционный анализ
Коэффициент корреляции Пирсона
Показатель тесноты связи между двумя признаками определяется по формуле линейного коэффициента корреляции :
Варианты связи, характеризующие наличие или отсутствие линейной связи между признаками:
В качестве примера возьмем набор данных А (таблица 8.1). Необходимо определить наличие линейной связи между признаками x и y.
Для графического представления связи двух переменных использована система координат с осями, соответствующими переменным x и y. Построенный график, называемый диаграммой рассеивания, показан на рис. 8.2. Данная диаграмма показывает, что низкие значения переменной x соответствуют низким значениям переменной y, высокие значения переменной x соответствуют высоким значениям переменной y. Этот пример демонстрирует наличие явной связи.
Таким образом, мы можем установить зависимость между переменными x и y. Рассчитаем коэффициент корреляции Пирсона между двумя массивами (x и y) при помощи функции MS Excel ПИРСОН(массив1;массив2). В результате получаем значение коэффициент корреляции равный 0,998364, т.е. связь между переменными x и y является весьма высокой. Используя пакет анализа MS Excel и инструмент анализа «Корреляция», можем построить корреляционную матрицу.
Любая зависимость между переменными обладает двумя важными свойствами: величиной и надежностью. Чем сильнее зависимость между двумя переменными, тем больше величина зависимости и тем легче предсказать значение одной переменной по значению другой переменной. Величину зависимости легче измерить, чем надежность.
Надежность зависимости не менее важна, чем ее величина. Это свойство связано с представительностью исследуемой выборки. Надежность зависимости характеризует, насколько вероятно, что эта зависимость будет снова найдена на других данных.
С ростом величины зависимости переменных ее надежность обычно возрастает.
Пример нахождения коэффициента корреляции
Вместе с этим калькулятором также используют следующие:
Уравнение множественной регрессии
Значимость коэффициента корреляции
Анализ точности определения оценок коэффициентов регрессии
Доверительные интервалы для зависимой переменной
Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и X = 7
(122.4;132.11)
Проверка гипотез относительно коэффициентов линейного уравнения регрессии
Статистическая значимость коэффициента регрессии подтверждается (18.63>2.228).
Fkp = 4.96. Поскольку F > Fkp, то коэффициент детерминации статистически значим (см. критерий Фишера).
Линейный коэффициент корреляции принимает значения от –1 до +1.
Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:
0.1 2
Значимость линейного коэффициента корреляции Пирсона.
Интервальная оценка для линейного коэффициента корреляции Пирсона
Доверительный интервал для коэффициента корреляции