состоятельность оценок параметров регрессии означает что
10. Выбор вида регрессионной модели и оценка ее параметров
На данном этапе устанавливается однофакторная или многофакторная будет строиться модель и вид модели (линейный или нелинейный).
Обоснование вида модели состоит в выборе вида функции (некоторого аналитического выражения), с помощью которого можно будет описать изменение исследуемого показателя под воздействием факторов.
К обоснованию вида функции идут двумя путями: Теоретическим (анализируя экономическую природу и
, выдвигается гипотеза о характере изменения показателя под действием фактора) И эмпирическим (закон изменения результативного показателя под действием фактора устанавливается путем анализа совокупности фактических данных по полям корреляции).
Наиболее употребительными выражениями при описании связи одного фактора и исследуемого показателя являются:
В качестве нелинейных моделей применяются
Для оценки значений параметров регрессионной модели чаще всего используется Метод наименьших квадратов (МНК).Этот метод можно применить как для линейных моделей, так и для нелинейных, допускающих преобразование их к линейному виду путем замены переменных или дифференцированием.
При использовании МНК делаются определенные предпосылки относительно случайной составляющей ε. В модели случайная составляющая ε представляет собой ненаблюдаемую величину. Поэтому в задачу регрессионного анализа входит не только построение самой модели, но и исследование случайных отклонений
, т. е. остаточных величин.
Остатки представляют собой независимые случайные величины, и их среднее значение равно 0; они имеют одинаковую (постоянную) дисперсию и подчиняются нормальному распределению.
Статистические проверки параметров регрессии, показателей корреляции основаны на непроверяемых предпосылках распределения случайной составляющей . Связано это с тем, что оценки параметров регрессии должны отвечать определенным критериям: быть Несмещенными, состоятельными и эффективными. Эти свойства оценок, полученных по МНК, имеют чрезвычайно важное практическое значение в использовании результатов регрессии и корреляции.
Коэффициенты регрессии, найденные из системы нормальных уравнений, представляют собой выборочные оценки характеристики силы связи. Их несмещенность является желательным свойством, т. к. только в этом случае они могут иметь практическую значимость.
Несмещенность оценки означает, что математическое ожидание остатков равно нулю. Оценки считаются Эффективными, если они характеризуются наименьшей дисперсией. Поэтому несмещенность оценки должна дополняться минимальной дисперсией. Состоятельность оценок характеризует увеличение их точности с увеличением объема выработки.
Указанные критерии оценок (несмещенность, состоятельность, эффективность) обязательно учитываются при разных способах оценивания. Метод наименьших квадратов строит оценки регрессии на основе минимизации суммы квадратов остатков ().
Исследование остатков предполагают проверку наличия следующих пяти предпосылок МНК:
С цель проверки случайного характера остатков строится график зависимости остатков
от теоретических значений результативного признака
.
Если на графике нет направленности в расположении точек
, то остатки
представляют собой случайные величины и МНК оправдан. Также возможны следующие случаи: если
зависит от теоретического значения, то:
Вторая предпосылка МНК относительно нулевой средней величины остатков означает, что . Это выполнимо для линейных моделей и моделей, нелинейных относительно включаемых переменных. Для обеспечения несмещенности оценок коэффициентов регрессии, полученных МНК, необходимо выполнение условий независимости случайных остатков
и переменных х, что исследуется в рамках соблюдения второй предпосылки МНК. С целью проверки выполнение этой предпосылки строится график зависимости случайных остатков ε от факторов, включенных в регрессию
. Если расположение остатков на графике не имеет направленности, то они независимы от значений
. Если же график показывает наличие зависимости
и
, то модель неадекватна.
Предпосылка о нормальном распределении остатков позволяет проводить проверку параметров регрессии и корреляции с помощью критериев t и F. Вместе с тем оценки регрессии, найденные с применением МНК, обладают хорошими свойствами даже при отсутствии нормального распределения остатков, т. е. при нарушении пятой предпосылки метода наименьших квадратов.
Наличие гетероскедастичности будет сказываться на уменьшении эффективности оценок , в частности, становится затруднительным использование формулы стандартной ошибки коэффициента регрессии, предполагающей единую дисперсию остатков для любых значений фактора.
Наличие гетероскедастичности в остатках регрессии можно проверить с помощью ранговой корреляции Спирмэна. Суть проверки заключается в том, что в случае гетероскедастичности абсолютные остатки коррелированы со значениями фактора
. Эту корреляцию можно измерять с помощью коэффициента ранговой корреляции Спирмэна:
, (1.35)
Где ρ – абсолютная разность между рангами значений и
.
Статистическую значимость ρ можно определить с помощью t-критерия:
. (1.36)
Принято считать, что если , то корреляция между
и
статистически значима, т. е. имеет место гетероскедастичность остатков. В противном случае принимается гипотеза об отсутствии гетероскедастичности остатков.
При построении регрессионных моделей чрезвычайно важно соблюдение четвертой предпосылки МНК – отсутствие автокорреляции остатков, т. е. распределения остатков и
независимы. Автокорреляция остатков означает наличие корреляции между остатками текущих и предыдущих (последующих) наблюдений. Находится коэффициент корреляции между
и
, и если он окажется существенно отличным от нуля, то остатки автокоррелированы и функция плотности вероятности F(ε) зависит от j-ой точки наблюдения и от распределения значений остатков в других точках наблюдения.
Отсутствие автокорреляции остатков обеспечивает состоятельность и эффективность оценок коэффициентов регрессии.
До сих пор в качестве факторов рассматривались экономические переменные, принимающие количественные значения в некотором интервале. Вместе с тем может оказаться необходимым включить в модель фактор, имеющий два или более качественных уровней. Это могут быть разного рода атрибутивные признаки, такие, например, как профессия, пол, образование, климатические условия, принадлежность к определенному региону. Для того, чтобы ввести такие переменные в регрессионную модель, им должны быть присвоены те или иные цифровые метки, т. е. качественные переменные необходимо преобразовать в количественные. Такого вида сконструированные переменные в эконометрике принято называть фиктивными переменными.
Качественные признаки могут приводить к неоднородности исследуемой совокупности, что может быть учтено при моделировании двумя путями:
Качественный фактор может иметь только два состояния, которым будут соответствовать 1 и 0. Если же число градаций качественного признака-фактора превышает два, то в модель вводится несколько фиктивных переменных, число которых должно быть меньше числа качественных градаций. Только при соблюдении этого положения матрица исходных фиктивных переменных не будет линейно зависима и возможна оценка параметров модели.
Коэффициент регрессии при фиктивной переменной интерпретируется как среднее изменение зависимой переменной при переходе от одной категории к другой при неизменных значениях остальных параметров. На основе t-критерия Стьюдента делается вывод о значимости влияния фиктивной переменной, существенности расхождения между категориями.
Оценка регрессии
1.3.1. Оценка дисперсии случайной составляющей – . Статистические свойства МНК-оценок (состоятельность, несмещенность, эффективность). Ковариационная матрица МНК-оценок параметров регрессии
Оценка дисперсии случайной составляющей в случае ной линейной регрессии.
Несмещенной оценкой дисперсии случайной составляющей является:
где ei – остаток, равный разности между фактическим и рассчитанным по уравнению регрессии значениями у:
Оценкой ковариационной матрицы случайных составляющих Сu будет матрица: .
При повторении выборок того же самого объема n из той же самой генеральной совокупности и при тех же самых значениях объясняющих переменных х наблюдаемые значения зависимой переменной у будут случайным образом варьироваться (за счет случайного характера случайной составляющей u). Следовательно, будут варьироваться и зависеть от у1. уn значения оценок параметров регрессии (j = 0; 1] и оценка дисперсии случайной составляющей.
Покажем на примере что значение МНК-оценки параметра регрессии зависит от случайной составляющей u.
МНК-оценка коэффициента регрессии, как было показано в п. 1.2.3, рассчитывается как отношение ковариации x и y к дисперсии х:
Так как y зависит от случайной составляющей u (y=b0+b1x+u), то ковариация может быть расписана следующим образом:
.
Причем из свойств ковариации (см п. 1.2.2) следует, что:
;
;
.
Тогда .
В результате МНК-оценка может быть разложена на случайную и неслучайную составляющие:
,
т.е. МНК-оценка может быть представлена как сумма слагаемых:
1) постоянной величины, равной истинному значению коэффициента b1;
2) случайной составляющей Cov(х, u), которая обусловливает отклонения оценки коэффициента регрессии от истинного значения.
Аналогично можно показать, что МНК-оценка , а так же оценка дисперсии
имеют постоянную составляющую, равную истинному значению, и случайную составляющую зависящую от u.
Следует заметить, что на практике мы не можем разложить оценки параметров регрессии и на составляющие, так как истинные значения b0,b1 и
нам не известны, кроме того, мы не знаем фактических значений u в выборке.
Однако приведенное выше разложение оценок позволяет получить некоторую теоретическую информацию об их свойствах.
Свойства МНК-оценок. Критериями лучшего способа оценивания является требование состоятельности, несмещенности и эффективности оценок, найденных данным способом.
Способ оценивания дает состоятельные оценки, если при бесконечно большом объеме выборки значение статистической оценки стремится к искомому значению параметра (характеристики) генеральной совокупности.
Способ оценивания дает несмещенные оценки, если математическое ожидание оценки при данном способе оценивания тождественно искомому параметру (характернее генеральной совокупности (при любом объеме выборки).
Оценка, полученная при данном способе оценивания называется эффективной, если ее дисперсия минимальна (при заданном объеме выборки n).
МНК-оценки параметров и дисперсии случайной составляющей являются «наилучшими» (состоятельными, несмещенными и эффективными) оценками.
Докажем, что является несмещенной оценкой b1 если выполняется 1-я предпосылка нормальной линейной модели регрессии. Если мы примем сильную форму 1-й предпосылки нормальной линейной регрессионной модели, т.е. предположим, что x –неслучайная величина, то мы можем считать
известной константой, а математическое ожидание
равным нулю. Тогда:
.
То есть , следовательно,
является несмещенной оценкой b1.
Аналогично доказывается несмещенность оценки .
Эффективность МНК-оценок доказывается с помощью теоремы Гаусса-Маркова, которая гласит:
Метод наименьших квадратов дает оценки, имеющие наименьшую дисперсию в классе всех линейных несмещенных оценок, если выполняются предпосылки нормальной линейной регрессионной модели (см. п. 1.2.2).
Ковариационная матрица МНК-оценок параметров регрессии – матрица ковариаций оценок параметров. Для случая парной регрессии это матрица размером 2´2:
.
Данная матрица в соответствии с методом наименьших квадратов рассчитывается следующим образом:
.
На главной диагонали данной матрицы, находятся дисперсии МНК-оценок параметров. Для случая парной линейной регрессии формулы расчета дисперсий МНК-оценок параметров следующие:
,
,
где – дисперсия случайной составляющей;
– дисперсия факторного признака x.
Так как нам известна, то при расчете ковариационной матрицы пользуются оценкой дисперсии случайных составляющих –
. Тогда получим оцененную ковариационную матрицу:
.
Формулы расчета оценок дисперсий и
(полученные через
) в случае парной линейной регрессии будут следующими:
,
Корень из оценки дисперсии и
.
Множественная регрессия и корреляция
Тестовые задания
Парная регрессия и корреляция
1. Наиболее наглядным видом выбора уравнения парной регрессии является:
2. Рассчитывать параметры парной линейной регрессии можно, если у нас есть:
б) не менее 7 наблюдений;
3. Суть метода наименьших квадратов состоит в:
б) минимизации дисперсии результативного признака;
4. Коэффициент линейного парного уравнения регрессии:
а) показывает среднее изменение результата с изменением фактора на одну единицу;
5. На основании наблюдений за 50 семьями построено уравнение регрессии , где
– потребление,
– доход. Соответствуют ли знаки и значения коэффициентов регрессии теоретическим представлениям?
6. Суть коэффициента детерминации состоит в следующем:
б) характеризует долю дисперсии результативного признака , объясняемую регрессией, в общей дисперсии результативного признака;
7. Качество модели из относительных отклонений по каждому наблюдению оценивает:
а) коэффициент детерминации ;
8. Значимость уравнения регрессии в целом оценивает:
а) -критерий Фишера;
9. Классический метод к оцениванию параметров регрессии основан на:
в) шаговом регрессионном анализе.
10. Остаточная сумма квадратов равна нулю:
11. Объясненная (факторная) сумма квадратов отклонений в линейной парной модели имеет число степеней свободы, равное:
б) ;
12. Остаточная сумма квадратов отклонений в линейной парной модели имеет число степеней свободы, равное:
в) .
13. Общая сумма квадратов отклонений в линейной парной модели имеет число степеней свободы, равное:
а) ;
14. Для оценки значимости коэффициентов регрессии рассчитывают:
в) коэффициент детерминации .
15. Какое уравнение регрессии нельзя свести к линейному виду:
в) .
16. Какое из уравнений является степенным:
б) :
17. Параметр в степенной модели является:
б) коэффициентом эластичности;
18. Коэффициент корреляции может принимать значения:
19. Для функции средний коэффициент эластичности имеет вид:
б) ;
20. Какое из следующих уравнений нелинейно по оцениваемым параметрам:
в) .
Множественная регрессия и корреляция
1. Добавление в уравнение множественной регрессии новой объясняющей переменной:
б) увеличивает значение коэффициента детерминации;
2. Скорректированный коэффициент детерминации:
в) меньше или равен обычному коэффициенту детерминации;
3. С увеличением числа объясняющих переменных скорректированный коэффициент детерминации:
4. Число степеней свободы для остаточной суммы квадратов в линейной модели множественной регрессии равно:
б) ;
5. Число степеней свободы для общей суммы квадратов в линейной модели множественной регрессии равно:
а) ;
6. Число степеней свободы для факторной суммы квадратов в линейной модели множественной регрессии равно:
в) .
7. Множественный коэффициент корреляции . Определите, какой процент дисперсии зависимой переменной
объясняется влиянием факторов
и
:
8. Для построения модели линейной множественной регрессии вида необходимое количество наблюдений должно быть не менее:
9. Стандартизованные коэффициенты регрессии :
а) позволяют ранжировать факторы по силе их влияния на результат;
10. Частные коэффициенты корреляции:
в) характеризуют тесноту связи между результатом и соответствующим фактором при элиминировании других факторов, включенных в уравнение регрессии.
11. Частный -критерий:
б) служит мерой для оценки включения фактора в модель;
12. Несмещенность оценки параметра регрессии, полученной по МНК, означает:
б) что математическое ожидание остатков равно нулю;
13. Эффективность оценки параметра регрессии, полученной по МНК, означает:
а) что она характеризуется наименьшей дисперсией;
14. Состоятельность оценки параметра регрессии, полученной по МНК, означает:
в) увеличение ее точности с увеличением объема выборки.
15. Укажите истинное утверждение:
в) при наличии гетероскедастичности оценки параметров регрессии становятся смещенными.
16. При наличии гетероскедастичности следует применять:
17. Фиктивные переменные – это:
а) атрибутивные признаки (например, как профессия, пол, образование), которым придали цифровые метки;
18. Если качественный фактор имеет три градации, то необходимое число фиктивных переменных: