Критерии оценки качества регрессионной модели, или какая модель хорошая, а какая лучше. Проверка значимости модели множественной регрессии и ее параметров

Для оценки значимости параметров уравнения множественной регрессии используют критерий Стьюдента. Напомним, что значимость параметров означает их отличие от нуля с высокой долей вероятности. Нулевой гипотезой в данном случае является утверждение

Фактическое значение t-критерия определяется по формуле

(2.27)

В формуле (2.27) под оценкой параметра понимается как коэффициент регрессии, так и свободный член (при ). Величина среднего квадратического отклонения оцениваемого параметра определяется как корень из дисперсии , рассчитанной по формуле (2.25). Величину называют стандартной ошибкой параметра .

Формулу для оценки коэффициента регрессии (т.е. для ) можно привести к виду

(2.28)

где – среднее квадратическое отклонение результативной переменной ; – среднее квадратическое отклонение объясняющей переменной , являющейся сомножителем коэффициента ; – коэффициент детерминации, найденный для уравнения зависимости переменной от переменных , включая ; – коэффициент детерминации, найденный для уравнения зависимости переменной от других переменных , входящих в рассматриваемую модель множественной регрессии.

Теоретическое значение t-критерия находят по таблице значений критерия Стьюдента для уровня значимости а и числа степеней свободы . Уровень значимости а представляет собой вероятность ошибки первого рода, т.е. вероятность отвергнуть гипотезу , когда она верна. Как правило, а выбирают равным 0,1; 0,05 или 0,01.

Нулевая гипотеза о незначимости параметра : отвергается, если выполняется неравенство

(2.29)

где – теоретическое значение критерия Стьюдента.

На основе выражения (2.29) можно построить также доверительный интервал для оцениваемого параметра :

Выражение (2.30) позволяет как оценить значимость параметра, так и дать его экономическую интерпретацию (если оценивается коэффициент регрессии). Очевидно, что параметр будет значим, если в доверительный интервал (2.30) не входит нуль, т.е. с большой долей вероятности оцениваемый параметр не равен нулю.

Так как коэффициент регрессии является абсолютным показателем силы связи, границы доверительного интервала и для него также можно интерпретировать аналогичным образом: с вероятностью при единичном изменении независимой переменной зависимая переменная у изменится не меньше, чем на , и не больше, чем на .

Рассмотрим результаты оценки значимости параметров для примера 2.1. Стандартные ошибки параметров равны

Напомним, что под знаком корня в квадратных скобках стоит элемент матрицы , который находится на пересече-

нии j-й строки и j-го столбца, номер; равен номеру оцениваемого параметра.

Фактическое значение критерия Стьюдента равно

Табличное значение t-критерия для и уровне значимостисоставляет 2,0153, следовательно, все параметры, кроме свободного члена, значимы .

Найдем границы доверительных интервалов для коэффициентов регрессии.

Отметим, что, руководствуясь значениями границ доверительных интервалов, можно сделать те же выводы о значимости коэффициентов регрессии (так как нуль не попадает в доверительный интервал). Выводы в данном случае и не могли быть иными, чем при сравнении фактического и табличного значений критерия Стьюдента, так как формула (2.30) является следствием формулы (2.29). Дадим экономическую интерпретацию границ доверительных интервалов для коэффициентов регрессии.

Коэффициент является характеристикой силы связи между объемом поступления налогов и количеством занятых. С учетом значений границ доверительного интервала дляможно сказать, что изменение количества занятых на 1 тыс. человек приведет к изменению (с вероятностью 0,95 ()) поступления налогов не менее чем на 3,56 млн руб. и не более чем на 21,34 млн руб. при неизменном объеме отгрузки в обрабатывающих производствах и производстве энергии. Для двух других коэффициентов регрессии выводы будут следующими.

Изменение объема отгрузки в обрабатывающих производствах на 1 млн руб. приведет к изменению (с вероятностью 0,95 ()) поступления налогов не менее чем на 0,028 млн руб. и не более чем на 0,092 млн руб. при неизменных значениях количества занятых и производства энергии.

При изменении производства энергии на 1 млн руб. поступление налогов изменится (с вероятностью 0,95 ()) не менее чем на 0,13 млн руб. и не более чем на 0,18 млн руб. при неизменных значениях количества занятых и объема отгрузки в обрабатывающих производствах.

Как было отмечено в параграфе 2.2, при построении модели регрессии с использованием центрированных переменных коэффициенты регрессии не отличаются от коэффициентов регрессии в натуральной форме. Это утверждение относится также к величине стандартных ошибок коэффициентов регрессии и, следовательно, к фактическим значениям критерия Стьюдента.

При использовании стандартизованных переменных меняется масштаб их измерения, что приводит к другим, чем в исходной регрессии, значениям параметров (стандартизованных коэффициентов регрессии) и их стандартных ошибок. Однако фактические значения критерия Стьюдента для параметров уравнения в стандартизованном масштабе совпадают с теми значениями, которые были получены по уравнению в натуральном масштабе.

Для оценки значимости всего уравнения регрессии в целом используется критерий Фишера (F-критерий) , который в данном случае называют также общим F-критерием . Под незначимостью уравнения регрессии понимается одновременное равенство нулю (с высокой долей вероятности) всех коэффициентов регрессии в генеральной совокупности:

Фактическое значение F-критерия определяется как соотношение факторной и остаточной сумм квадратов, рассчитанных по уравнению регрессии и скорректированных на число степеней свободы:

(2.31)

где – факторная сумма квадратов; – остаточная сумма квадратов.

Теоретическое значение F-критерия находят по таблице значений критерия Фишера для уровня значимости α, числа степеней свободы и . Нулевая гипотеза отвергается, если

где – теоретическое значение критерия Фишера.

Отметим, что если модель незначима, то незначимы и показатели корреляции, рассчитанные по ней. Действительно, если

и линия регрессии параллельна оси абсцисс. Кроме того, из системы нормальных уравнений, полученной по методу наименьших квадратов (2.8), следует, что .

При нулевых значения всех коэффициентов регрессии имеем выражение

т.е. при равенстве всех коэффициентов регрессии нулю (их статистической незначимости) коэффициент детерминации также будет равен нулю (статистически незначим).

Формулу (2.31) расчета F-критерия можно преобразовать, разделив факторную и остаточную суммы квадратов на общую сумму квадратов:

После простых преобразований получаем выражение

Расчет общего F-критерия можно оформить в виде таблицы дисперсионного анализа (табл. 2.2).

Таблица 2.2. Анализ статистической значимости модели множественной регрессии

Источники вариации

Число степеней свободы df

Сумма квадратов SS

Дисперсия на одну степень свободы MS = SS/df

F-критерий Фишера

фактическое значение

табличное значение для а = 0,05

Аналогичную таблицу дисперсионного анализа можно увидеть в результатах компьютерной обработки данных. Ее отличие

от приведенной выше таблицы заключается в содержании последнего столбца. В нашем случае это теоретическое значение критерия Фишера. В компьютерных вариантах в последнем столбце приводится значение вероятности допустить ошибку первого рода (отвергнуть верную нулевую гипотезу), которая соответствует фактическому значению F-критерия. В Excel эта величина называется "значимость F". Обозначим величину, выдаваемую компьютером в таблице дисперсионного анализа, как . Ее значение можно проинтерпретировать следующим образом: если теоретическое значение F-критерия равно его фактическому значению, то вероятность ошибки первого рода (уровень значимости) равна .

Выбирая для определения табличного значения критерия некий уровень значимости, мы соглашаемся на величину ошибки, равную. Следовательно, если , то фактическая ошибка будет меньше запланированной и можно говорить о значимости уравнения регрессии при заданном уровне значимости .

Проверим на статистическую значимость уравнение регрессии, полученное в примере 2.1. Фактическое значение F-критерия равно

Табличное значение критерия Фишера для а = 0,05, числа степеней свободы и равно 2,82. Так как фактическое значение F-критерия больше табличного, уравнение регрессии значимо с вероятностью Следовательно, значим также коэффициент детерминации, т.е. он с большой долей вероятности отличен от нуля.

При использовании опции "Регрессия" в ППП Excel для данного примера получена следующая таблица дисперсионного анализа (табл. 2.3).

Таблица 2.3. Таблица дисперсионного анализа, полученная при применении опции "Регрессия" в ППП Excel

Фактическое значение F-критерия содержится в предпоследнем столбце данной таблицы. Отметим, что его значение отличается от приведенного выше из-за ошибок округления. В последнем столбце табл. 2.3 приведена вероятность допустить ошибку первого рода. Она равна 1,10224Е -12, т.е. 0,00000000000110224. Нами задана максимальная величина этой вероятности, равная 0,05. Так как фактическое значение вероятности допустить ошибку первого рода меньше (значительно меньше) установленного нами максимального, нулевая гипотеза о незначимости уравнения регрессии должна быть отвергнута.

Коэффициент детерминации является статистикой, т.к.егозначения вычисляются по наблюденным данным. На основе коэффициента детерминации строится статистическая процедура, осуществляющая проверку, насколько значима линейная связь между факторами.

Статистика, проверяющая значимость всего уравнения регрессии имеет вид:

Получаем:

Возрастающим значениям статистики соответствуют и возрастающие значения статистики, поэтому гипотеза, не принимаемая при=, не принимается, если выполняется неравенство, где

Вероятность ошибочно отклонить гипотезу равна.

Вычислим критические значения при для разного количества наблюдений.

Рассмотрим простую линейную регрессию, так что

Критические значения, полученные в зависимости от числа наблюдений:

Т.е., при значительном количестве наблюдений даже малые отклонения фактического значения от 0 оказываются существенными для признания статистической значимости коэффициента регрессии, при содержательной объясняющей переменной.

Призначениесовпадает с квадратом коэффициента корреляции между переменными, такой же вывод верен и для коэффициента корреляции:

Рассмотрим теперь коэффициенты детерминации R 2 для полной и редуцированной модели. В полной модели значение R 2 всегда больше, чем в редуцированной, т.к. в полной модели с m объясняющими переменными минимизируем сумму

по всем значениям коэффициентов. При рассмотрении редуцированной модели, например, безm-ой объясняющей переменной, ищется минимум суммы

по всем значениям коэффициентов, Получаемое при этом значение минимума не может быть больше значения, получаемого при минимизации суммы отклонений по всем значениям, включая и значения. Отсюда и вытекает свойство коэффициента.

Для удобства процедуры выбора модели с использованием предлагается вместоиспользовать его скорректированную (adjusted) форму

в которой вводится штраф, связанный с увеличением числа объясняющих переменных. Получаем:

Таким образом, лучшей признается та из конкурирующих моделей, для которой принимает максимально возможное значение.

Если при сравнении конкурирующих моделей оценивание производится с использованием одинакового количества наблюдений, то сравнение моделей по величине эквивалентно сравнению этих моделей по значению или. При этом выбирается альтернативная модель с минимальным значением (или).

Кроме скорректированных коэффициентов детерминации, при выборе одной из нескольких альтернативных моделей используются информационные критерии, такие как критерий Шварца, критерий Акаике, «штрафующие» за увеличение объясняющих переменных, но несколько другими методами.

КритерийАкаике (Akaike"sinformationcriterion-AIC). Используя этот критерий линейная модель с объясняющими факторами, построенная по наблюдениям, сопоставляется сзначением

Остаточная сумма квадратов. Т.к. первое слагаемое с увеличениемчисла объясняющих переменных уменьшается, а второе слагаемое увеличивается, тоиз альтернативных моделей выбираем модель с наименьшим значением.Таким образом, достигается компромисс между остаточной суммой квадратов и числом объясняющих факторов.

КритерийШварца (Schwarz"sinformationcriterion-SC, SIC). Используя этот критерий линейная модель с объясняющими факторами, построенная по наблюдениям, сопоставляется сзначением

И здесь также как при использовании критерия Акаикеувеличение количества объясняющих факторов ведет к уменьшению первого слагаемогов правой части и к увеличению второго. Из полной и редуцированных альтернативных моделей выбирается модель с наименьшим значением.

Проверка значимости модели при помощи теста отношения правдоподобия(тест Вальда), начинается с выдвижения основной гипотезы:

Для проверки данной гипотезы вычисляется выборочная статистика

Здесь lnL величина максимального значения логарифма функции правдоподобия, а lnL0- величина логарифма функции правдоподобия в случае справедливости основной гипотезы.

Если основная гипотеза верна, то выборочная статистика (4.7.1) распределена по закону 2 с (m-1) степенью свободы. Границу правосторонней критической области К2 ищут по таблицам критических точек хи-квадрат по уровню значимости (1-б) и (m-1) степени свободы. Если выполняется неравенство:

то основную гипотезу отвергают, принимают альтернативную гипотезу и говорят, что модель статистически значима. В противном случае принимают гипотезу о не значимости модели и переходят к ее пересмотру.

Для моделей бинарного выбора, значимость факторов проверяется при помощи тестирования для каждого фактора хi, i=1,…, (m-1) гипотез вида:

Выборочные статистики, которые используются для тестирования этих гипотез, имеют асимптотически нормальное распределение и называются z-статистиками. Границу двусторонней критической области ищут по таблицам Лапласа по заданному уровню значимости (1-б).

Если выполняется неравенство:

К 1

то принимают основную гипотезу о незначимом отличии от нуля коэффициента i и делают вывод, что соответствующий ему фактор незначим для модели.

Для моделей бинарного выбора не определяется понятие коэффициента детерминации. Однако для них определяют так называемый псевдо коэффициент детерминации, который уже не характеризует объясняющую силу модели

Определение 4.7.1. Псевдо - коэффициентом детерминации называют следующую величину:

Определение 4.7.2. Индексом отношения правдоподобия Макфаддена (McFadden) называют характеристику:

Следует подчеркнуть, что если параметры модели бинарного выбора незначимо отличаются от нуля, то оба введенных коэффициента равны нулю.

На лекции мы рассмотрели нелинейные регрессионные модели, в частности, модели для бинарной зависимой переменной. Эти модели мы рассмотрели для двух функций регрессий: логит (использовали логистическую функцию) и пробит (использовали функцию распределения стандартного нормального закона распределения). Оценки параметров таких функций регрессии получают при помощи метода максимального правдоподобия. Модель тестируют при помощи теста Вальда, в основе которого статистика, имеющая хи-квадрат распределение. При изучении многофакторных регрессионных моделей мы интерпретировали оценки параметров вj, как предельный эффект влияния независимых переменных на у. Вернемся к моделям бинарного выбора. Если мы попытаемся найти производную от P{Y=1|X}, то придем к следующему выражению:

где Z= 0+1х1+...m-1xm-1.

По теореме о производной сложной функции, и из свойства плотности (производная от функции распределения это плотность распределения f(Z)), получаем:

или, используя второе обозначение для оценок параметров:

P{Y=1|X}=вjf(Z)

Как и раньше, через вj обозначены оценки неизвестных параметров.

Тогда, мы можем рассуждать следующим образом: плотность распределения всегда неотрицательна, поэтому знак производной

будет зависеть только от знака оценки параметров, но будет являться функцией всех независимых переменных. Причем, если оценка параметра будет положительной, то увеличение переменной xj будет приводить к увеличению вероятности

а если оценка параметра будет отрицательной, то, соответственно, к уменьшению указанной вероятности.

Замечание. Если фактор х является бинарной переменной, то для него нельзя ввести понятие предельного эффекта.

Для каждой переменной х (количественной!!!) вводят так называемый средний предельный эффект. Для этого вычисляют выборочные средние для количественных переменных и процент «1» для бинарных, и подставляют их в выражение для плотности распределения вместо переменных.

Еще один вопрос для обсуждения: как после оценивания параметров логит (пробит) модели прогнозировать значение у? Поступают, например, следующим образом. Подставляют найденные значения оценок параметров и значения хj в Z и вычисляют значение переменной. Если Z>0, то считают, что У=1, если Z<0, то считают, что У=0. Замечание. Мы рассмотрели ситуацию, когда переменная у была измерена в номинальной шкале, но принимала всего два значения: 0 и 1. В общем случае, когда у может принимать несколько значений, например 0, 1, 2, 3, используют множественный (по у!!) логит или пробит. Кроме того, у может быть измерен в порядковой шкале, тогда в Стате используют порядковый логит (пробит) ologit (oprobit).

Замечание. Очень часто в исследованиях приходится проводить исследования на усеченной выборке. Например, если изучают доходы домохозяйств, то бывают ситуацию, когда респондентов с очень большим доходом (например, больше 1 млн.рубл.) следует исключить из исследования, то есть

То в таких случаях используют Тобит-модели.

F(0+1х1+...m-1xm-1)

F(0+1х1+...m-1xm-1)

F(0+1х1+...m-1xm-1)

F(0+1х1+...m-1xm-1) - (F(0+1х1+...m-1xm-1))2

Лекция 2. Корреляционно-регрессионный анализ. Парная регрессия

1. Сущность корреляционно-регрессионного анализа и его задачи.

2. Определение регрессии и ее виды.

3. Особенности спецификации модели. Причины существования случайной величины.

4. Методы выбора парной регрессии.

5. Метод наименьших квадратов.

6. Показатели измерения тесноты и силы связи.

7. Оценки статистической значимости.

8. Прогнозируемое значение переменной у и доверительные интервалы прогноза.

1. Сущность корреляционно-регрессионного анализа и его задачи. Экономические явления, будучи весьма разнообразными, характеризуются множеством признаков, отражающих определенные свойства этих процессов и явлений и подверженных взаимообусловленным изменениям. В одних случаях зависимость между признаками оказывается очень тесной (например, часовая выработка работника и его заработная плата), а в других случаях такая связь не выражена вовсе или крайне слаба (например, пол студентов и их успеваемость). Чем теснее связь между этими признаками, тем точнее принимаемые решения.

Различают два типа зависимостей между явлениями и их признаками:

    функциональная (детерминированная, причинная) зависимость . Задается в виде формулы, которая каждому значению одной переменной ставит в соответствие строго определенное значение другой переменной (воздействием случайных факторов при этом пренебрегают). Иными словами,функциональная зависимость – это связь, при которой каждому значению независимой переменной х соответствует точно определенное значение зависимой переменной у. В экономике функциональные связи между переменными являются исключениями из общего правила;

    статистическая (стохастическая, недетерминированная) зависимость – это связь переменных, на которую накладывается воздействие случайных факторов, т.е. это связь, при которой каждому значению независимой переменной х соответствует множество значений зависимой переменной у, причем заранее неизвестно, какое именно значение примет у.

Частным случаем статистической зависимости является корреляционная зависимость.

Корреляционная зависимость – это связь, при которой каждому значению независимой переменной х соответствует определенное математическое ожидание (среднее значение) зависимой переменной у.

Корреляционная зависимость является «неполной» зависимостью, которая проявляется не в каждом отдельном случае, а только в средних величинах при достаточно большом числе случаев. Например, известно, что повышение квалификации работника ведет к росту производительности труда. Это утверждение часто подтверждается на практике, но не означает, что у двух и более работников одного разряда / уровня, занятых аналогичным процессом, будет одинаковая производительность труда.

Корреляционная зависимость исследуется с помощью методы корреляционного и регрессионного анализа.

Корреляционно-регрессионный анализ позволяет установить тесноту, направление связи и форму этой связи между переменными, т.е. ее аналитическое выражение.

Основная задача корреляционного анализа состоит в количественном определении тесноты связи между двумя признаками при парной связи и между результативными и несколькими факторными признаками при многофакторной связи и статистической оценке надежности установленной связи.

2. Определение регрессии и ее виды. Регрессионный анализ является основным математико-статистическим инструментом в эконометрике.Регрессией принято называть зависимость среднего значения какой-либо величины (y) от некоторой другой величины или от нескольких величин (x i).

В зависимости от количества факторов, включенных в уравнение регрессии, принято различать простую (парную) и множественную регрессии.

Простая (парная) регрессия представляет собой модель, где среднее значение зависимой (объясняемой) переменной у рассматривается как функция одной независимой (объясняющей) переменной х. В неявном виде парная регрессия – это модель вида:

В явном виде:

,

где aиb– оценки коэффициентов регрессии.

Множественная регрессия представляет собой модель, где среднее значение зависимой (объясняемой) переменной у рассматривается как функция нескольких независимых (объясняющих) переменных х 1 , х 2 , … х n . В неявном виде парная регрессия – это модель вида:

.

В явном виде:

где aиb 1 ,b 2 ,b n – оценки коэффициентов регрессии.

Примером такой модели может служить зависимость заработной платы работника от его возраста, образования, квалификации, стажа, отрасли и т.д.

Относительно формы зависимости различают:

      линейную регрессию;

      нелинейную регрессию, предполагающую существование нелинейных соотношений между факторами, выражающихся соответствующей нелинейной функцией. Зачастую нелинейные по внешнему виду модели могут быть приведены к линейному виду, что позволяет их относить к классу линейных.

3. Особенности спецификации модели. Причины существования случайной величины. Любое эконометрическое исследование начинается соспецификации модели , т.е. с формулировки вида модели, исходя из соответствующей теории связи между переменными.

Прежде всего из всего круга факторов, влияющих на результативный признак, необходимо выделить наиболее существенно влияющие факторы. Парная регрессия достаточна, если имеется доминирующий фактор, который и используется в качестве объясняющей переменной. Уравнение простой регрессии характеризует связь между двумя переменными, которая проявляется как некоторая закономерность лишь в среднем в целом по совокупности наблюдений. В уравнении регрессии корреляционная связь представляется в виде функциональной зависимости, выраженной соответствующей математической функцией. Практически в каждом отдельном случае величина у складывается из двух слагаемых:

,

где у – фактическое значение результативного признака;

– теоретическое значении результативного признака, найденное исходя из уравнения регрессии;

– случайная величина, характеризующая отклонения реального значения результативного признака от теоретического, найденного по уравнению регрессии.

Случайная величина называется также возмущением. Она включает влияние не учтенных в модели факторов, случайных ошибок и особенностей измерения. Присутствие в модели случайной величины порождено тремя источниками:

    спецификацией модели,

    выборочным характером исходных данных,

    особенностями измерения переменных.

К ошибкам спецификации будут относиться не только неправильный выбор той или иной математической функции, но и недоучет в уравнении регрессии какого-либо существенного фактора (использование парной регрессии вместо множественной).

Наряду с ошибками спецификации могут иметь место ошибки выборки, поскольку исследователь чаще всего имеет дело с выборочными данными при установлении закономерностей связи между признаками. Ошибки выборки имеют место и в силу неоднородности данных в исходной статистической совокупности, что, как правило, бывает при изучении экономических процессов. Если совокупность неоднородна, то уравнение регрессии не имеет практического смысла. Для получения хорошего результата обычно исключают из совокупности единицы с аномальными значениями исследуемых признаков. И в этом случае результаты регрессии представляют собой выборочные характеристики. Исходных данных

Однако наибольшую опасность в практическом использовании методов регрессии представляют ошибки измерения. Если ошибки спецификации можно уменьшить, изменяя форму модели (вид математической формулы), а ошибки выборки – увеличивая объем исходных данных, то ошибки измерения практически сводят на нет все усилия по количественной оценке связи между признаками.

4. Методы выбора парной регрессии. Предполагая, что ошибки измерения сведены к минимуму, основное внимание в эконометрических исследованиях отводится ошибкам спецификации модели. В парной регрессии выбор вида математической функции
может быть осуществлен тремя методами:

    графическим;

    аналитическим, т.е. исходя из теории изучаемой взаимосвязи;

    экспериментальным.

При изучении зависимости между двумя признаками графический метод подбора вида уравнения регрессии достаточно нагляден. Он основан на поле корреляции.Основные типы кривых, используемых при количественной оценке связей




Класс математических функций для описания связи двух переменных достаточно широк, также используются и другие типы кривых.

Аналитический метод выбор типа уравнения регрессии основан на изучении материальной природы связи исследуемых признаков, а также визуальной оценке характера связи. Т.е. если мы говорим о кривой Лаффера, показывающей зависимость между прогрессивностью налогообложения и доходами бюджета, то речь идет о параболической кривой, а в микроанализе изокванты представляют собой гиперболы.

5. Метод наименьших квадратов. Линейная регрессия находит широкое применение в эконометрике в виду четкой экономической интерпретации ее параметров и сводится к нахождению уравнения вида:

,

где х – объясняющая (независимая) переменная – неслучайная величина;

у – объясняемая (зависимая) величина;

– случайный член (ошибка регрессии);

 и β – параметры уравнения.

Теоретические значения представляют линию регрессии. Построение линейной регрессии сводится к оценке параметров a и b уравнения
.

Оценки параметров линейной регрессии могут быть найдены разными способами.

Метод наименьших квадратов (МНК) – классический подход к оцениванию параметров линейной регрессии.

Обратимся к полю корреляции.

По графику можно определить значения параметров. Параметр а – точка пересечения линии регрессии с осью Оу, а параметр b оценивается исходя из угла наклона линии регрессии , где dy – приращение фактора у, а dx – приращение фактора х.

МНК позволяет получить такие оценки параметров a и b, при которых сумма квадратов отклонений фактических значений результативного признака у от расчетных (теоретических) значений минимальна:

Т.е. линия регрессии выбирается таким образом, чтобы сумма квадратов расстояний по вертикали между точками и этой линией была бы минимальна.

где
.

Вычислим частные производные по каждому из параметров a и b.

Разделим обе части уравнений на n и получим систему уравнений, из которой можно вычислить оба параметра.

Из МНК можно получить две другие формулы для нахождения параметра b:

1.

2.
или

Оценка параметра а находится одинаковым способом во всех случаях:

.

Параметр b называется коэффициентом регрессии и показывает, на сколько единиц в среднем изменится переменная у при увеличении переменной х на 1 единицу. Знак при коэффициенте регрессии показывает направление связи: при b < 0 – связь обратная, при b > 0 – связь прямая.

Параметр а формально представляет собой значение у при х = 0. Если х не имеет или не может иметь нулевого значения, то а не имеет смысла. Он может и не иметь экономического смысла. При а<0 экономическая интерпретация может оказаться абсурдной.

Интерпретировать можно знак при параметре а. Если а>0, то относительное изменение результата происходит медленнее, чем изменение фактора. Если а<0, то изменение результата опережает изменение фактора.

6. Показатели измерения тесноты и силы связи . Уравнение регрессии всегда дополняется показателем тесноты связи.

Качество парной регрессии определяется с помощью парного линейного коэффициента корреляции:

или

,

где
,

– среднеквадратические отклонения, которые показывают разброс значений в множестве значений х и у. Большое значение среднеквадратического отклонения показывает большой разброс значений в представленном множестве со средней величиной множества; маленькое значение, соответственно, показывает, что значения в множестве сгруппированы вокруг среднего значения.

Линейный коэффициент корреляции находится в пределах:

1 < < 1.

Если коэффициент корреляции положительный (рис. а), то связь между признаками прямая, т.е. с увеличением (уменьшением) x признак y увеличивается (уменьшается). Если коэффициент корреляции отрицательный (рис. б), то связь между признаками обратная, т.е. с увеличением (уменьшением) x признак y уменьшается (увеличивается).

Чем ближе значение коэффициента корреляции к 1, тем теснее связь (рис. б), чем ближе к 0, тем слабее (рис. а).

Если 0 < || <0,3, то связь между признаками практически отсутствует,

если 0,3 < || <0,5, то связь слабая,

если 0,5 < || <0,7, то связь умеренная,

если 0,7 < || <1, то связь сильная.

И, наконец, при r = 0 линейная корреляционная связь отсутствует. При этом линия регрессии параллельна оси Ох.

Следует отметить, что величина линейного коэффициента корреляции оценивает тесноту связи рассматриваемых признаков в ее линейной форме. Поэтому близость абсолютной величины коэффициента корреляции к нулю еще не означает отсутствие связи между признаками. При иной спецификации модели связь между признаками может оказаться достаточно тесной.

Для оценки качества подбора линейной функции рассчитывается квадрат линейного коэффициента корреляции R 2 , называемыйкоэффициентом детерминации . Он характеризует долю дисперсии результативного признака у, объясняемую регрессией, в общей дисперсии результативного признака.

Соответственно величина 1 – R 2 характеризует долю дисперсии у, вызванную влиянием остальных не учтенных в модели факторов.

В силу своего определения R 2 принимает значения между 0 и 1, т.е.

0 ≤ R 2 ≤ 1.

Если R 2 = 0, то это означает, что регрессия ничего не дает, т.е х не улучшает качество предсказания у по сравнению с тривиальным предсказанием
.

Другой крайний вариант R 2 = 1 означает точную подгонку модели: все точки наблюдений лежат на регрессионной прямой (все=0). Чем ближеR 2 к 1, тем лучше качество подгонки модели и тем точнее.

Параметре регрессии b хотя и показывает, на сколько единиц в среднем изменится переменная у при увеличении переменной х на 1 единицу, но использовать для непосредственной оценки влияния факторного признака на результативный нельзя из-за различия единиц измерения исследуемых показателей. Для этих целей используют коэффициент эластичности . Коэффициент эластичности показывает, на сколько процентов изменяется результативный признак у при изменении факторного признака х на 1%, и вычисляется по формуле:

,

где
– первая производная, характеризующая соотношение приростов результата и фактора для соответствующей формы связи.

В силу того того, что коэффициент эластичности для линейной функции не является величиной постоянной, а зависит от соответствующего значения х, то обычно рассчитывается средний коэффициент эластичности:

.

Несмотря на широкое использование в эконометрике коэффициентов эластичности, возможны случаи, когда их расчет не имеет экономического смысла. Это происходит тогда, когда для рассматриваемых признаков бессмысленно определение изменения значений в процентах (например, на сколько процентов изменится урожайность пшеницу, если качество почвы улучшится на 1%).

Коэффициенты эластичности для ряда математических функций

7. Оценки статистической значимости. После того как найдено уравнение регрессии, проводится оценка значимости как уравнения в целом, так и отдельных его параметров.

Оценка значимости уравнения в целом. Оценка значимости уравнения регрессии в целом дается с помощьюF-критерия Фишера и служит для выяснения того, что полученное значение коэффициента детерминации
неслучайно, т.е. соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной.

В парной линейной регрессии проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии.

Для проверки значимости уравнения регрессии в целом используют F-критерий Фишера. В случае парной линейной регрессии значимость модели регрессии проверяется по следующей формуле:

,

где m– количество объясняющих факторных признаков, т.е. х.

Наблюдаемые значения сравниваются с табличными.

,

где α – уровень значимости, соответствующий доверительному интервалу;

Если при заданном уровне значимости F набл >F крит, то модель считается значимой, гипотеза о случайной природе оцениваемых характеристик отрицается и признается их статистическая значимость и надежность.

Если F набл

Стандартная ошибка оценки уравнения регрессии. Хотя МНК дает нам линию регрессии, которая обеспечивает минимум вариации, не все наблюдения совпадают с линией регрессии. Поэтому необходима статистическая мера вариации фактических значений у от предсказанных значений. Мера вариации относительно линии регрессии называетсястандартной ошибкой оценки .

Стандартная ошибка оценки определяется как:

,

где у – фактические значения зависимой переменной для заданных значений независимой переменной;

– теоретические / предсказанные значения зависимой переменной для заданных значений независимой переменной;

m – количество объясняющих переменных х.

Данный коэффициент характеризует меру вариации фактических данных вокруг линии регрессии.

Проверка значимости параметров. Кроме того, проверяется значимость параметров регрессии. Проверка значимости параметров отдельных коэффициентов регрессии проводится по t-критерию Стьюдента путем проверки гипотезы о равенстве нулю каждого коэффициента регрессии. При этом выясняют, не являются ли полученные значения параметров результатом действия случайных величин.

Значимость коэффициентов регрессии проверяется по следующим формулам. Для коэффициента b:

,

где S b – стандартная ошибка коэффициента b, которая в свою очередь определяется как:

.

Для коэффициента а аналогично:

,

где S a – стандартная ошибка свободного члена а, также находится по формуле:

.

Расчетные значения t-критерия сравниваются с табличным значением критерия , где k = n–m–1 степеням свободы и соответствующем уровне значимости α.

Если расчетное значение t-критерия превосходит его табличное значение, то параметр признается значимым, т.е. не является случайно найденным.

8. Прогнозируемое значение переменной у и доверительные интервалы прогноза. Точечный прогноз заключается в получении прогнозного значения Y*, которое определяется путем подстановки в уравнение регрессии
соответствующего прогнозного значения X*:

.

Вероятность реализации точечного прогноза практически равна нулю, поэтому рассчитывается доверительный интервал прогноза с большей надежностью.

Интервальный прогноз заключается в построении доверительного интервала прогноза, т.е. нижней и верхней – минимально и максимально возможных границ интервала, содержащего точную величину для прогнозного значения Y* с заданной вероятностью, т.е.:

У min

Доверительные интервалы прогноза определяются по следующим формулам:

где
– стандартная ошибка предсказаний для парной регрессии.

Доверительный интервал для коэффициентов регрессии определяются как:

Так как коэффициент регрессии в эконометрических исследованиях имеет четкую экономическую интерпретацию, то доверительные границы интервала для коэффициента регрессии не должны содержать противоречивых результатов, например, -10b40 – такого рода запись указывает на то, что истинное значение коэффициента регрессии одновременно содержит положительные и отрицательные величины и даже ноль, чего быть не может. Тогда параметр принимается равным нулю.