Стандартная ошибка регрессии формула

Стандартная ошибка уравнения регрессии. Оценка статистической значимости показателей корреляции, параметров уравнения регрессии. Дисперсионный анализ. Критерии Фишера и Стьюдента

После того, как найдено уравнение линейной регрессии, проводится оценка, как уравнения в целом, так и отдельных его параметров.

Оценка значимости уравнения в целом, делается с помощью F-критерия. При этом выдвигается нулевая гипотеза H0, т.е. , и , и следовательно, фактор х не оказывает влияния на у, т.е. они не и взаимодействуют друг с другом.

Сначала проанализируем общую дисперсию, это предшествует определению F- критерия. Центральное место занимает разложение общей суммы квадратов отклонений переменной у от среднего значения на две части.

Общая сумма Объясненная Необъясненная квадратов регрессия (остаточная) отклонений регрессия

Общая сумма квадратов отклонений у от вызвана влиянием множества причин. Условно разделим их на две группы: изучаемый фактор х и прочие факторы.

Если фактор не оказывает влияние на результат, то линия регрессии на графике параллельна оси ОХ и . Тогда вся дисперсия результативного признака обусловлена воздействием прочих факторов и общая сумма квадратов отклонений совпадает с остаточной. Если же прочие факторы не влияют на результат, то у связан с х функционально и остаточная сумма квадратов равна нулю. Сумма квадратов отклонений, объясняющей регрессией совпадает с общей суммой квадратов.

Т.к. не все точки поля корреляции лежат на линии регрессии, то всегда имеет место их разброс. Он обусловлен влиянием фактора х, т.е. регрессией у по х, а также вызван действием прочих причин (необъясненная вариация). Пригодность линии регрессии для прогноза зависит от того, какая часть общей вариации признака у, приходится на долю объясненную вариацией. Если сумма квадратов отклонений, обусловленных регрессией, будет больше остаточной суммы квадратов, то уравнение регрессии статистически значимо и фактор х оказывает существенное воздействие на у. Это равносильно тому, что .

Любая сумма квадратных отклонений связана с числом степеней свободы ( ) , т.е. с числом свободы независимого варьирования признака. Число степеней свободы связано с числом единиц совокупности n и с числом, определяемым по ней констант. Т.о. число степеней свободы должно показать, сколько независимых отклонений из n возможных требуется для образования данной суммы квадратов. Так, для общей суммы квадратов требуется независимых отклонений, т. к. по совокупности из n единиц после расчёта среднего уровня свободно варьируется лишь число отклонений.

Например,

, тогда т. к. , то свободно варьируются только 4 отклонения, а пятое отклонение может быть определено, если предыдущие четыре известны.

При расчёте объясненной или факторной суммы квадратов используются теоретические (расчётные) значения результативного признака , найденные из уравнения .

В линейной регрессии

, а

— общая дисперсия признака у;

— дисперсия признака у, обусловленная фактором х.

Поскольку при заданном объёме наблюдений по х и у факторная сумма квадратов при линейной регрессии зависит только от одной константы (коэффициента регрессии b), то данная сумма квадратов имеет одну степень свободы.

К этому же выводу можно прийти по другому.

Отсюда следует, что при заданном наборе переменных у и х расчетное значение является в линейной регрессии функцией только одного параметра — коэффициента регрессии, поэтому факторная сумма квадратов отклонений имеет число степеней свободы, равное 1.

Существует равенство между числом степеней свободы общей, факторной и остаточной суммами квадратов. Число степеней свободы остаточной суммы квадратов при линейной регрессии составляет . Число степеней свободы для общей суммы квадратов определяется числом единиц, и т. к. мы используем среднюю вычисленную по данным выборки, то теряем одну степень свободы, то есть .

Разделив каждую переменную сумму квадратов на соответствующее ей число степеней свободы, получим средний квадрат отклонений, или дисперсию на 1 степень свободы.

; ; .

Определение дисперсии на одну степень свободы приводит дисперсии к сравнимому виду. Сопоставляя факторную и остаточную дисперсии в расчёте на одну степень свободы, получим величину F-критерия.

F-критерий для проверки нулевой гипотезы.

Н0 : .

Если Н0 справедлива, то фактическая и остаточная дисперсии не отличаются друг от друга. Для Н0 необходимо опровержение, чтобы Дфакт превышала Дост в несколько раз.

Английский статистик Снедекор разработал таблицу критических значений F-критерия – это максимальная величина отношения дисперсий, которая может иметь место при случайном их расхождении для данного уровня вероятности наличия нулевой гипотезы.

Вычисленное значение F-отношений признаётся достоверным (отличным от единицы), если оно больше табличного. В этом случае Н0 (отсутствие связи) отклоняется и делается вывод о существенности этой связи: , отклоняется.

Если же , то вероятность Н0 выше заданного уровня (например 0,05) и она не может быть отклонена без серьёзного риска сделать неправильный вывод о наличии связи.

Н0 не отклоняется, а уравнение регрессии становится незначимым.

Величина F-критерия связана с коэффициентом детерминации . Факторную сумму квадратов отклонений можно представить как , ( — общая дисперсия y; — дисперсия y, обусловленая фактором x (факторная)), а остаточную сумму ( , ). Тогда .

Оценка значимости уравнения регрессии даётся в виде таблицы дисперсионного анализа.

Источники вариации Число степеней свободы квадратов отклонений Дисперсия на 1 степень свободы Fотн
Факт. Табл.
Общая Объясняющая Остаточная — 6,61 —

В линейной регрессии обычно оценивается значимость не только уравнения в целом, но и отдельных параметров. Поэтому по каждому из параметров определяется его стандартная ошибка: и , .

Стандартная ошибка коэффициента регрессии определяется по формуле: ;

— остаточная дисперсия на одну степень свободы ошибки.

Величина стандартной ошибки совместно с t-распределением Стьюдента при n-2 степенях свободы применяется для проверки существенности коэффициента регрессии и для расчёта его доверительных интервалов.

Для оценки существенности коэффициента регрессии его величина сравнивается со стандартной ошибкой, т.е. определяется фактическое значение t-критерия Стьюдента: , который сравнивается с табличным значением при определённом уровне значимости и числе степеней свободы , .

Если фактическое значение больше табличного, то гипотезу о несущественности коэффициентов отвергаем. Доверительный интервал для коэффициента регрессии b определим по формуле предельная ошибка .

Так как коэффициент регрессии носит в эконометрических исследованиях чётко экономическую интерпретацию, то доверительные интервалы не должны содержать противоречивых результатов, например, . То есть, что истинное значение коэффициента одновременно содержит положительные, отрицательные величины и даже 0, чего не может быть.

Стандартная ошибка параметра a определяется:

Процедура оценивания не отличается от рассмотренной выше для b.

, его величина сравнивается с табличной, при .

Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитывается t-критерий Стьюдента и доверительные интервалы для каждого из показателей. Выдвигается гипотеза Н0 о случайной природе показателей, то есть о незначительном отличии их от нуля. Оценки значимости коэффициентов регрессии и корреляции с помощью t-критерия Стьюдента проводится путём сопоставления их значений с величиной случайной ошибки (S2 остаточная дисперсия на 1 степень свободы, ).

; ; ;

; ; .

Сравниваем фактические и критические (табл.) значения и принимаем или отвергаем Н0

, то Н0 отклоняется, и считается, что и сформировались под влиянием систем фактора x.

Для расчёта доверительного интервала определяем предельную ошибку для каждого показателя.

; .

Формулы для расчёта доверительных интервалов имеют вид:

Если в границы доверительного интервала попадает нуль, то есть нижняя граница отрицательна, а верхняя положительна, то оцениваемый параметр принимается равный 0, так как не может одновременно принимать положительное и отрицательное значения степенями свободы.

Значимость линейного коэффициента корреляции проверяется на основе величины коэффициента корреляции mr

Фактическое значение t-критерия Стьюдента определяется

, данная формула свидетельствует, что в парной линейной регрессии , ибо , а также , следовательно .

Таким образом, проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения.

Если при . То есть коэффициент а существенно отличен от нуля – является правильной, а зависимость достоверной.

Рассмотренная формула оценки коэффициента корреляции рекомендуется к применению при большом числе наблюдений и если r не близко к +1 или -1. Если , то распределение его оценок отличается от нормального или распределения Стьюдента, так как величина ограничена значениями (-1; +1). Чтобы обойти это затруднение Р. Фишером было предложено для оценки существенности ввести вспомогательную величину z , связанную с следующим отношением

изменяется , что соответствует нормальному распределению. Стандартная ошибка величины определяется , где n – число наблюдений.

При r = 0,991 .

Z можно взять в таблице для соответствующего значения r.

Выдвигаем гипотезу H0 – корреляция отсутствует: .

, то есть фактическое значение превышает его табличное значение на уровне значимости и .

В виду того, что r и z связаны между собой приведённым выше отношением, можно вычислить критические значения r, соответствующие каждому из значений z. Таблицы критических значений r разработаны для уровней значимости 0,05 и 0,01 и соответствующего числа степеней свободы. Критические значения предполагают справедливость нулевой гипотезы, то есть мало отличается от нуля. Если фактическое значение коэффициента по абсолютной величине превышает табличное, то данное значение считается существенным.

Если же , то фактическое значение r несущественно.

Интервалы прогноза по линейному уравнению регрессии.

В прогнозных расчётах по уравнению регрессии определяется то, что уравнение не является реальным, для есть ещё стандартная ошибка . Поэтому интервальная оценка прогнозного значения

Выразим из уравнения

, то есть стандартная ошибка зависит и ошибки коэффициента регрессии b,

Из теории выборки известно, что . Используя в качестве оценки остаточную дисперсию на одну степень свободы , получим формулу расчёта ошибки среднего значения переменной y: .

Ошибка коэффициента регрессии: .

В прогнозных расчетах по уравнению регрессии определяется уравнение как точечный прогноз при , то есть путём подстановки в уравнение регрессии . Однако точечный прогноз явно нереален.

— формула стандартной ошибки предсказываемого значения y при заданных , характеризует ошибку положения линии регрессии. Величина стандартной ошибки , достигает min при , и возрастает по мере того, как «удаляется» от в любом направлении. То есть чем больше разность между и x, тем больше ошибка , с которой предсказывается среднее значение y для заданного значения .

Можно ожидать наилучшие результаты прогноза, если признак — фактор x находится в центре области наблюдений х и нельзя ожидать хороших результатов прогноза при удалении от .

Если же значение оказывается за пределами наблюдаемых значений х, используемых при построении ЛР, то результаты прогноза ухудшаются в зависимости то того, насколько отклоняется от области наблюдаемых значений фактора х. Доверит. интервалы при .

На графике доверительной границы представляет собой гиперболы, расположенные по обе стороны от линии регрессии.

Доверит. интервал

Нижняя доверит. граница

ЛР

Верхняя доверит. граница

Две гиперболы по обе стороны от линии регрессии определяют 95%-ные доверительные интервалы для среднего значения y при заданном значении x.

Однако фактические значения y варьируют около среднего значения . Индивидуальные значения y могут отклоняться от на величину случайной ошибки , дисперсия которой оценивается как остаточная дисперсия на одну степень свободы . Поэтому ошибка предсказываемого индивидуального значения y должна включать не только стандартную ошибку , но и случайную ошибку .

Средняя ошибка прогнозируемого индивидуального значения y составит:

При прогнозировании на основе уравнения регрессии следует помнить, что величина прогноза зависит не только от стандартной ошибки индивидуального значения y, но и от точности прогноза значений фактора x.

Его величина может задаваться на основе анализа других моделей, исходя из конкретной ситуации, а также из анализа динамики данного фактора.

Рассмотренная формула средней ошибки индивидуального значения признака y ( ) может быть использована также для оценки существенности различия предсказываемого значения исходя из регрессионной модели и выдвинутой гипотезы развития событий.

Понятие о множественной регрессии. Классическая линейная модель множественной регрессии (КЛММР). Определение параметров уравнения множественной регрессии методом наименьших квадратов.

Парная регрессия используется при моделировании, если влиянием других факторов, воздействующих на объект исследования можно пренебречь.

Например, при построении модели потребления того или иного товара от дохода, исследователь предполагает, что в каждой группе дохода одинаково влияние на потребление таких факторов, как цена товара, размер семьи, ее состав. Однако, уверенности в справедливости данного утверждения нет.

Прямой путь решения такой задачи состоит в отборе единиц совокупности с одинаковыми значениями всех других факторов, кроме дохода. Он приводит к планированию эксперимента – метод, который используется в естественнонаучных исследованиях. Экономист лишен возможности регулировать другие факторы. Поведение отдельных экономических переменных контролировать нельзя, т.е. не удается обеспечить равенство прочих условий для оценки влияния одного исследуемого фактора.

Как поступить в этом случае? Надо выявить влияние других факторов, введя их в модель, т.е. построить уравнение множественной регрессии.

Такого рода уравнения используется при изучении потребления.

Коэффициенты bj – частные производные у по факторами хi

при условии, что все остальные хi = const

Рассмотрим современную потребительскую функцию (впервые 30е годы предложил Кейнс Дж.М.) как модель вида С = f(y,P,M,Z)

c — потребление. у – доход

P – цена, индекс стоимости.

M – наличные деньги

Z – ликвидные активы

При этом

Множественная регрессия широко используется в решении проблем спроса, доходности акций, при изучении функций издержек производства, в макроэкономических вопросах и других вопросах эконометрики.

В настоящее время множественная регрессия – один из наиболее распространенных методов в эконометрике.

Основная цель множественной регресси – построить модель с большим числом факторов, определив при этом влияние каждого их них в отдельности, а также совокупное воздействие на моделируемый показатель.

Построение уравнения множественной регрессии начинается с решения вопроса о спецификации модели.

Она включает в себя два круга вопросов:

1. Отбор факторов;

2. Выбор уравнения регрессии.

Включение в уравнение множественной регрессии того или иного набора факторов связано с представлением исследователя о природе взаимосвязи моделируемого показателя с другими экономическими явлениями. Требования к факторам, включаемым во множественную регрессию:

1. они должны быть количественно измеримы, если необходимо включить в модель качественный фактор, не имеющий количественного измерения, то ему нужно придать количественную определенность (например, в модели урожайности качество почвы задается в виде баллов; в модели стоимости объектов недвижимости: районы должны быть проранжированы).

2. факторы не должны быть интеркоррелированы и тем более находиться в точной функциональной связи.

Включение в модель факторов с высокой интеркорреляцией, когда Rуx1<Rx1x2 для зависимости может привести к нежелательным последствиям – система нормальных уравнений может оказаться плохо обусловленной и повлечь за собой неустойчивость и ненадежность оценок коэффициентов регрессии.

Если между факторами существует высокая корреляция, то нельзя определить их изолированное влияние на результативный показатель и параметры уравнения регрессии оказываются интерпретируемыми.

В уравнение предполагается, что факторы х1 и х2 независимы друг от друга, rх1х2 = 0, тогда параметр b1 измеряет силу влияния фактора х1 на результат у при неизменном значении фактора х2. Если rх1х2 =1, то с изменением фактора х1 фактор х2 не может оставаться неизменным. Отсюда b1 и b2 нельзя интерпретировать как показатели раздельного влияния х1 и х2 и на у.

Пример, рассмотрим регрессию себестоимости единицы продукции у (руб.) от заработной платы работника х (руб.) и производительности труда z (ед. в час).

у = 22600 — 5x — 10z + e

коэффициент b2 = -10, показывает, что с ростом производительности труда на 1 ед. себестоимость единицы продукции снижается на 10 руб. при постоянном уровне оплаты.

Вместе с тем параметр при х нельзя интерпретировать как снижение себестоимости единицы продукции за счет роста заработной платы. Отрицательное значение коэффициента регрессии при переменной х обусловлено высокой корреляцией между х и z (rхz = 0,95). Поэтому роста заработной платы при неизменности производительности труда (не учитывая инфляции) быть не может.

Включенные во множественную регрессию факторы должны объяснить вариацию независимой переменной. Если строиться модель с набором р факторов, то для нее рассчитывается показатель детерминации R2, которая фиксирует долю объясненной вариации результативного признака за счет рассматриваемых в регрессии р факторов. Влияние других неучтенных в модели факторов оценивается как 1-R2 c соответствующей остаточной дисперсией S2.

При дополнительном включении в регрессию р+1 фактора коэффициент детерминации должен возрастать, а остаточная дисперсия уменьшается.

R2p+1≥ R2p и S2p+1 ≤ S2p.

Если же этого не происходит и данные показатели практически мало отличаются друг от друга, то включенный в анализ фактор xр+1 не улучшает модель и практически является лишним фактором.

Если для регрессии, включающей 5 факторов R2 = 0,857, и включенный 6 дало R2 = 0,858, то нецелесообразно включать в модель этот фактор.

Насыщение модели лишними факторами не только не снижает величину остаточной дисперсии и не увеличивает показатель детерминации, но и приводит к статистической не значимости параметров регрессии по критерию t-Стьюдента.

Таким образом, хотя теоретически регрессионная модель позволяет учесть любое число факторов, практически в этом нет необходимости.

Отбор факторов производиться на основе теоретико-экономического анализа. Однако, он часто не позволяет однозначно ответить на вопрос о количественной взаимосвязи рассматриваемых признаков и целесообразности включения фактора в модель.

Поэтому отбор факторов осуществляется в две стадии:

— на первой – подбирают факторы, исходя из сущности проблемы.

— на второй – на основе матрицы показателей корреляции определяют t-статистики для параметров регрессии.

Коэффициенты интеркоррелиции (т.е. корреляция между объясняющими переменными) позволяют исключить из моделей дублирующие факторы. Считается, что две переменные явно коллинеарны, т.е. находятся между собой в линейной зависимости, если rxixj ≥0,7.

Поскольку одним из условий построения уравнения множественной регрессии является независимость действия факторов, т.е. rхixj = 0, коллинеарность факторов нарушает это условие. Если факторы явно коллинеарны, то они дублируют друг друга и один из них рекомендуется исключить из регрессии.

Предпочтение при этом отдается не фактору, более тесно связанному с результатом, а тому фактору, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами. В этом требовании проявляется специфика множественной регрессии как метода исследования комплексного воздействия факторов в условиях их независимости друг от друга.

Рассмотрим матрицу парных коэффициентов корреляции при изучении зависимости у = f(x, z, v)

y x z V
Y
X 0,8
Z 0,7 0,8
V 0,6 0,5 0,2

Очевидно, факторы x и z дублируют друг друга. В анализ целесообразно включит фактор z, а не х, так как корреляция z с у слабее чем корреляция фактора х с у (rуz < rух), но зато слабее межфакторная корреляция ( rzv< rхv)

Поэтому в данном случае в уравнение множественной регрессии включает факторы z и v . По величине парных коэффициентов корреляции обнаруживается лишь явная коллинеарность факторов. Но наиболее трудности возникают при наличии мультиколлинеарности факторов, когда более чем два фактора связаны между собой линейной зависимостью, т.е. имеет место совокупное воздействие факторов друг на друга.

Наличие мультиколлинеарности факторов может означать, что некоторые факторы будут всегда действовать в унисон. В результате вариация в исходных данных перестает быть полностью независимой, и нельзя оценить воздействие каждого фактора в отдельности. Чем сильнее мультиколлинеарности факторов, тем менее надежна оценка распределения суммы объясненной вариации по отдельным факторам с помощью МНК.

Если рассмотренная регрессия у = a + bx + cx + dv + e, то для расчета параметров, применяется МНК

Sy = Sфакт +Se

или = +

общая сумма = факторная + остаточная

Корреляция и регрессия

Использование графического метода.
Этот метод применяют для наглядного изображения формы связи между изучаемыми экономическими показателями. Для этого в прямоугольной системе координат строят график, по оси ординат откладывают индивидуальные значения результативного признака Y, а по оси абсцисс — индивидуальные значения факторного признака X.
Совокупность точек результативного и факторного признаков называется полем корреляции.
На основании поля корреляции можно выдвинуть гипотезу (для генеральной совокупности) о том, что связь между всеми возможными значениями X и Y носит линейный характер.

Видеоинструкция

Линейное уравнение регрессии имеет вид y=bx+a+ε
Здесь ε — случайная ошибка (отклонение, возмущение).
Причины существования случайной ошибки:
1. Невключение в регрессионную модель значимых объясняющих переменных;
2. Агрегирование переменных. Например, функция суммарного потребления – это попытка общего выражения совокупности решений отдельных индивидов о расходах. Это лишь аппроксимация отдельных соотношений, которые имеют разные параметры.
3. Неправильное описание структуры модели;
4. Неправильная функциональная спецификация;
5. Ошибки измерения.
Так как отклонения εi для каждого конкретного наблюдения i – случайны и их значения в выборке неизвестны, то:
1) по наблюдениям xi и yi можно получить только оценки параметров α и β
2) Оценками параметров α и β регрессионной модели являются соответственно величины а и b, которые носят случайный характер, т.к. соответствуют случайной выборке;
Тогда оценочное уравнение регрессии (построенное по выборочным данным) будет иметь вид y = bx + a + ε, где ei – наблюдаемые значения (оценки) ошибок εi, а и b соответственно оценки параметров α и β регрессионной модели, которые следует найти.
Для оценки параметров α и β — используют МНК (метод наименьших квадратов).
Система нормальных уравнений.

Для наших данных система уравнений имеет вид:

10a + 356b = 49
356a + 2135b = 9485

Из первого уравнения выражаем а и подставим во второе уравнение
Получаем b = 68.16, a = 11.17

Уравнение регрессии:
y = 68.16 x — 11.17

1. Параметры уравнения регрессии.
Выборочные средние.
Выборочные дисперсии.
Среднеквадратическое отклонение

1.1. Коэффициент корреляции
Рассчитываем показатель тесноты связи. Таким показателем является выборочный линейный коэффициент корреляции, который рассчитывается по формуле:
Линейный коэффициент корреляции принимает значения от –1 до +1.
Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:
0.1 < rxy < 0.3: слабая;
0.3 < rxy < 0.5: умеренная;
0.5 < rxy < 0.7: заметная;
0.7 < rxy < 0.9: высокая;
0.9 < rxy < 1: весьма высокая;
В нашем примере связь между признаком Y фактором X весьма высокая и прямая.

1.2. Уравнение регрессии (оценка уравнения регрессии).
Линейное уравнение регрессии имеет вид y = 68.16 x -11.17
Коэффициентам уравнения линейной регрессии можно придать экономический смысл. Коэффициент уравнения регрессии показывает, на сколько ед. изменится результат при изменении фактора на 1 ед.
Коэффициент b = 68.16 показывает среднее изменение результативного показателя (в единицах измерения у) с повышением или понижением величины фактора х на единицу его измерения. В данном примере с увеличением на 1 единицу y повышается в среднем на 68.16.
Коэффициент a = -11.17 формально показывает прогнозируемый уровень у, но только в том случае, если х=0 находится близко с выборочными значениями.
Но если х=0 находится далеко от выборочных значений x, то буквальная интерпретация может привести к неверным результатам, и даже если линия регрессии довольно точно описывает значения наблюдаемой выборки, нет гарантий, что также будет при экстраполяции влево или вправо.
Подставив в уравнение регрессии соответствующие значения x, можно определить выровненные (предсказанные) значения результативного показателя y(x) для каждого наблюдения.
Связь между у и x определяет знак коэффициента регрессии b (если > 0 – прямая связь, иначе — обратная). В нашем примере связь прямая.

1.3. Коэффициент эластичности.
Коэффициенты регрессии (в примере b) нежелательно использовать для непосредственной оценки влияния факторов на результативный признак в том случае, если существует различие единиц измерения результативного показателя у и факторного признака х.
Для этих целей вычисляются коэффициенты эластичности и бета — коэффициенты. Коэффициент эластичности находится по формуле:
Он показывает, на сколько процентов в среднем изменяется результативный признак у при изменении факторного признака х на 1%. Он не учитывает степень колеблемости факторов.
В нашем примере коэффициент эластичности больше 1. Следовательно, при изменении Х на 1%, Y изменится более чем на 1%. Другими словами — Х существенно влияет на Y.
Бета – коэффициент показывает, на какую часть величины своего среднего квадратичного отклонения изменится в среднем значение результативного признака при изменении факторного признака на величину его среднеквадратического отклонения при фиксированном на постоянном уровне значении остальных независимых переменных:
Т.е. увеличение x на величину среднеквадратического отклонения этого показателя приведет к увеличению среднего Y на 0.9796 среднеквадратичного отклонения этого показателя.

1.4. Ошибка аппроксимации.
Оценим качество уравнения регрессии с помощью ошибки абсолютной аппроксимации.
Поскольку ошибка больше 15%, то данное уравнение не желательно использовать в качестве регрессии.

1.6. Коэффициент детерминации.
Квадрат (множественного) коэффициента корреляции называется коэффициентом детерминации, который показывает долю вариации результативного признака, объясненную вариацией факторного признака.
Чаще всего, давая интерпретацию коэффициента детерминации, его выражают в процентах.
R2= 0.982 = 0.9596, т.е. в 95.96 % случаев изменения x приводят к изменению у. Другими словами — точность подбора уравнения регрессии — высокая. Остальные 4.04 % изменения Y объясняются факторами, не учтенными в модели.

2. Оценка параметров уравнения регрессии.
2.1. Значимость коэффициента корреляции.
По таблице Стьюдента с уровнем значимости α=0.05 и степенями свободы k=7 находим tкрит:
tкрит = (7;0.05) = 1.895
где m = 1 — количество объясняющих переменных.
Если tнабл > tкритич, то полученное значение коэффициента корреляции признается значимым (нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции, отвергается).
Поскольку tнабл > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически — значим
В парной линейной регрессии t2r = t2b и тогда проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии.

2.3. Анализ точности определения оценок коэффициентов регрессии.
Несмещенной оценкой дисперсии возмущений является величина:
S2y = 94.6484 — необъясненная дисперсия (мера разброса зависимой переменной вокруг линии регрессии).

Sy = 9.7287 — стандартная ошибка оценки (стандартная ошибка регрессии).

S a — стандартное отклонение случайной величины a.
Sb — стандартное отклонение случайной величины b.

2.4. Доверительные интервалы для зависимой переменной.
Экономическое прогнозирование на основе построенной модели предполагает, что сохраняются ранее существовавшие взаимосвязи переменных и на период упреждения.
Для прогнозирования зависимой переменной результативного признака необходимо знать прогнозные значения всех входящих в модель факторов.
Прогнозные значения факторов подставляют в модель и получают точечные прогнозные оценки изучаемого показателя.

(a + bxp ± ε)
где
Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и X p = 1
(-11.17 + 68.16*1 ± 6.4554)

(50.53;63.44)
С вероятностью 95% можно гарантировать, что значения Y при неограниченно большом числе наблюдений не выйдет за пределы найденных интервалов.

Индивидуальные доверительные интервалы для Y при данном значении X.
(a + bx i ± ε)
где


С вероятностью 95% можно гарантировать, что значения Y при неограниченно большом числе наблюдений не выйдет за пределы найденных интервалов.

2.5. Проверка гипотез относительно коэффициентов линейного уравнения регрессии.
1) t-статистика. Критерий Стьюдента.
Проверим гипотезу H0 о равенстве отдельных коэффициентов регрессии нулю (при альтернативе H1 не равно) на уровне значимости α=0.05.
tкрит = (7;0.05) = 1.895
Поскольку 12.8866 > 1.895, то статистическая значимость коэффициента регрессии b подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).
Поскольку 2.0914 > 1.895, то статистическая значимость коэффициента регрессии a подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).

2) F-статистики. Критерий Фишера.
Проверка значимости модели регрессии проводится с использованием F-критерия Фишера, расчетное значение которого находится как отношение дисперсии исходного ряда наблюдений изучаемого показателя и несмещенной оценки дисперсии остаточной последовательности для данной модели.
Если расчетное значение с lang=EN-US>n-m-1) степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой.
где m – число факторов в модели.
Оценка статистической значимости парной линейной регрессии производится по следующему алгоритму:
1. Выдвигается нулевая гипотеза о том, что уравнение в целом статистически незначимо: H0: R2=0 на уровне значимости α.
2. Далее определяют фактическое значение F-критерия:
где m=1 для парной регрессии.
3. Табличное значение определяется по таблицам распределения Фишера для заданного уровня значимости, принимая во внимание, что число степеней свободы для общей суммы квадратов (большей дисперсии) равно 1 и число степеней свободы остаточной суммы квадратов (меньшей дисперсии) при линейной регрессии равно n-2.
4. Если фактическое значение F-критерия меньше табличного, то говорят, что нет основания отклонять нулевую гипотезу.
В противном случае, нулевая гипотеза отклоняется и с вероятностью (1-α) принимается альтернативная гипотеза о статистической значимости уравнения в целом.
Табличное значение критерия со степенями свободы k1=1 и k2=7, Fkp = 5.59
Поскольку фактическое значение F > Fkp, то коэффициент детерминации статистически значим (Найденная оценка уравнения регрессии статистически надежна).

Проверка на наличие автокорреляции остатков.
Важной предпосылкой построения качественной регрессионной модели по МНК является независимость значений случайных отклонений от значений отклонений во всех других наблюдениях. Это гарантирует отсутствие коррелированности между любыми отклонениями и, в частности, между соседними отклонениями.
Автокорреляция (последовательная корреляция) определяется как корреляция между наблюдаемыми показателями, упорядоченными во времени (временные ряды) или в пространстве (перекрестные ряды). Автокорреляция остатков (отклонений) обычно встречается в регрессионном анализе при использовании данных временных рядов и очень редко при использовании перекрестных данных.
В экономических задачах значительно чаще встречается положительная автокорреляция, нежели отрицательная автокорреляция. В большинстве случаев положительная автокорреляция вызывается направленным постоянным воздействием некоторых неучтенных в модели факторов.
Отрицательная автокорреляция фактически означает, что за положительным отклонением следует отрицательное и наоборот. Такая ситуация может иметь место, если ту же зависимость между спросом на прохладительные напитки и доходами рассматривать по сезонным данным (зима-лето).
Среди основных причин, вызывающих автокорреляцию, можно выделить следующие:
1. Ошибки спецификации. Неучет в модели какой-либо важной объясняющей переменной либо неправильный выбор формы зависимости обычно приводят к системным отклонениям точек наблюдения от линии регрессии, что может обусловить автокорреляцию.
2. Инерция. Многие экономические показатели (инфляция, безработица, ВНП и т.д.) обладают определенной цикличностью, связанной с волнообразностью деловой активности. Поэтому изменение показателей происходит не мгновенно, а обладает определенной инертностью.
3. Эффект паутины. Во многих производственных и других сферах экономические показатели реагируют на изменение экономических условий с запаздыванием (временным лагом).
4. Сглаживание данных. Зачастую данные по некоторому продолжительному временному периоду получают усреднением данных по составляющим его интервалам. Это может привести к определенному сглаживанию колебаний, которые имелись внутри рассматриваемого периода, что в свою очередь может служить причиной автокорреляции.
Последствия автокорреляции схожи с последствиями гетероскедастичности: выводы по t- и F-статистикам, определяющие значимость коэффициента регрессии и коэффициента детерминации, возможно, будут неверными.

Обнаружение автокорреляции

1. Графический метод
Есть ряд вариантов графического определения автокорреляции. Один из них увязывает отклонения ei с моментами их получения i. При этом по оси абсцисс откладывают либо время получения статистических данных, либо порядковый номер наблюдения, а по оси ординат – отклонения ei (либо оценки отклонений).
Естественно предположить, что если имеется определенная связь между отклонениями, то автокорреляция имеет место. Отсутствие зависимости скоре всего будет свидетельствовать об отсутствии автокорреляции.
Автокорреляция становится более наглядной, если построить график зависимости ei от ei-1.

Критерий Дарбина-Уотсона.
Этот критерий является наиболее известным для обнаружения автокорреляции.
При статистическом анализе уравнения регрессии на начальном этапе часто проверяют выполнимость одной предпосылки: условия статистической независимости отклонений между собой. При этом проверяется некоррелированность соседних величин ei.

Для анализа коррелированности отклонений используют статистику Дарбина-Уотсона:



Критические значения d1 и d2 определяются на основе специальных таблиц для требуемого уровня значимости α, числа наблюдений n = 9 и количества объясняющих переменных m=1.
Автокорреляция отсутствует, если выполняется следующее условие:

Стандартная ошибка оценки уравнения регрессии

Хотя метод наименьших квадратов дает линию регрессии, которая обеспечивает минимум вариации, регрессионное уравнение не является идеальным в смысле предсказания, поскольку не все значения зависимого признака Y удовлетворяют уравнению регрессии. Необходима статистическая мера вариации фактических значений Y от предсказанных значений Y. Эта мера в то же время является средней вариацией каждого значения относительно среднего значения Y.

Мера вариации относительно линии регрессии называется стандартной ошибкой оценки.

Колеблемость фактических значений признака Y относительно линии регрессии может быть показана как совокупность точек, расположенных выше или ниже теоретической линии регрессии.

Стандартная ошибка оценки Syx определяется как:

, (24)

где Y i – фактические значения Y; Y xi — теоретические значения X по уравнению регрессии.

Для рассматриваемого примера: Syx=0,497. Эта стандартная ошибка характеризует меру вариации фактических данных относительно линии регрессии. Интерпретация этой меры аналогична интерпретации среднего квадратического отклонения. Если среднее квадратическое отклонение — это мера вариации относительно средней, то стандартная ошибка — это оценка меры вариации относительно линии регрессии. Однако стандартная ошибка оценки может быть использована для выводов о значении Yx, и выяснения, является ли статистически значимой взаимосвязь между двумя переменными.

Стандартные ошибки коэффициентов регрессии

В этом курсе мы разберем основные методы описания взаимосвязей между количественными признаками. Если корреляционный анализ позволяет количественно оценить силу и направление связи между двумя величинами, то построение регрессионных моделей дает более широкие возможности. При помощи регрессионного анализа можно количественно описывать поведение изучаемых величин в зависимости от переменных-предикторов и получать предсказания на новых данных. Вы узнаете, как строить простые и множественные линейные модели с использованием языка R. У всякого метода есть свои ограничения, поэтому мы поможем вам разобраться, в каких ситуациях можно, а в каких нельзя применять линейную регрессию, и научим вас методам диагностики подобранных моделей. Специальное место в курсе отводится глубинной анатомии регрессионного анализа: вы освоите операции с матрицами, которые лежат в основе линейной регрессии, чтобы получить возможность разбираться в более сложных разновидностях линейных моделей. Если вы сталкиваетесь с необходимостью поиска и описания взаимосвязей между теми или иными явлениями, которые могут быть измерены количественно, тогда этот курс — хорошая возможность понять, как устроены простая и множественная линейная регрессия, узнать о возможностях и ограничениях этих методов. Курс рассчитан на тех, кто уже знаком с базовыми приемами анализа данных с использованием языка R и с созданием простейших .html документов при помощи rmarkdown и knitr.

Прежде чем рассчитать стандартные ошибки коэффициентов регрессии, сформируем матрицу значений факторных переменных (3.21) и вычислим элементы матрицы (АТА)-1:

Используя формулу (3.20), рассчитаем стандартные ошибки коэффициентов регрессии:

— стандартная

ошибка свободного члена уравнения.

— стандартная ошибка

коэффициента уравнения при факторной переменной х.

— стандартная ошибка

коэффициента уравнения при факторной переменной хт

Критерии Стъюдента (t-статистика):

Табличное значение критерия для условий нашего примера при v = 6 — 2—1 = 3 равноtav = 3,18. Следовательно, все коэффициенты регрессии статистически значимы.

Построение регрессионного уравнения, оценивание его параметров и их значимости можно выполнить с использованием пакета анализа Excel (программа «Регрессия»).

Для того чтобы это сделать, необходимо в меню «Сервис» войти в подменю «Анализ данных»1 и в таблице «Инструменты анализа» выбрать «Регрессия».

После того как будут введены входные данные (массив данных Y и массив данных X) и выполнен расчет, на экране появится следующая информация:

ВЫВОД ИТОГОВ:

Регрессионная статистика

Множественный Я

0,999476

Я-квадрат

0,998953

Нормированный Я-квадрат

0,998255

Стандартная ошибка

12,78207

Наблюдения

Дисперсионный анализ:

Значимость F

Регрессия

467 657,2

233 828,5947

1 431,183247

3.4Е-05

Остаток

490,1439

163,3813106

Итого

468 147,3

1 Если в меню «Сервис» нет подменю «Анализ данных», необходимо там же войти в меню «Надстройки» и активизировать надстройку «Пакет анализа».

Примечание: расхождения между значениями параметров объясняются погрешностью вычислений с округлениями.

Здесь /’-значение—уровень значимости а для значений /-статистики соответствующего коэффициента регрессии. Если это значение меньше 0,05 — соответствующий коэффициент является значимым с надежностью не менее 95%. Если это значение меньше 0,01 — соответствующий коэффициент является высоко значимым — с вероятностью не менее 99%. Если же /’-значение больше 0,05 — соответствующий коэффициент с большой долей вероятности является незначимым с точки зрения объяснения вариации результирующей переменной.

Для каждого коэффициента приводится доверительный интервал (нижнее 95%; верхнее 95%). Если в данный интервал попадает нулевое значение, то данный коэффициент незначим. Необходимо добиться такого результата, чтобы коэффициенты регрессии с вероятностью 95% не принимали нулевых значений. Другими словами, если введенный в модель фактор может принять нулевое значение, то его влияние на результативную переменную сомнительно и его следует убрать из модели, после чего пересчитать все коэффициенты модели.

Проверка на мультиколлинеарность:

Здесь—стандартные отклонения по выборкам незави симых переменных хх и х2,

Х]Х? —среднее значение произведения переменных, х,х2 — произведение средних значений переменных.

Коэффициент парной корреляции близок к единице. Это значит, что с математической точки зрения существует прямо пропорциональная связь между расстоянием до центра города и расстоянием до озера.

Однако в данном случае имеет место пример фиктивной или формальной мультиколлинеарности, так как очевидно, что эти переменные независимы друг от друга, т.е. расстояние до центра города никак не может быть связано с расстоянием до центра города.

Частные коэффициенты эластичности:

Первый коэффициент показывает, что при увеличении расстояния до центра города на 1% (0,837 км) цена за сотку в среднем уменьшится на 1,56% (на 11,6 д.е.), а при удалении от озера на 1% (0,05 км) — на 0,39% (2,9 д.е.). Это значит, что при удалении от центра города на расстояние чуть больше, чем 8 км цена за сотку земельного участка в среднем может уменьшиться на 120 д.е., а при приближении к озеру на 500 метров удельная цена в среднем может увеличиться на 29 д.е.

Итак, расчеты показали, что обе переменные достаточно хорошо объясняют вариацию зависимой переменной — стоимость земельного участка.

Оценка границ интервала стоимости оцениваемого участка земли:

Границы интервала удельной стоимости земельного участка рассчитаем по формуле

где V —расчетное значение оценки искомой

стоимости;

Kxn-k-i —критическое значение /-критерия при уровне значимости а и числе степеней свободы т = п — к — 1 (можно найти с помощью MS Excel);

— стандартная ошибка оценки стоимости;

X —регрессионная матрица;

X* — матрица-столбец значений факторных переменных объекта оценки с единицей в первой строке и значениями факторных переменных объекта оценки в других строках.

Для этого предварительно определим входящие в нее параметры:

Значение /-критерия: /0 05 3 = 3,18;

Используя рассчитанные таким образом параметры, определим границы интервала:

Это значит, что стоимость сотки оцениваемого участка, находящегося в 85 км от города и в 3 км от озера, с вероятностью 95% лежит в диапазоне от 800 до 900 д.е., а стоимость всего участка с той же вероятностью лежит в интервале от 8000 до 9000 д.е.

Пример 2

Требуется построить математическую модель рынка арендных ставок объектов недвижимости в зависимости от двух факторных признаков: местоположения объекта аренды и его состояния. Для построения модели подобраны 5 аналогов.

Допустим, что эксперты, являясь профессионалами на рынке недвижимости, грамотно оценили качество аналогов и проставленные ими баллы разумны в рамках рассматриваемой задачи (см. табл. 3.11). Здесь оценка местоположения и состояния объектов аренды выполнена в баллах методом экспертных оценок с использованием шкалы предпочтений. Объект под номером 4 имеет наилучшее местоположение, а объект под номером 2 — самое плохое.

Исходные данные

Таблица 3.11

Номер объекта

Местоположение, х,

Состояние, х2

Арендная ставка, у (д.е.)

В качестве математической модели выберем линейную модель вида:

Для оценки коэффициентов регрессии составим следующую систему уравнений:

Составим расчетную таблицу для определения коэффициентов (табл. 3.12).

Расчетная таблица для определения коэффициентов

Таблица 3.12

Номер

объекта

Ме- стопо- ложе- ние, х,

Состояние, хг

Аренд

ная

ставка,

У

хг

А1

у*1

Л2

У*г

~1

У

1 000

1 680

1 200

2 250

1 000

Сумма

1 040

5 640

3 320

1 040

Ср. знач.

18,2

1 128

После подстановки данных табл. 3.12 в систему уравнений получим:

Данная система имеет единственное решение, которому соответствует следующая модель регрессии:

Проверка качества модели

Для анализа качества полученной модели по приведенным выше статистическим критериям подготовим таблицу ошибок (табл. 3.13).

Таблица ошибок оценки

Таблица 3.13

Используя данные таблицы ошибок, рассчитаем критерии оценки. Дисперсия ошибки оценки:

Стандартное отклонение (стандартная ошибка):

Коэффициент детерминации:

Таким образом, 98% дисперсии цен объясняется регрессионным уравнением.

Коэффициент Фишера:

Коэффициент вариации:

Небольшая величина коэффициента вариации говорит о хорошем качестве модели.

Средняя ошибка аппроксимации:

Значение данного показателя значительно ниже 7%, что говорит о высокой точности модели.

Стандартные ошибки коэффициентов регрессии

Прежде чем рассчитать стандартные ошибки коэффициентов регрессии, сформируем матрицу значений факторных переменных (3.21) и вычислим элементы матрицы (АТА)-1:

Используя формулу (3.20), рассчитаем стандартные ошибки коэффициентов регрессии:

— стандартная ошибка

свободного члена уравнения.

— стандартная ошибка

коэффициента уравнения при факторной переменной xv

— стандартная ошибка

коэффициента уравнения при факторной переменной хг Критерий Стьюдента (t-статистика):

Табличное значение критерия для условий нашего примера при v = 5 — 2—1 = 2 равно tav = 4,3.

Заметим, что коэффициент регрессии при факторной переменной х2 статистически незначим (ta2 Если мы уверены в правильности описания зависимостей, его можно попытаться исключить из уравнения регрессии. Однако следует помнить, что в условиях небольшого числа аналогов статистическая незначимость фактора может быть обусловлена как реальным отсутствием связи между результирующей переменной и фактором, так и недостаточностью статистического материала. В ряде случаев недостаточно значимый фактор стоит оставлять в модели для того, чтобы подтвердить отсутствие пропуска влияющего фактора, и, тем самым, избежать смещенности оценки.

Как и в предыдущем примере, рассчитаем параметры регрессионного уравнения с использованием пакета анализа Excel (программа «Регрессия»).

ВЫВОД ИТОГОВ:

Регрессионная статистика

Множественный Я

0,99

Я-квадрат

0,98

Нормированный Я-квадрат

0,97

Стандартная ошибка

6,32

Наблюдения

Дисперсионный анализ:

Значимость F

Регрессия

5 000

2 500

62,5

0,0157

Остаток

Итого

5 080

Из анализа Excel-таблиц следует, что P-значение переменной «состояние» слишком велико, чтобы считать ее значимой. Кроме того, ее 95% доверительный интервал содержит нулевое значение, что также говорит о ее незначимости. Однако прежде чем исключать эту переменную из уравнения, которая по всем признакам является ценообразующим фактором, необходимо дополнительно проанализировать другие критерии модели, а также проверить корректность ее спецификации.

  • Умножение, транспонирование и вычисление обратных матриц достаточно просто выполняется с использованием ППП EXCEL и встроенных функций^: МУМНОЖ,ТРАНСП, МОБР.
  • Следует отметить, что методы регрессионного анализа являются методами обработки количественных величин, однако при создании моделей регрессии возможноиспользование и качественных характеристик, после их предварительной оцифровки.Это делается в том случае, когда качественные характеристики трудно поддаются измерению. Именно этот случай и рассмотрен в нашем примере.
  • Столбец заполнен после калибровки модели.

Пример нахождения статистической значимости коэффициентов регрессии

С помощью МНК мы получили лишь оценки параметров уравнения регрессии, которые характерны для конкретного статистического наблюдения (конкретного набора значений x и y). Если оценку параметров произвести по данным другого статистического наблюдения (другому набору значений x и y), то получим другие численные значения , . Мы предполагаем, что все эти наборы значений x и y извлечены из одной и той же генеральной совокупности.
Чтобы проверить, значимы ли параметры, т.е. значимо ли они отличаются от нуля для генеральной совокупности используют статистические методы проверки гипотез.
В качестве основной (нулевой) гипотезы выдвигают гипотезу о незначимом отличии от нуля параметра или статистической характеристики в генеральной совокупности. Наряду с основной (проверяемой) гипотезой выдвигают альтернативную (конкурирующую) гипотезу о неравенстве нулю параметра или статистической характеристики в генеральной совокупности. В случае если основная гипотеза окажется неверной, мы принимаем альтернативную. Для проверки этой гипотезы используется t-критерий Стьюдента.
Найденное по данным наблюдений значение t-критерия (его еще называют наблюдаемым или фактическим) сравнивается с табличным (критическим) значением, определяемым по таблицам распределения Стьюдента (которые обычно приводятся в конце учебников и практикумов по статистике или эконометрике). Табличное значение определяется в зависимости от уровня значимости (a) и числа степеней свободы, которое в случае линейной парной регрессии равно (n-2), n-число наблюдений.
Если фактическое значение t-критерия больше табличного (по модулю), то основную гипотезу отвергают и считают, что с вероятностью (1-a) параметр или статистическая характеристика в генеральной совокупности значимо отличается от нуля.
Если фактическое значение t-критерия меньше табличного (по модулю), то нет оснований отвергать основную гипотезу, т.е. параметр или статистическая характеристика в генеральной совокупности незначимо отличается от нуля при уровне значимости a.
Для параметра b критерий проверки имеет вид:
,
где — оценка коэффициента регрессии, полученная по наблюдаемым данным;
μδ – стандартная ошибка коэффициента регрессии.
Для линейного парного уравнения регрессии стандартная ошибка коэффициента вычисляется по формуле:
.

Числитель в этой формуле может быть рассчитан через коэффициент детерминации и общую дисперсию признака-результата: .
Для параметра a критерий проверки гипотезы о незначимом отличии его от нуля имеет вид:
,
где — оценка параметра регрессии, полученная по наблюдаемым данным;
μa – стандартная ошибка параметра a.
Для линейного парного уравнения регрессии:
.
Для проверки гипотезы о незначимом отличии от нуля коэффициента линейной парной корреляции в генеральной совокупности используют следующий критерий:
, где ryx — оценка коэффициента корреляции, полученная по наблюдаемым данным; mr – стандартная ошибка коэффициента корреляции ryx.
Для линейного парного уравнения регрессии:
.
В парной линейной регрессии между наблюдаемыми значениями критериев существует взаимосвязь: t ( b =0) = t (r=0).

Пример №1. Уравнение имеет вид y=ax+b
1. Параметры уравнения регрессии.
Средние значения
Дисперсия
Среднеквадратическое отклонение
Коэффициент корреляции
Связь между признаком Y фактором X сильная и прямая
Уравнение регрессии
Коэффициент детерминации
R 2= 0.73 2 = 0.54, т.е. в 54% случаев изменения х приводят к изменению y. Другими словами — точность подбора уравнения регрессии — средняя.

2. Оценка параметров уравнения регрессии
Значимость коэффициента корреляции
По таблице Стьюдента находим Tтабл
Tтабл (n-m-1;a) = (10;0.05) = 1.812
Поскольку Tнабл > Tтабл , то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициента корреляции статистически — значим.

Анализ точности определения оценок коэффициентов регрессии
S a = 0.2704
Доверительные интервалы для зависимой переменной
Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и X = 88,16
(128.06;163.97)
Проверка гипотез относительно коэффициентов линейного уравнения регрессии
1) t-статистика
Статистическая значимость коэффициента регрессии a подтверждается
Статистическая значимость коэффициента регрессии b подтверждается
Доверительный интервал для коэффициентов уравнения регрессии
Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими:
(a — t a S a; a + t aSa)
(0.4325;1.4126)
(b — t b S b; b + t bSb)
(21.3389;108.3164)
2) F-статистики
Fkp = 4.96
Поскольку F > Fkp, то коэффициент детерминации статистически значим.

Пример №2. По территориям региона приводятся данные за 199Х г.;

Номер региона Среднедушевой прожиточный минимум в день одного трудоспособного, руб., х Среднедневная заработная плата, руб., у
1 78 133
2 82 148
3 87 134
4 79 154
5 89 162
6 106 195
7 67 139
8 88 158
9 73 152
10 87 162
11 76 159
12 115 173

Требуется:
1. Построить линейное уравнение парной регрессии у от х.
2. Рассчитать линейный коэффициент парной корреляции и среднюю ошибку аппроксимации.
3. Оценить статистическую значимость параметров регрессии и корреляции.
4. Выполнить прогноз заработной платы у при прогнозном значении среднедушевого прожиточного минимума х, составляющем 107% от среднего уровня.
5. Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал.

Решение находим с помощью калькулятора.
Использование графического метода .
Этот метод применяют для наглядного изображения формы связи между изучаемыми экономическими показателями. Для этого в прямоугольной системе координат строят график, по оси ординат откладывают индивидуальные значения результативного признака Y, а по оси абсцисс — индивидуальные значения факторного признака X.
Совокупность точек результативного и факторного признаков называется полем корреляции.
На основании поля корреляции можно выдвинуть гипотезу (для генеральной совокупности) о том, что связь между всеми возможными значениями X и Y носит линейный характер.
Линейное уравнение регрессии имеет вид y = bx + a + ε
Здесь ε — случайная ошибка (отклонение, возмущение).
Причины существования случайной ошибки:
1. Невключение в регрессионную модель значимых объясняющих переменных;
2. Агрегирование переменных. Например, функция суммарного потребления – это попытка общего выражения совокупности решений отдельных индивидов о расходах. Это лишь аппроксимация отдельных соотношений, которые имеют разные параметры.
3. Неправильное описание структуры модели;
4. Неправильная функциональная спецификация;
5. Ошибки измерения.
Так как отклонения εi для каждого конкретного наблюдения i – случайны и их значения в выборке неизвестны, то:
1) по наблюдениям xi и yi можно получить только оценки параметров α и β
2) Оценками параметров α и β регрессионной модели являются соответственно величины а и b, которые носят случайный характер, т.к. соответствуют случайной выборке;
Тогда оценочное уравнение регрессии (построенное по выборочным данным) будет иметь вид y = bx + a + ε, где ei – наблюдаемые значения (оценки) ошибок εi, а и b соответственно оценки параметров α и β регрессионной модели, которые следует найти.
Для оценки параметров α и β — используют МНК (метод наименьших квадратов).
Система нормальных уравнений.

Для наших данных система уравнений имеет вид
12a+1027b=1869
1027a+89907b=161808
Из первого уравнения выражаем а и подставим во второе уравнение. Получаем b = 0.92, a = 76.98
Уравнение регрессии: y = 0.92 x + 76.98
1. Параметры уравнения регрессии.
Выборочные средние.
Выборочные дисперсии:
Среднеквадратическое отклонение
Коэффициент корреляции
Рассчитываем показатель тесноты связи. Таким показателем является выборочный линейный коэффициент корреляции, который рассчитывается по формуле:
Линейный коэффициент корреляции принимает значения от –1 до +1.
Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:
0.1 < rxy < 0.3: слабая;
0.3 < rxy < 0.5: умеренная;
0.5 < rxy < 0.7: заметная;
0.7 < rxy < 0.9: высокая;
0.9 < rxy < 1: весьма высокая;
В нашем примере связь между среднедневной заработной платы и среднедушевым прожиточным минимумом высокая и прямая.
1.2. Уравнение регрессии (оценка уравнения регрессии).
Линейное уравнение регрессии имеет вид y = 0.92 x + 76.98
Коэффициентам уравнения линейной регрессии можно придать экономический смысл.
Коэффициент b = 0.92 показывает среднее изменение результативного показателя (в единицах измерения у) с повышением или понижением величины фактора х на единицу его измерения. В данном примере с увеличением на 1 руб. среднедушевого прожиточного минимума в день среднедневная заработная плата повышается в среднем на 0.92.
Коэффициент a = 76.98 формально показывает прогнозируемый уровень Среднедневная заработная плата , но только в том случае, если х=0 находится близко с выборочными значениями.
Подставив в уравнение регрессии соответствующие значения х, можно определить выровненные (предсказанные) значения результативного показателя y(x) для каждого наблюдения.
Связь между среднедневной заработной платы и среднедушевого прожиточного минимума в день определяет знак коэффициента регрессии b (если > 0 – прямая связь, иначе — обратная). В нашем примере связь прямая.
Коэффициент эластичности.
Коэффициенты регрессии (в примере b) нежелательно использовать для непосредственной оценки влияния факторов на результативный признак в том случае, если существует различие единиц измерения результативного показателя у и факторного признака х.
Для этих целей вычисляются коэффициенты эластичности и бета — коэффициенты. Коэффициент эластичности находится по формуле:
Он показывает, на сколько процентов в среднем изменяется результативный признак у при изменении факторного признака х на 1%. Он не учитывает степень колеблемости факторов.
Коэффициент эластичности меньше 1. Следовательно, при изменении среднедушевого прожиточного минимума в день на 1%, среднедневная заработная плата изменится менее чем на 1%. Другими словами — влияние среднедушевого прожиточного минимума Х на среднедневную заработную плату Y не существенно.
Бета – коэффициент показывает, на какую часть величины своего среднего квадратичного отклонения изменится в среднем значение результативного признака при изменении факторного признака на величину его среднеквадратического отклонения при фиксированном на постоянном уровне значении остальных независимых переменных:

Т.е. увеличение x на величину среднеквадратического отклонения этого показателя приведет к увеличению средней среднедневной заработной платы Y на 0.721 среднеквадратичного отклонения этого показателя.
1.4. Ошибка аппроксимации.
Оценим качество уравнения регрессии с помощью ошибки абсолютной аппроксимации.
Поскольку ошибка меньше 15%, то данное уравнение можно использовать в качестве регрессии.
Коэффициент детерминации.
Квадрат (множественного) коэффициента корреляции называется коэффициентом детерминации, который показывает долю вариации результативного признака, объясненную вариацией факторного признака.
Чаще всего, давая интерпретацию коэффициента детерминации, его выражают в процентах.
R2= 0.722 = 0.5199, т.е. в 51.99 % случаев изменения среднедушевого прожиточного минимума х приводят к изменению среднедневной заработной платы y. Другими словами — точность подбора уравнения регрессии — средняя. Остальные 48.01% изменения среднедневной заработной платы Y объясняются факторами, не учтенными в модели. 2. Оценка параметров уравнения регрессии.
2.1. Значимость коэффициента корреляции.
По таблице Стьюдента с уровнем значимости α=0.05 и степенями свободы k=10 находим tкрит:
tкрит = (10;0.05) = 1.812
где m = 1 — количество объясняющих переменных.
Если tнабл > tкритич, то полученное значение коэффициента корреляции признается значимым (нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции, отвергается).
Поскольку tнабл > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически — значим.
В парной линейной регрессии t2r = t2b и тогда проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии.

2.3. Анализ точности определения оценок коэффициентов регрессии.
Несмещенной оценкой дисперсии возмущений является величина:
S2y = 157.4922 — необъясненная дисперсия (мера разброса зависимой переменной вокруг линии регрессии).
12.5496 — стандартная ошибка оценки (стандартная ошибка регрессии).
S a — стандартное отклонение случайной величины a.
Sb — стандартное отклонение случайной величины b.
2.4. Доверительные интервалы для зависимой переменной.
Экономическое прогнозирование на основе построенной модели предполагает, что сохраняются ранее существовавшие взаимосвязи переменных и на период упреждения.
Для прогнозирования зависимой переменной результативного признака необходимо знать прогнозные значения всех входящих в модель факторов.
Прогнозные значения факторов подставляют в модель и получают точечные прогнозные оценки изучаемого показателя.
(a + bxp ± ε)
где
Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и X p = 94
(76.98 + 0.92*94 ± 7.8288)
(155.67;171.33)
С вероятностью 95% можно гарантировать, что значения Y при неограниченно большом числе наблюдений не выйдет за пределы найденных интервалов.
2.5. Проверка гипотез относительно коэффициентов линейного уравнения регрессии.
1) t-статистика. Критерий Стьюдента.
Проверим гипотезу H0 о равенстве отдельных коэффициентов регрессии нулю (при альтернативе H1 не равно) на уровне значимости α=0.05.
tкрит = (10;0.05) = 1.812
Поскольку 3.2906 > 1.812, то статистическая значимость коэффициента регрессии b подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).
Поскольку 3.1793 > 1.812, то статистическая значимость коэффициента регрессии a подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).
Доверительный интервал для коэффициентов уравнения регрессии.
Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими:
(b — tкрит Sb; b + tкрит Sb)
(0.9204 — 1.812·0.2797; 0.9204 + 1.812·0.2797)
(0.4136;1.4273)
С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.
(a-ta)
(76.9765 — 1.812·24.2116; 76.9765 + 1.812·24.2116)
(33.1051;120.8478)
С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.
2) F-статистики. Критерий Фишера.
Проверка значимости модели регрессии проводится с использованием F-критерия Фишера, расчетное значение которого находится как отношение дисперсии исходного ряда наблюдений изучаемого показателя и несмещенной оценки дисперсии остаточной последовательности для данной модели.
Если расчетное значение с k1=(m) и k2=(n-m-1) степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой.
где m – число факторов в модели.
Оценка статистической значимости парной линейной регрессии производится по следующему алгоритму:
1. Выдвигается нулевая гипотеза о том, что уравнение в целом статистически незначимо: H0: R2=0 на уровне значимости α.
2. Далее определяют фактическое значение F-критерия:
где m=1 для парной регрессии.
3. Табличное значение определяется по таблицам распределения Фишера для заданного уровня значимости, принимая во внимание, что число степеней свободы для общей суммы квадратов (большей дисперсии) равно 1 и число степеней свободы остаточной суммы квадратов (меньшей дисперсии) при линейной регрессии равно n-2.
4. Если фактическое значение F-критерия меньше табличного, то говорят, что нет основания отклонять нулевую гипотезу.
В противном случае, нулевая гипотеза отклоняется и с вероятностью (1-α) принимается альтернативная гипотеза о статистической значимости уравнения в целом.
Табличное значение критерия со степенями свободы k1=1 и k2=10, Fkp = 4.96
Поскольку фактическое значение F > Fkp, то коэффициент детерминации статистически значим (Найденная оценка уравнения регрессии статистически надежна).

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *