→ Определение мультиколлинеарности. Проблема мультиколлинеарности факторов в регрессионных моделях Признаки стационарности стохастического процесса. Что такое «Белый шум»? с.100

Определение мультиколлинеарности. Проблема мультиколлинеарности факторов в регрессионных моделях Признаки стационарности стохастического процесса. Что такое «Белый шум»? с.100

Мультиколлинеарность – это линейная зависимость между двумя или несколькими факторными переменными в уравнении множественной регрессии. Если такая зависимость является функциональной, то говорят о полной мультиколлинеарности . Если же она является корреляционной, то имеет место частичная мультиколлинеарность . Если полная мультиколлинеарность является скорее теоретической абстракцией (она проявляется, в частности, если фиктивную переменнную, имеющую k уровней качества, заменить на k дихотомических переменных), то частичная мультиколлинеарность весьма реальна и присутствует практически всегда. Речь может идти лишь о степени ее выраженности. Например, если в состав объясняющих переменных входят располагаемый доход и потребление, то обе эти переменные, конечно, будут сильно коррелированными.

Отсутствие мультиколлинеарности является одной из желательных предпосылок классической линейной множественной модели. Это связано со следующими соображениями:

1) В случае полной мультиколинеарности вообще невозможно построить оценки параметров линейной множественной регрессии с помощью МНК.

2) В случае частичной мультиколлинеарности оценки параметров регрессии могут быть ненадежными и, кроме того, затруднено определение

изолированного вклада факторов в результативный показатель.

Главной причиной возникновения мультиколлинеарности является наличие в изучаемом объекте процессов, которые одновременно влияют на некоторые входные переменные, но не учтены в модели. Это может быть результатом некачественного исследования предметной области или сложности взаимосвязей параметров изучаемого объекта.

Подозрением наличия мультиколлинеарности служат:

– большое количество незначимых факторов в модели;

– большие стандартные ошибки параметров регрессии;

– неустойчивость оценок (небольшое изменение исходных данных приводит к их существенному изменению).

Один из подходов для определения наличия или отсутствия мультиколлинеарности заключается в анализе корреляционной матрицы

между объясняющими переменными и выявлении пар факторов, имеющих высокие коэффициенты парной корреляции (обычно больше 0,7). Если такие факторы существуют, то говорят о явной коллинеарности между ними.

Однако парные коэффициенты корреляции, рассматриваемые индивидуально, не могут оценить совокупное взаимодействие нескольких факторов (а не только двух).

Поэтому для оценки наличия мультиколлинеарности в модели используется определитель матрицы парных коэффициентов корреляции между факторами (определитель матрицы межфакторной корреляции )

Чем ближе определитель матрицы межфакторной корреляции к 0, тем сильнее мультиколлинеарность, и наоборот, чем ближе определитель к 1, тем меньше мультиколлинеарность.


Статистическая значимость мультиколлинеарности факторов определяется проверкой нулевой гипотезы при альтернативной гипотезе . Для проверки нулевой гипотезы используется распределение Пирсона с степенями свободы. Наблюдаемое значение статистики находится по формуле , где n – число наблюдений, m – число факторов. Для заданного уровня значимости по таблице критических точек распределения Пирсона определяется критическое значение . Если , то гипотеза отклоняется и считается, что в модели присутствует мультиколлинеарность факторов.

Выделить факторы, влияющие на мультиколлинеарность, позволяет также анализ коэффициентов множественной детерминации, вычисленных при условии, что каждый из факторов рассматривается в качестве зависимой переменной от других факторов: , , …, . Чем ближе они к 1, тем сильнее мультиколлинеарность факторов. Значит, в уравнении следует оставлять факторы с минимальной величиной коэффициента множественной детерминации.

Что касается полной мультиколлинеарности, то с ней следует вести самую решительную борьбу: сразу же удалять из регрессионного уравнения переменные, которые являются линейными комбинациями другихпеременных.

Частичная мультиколлинеарность не является таким уж серьезным злом, чтобы ее выявлять и устранять. Все зависит от целей исследования. Если основная задача моделирования – только прогнозирование значений зависимой переменной, то при достаточно большом коэффициенте детерминации () присутствие мультиколлинеарности не сказывается на прогнозных качествах модели. Если же целью моделирования является и определение вклада каждого фактора в изменение зависимой переменной, то наличие мультиколлинеарности является серьезной проблемой.

Простейшим методом устранения мультиколлинеарности является исключение из модели одной или ряда коррелированных переменных.

Поскольку мультиколлинеарность напрямую зависит от выборки, то, возможно, при другой выборке мультиколлинеарности не будет вообще либо она не будет настолько серьезной. Поэтому для уменьшения мультиколлинеарности в ряде случаев достаточно увеличить объем выборки.

Иногда проблема мультиколлинеарности может быть решена путем изменения спецификации модели: либо изменяется форма модели, либо добавляются факторы, не учтенные в первоначальной модели, но существенно влияющие на зависимую переменную.

В ряде случаев минимизировать либо совсем устранить мультиколлинеарность можно с помощью преобразования факторных переменных. При этом наиболее распространены следующие преобразования:

1. Линейная комбинация мультиколлинеарных переменных (например, ).

2. Замена мультиколлинеарной переменной ее приращением .

3. Деление одной коллинеарной переменной на другую.

Федеральное агентство по образованию и науке РФ

Костромской государственный технологический университет.

Кафедра высшей математики

по эконометрике на тему:

Мультиколлинеарность

Выполнила

студент 1 курса

заочного факультета

сп-ть «Бухгалтерский учёт,

анализ и аудит».

Проверила

Катержина С.Ф.

Кострома 2008 г


Мультиколлинеарность

Под мультиколлинеарностью понимается высокая взаимная коррелированность объясняющих переменных. Мультиколлинеарность может проявляться в функциональной (явной) и стохастической (скрытой) формах.

При функциональной форме мультиколлинеарности по крайней мере одна из парных связей между объясняющими переменными является линейной функциональной зависимостью. В этом случае матрица X`X особенная, так как содержит линейно зависимые векторы-столбцы, и её определитель равен нулю, т.е. нарушается предпосылка регрессионного анализа, это приводит к невозможности решения соответствующей системы нормальных уравнений и получения оценок параметров регрессионной модели.

Однако в экономических исследованиях мультиколлинеарность чаще проявляется в стохастической форме, когда между хотя бы двумя объясняющими переменными существует тесная корреляционная связь. Матрица X`X в этом случае является неособенной, но её определитель очень мал.

В то же время вектор оценок b и его ковариционная матрица ∑ b пропорциональны обратной матрице (X`X) -1 , а значит, их элементы обратно пропорциональны величине определителя |X`X|. В результате получаются значительные средние квадратические отклонения (стандартные ошибки) коэффициентов регрессии b 0 , b 1 ,…,b p и оценка их значимости по t-критерию не имеет смысла, хотя в целом регрессионная модель может оказаться значимой по F-критерию.

Оценки становятся очень чувствительными к незначительному изменению результатов наблюдений и объёма выборки. Уравнения регрессии в этом случае, как правило, не имеют реального смысла, так как некоторые из его коэффициентов могут иметь неправильные с точки зрения экономической теории знаки и неоправданно большие значения.

Точных количественных критериев для определения наличия или отсутствия мультиколлинеарности не существует. Тем не менее, имеются некоторые эвристические подходы по её выявлению.

Один из таких подходов заключается в анализе корреляционной матрицы между объясняющими переменными X 1 ,X 2 ,…,X p и выявлении пар переменных, имеющих высокие переменные корреляции (обычно больше 0,8). Если такие переменные существуют, говорят о мультиколлинеарности между ними. Полезно также находить множественные коэффициенты детерминации между одной из объясняющих переменных и некоторой группой из них. Наличие высокого множественного коэффициента детерминации (обычно больше 0,6) свидетельствует о мультиколлинеарности.

Другой подход состоит в исследовании матрицы X`X. Если определитель матрицы X`X либо её минимальное собственное значение λ min близки к нулю (например одного порядка с накапливающимися ошибками вычислений), то это говорит о наличии мультиколлинеарности. о том же может свидетельствовать и значительное отклонение максимального собственного значения λ max матрицы X`X от её минимального собственного значения λ min .

Для устранения или уменьшения мультиколлинеарности используется ряд методов. Самый простой из них (но далеко не всегда возможный) состоит в том, что из двух объясняющих переменных, имеющих высокий коэффициент корреляции (больше 0,8), одну переменную исключают из рассмотрения. При этом, какую переменную оставить, а какую удалить из анализа, решают в первую очередь на основании экономических соображений. Если с экономической точки зрения ни одной из переменных нельзя отдать предпочтение, то оставляют ту из двух переменных, которая имеет больший коэффициент корреляции с зависимой переменной.

Другой метод устранения или уменьшения мультиколлинеарности заключается в переходе от несмещённых оценок, определённых по методу наименьших квадратов, к смещённым оценкам, обладающим, однако, меньшим рассеянием относительно оцениваемого параметра, т.е. меньшим математическим ожиданием квадрата отклонения оценки b j от параметра β j или M (b j - β j) 2 .

Оценки, определяемые вектором, обладают в соответствии с теоремой Гаусса-Маркова минимальными дисперсиями в классе всех линейных несмещённых оценок, но при наличии мультиколлинеарности эти дисперсии могут оказаться слишком большими, и обращение к соответствующим смещённым оценкам может повысить точность оценивания параметров регрессии. На рисунке показан случай, когда смещённая оценка β j ^ , выборочное распределение которой задаётся плотностью φ (β j ^).

Действительно, пусть максимально допустимый по величине доверительный интервал для оцениваемого параметра β j есть (β j -Δ, β j +Δ). Тогда доверительная вероятность, или надёжность оценки, определяемая площадью под кривой распределения на интервале (β j -Δ, β j +Δ), как нетрудно видеть из рисунка, будет в данном случае больше для оценки β j по сравнению с b j (на рисунке эти площади заштрихованы). Соответственно средний квадрат отклонения оценки от оцениваемого параметра будет меньше для смещённой оценки, т.е.:

M (β j ^ - β j) 2 < M (b j - β j) 2

При использовании «ридж-регрессии» (или «гребневой регрессии») вместо несмещённых оценок рассматривают смещённые оценки, задаваемые вектором

β τ ^ =(X`X+τ E p +1) -1 X`Y,

где τ – некоторое положительное число, называемое «гребнем» или «хребтом»,

E p +1 – единичная матрица (р+1) –го порядка.

Добавление τ к диагональным элементам матрицы X`X делает оценки параметров модели смещёнными, но при этом увеличивается определитель матрицы системы нормальных уравнений – вместо (X`X) от будет равен

|X`X+τ E p +1 |

Таким образом, становится возможным исключение мультиколлинеарности в случае, когда определитель |X`X| близок к нулю.

Для устранения мультиколлинеарности может быть использован переход от исходных объясняющих переменных X 1 ,X 2 ,…,X n , связанных между собой достаточно тесной корреляционной зависимостью, к новым переменным, представляющим линейные комбинации исходных. При этом новые переменные должны быть слабо коррелированными либо вообще некоррелированными. В качестве таких переменных берут, например, так называемые главные компоненты вектора исходных объясняющих переменных, изучаемые в компонентном анализе, и рассматривают регрессию на главных компонентах, в которой последние выступают в качестве обобщённых объясняющих переменных, подлежащих в дальнейшем содержательной (экономической) интерпритации.

Ортогональность главных компонент предотвращает проявление эффекта мультиколлинеарности. Кроме того, применяемый метод позволяет ограничиться малым числом главных компонент при сранительно большом количестве исходных объясняющих переменных.

Мультиколлинеарность - это понятие, которое используется для описания проблемы, когда нестрогая линейная зависимость между объясняющими переменными приводит к получению ненадежных оценок регрессии. Разумеется, такая зависимость совсем необязательно дает неудовлетворительные оценки. Если все другие условия благоприятствуют, т. е. если число наблюдений и выборочные дисперсии объясняющих переменных велики, а дисперсия случайного члена -мала, то в итоге можно получить вполне хорошие оценки.

Итак, мультиколлинеарность должна вызываться сочетанием нестрогой зависимости и одного (или более) неблагоприятного условия, и это - вопрос

степени выраженности явления, а не его вида. Оценка любой регрессии будет страдать от нее в определенной степени, если только все независимые переменные не окажутся абсолютно некоррелированными. Рассмотрение данной проблемы начинается только тогда, когда это серьезно влияет на результаты оценки регрессии.

Эта проблема является обычной для регрессий временных рядов, т. е. когда данные состоят из ряда наблюдений в течение какого-то периода времени. Если две или более независимые переменные имеют ярко выраженный временной тренд, то они будут тесно коррелированы, и это может привести к мультиколлинеарности.


Что можно предпринять в этом случае?

Различные методы, которые могут быть использованы для смягчения мультиколлинеарности, делятся на две категории: к первой категории относятся попытки повысить степень выполнения четырех условий, обеспечивающих надежность оценок регрессии; ко второй категории относится использование внешней информации. Если сначала использовать возможные непосредственно получаемые данные, то, очевидно, было бы полезным увеличить число наблюдений.

Если вы применяете данные временных рядов, то это можно сделать путем сокращения продолжительности каждого периода времени. Например, при оценивании уравнений функции спроса в упражнениях 5.3 и 5.6 можно перейти с использования ежегодных данных на поквартальные данные.

После этого вместо 25 наблюдений их станет 100. Это настолько очевидно и так просто сделать, что большинство исследователей, использующих временные ряды, почти автоматически применяют поквартальные данные, если они имеются, вместо ежегодных данных, даже если проблема мультиколлинеарности не стоит, просто для сведения к минимуму теоретических дисперсий коэффициентов регрессии. В таком подходе существуют, однако, и потенциальные проблемы. Можно привнести или усилить автокорреляцию, но она может быть нейтрализована. Кроме того, можно привнести (или усилить) смещение, вызванное ошибками измерения, если поквартальные данные измерены с меньшей точностью, чем соответствующие ежегодные данные. Эту проблему не так просто решить, но она может оказаться несущественной.

При построении уравнения множественной регрессии может возникнуть проблема мультиколлинеарности факторов. Мультиколлинеарностью называется линейная взаимосвязь двух или нескольких объясняющих переменных, которая может проявляться в функциональной (явной) или стохастической (скрытой) форме.
Выявление связи между отобранными признаками и количественная оценка тесноты связи осуществляются с использованием методов корреляционного анализа. Для решения этих задач сначала оценивается , затем на ее основе определяются частные и множественные коэффициенты корреляции и детерминации, проверяется их значимость. Конечной целью корреляционного анализа является отбор факторных признаков x 1 , x 2 ,…,x m для дальнейшего построения уравнения регрессии.

Если факторные переменные связаны строгой функциональной зависимостью, то говорят о полной мультиколлинеарности . В этом случае среди столбцов матрицы факторных переменных Х имеются линейно зависимые столбцы, и, по свойству определителей матрицы , det(X T X) = 0 , т. е. матрица (X T X) вырождена, а значит, не существует обратной матрицы. Матрица (X T X) -1 используется в построении МНК-оценок. Таким образом, полная мультиколлинеарность не позволяет однозначно оценить параметры исходной модели регрессии.

К каким трудностям приводит мультиколлинеарность факторов, включенных в модель, и как они могут быть разрешены?

Мультиколлинеарность может привести к нежелательным последствиям:

  1. оценки параметров становятся ненадежными. Они обнаруживают большие стандартные ошибки. С изменением объема наблюдений оценки меняются (не только по величине, но и по знаку), что делает модель непригодной для анализа и прогнозирования.
  2. затрудняется интерпретация параметров множественной регрессии как характеристик действия факторов в «чистом» виде, ибо факторы коррелированны; параметры линейной регрессии теряют экономический смысл;
  3. становится невозможным определить изолированное влияние факторов на результативный показатель.

Вид мультиколлинеарности, при котором факторные переменные связаны некоторой стохастической зависимостью, называется частичной. Если между факторными переменными имеется высокая степень корреляции, то матрица (X T X) близка к вырожденной, т. е. det(X T X) ≈ 0.
Матрица (X T X) -1 будет плохо обусловленной, что приводит к неустойчивости МНК-оценок. Частичная мультиколлинеарность приводит к следующим последствиям:

  • увеличение дисперсий оценок параметров расширяет интервальные оценки и ухудшает их точность;
  • уменьшение t -статистик коэффициентов приводит к неверным выводам о значимости факторов;
  • неустойчивость МНК-оценок и их дисперсий.

Точных количественных критериев для обнаружения частичной мультиколлинеарности не существует. О наличии мультиколлинеарности может свидетельствовать близость к нулю определителя матрицы (X T X). Также исследуют значения парных коэффициентов корреляции. Если же определитель матрицы межфакторной корреляции близок к единице, то мультколлинеарности нет.

Существуют различные подходы преодоления сильной межфакторной корреляции. Простейший из них – исключение из модели фактора (или факторов), в наибольшей степени ответственных за мультиколлинеарность при условии, что качество модели при этом пострадает несущественно (а именно, теоретический коэффициент детерминации -R 2 y(x1...xm) снизится несущественно).

С помощью какой меры невозможно избавиться от мультиколлинеарности?
a) увеличение объема выборки;
b) исключения переменных высококоррелированных с остальными;
c) изменение спецификации модели;
d) преобразование случайной составляющей.

Парные (линейные) и частные коэффициенты корреляции

Тесноту связи, например между переменными x и y по выборке значений (x i , y i), i=1,n , (1)
где x и y – средние значения, S x и S y – стандартные отклонения соответствующих выборок.

Парный коэффициент корреляции изменяется в пределах от –1 до +1. Чем ближе он по абсолютной величине к единице, тем ближе статистическая зависимость между x и y к линейной функциональной. Положительное значение коэффициента свидетельствует о том, что связь между признаками прямая (с ростом x увеличивается значение y), отрицательное значение – связь обратная (с ростом x значение y уменьшается).
Можно дать следующую качественную интерпретацию возможных значений коэффициента корреляции: если |r|<0.3 – связь практически отсутствует; 0.3≤ |r| < 0.7 - связь средняя; 0.7≤ |r| < 0.9 – связь сильная; 0.9≤ |r| < 0.99 – связь весьма сильная.
Для оценки мультиколлинеарности факторов используют матрицу парных коэффициентов корреляции зависимого (результативного) признака y с факторными признаками x 1 , x 2 ,…,x m , которая позволяет оценить степень влияния каждого показателя-фактора x j на зависимую переменную y, а также тесноту взаимосвязей факторов между собой. Корреляционная матрица в общем случае имеет вид
.
Матрица симметрична, на ее диагонали стоят единицы. Если в матрице есть межфакторный коэффициент корреляции r xjxi >0.7, то в данной модели множественной регрессии существует мультиколлинеарность.
Поскольку исходные данные, по которым устанавливается взаимосвязь признаков, являются выборкой из некой генеральной совокупности, вычисленные по этим данным коэффициенты корреляции будут выборочными, т. е. они лишь оценивают связь. Необходима проверка значимости, которая отвечает на вопрос: случайны или нет полученные результаты расчетов.
Значимость парных коэффициентов корреляции проверяют по t- критерию Стьюдента. Выдвигается гипотеза о равенстве нулю генерального коэффициента корреляции: H 0: ρ = 0. Затем задаются параметры: уровень значимости α и число степеней свободы v = n-2. Используя эти параметры, по таблице критических точек распределения Стьюдента находят t кр, а по имеющимся данным вычисляют наблюдаемое значение критерия:
, (2)
где r – парный коэффициент корреляции, рассчитанный по отобранным для исследования данным. Парный коэффициент корреляции считается значимым (гипотеза о равенстве коэффициента нулю отвергается) с доверительной вероятностью γ = 1- α, если t Набл по модулю будет больше, чем t крит.
Если переменные коррелируют друг с другом, то на значении коэффициента корреляции частично сказывается влияние других переменных.

Частный коэффициент корреляции характеризует тесноту линейной зависимости между результатом и соответствующим фактором при устранении влияния других факторов. Частный коэффициент корреляции оценивает тесноту связи между двумя переменными при фиксированном значении остальных факторов. Если вычисляется, например, r yx 1| x2 (частный коэффициент корреляции между y и x 1 при фиксированном влиянии x 2), это означает, что определяется количественная мера линейной зависимости между y и x 1 , которая будет иметь место, если устранить влияние x 2 на эти признаки. Если исключают влияние только одного фактора, получают частный коэффициент корреляции первого порядка.
Сравнение значений парного и частного коэффициентов корреляции показывает направление воздействия фиксируемого фактора. Если частный коэффициент корреляции r yx 1| x2 получится меньше, чем соответствующий парный коэффициент r yx 1 , значит, взаимосвязь признаков y и x 1 в некоторой степени обусловлена воздействием на них фиксируемой переменной x 2 . И наоборот, большее значение частного коэффициента по сравнению с парным свидетельствует о том, что фиксируемая переменная x 2 ослабляет своим воздействием связь y и x 1 .
Частный коэффициент корреляции между двумя переменными (y и x 2) при исключении влияния одного фактора (x 1) можно вычислить по следующей формуле:
. (3)
Для других переменных формулы строятся аналогичным образом. При фиксированном x 2
;
при фиксированном x 3
.
Значимость частных коэффициентов корреляции проверяется аналогично случаю парных коэффициентов корреляции. Единственным отличием является число степеней свободы, которое следует брать равным v = n – l -2, где l – число фиксируемых факторов.

Пошаговая регрессия

Отбор факторов x 1 , x 2 , …,x m , включаемых в модель множественной регрессии, является одним из важнейших этапов эконометрического моделирования. Метод последовательного (пошагового) включения (или исключения) факторов в модель позволяет выбрать из возможного набора переменных именно те, которые усилят качество модели.
При реализации метода на первом шаге рассчитывается корреляционная матрица. На основе парных коэффициентов корреляции выявляется наличие коллинеарных факторов. Факторы x i и x j признаются коллинеарными, если r xjxi >0.7. В модель включают лишь один из взаимосвязанных факторов. Если среди факторов отсутствуют коллинеарные, то в модель могут быть включены любые факторы, оказывающие существенное влияние на y .

На втором шаге строится уравнение регрессии с одной переменной, имеющей максимальный по абсолютной величине парный коэффициент корреляции с результативным признаком.

На третьем шаге в модель вводится новая переменная, имеющая наибольшее по абсолютной величине значение частного коэффициента корреляции с зависимой переменной при фиксированном влиянии ранее введенной переменной.
При введении в модель дополнительного фактора коэффициент детерминации должен возрастать, а остаточная дисперсия уменьшаться. Если этого не происходит, т. е. коэффициент множественной детерминации увеличивается незначительно, то ввод нового фактора признается нецелесообразным.

Пример №1 . По 20 предприятиям региона изучается зависимость выработки продукции на одного работника y (тыс. руб.) от удельного веса рабочих высокой квалификации в общей численности рабочих x1 (% от стоимости фондов на конец года) и от ввода в действие новых основных фондов x2 (%).

Y X1 X2
6 10 3,5
6 12 3,6
7 15 3,9
7 17 4,1
7 18 4,2
8 19 4,5
8 19 5,3
9 20 5,3
9 20 5,6
10 21 6
10 21 6,3
11 22 6,4
11 23 7
12 25 7,5
12 28 7,9
13 30 8,2
13 31 8,4
14 31 8,6
14 35 9,5
15 36 10

Требуется:

  1. Построить корреляционное поле между выработкой продукции на одного работника и удельным весом рабочих высокой квалификации. Выдвинуть гипотезу о тесноте и виде зависимости между показателями X1 и Y .
  2. Оценить тесноту линейной связи между выработкой продукции на одного работника и удельным весом рабочих высокой квалификации с надежностью 0,9.
  3. Рассчитать коэффициенты линейного уравнения регрессии для зависимости выработки продукции на одного работника от удельного веса рабочих высокой квалификации.
  4. Проверить статистическую значимость параметров уравнения регрессии с надежностью 0,9 и построить для них доверительные интервалы.
  5. Рассчитать коэффициент детерминации. С помощью F -критерия Фишера оценить статистическую значимость уравнения регрессии с надежностью 0,9.
  6. Дать точечный и интервальный прогноз с надежностью 0,9 выработки продукции на одного работника для предприятия, на котором высокую квалификацию имеют 24% рабочих.
  7. Рассчитать коэффициенты линейного уравнения множественной регрессии и пояснить экономический смысл его параметров.
  8. Проанализировать статистическую значимость коэффициентов множественного уравнения с надежностью 0,9 и построить для них доверительные интервалы.
  9. Найти коэффициенты парной и частной корреляции. Проанализировать их.
  10. Найти скорректированный коэффициент множественной детерминации. Сравнить его с нескорректированным (общим) коэффициентом детерминации.
  11. С помощью F -критерия Фишера оценить адекватность уравнения регрессии с надежностью 0,9.
  12. Дать точечный и интервальный прогноз с надежностью 0,9 выработки продукции на одного работника для предприятия, на котором высокую квалификацию имеют 24% рабочих, а ввод в действие новых основных фондов составляет 5%.
  13. Проверить построенное уравнение на наличие мультиколлинеарности по: критерию Стьюдента; критерию χ2. Сравнить полученные результаты.

Решение проводим с помощью калькулятора . Далее приводится ход решения п.13.
Матрица парных коэффициентов корреляции R:

- y x 1 x 2
y 1 0.97 0.991
x 1 0.97 1 0.977
x 2 0.991 0.977 1

При наличии мультиколлинеарности определитель корреляционной матрицы близок к нулю. Для нашего примера: det = 0.00081158 , что свидетельствует о наличии сильной мультиколлинеарности.
Для отбора наиболее значимых факторов x i учитываются следующие условия:
- связь между результативным признаком и факторным должна быть выше межфакторной связи;
- связь между факторами должна быть не более 0.7. Если в матрице есть межфакторный коэффициент корреляции r xjxi > 0.7, то в данной модели множественной регрессии существует мультиколлинеарность.;
- при высокой межфакторной связи признака отбираются факторы с меньшим коэффициентом корреляции между ними.
В нашем случае r x 1 x 2 имеют |r|>0.7, что говорит о мультиколлинеарности факторов и о необходимости исключения одного из них из дальнейшего анализа.
Анализ первой строки этой матрицы позволяет произвести отбор факторных признаков, которые могут быть включены в модель множественной корреляционной зависимости. Факторные признаки, у которых |r yxi | 0.3 – связь практически отсутствует; 0.3 ≤ |r| ≤ 0.7 - связь средняя; 0.7 ≤ |r| ≤ 0.9 – связь сильная; |r| > 0.9 – связь весьма сильная.
Проверим значимость полученных парных коэффициентов корреляции с помощью t-критерия Стьюдента. Коэффициенты, для которых значения t-статистики по модулю больше найденного критического значения, считаются значимыми.
Рассчитаем наблюдаемые значения t-статистики для r yx 1 по формуле:

где m = 1 - количество факторов в уравнении регрессии.

По таблице Стьюдента находим Tтабл
t крит (n-m-1;α/2) = (18;0.025) = 2.101
Поскольку t набл > t крит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим
Рассчитаем наблюдаемые значения t-статистики для r yx 2 по формуле:

Поскольку t набл > t крит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значимю
Таким образом, связь между (y и x x 1), (y и x x 2) является существенной.
Наибольшее влияние на результативный признак оказывает фактор x 2 (r = 0.99), значит, при построении модели он войдет в регрессионное уравнение первым.
Тестирование и устранение мультиколлинеарности .
Наиболее полным алгоритмом исследования мультиколлинеарности является алгоритм Фаррара-Глобера. С его помощью тестируют три вида мультиколлинеарности:
1. Всех факторов (χ 2 - хи-квадрат).
2. Каждого фактора с остальными (критерий Фишера).
3. Каждой пары факторов (критерий Стьюдента).
Проверим переменные на мультиколлинеарность методом Фаррара-Глоубера по первому виду статистических критериев (критерий "хи-квадрат").
Формула для расчета значения статистики Фаррара-Глоубера:
χ 2 = -ln(det[R])
где m = 2 - количество факторов, n = 20 - количество наблюдений, det[R] - определитель матрицы парных коэффициентов корреляции R.
Сравниваем его с табличным значением при v = m/2(m-1) = 1 степенях свободы и уровне значимости α. Если χ 2 > χ табл 2 , то в векторе факторов есть присутствует мультиколлинеарность.
χ табл 2 (1;0.05) = 3.84146
Проверим переменные на мультиколлинеарность по второму виду статистических критериев (критерий Фишера).

Проверим переменные на мультиколлинеарность по третьему виду статистических критериев (критерий Стьюдента). Для этого найдем частные коэффициенты корреляции.
Частные коэффициенты корреляции .
Коэффициент частной корреляции отличается от простого коэффициента линейной парной корреляции тем, что он измеряет парную корреляцию соответствующих признаков (y и x i) при условии, что влияние на них остальных факторов (x j) устранено.
На основании частных коэффициентов можно сделать вывод об обоснованности включения переменных в регрессионную модель. Если значение коэффициента мало или он незначим, то это означает, что связь между данным фактором и результативной переменной либо очень слаба, либо вовсе отсутствует, поэтому фактор можно исключить из модели.


Теснота связи низкая.
Определим значимость коэффициента корреляции r yx 1 /x 2 .Как видим, связь y и x 2 при условии, что x 1 войдет в модель, снизилась. Отсюда можно сделать вывод, что ввод в регрессионное уравнение x 2 остается нецелесообразным.
Можно сделать вывод, что при построении регрессионного уравнения следует отобрать факторы x 1 , x 2 .

Пример №2 . По 30 наблюдениям матрица парных коэффициентов корреляции оказалась следующей:

y x 1 x 2 x 3
y 1,0
x 1 0,30 1,0
x 2 0,60 0,10 1,0
x 3 0,40 0,15 0,80 1,0
Оцените мультиколлинеарность факторов. Постройте уравнение регрессии в стандартном масштабе и сделайте выводы.
  • 5.Порядок оценивания линейной эконометрической модели из изолированного уравнения в Excel. Смысл выходной статистической информации сервиса Регрессия. (10) стр 41
  • 6.Спецификация и оценивание мнк эконометрических моделей нелинейных по параметрам. (30) стр.24-25,
  • 7. Классическая парная регресионная модель. Спецификация модели. Теорема Гаусса-Маркова.
  • 8. Метод наименьших квадратов: алгоритм метода, условия применения.
  • 9.Идентификация отдельных уравнений системы одновременных уравнений: порядковое условие. (30)
  • Необходимое условие идентифицируемости
  • 10.Оценка параметров парной регрессионной модели методом наименьших квадратов. (10)
  • 11.Фиктивные переменные: определение, назначение, типы.
  • 12.Автокорреляция случайного возмущения. Причины. Последствия.
  • 13.Алгоритм проверки значимости регрессора в парной регрессионной модели.
  • 14.Интервальная оценка ожидаемого значения зависимой переменной в парной регрессионной модели.
  • 15. Тест Чоу на наличие структурных изменений в регрессионной модели. (20) стр. 59,60
  • 16. Алгоритм проверки адекватности парной регрессионной модели. (20) стр. 37, 79
  • 17. Коэффициент детерминации в парной регрессионной модели.
  • 18. Оценка параметров множественной регрессионной модели методом наименьших квадратов.
  • 20. Гетероскедастичность случайного возмущения. Причины. Последствия. Тест gq(20)
  • 21.Фиктивная переменная наклона: назначение; спецификация регрессионной модели с фиктивной переменной наклона; значение параметра при фиктивной переменной. (20) стр.65
  • 22..Алгоритм теста Дарбина-Уотсона на наличие (отсутствие) автокорреляции случайных возмущений. (20) стр 33
  • 23. Структурная и приведённая формы спецификации эконометрических моделей.
  • 24. Гетероскедастичность случайного возмущения. Причины. Последствия. Алгоритм теста Голдфельда-Квандта на наличие или отсутствие гетероскедастичности случайных возмущений.
  • Алгоритм теста Голдфелда-Квандта на наличие (отсутствие) гетероскедастичности случайных возмущений.
  • 25. Спецификация и оценивание мнк эконометрических моделей нелинейных по параметрам.
  • 26. Способы корректировки гетероскедастичности. Метод взвешенных наименьших квадратов
  • 27.Проблема мультиколлинеарности в моделях множественной регрессии.Признаки мультиколлениарности.
  • 28.Что такое логит,тобит,пробит.
  • 29. Что такое Метод наибольшего правдоподобия стр. 62.
  • 30. Что такое стационарный процесс?
  • 31.Свойства временных рядов.
  • 32.Модели ar и var .
  • 33. Идентифицируемость системы.
  • 34. Настройка модели с системой одновременных уравнений.
  • 35.Что такое метод Монте-Карло стр 53
  • 36.Оценить качество модели по f, gq, dw (линейнные).Стр.33, 28-29
  • 37. Оценка погрешностей параметров эконометрической модели методом Монте-Карло.
  • 38. Отражение в модели влияния неучтённых факторов. Предпосылки теоремы Гаусса-Маркова.
  • 39.Модели временных рядов. Свойства рядов цен акций на бирже (20) с.93.
  • 40. Ожидаемое значение случайной переменной, её дисперсия и среднее квадратическое отклонение. (20) с.12-21
  • 41. Оценка параметров парной регрессионной модели методом наименьших квадратов с использованием сервиса Поиск решения.
  • 42. Проверка статистических гипотез, t-статистика Стьюдента, доверительная вероятность и доверительный интервал, критические значения статистики Стьюдента. Что такое “толстые хвосты”?
  • 43.Проблема мультиколлинеарности в моделях множественной регрессии. Признаки мультиколлинеарности
  • 44. Частные коэффициенты детерминации.
  • 46. Экономический смысл коэффициентов линейного и степенного уравнений регрессии.
  • 47.Оценка коэффициентов модели Самуэльсона-Хикса
  • 48. Ошибки от включения в модель незначимых переменных или исключения значимых.С.80
  • 49. Исследование множественной регрессионной модели с.74-79.
  • 50. Мультиколлинеарность: чем плоха, как обнаружить и как бороться.
  • 51. Признаки стационарности стохастического процесса. Что такое «Белый шум»? с.100
  • 52. Структурная и приведённая формы спецификации эконометрических моделей.
  • 53. Алгоритм проверки значимости регрессора в парной регрессионной модели. По t-статистике, по f-статистике.
  • 54.Свойства рядов цен на фондовом рынке. Принципы построения портфеля Марковица с.93,102
  • 55.Динамическая модель из одновременных линейных уравнений (привести пример) с.105.
  • 56. Метод наибольшего правдоподобия: принципы и целесообразность использования
  • 57. Этапы исследования модели множественной регрессии с.74-79.
  • 50. Мультиколлинеарность: чем плоха, как обнаружить и как бороться.

    Мультиколлинеарность – это взаимная зависимость влияющих переменных. Проблема состоит в том, что при её наличии становится сложно или невозможно разделить влияние регрессоров на зависимую переменную, и коэффициенты теряют экономический смысл предельной функции или эластичности. Дисперсии коэффициентов растут, сами коэффициенты, оценённые по различным выборкам или методом Монте-Карло, коррелируют между собой. Это приводит к тому, что в области настройки модели графики Y и Ŷ прекрасно совпадают, R2 и F высокие, а в области прогноза графики могут совпасть, что можно объяснить взаимным подавлением погрешностей или расходятся, то есть модель оказывается неадекватной.

    Как обнаружить мультиколлинеарность? Проще всего – по корреляционной матрице. Если коэффициенты корреляции регрессоров больше 0,7, значит они взаимосвязаны. Числовой характеристикой мультиколлинеарности может служить определитель корреляционной матрицы. Если он близок к 1, то регрессоры независимы; если к 0, значит они связаны сильно.

    Как бороться с мультиколлинеарностью?

    1. Смириться, принять во внимание и ничего не делать.

    2.Увеличить объём выборки: дисперсии коэффициентов обратно пропорциональны количеству замеров.

    3.Удалять из модели регрессоры, слабо коррелирующие с зависимой переменной, или коэффициенты которых имеют малую t-статистику. Как видно из таблицы 7.10, при этом происходит смещение коэффициентов при значимых регрессорах, и возникает вопрос об их экономическом смысле. (А смысл такой: если регрессоры коррелируют и вы можете ими управлять, например, расходы на станки и рабочих, то придётся изменять их пропорционально). F-статистика, то есть качество модели, при этом растёт.

    4.Использовать в уравнении регрессии агрегаты из коррелирующих переменных: линейные комбинации с коэффициентами, обратно пропорциональными стандартным отклонениям переменных и выравнивающими их масштабы. Такие агрегаты обычно не имеют экономического смысла, но могут повысить адекватность модели.

    5.Факторный анализ, или Метод главных компонент. Используется, если переменных много, но они являются линейными комбинациями небольшого количества независимых факторов, может быть, не имеющих экономического смысла.

    51. Признаки стационарности стохастического процесса. Что такое «Белый шум»? с.100

    Временной ряд – это конечная реализация c тохастического процесса : генерации набора случайных переменных Y (t ).

    Стохастический процесс может быть стационарным и нестационарным. Процесс является стационарным , если

      Математическое ожидание значений переменных не меняется.

      Математическое ожидание дисперсий переменных не меняется.

    3. Нет периодических флуктуаций.

    Распознавание стационарности:

    1. График: систематический рост или убывание, волны и зоны высокой волатильности (дисперсии) в длинном ряде сразу видны.

    2. Автокорреляция (убывает при росте лага)

    3. Тесты тренда: проверка гипотезы о равенстве нулю коэффициента при t .

    4. Специальные тесты, включённые в пакеты компьютерных программ Stata, EViews и др., например, тест Дики-Фуллера (Dickey-Fuller) на единичный корень (Unit root).

    Чисто случайный процесс, стационарный с отсутствием автокорреляции (Cor(u i / u k ) = 0) называется Белый шум.

    Пример нестационарного процесса – случайное блуждание

    Y(t) = Y(t-1) + a(t) где a(t) – белый шум.

    Интересно, что процесс Y (t) = 0,999* Y (t-1) + a(t) является стационарным

    Принципиальную возможность избавиться от нестационарности называют интегрируемость. Применяют различные способы избавления от нестационарности:

    1. Вычитание тренда, что мы и делали в предыдущем разделе;

    2. Использование разностей 1-го, 2-го и т.д. порядков, что можно делать только после сглаживания временного ряда (или энергетического спектра), иначе все эффекты будут подавлены статистическими флуктуациями: дисперсия разности равна сумме дисперсий.

    Для исследования рядов цен на фондовом рынке применяются модели, использующие белый шум и авторегрессию, то есть взаимную зависимость уровней временного ряда.

    Модель MA(q) (moving average) – линейная комбинация последовательных элементов белого шума

    X(t) = a(t) – K(1)*a(t-1) – …. – K(q)*a(t-q)

    X(t) = b0 + b1*X(t-1) + …. + bp*X(t-p)

    Особенно популярны их комбинации

    ARMA(p,q) = AR(p) + MA(q)

    и ARIMA(p, i ,q): то же, с интегрируемостью i –го порядка.

    "

    Мультиколлинеарность - это коррелированность двух или нескольких объясняющих переменных в уравнении регрессии. Она может быть функциональной (явной) и стохастической (скрытой). При функциональной мультиколлинеарности матрица ХТХ - вырождена и, (ХТХ)-1 не существует, поэтому невозможно определить. Чаще мультиколлинеарность проявляется в стохастической форме, при этом МНК - оценки формально существуют, но обладают рядом недостатков:

    • 1) небольшое изменение исходных данных приводит к существенному изменению оценок регрессии;
    • 2) оценки имеют большие стандартные ошибки, малую значимость, в то время как модель в целом является значимой (высокое значение R2);
    • 3) расширяются интервальные оценки коэффициентов, ухудшая их точность;
    • 4) возможно получение неверного знака у коэффициента регрессии.

    Обнаружение

    Существует несколько признаков, по которым может быть установлено наличие мультиколлинеарности.

    Во-первых, анализ корреляционной матрицы парных коэффициентов корреляции:

    • - если имеются пары переменных, имеющих высокие коэффициенты корреляции (> 0,75 - 0,8), говорят о мультиколлинеарности между ними;
    • - если факторы некоррелированы, то det Q = 1, если полная корреляция, то det Q = 0.

    Можно проверить Н0: det Q = 1; используя статистический критерий

    где n - число наблюдений, m = р+1.

    Если, то Н0 отвергается, и мультиколлинеарность доказана.

    Во-вторых, определяют множественные коэффициенты детерминации одной из объясняющих переменных и некоторой группой других. Наличие высокого R2 (> 0,6) свидетельствует о мультиколлинеарности.

    В третьих, близость к нулю - минимального собственного значения матрицы ХТХ (т.е. решения уравнения) свидетельствует о близости к нулю и det(XTX) и, следовательно, о мультиколлинеарности.

    В-четвертых, высокие частные коэффициенты корреляции.

    где - алгебраические дополнения элементов матрицы выборочных коэффициентов корреляции. Коэффициенты частной корреляции более высоких порядков можно определить через коэффициенты частной корреляции более низких порядков по рекуррентной формуле:

    В-пятых, о присутствии мультиколлинеарности говорят некоторые внешние признаки построенной модели, являющиеся её следствиями. К ним следует отнести такие:

    • · некоторые из оценок имеют неправильные с точки зрения экономической теории знаки или неоправданно большие по абсолютной величине значения;
    • · небольшое изменение исходных статистических данных (добавление или изъятие некоторых наблюдений) приводит к существенному изменению оценок коэффициентов модели, вплоть до изменения их знаков;
    • · большинство или даже все оценки коэффициентов регрессии оказываются статистически незначимыми по t-критерию, в то время как модель в целом является значимой по F-критерию.

    Существует и ряд других методов определения мультиколлинеарности.

    Если основная задача модели - прогноз будущих значений зависимой переменной, то при достаточно большом коэффициенте детерминации R2 (> 0,9) наличие мультиколлинеарности обычно не сказывается на прогнозных качествах модели. Это утверждение будет обоснованным, если и в будущем между коррелированными переменными сохранятся те же соотношения.

    Если целью исследования является определение степени влияния каждой из объясняющих переменных на зависимую переменную, то наличие мультиколлинеарности, приводящее к увеличению стандартных ошибок, скорее всего, исказит истинные зависимости между переменными. В этой ситуации мультиколлинеарность является серьезной проблемой.

     

     

    Это интересно: