Контакты

Совокупный коэффициент детерминации изменяется в интервале. Коэффициент детерминации что измеряет — формула

Сегодня уже все, кто хоть немного интересуется дата майнингом, наверняка слышали про простую линейную регрессию . Про нее уже писали на хабре, а также подробно рассказывал Эндрю Нг в своем известном курсе машинного обучения. Линейная регрессия является одним из базовых и самых простых методов машинного обучения, однако очень редко упоминаются методы оценки качества построенной модели. В этой статье я постараюсь немного исправить это досадное упущение на примере разбора результатов функции summary.lm() в языке R. При этом я постараюсь предоставить необходимые формулы, таким образом все вычисления можно легко запрограммировать на любом другом языке. Эта статья предназначена для тех, кто слышал о том, что можно строить линейную регрессию, но не сталкивался со статистическими процедурами для оценки ее качества.

Модель линейной регрессии

Итак, пусть есть несколько независимых случайных величин X1, X2, ..., Xn (предикторов) и зависящая от них величина Y (предполагается, что все необходимые преобразования предикторов уже сделаны). Более того, мы предполагаем, что зависимость линейная, а ошибки рапределены нормально, то есть

Где I - единичная квадратная матрица размера n x n.

Итак, у нас есть данные, состоящие из k наблюдений величин Y и Xi и мы хотим оценить коэффициенты. Стандартным методом для нахождения оценок коэффициентов является метод наименьших квадратов . И аналитическое решение, которое можно получить, применив этот метод, выглядит так:

где b с крышкой - оценка вектора коэффициентов, y - вектор значений зависимой величины, а X - матрица размера k x n+1 (n - количество предикторов, k - количество наблюдений), у которой первый столбец состоит из единиц, второй - значения первого предиктора, третий - второго и так далее, а строки соответствуют имеющимся наблюдениям.

Функция summary.lm() и оценка получившихся результатов

Теперь рассмотрим пример построения модели линейной регрессии в языке R:
> library(faraway) > lm1<-lm(Species~Area+Elevation+Nearest+Scruz+Adjacent, data=gala) > summary(lm1) Call: lm(formula = Species ~ Area + Elevation + Nearest + Scruz + Adjacent, data = gala) Residuals: Min 1Q Median 3Q Max -111.679 -34.898 -7.862 33.460 182.584 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 7.068221 19.154198 0.369 0.715351 Area -0.023938 0.022422 -1.068 0.296318 Elevation 0.319465 0.053663 5.953 3.82e-06 *** Nearest 0.009144 1.054136 0.009 0.993151 Scruz -0.240524 0.215402 -1.117 0.275208 Adjacent -0.074805 0.017700 -4.226 0.000297 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 60.98 on 24 degrees of freedom Multiple R-squared: 0.7658, Adjusted R-squared: 0.7171 F-statistic: 15.7 on 5 and 24 DF, p-value: 6.838e-07
Таблица gala содержит некоторые данные о 30 Галапагосских островах. Мы будем рассматривать модель, где Species - количество разных видов растений на острове линейно зависит от нескольких других переменных.

Рассмотрим вывод функции summary.lm().
Сначала идет строка, которая напоминает, как строилась модель.
Затем идет информация о распределении остатков: минимум, первая квартиль, медиана, третья квартиль, максимум. В этом месте было бы полезно не только посмотреть на некоторые квантили остатков, но и проверить их на нормальность, например тестом Шапиро-Уилка.
Далее - самое интересное - информация о коэффициентах. Здесь потребуется немного теории.
Сначала выпишем следующий результат:

при этом сигма в квадрате с крышкой является несмещенной оценкой для реальной сигмы в квадрате. Здесь b - реальный вектор коэффициентов, а эпсилон с крышкой - вектор остатков, если в качестве коэффициентов взять оценки, полученные методом наименьших квадратов. То есть при предположении, что ошибки распределены нормально, вектор коэффициентов тоже будет распределен нормально вокруг реального значения, а его дисперсию можно несмещенно оценить. Это значит, что можно проверять гипотезу на равенство коэффициентов нулю, а следовательно проверять значимость предикторов, то есть действительно ли величина Xi сильно влияет на качество построенной модели.
Для проверки этой гипотезы нам понадобится следующая статистика, имеющая распределение Стьюдента в том случае, если реальное значение коэффициента bi равно 0:

где
- стандартная ошибка оценки коэффициента, а t(k-n-1) - распределение Стьюдента с k-n-1 степенями свободы.

Теперь все готово для продолжения разбора вывода функции summary.lm().
Итак, далее идут оценки коэффициентов, полученные методом наименьших квадратов, их стандартные ошибки, значения t-статистики и p-значения для нее. Обычно p-значение сравнивается с каким-нибудь достаточно малым заранее выбранным порогом, например 0.05 или 0.01. И если значение p-статистики оказывается меньше порога, то гипотеза отвергается, если же больше, ничего конкретного, к сожалению, сказать нельзя. Напомню, что в данном случае, так как распределение Стьюдента симметричное относительно 0, то p-значение будет равно 1-F(|t|)+F(-|t|), где F - функция распределения Стьюдента с k-n-1 степенями свободы. Также, R любезно обозначает звездочками значимые коэффициенты, для которых p-значение достаточно мало. То есть, те коэффициенты, которые с очень малой вероятностью равны 0. В строке Signif. codes как раз содержится расшифровка звездочек: если их три, то p-значение от 0 до 0.001, если две, то оно от 0.001 до 0.01 и так далее. Если никаких значков нет, то р-значение больше 0.1.

В нашем примере можно с большой уверенностью сказать, что предикторы Elevation и Adjacent действительно с большой вероятностью влияют на величину Species, а вот про остальные предикторы ничего определенного сказать нельзя. Обычно, в таких случаях предикторы убирают по одному и смотрят, насколько изменяются другие показатели модели, например BIC или Adjusted R-squared, который будет разобран далее.

Значение Residual standart error соответствует просто оценке сигмы с крышкой, а степени свободы вычисляются как k-n-1.

А теперь самая важные статистики, на которые в первую очередь стоит смотреть: R-squared и Adjusted R-squared:

где Yi - реальные значения Y в каждом наблюдении, Yi с крышкой - значения, предсказанные моделью, Y с чертой - среднее по всем реальным значениям Yi.

Начнем со статистики R-квадрат или, как ее иногда называют, коэффициента детерминации. Она показывает, насколько условная дисперсия модели отличается от дисперсии реальных значений Y. Если этот коэффициент близок к 1, то условная дисперсия модели достаточно мала и весьма вероятно, что модель неплохо описывает данные. Если же коэффициент R-квадрат сильно меньше, например, меньше 0.5, то, с большой долей уверенности модель не отражает реальное положение вещей.

Однако, у статистики R-квадрат есть один серьезный недостаток: при увеличении числа предикторов эта статистика может только возрастать. Поэтому, может показаться, что модель с большим количеством предикторов лучше, чем модель с меньшим, даже если все новые предикторы никак не влияют на зависимую переменную. Тут можно вспомнить про принцип бритвы Оккама . Следуя ему, по возможности, стоит избавляться от лишних предикторов в модели, поскольку она становится более простой и понятной. Для этих целей была придумана статистика скорректированный R-квадрат. Она представляет собой обычный R-квадрат, но со штрафом за большое количество предикторов. Основная идея: если новые независимые переменные дают большой вклад в качество модели, значение этой статистики растет, если нет - то наоборот уменьшается.

Для примера рассмотрим ту же модель, что и раньше, но теперь вместо пяти предикторов оставим два:
> lm2<-lm(Species~Elevation+Adjacent, data=gala) > summary(lm2) Call: lm(formula = Species ~ Elevation + Adjacent, data = gala) Residuals: Min 1Q Median 3Q Max -103.41 -34.33 -11.43 22.57 203.65 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1.43287 15.02469 0.095 0.924727 Elevation 0.27657 0.03176 8.707 2.53e-09 *** Adjacent -0.06889 0.01549 -4.447 0.000134 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 60.86 on 27 degrees of freedom Multiple R-squared: 0.7376, Adjusted R-squared: 0.7181 F-statistic: 37.94 on 2 and 27 DF, p-value: 1.434e-08
Как можно увидеть, значение статистики R-квадрат снизилось, однако значение скорректированного R-квадрат даже немного возросло.

Теперь проверим гипотезу о равенстве нулю всех коэффициентов при предикторах. То есть, гипотезу о том, зависит ли вообще величина Y от величин Xi линейно. Для этого можно использовать следующую статистику, которая, если гипотеза о равенстве нулю всех коэффициентов верна, имеет

При выполнении процедуры проверки значимости коэффициента детерминации выдвигается нулевая гипотеза Нo против альтернативной H1 которые заключаются в следующем:

Нo: существенного различия между выборочным коэффициентом детерминации и коэффициентом детерминации генеральной совокупности B(r) = 0 нет.

Эта гипотеза равносильна гипотезе Нo: β1 = β2 = … = βm = 0, т. е. ни одна из объясняющих переменных, включенных в регрессию, не оказывает существенного влияния на зависимую переменную.

Н1: выборочный коэффициент детерминации существенно больше коэффициента детерминации генеральной совокупности В(г) = 0.

Из постановки задачи ясно, что следует использовать одностороннюю критическую область. Принятие гипотезы Н1 означает, что по крайней мере одна из m объясняющих переменных, включенных в регрессию, оказывает существенное влияние на переменную у.

Для оценки значимости парного коэффициента детерминации используется статистика

Имеющая F-распределение Фишера с f1 = m = 1 и f2 = n – 2 степенями свободы. Значение статистики, вычисленное вышеприведенной формуле, сравнивается с критическим значением этой статистики при заданном уровне значимости £ и соответствующем числе степеней свободы. Если F > Ff1; f2;£, то вычисленный коэффициент детерминации значимо отличается от нуля. Этот вывод обеспечивается с вероятностью 1 - £.


28 Проверка значимости коэффициентов регрессии

Проверка статистической значимости параметров регрессионного уравнения (коэффициентов регрессии) выполняется по t -критерию Стьюдента, который рассчитывается по формуле:

где P - значение параметра;
S p - стандартное отклонение параметра.

Рассчитанное значение критерия Стьюдента сравнивают с его табличным значением при выбранной доверительной вероятности (как правило, 0.95) и числе степеней свободы N -k -1, где N -число точек, k -число переменных в регрессионном уравнении (например, для линейной моделиY=A*X+B подставляем k =1).

Если вычисленное значение t p выше, чем табличное, то коэффициент регрессии является значимым с данной доверительной вероятностью. В противном случае есть основания для исключения соответствующей переменной из регрессионной модели.

Величины параметров и их стандартные отклонения обычно рассчитываются в алгоритмах, реализующих метод наименьших квадратов.


29 Проверка общего качества уравнения регрессии. Коэффициент детерминации. Проверка значимости коэффициента детерминации

После проверки значимости каждого коэффициента регрессии обычно проверяется общее качество уравнения регрессии. Для этой цели, как и в случае парной регрессии, используется коэффициент детерминации R 2 , который рассчитывается по формуле:

В общем случае 0 < R 2 < 1. Чем ближе этот коэффициент к единице, тем больше уравнение регрессии объясняет поведение Y. Поэтому естественно желание построить регрессию с наибольшим R 2 .

Для множественной регрессии коэффициент детерминации является неубывающей функцией числа объясняющих переменных. Добавление новой объясняющей переменной никогда не уменьшает значение R . Действительно, каждая следующая объясняющая переменная может лишь дополнить, но никак не сократить информацию, объясняющую поведение зависимой переменной. Это уменьшает (в худшем случае не увеличивает) область неопределенности в поведении Y.

Коэффициент детерминации ()- это квадрат множественного коэффициента корреляции. Он показывает, какая доля дисперсии результативного признака объясняется влиянием независимых переменных.

Формула для вычисления коэффициента детерминации:

где - выборочные данные, а - соответствующие им значения модели.

Также это квадрат корреляции Пирсона между двумя переменными. Он выражает количество дисперсии, общей между двумя переменными.

Коэффициент принимает значения из интервала . Чем ближе значение к 1 тем ближе модель к эмпирическим наблюдениям.

В случае парной линейной регрессионной модели коэффициент детерминации равен квадрату коэффициента корреляции, то есть .

После оценки индивидуальной статистической значимости каждого из коэффициентов регрессии обычно анализируется совокупная значимость коэффициентов. Такой анализ осуществляется на основе проверки гипотезы об общей значимости - гипотезы об одновременном равенстве нулю всех коэффициентов регрессии при объясняющих переменных:

0: β 0 = β 1 = β 2 = ... = β m =0

Если данная гипотеза не отклоняется, то делается вывод о том, что совокупное влияние всех m объясняющих переменных X 1 , Х 2 , ..., Х m модели на зависимую переменную Y можно считать статистически несущественным, а общее качество уравне­ния регрессии невысоким.

Проверка данной гипотезы осуществляется на основе дисперсионного анализа сравнения объясненной и остаточной дисперсий.

H 0: (объясненная дисперсия) = (остаточная дисперсия),

H 1: (объясненная дисперсия) > (остаточная дисперсия).

Строится F-статистика:

где - объясненная дисперсия; - остаточная дисперсия. При выполнении предпосылок МНК построенная F-статистика имеет распределение Фишера с числами степеней свободы ν 1 =m, ν 2 = n-m-1. Поэтому, если при требуемом уровне значимости α F набл > F α,m,n-m-1 = F кр (критическая точка распределения Фишера), то H 0 отклоняется в пользу H 1 . Это означает, что объясненная дисперсия существенно больше остаточной дисперсии, а следовательно, уравнение регрессии достаточно качественно отражает динамику изменения зависимой переменной Y.

Однако на практике чаще вместо указанной гипотезы проверяют тесно связанную с ней гипотезу о статистической значимости коэффициента детерминации R 2:

Для проверки данной гипотезы используется следующая F-статистика:

Величина F при выполнении предпосылок МНК и при справедливости. Но имеет распределение Фишера, аналогичное распределению F-статистики.

Анализ статистики F позволяет сделать вывод о том, что для принятия гипотезы об одновременном равенстве нулю всех коэффициентов линейной регрессии коэффициент детерминации R 2 не должен существенно отличаться от нуля. Его критическое значение уменьшается при росте числа наблюдений и может стать сколь угодно малым.


30. Путь, полный путь, критический путь, определение критического пути четырехсекторным методом.

Путь – любая последовательность работ, в которой конечное событие каждой работы совпадает с начальным событием следующий за ней работы.

Полный путь L – любой путь, начало которого совпадает с исходным событием сети, а конец – с завершающим.

Критич. путь - полный путь, имеющий наибольшую длину (продолжительность) из всех полных путей. Eгo длина опред. срок выполнения работ по сетевому графику. В rрафике может быть несколько критич. путей. Работы, лежащие на критич. пути, наз. критическими. Увеличение продолжительности критич. работ соответств. увеличивает общую продолжительность работ по СГ.

При четырехсекторном способе определения критического пути кружок сетевого графика, обозначающий событие, делится на четыре сектора (рис.а). В верхнем ставится номер события i, в левом – наиболее раннее из возможных время свершения события tp(i), в правом – наиболее позднее из допустимых время свершения события tп(i), в нижнем – резерв времени данного события R(i).

Рисунок: а) обозначения в вершине графика; б) сетевой график.

Раннее время свершения события tp(i) определяется продолжительностью максимального пути max(t) до (i), предшествующего событию i: tp(i)=max(t) до (i).

Послойно, переходя от исходного события до конечного, определим tp(i). Всегда для начального события tp(1)=0.

Для события 3 (рис., б) – tp(3)=max{1+3,0+5}=5; для события 4 – tp(4)=max{1+2,5+6}=11.

Длина критического пути Lкр=11. Послойно, переходя от конечного события до начального, определим tп(i). Всегда для конечного события tп(4)=t(Lкр)=11. Позднее время свершения события tп(i) определяется временем достаточным для выполнения работ, следующих за этим событием, т.е. зная продолжительность максимального из последующих за событием i путей max(t) после (i) и продолжительность критического пути t(Lкр), можно найти tп(i)= t(Lкр)-max(t) после (i).

Для события 2 – tп(3)=11-max{3+6,2}=2.

Для критического пути время раннего свершения события tp(i) равно времени позднего свершения этого события tп(i), т.е. tp(i)= tп(i). Зная ранние и поздние сроки свершения событий сетевого графика, легко выявить резерв времени каждого из них R(i)= tп(i)- tp(i).

Резерв времени события показывает максимально допустимое время, на которое можно отодвинуть момент его свершения, не вызывая увеличения критического пути. События критического пути резерва времени не имеют.

Связь параметров сетевого графика для событий и работ показана в таблице.

Таблица - Расчет параметров работ

Резерв времени для работы R(ij) определяется по формуле: R(ij)= tп(j)- tр(i)-tij.

31. Расчет временных параметров событий в задачах сетевого планирования.

При анализе сетевого графика прежде всего вычисляют его временные параметры. К основным временным параметрам относятся:

Продолжительность критического пути (критический срок);

Сроки свершения и резервы сетей;

Сроки выполнения отдельных работ и их резервы времени.

Основные временные параметры

Ранний срок свершения событий – самый ранний момент, в котором завершаются все работы предшествующие этому событию. Рассчитывается по формуле:

Где - ранний срок свершения события i.

Продолжительность работы i, j.

Подмножество, включающее все работы входящие в событие j.

Поздний срок свершения события – такой предельный момент, после которого остаётся столько времени, сколько необходимо для выполнения всех работ следующих за этим событием.

Рассчитывается по формуле: .

Резерв времени события показывает, на какой предельно допустимый срок может задержаться свершение событий i без нарушения сроков наступления завершающего события.

R(i)=

Резервы времени критических событий=0

Ранний срок начала работы совпадает с ранним сроком свершения событий i.

Ранний срок окончания работы определяется по формуле:

Поздний срок окончания работы совпадает с поздним сроком свершения события j.

Поздний срок начала работы определяется по формуле:

Полный резерв времени работы - это максимальный запас времени, на которое можно задержать начало работы или увеличить её продолжительность при условии, что весь комплекс работ будет завершён в критический срок.

Свободный резерв времени работы - это максимальный запас времени, на который можно отсрочить или увеличить её продолжительность при условии, что не нарушаться ранние сроки начала всех последующих работ.

Критические работы, как и критические события резервов не имеют.

Расчёт временных параметров сетевой модели проводят в 4 этапа:

1) прямой – вычисления начинаются с исходного события и продолжаются пока не будет достигнуто завершающее событие. Для каждого события вычисляется ранний срок его свершения.

2) обратный – вычисление начинается с обратного события и продолжается пока не будет достигнуто исходное событие. Для каждого события рассчитывается поздний срок его свершения.

3) вычисляются резервы времени событий и выделяется критический путь. Критический путь – это самый продолжительный путь, который проходит через события, резерв времени которых равен нулю.

4) строится сводная таблица временных параметров события.


32. Регрессии. Нелинейные по переменным и их построение.

Чтобы написать ту или иную зависимость прим. ур-ие регрессии – ур-ие, связыв. между собой фактор признаки и результативные признаки. Ур-ие регрессии бывают линейные и нелинейные. Сама регрессия бывает парная (зав-сть между 1-им фактор признаком и результатом) y = y(x) ; и множественная y = a + bx (парная линейная регрессия, т.к. х и у участвуют в 1-ой степени, а и b – параметры рег. имеющие эк. смысл).При иссл. соц.-экон. явл. и процессов далеко не все зависимости можно описать с помощью лин. связи. Т.О. в ЭММ широко использ. класс нелин. моделей регрессии, кот. делятся на 2 класса:1) модели регрессии, нелин. относительно включенных в анализ независ. переменных, но линейные по оцениваемым параметрам;2) модели регрессии, нелинейные по оцениваемым параметрам.Для оценки параметров нелинейных моделей используют два подхода. 1.основан на линеаризации модели (с помощью подходящих преобразований исходных переменных исследуемую зависимость представляют в виде линей. соотношения между преобразованными переменными). 2.применяют в случаях, когда подобрать соответствующее линеаризующее преобразование не удается. Тогда исп. методы нелин. оптимизации на основе исходных переменных. Оценка параметров регрессии, нелинейной по переменным, включенным в анализ, но линейной по оцениваемым параметрам, проводится с помощью МНК путем решения системы линейных алгебр.уравнений. К моделям регрессии, нелинейным относительно включённых в анализ независимых переменных (но линейных по оцениваемым параметрам), относятся полиномы выше второго порядка и гиперболическая функция. Эти модели представляют собой что зависимая переменная yi линейно связана с параметрами модели.Полиномы или полин. функции примен. при анализе процессов с монотонным развитием и отсутствием пределов роста. (нап.натур.показатели пром. про-ва). Полин. функции характер. отсутствием явной зависимости приростов факторных переменных от значений результативной переменной yi.Общий вид полинома n-го порядка (n-ой степени): Чаще всего в ЭММ примен. полином второго порядка (параболическая функция), характ. равноускоренное развитие процесса (равноускоренный рост или снижение уровней).: Гиперболическая функция характеризует нелин. зависимость между результативной переменной yi и факторной переменной xi, однако, эта функция является лин.по оцениваемым параметрам.(модель зависимости затрат на единицу продукции от объёма производства)Гиперболоид или гиперболическая функция имеет вид: Данная гиперб. функция является равносторонней.Неизвестные параметры модели регрессии, нелинейной по факторным переменным, можно найти только после того, как модели будет приведена к линейному виду.Для того чтобы оценить неизвестные параметры нелин. регрессионной модели необходимо привести её к линейному виду. Суть процесс линеаризации нелин. по факторным переменным моделей регрессии заключается в замене нелин. факторных переменных на лин. переменные.Рассмотрим процесс линеаризации полиномиальной функции порядка n: Заменим все факторные переменные на линейные следующим образом:x=c1; x2=c2; x3=c3; … xn=cn.Тогда модель множественной регрессии можно записать в виде:yi= Рассмотрим процесс линеаризации гиперболической функции: Данная функция может быть приведена к линейному виду путём замены нелин.факторной переменной 1/x на лин.переменную с. Тогда модель регрессии можно записать в виде:yi=Следовательно, модели регрессии, нелин. относительно включенных в анализ независимых переменных, но лин. по оцениваемым параметрам, могут быть преобразованы к лин. виду. Это позволяет применять к линеаризованным моделям регрессии классические методы определения неизвестных параметров модели (метод наименьших квадратов), а также методы проверки различных гипотез.33. Резервы времени работ в задачах сетевого планирования Путь характеризуется двумя показателями - продолжительностью и резервом. Для событий рассчитывают три характеристики: ранний и поздний срок совершения события, а также его резерв.
Ранний срок свершения события определяется величиной наиболее длительного отрезка пути от исходного до рассматриваемого события, причем tр(1)=0, a tр(N)=tKp(L):
tр(j)=max{tр(j)+(i,j)}; j=2,…,N
Поздний срок свершения события характеризует самый поздний допустимый срок, к которому должно совершиться событие, не вызывая при этом срыва срока свершения конечного события:
tn(i)=min{tn(i)-t(i,j)}; j=2,…,N-1
Этот показатель определяется «обратным ходом», начиная с завершающего события, с учетом соотношения tn(N)=tp(N).
Все события, за исключением событий, принадлежащих критическому пути, имеют резерв R(i):
R(i)=tn(i)-tp(i)
Резерв определяется как разность между длинами критического и рассматриваемого путей. Из этого определения следует, что работы, лежащие на критическом пути, и сам критический путь имеют нулевой резерв времени. Резерв времени пути показывает, на сколько может увеличиться продолжительность работ, составляющих данный путь, без изменения продолжительности общего срока выполнения всех работ.Резерв показывает, на какой предельно допустимый срок можно задержать наступление этого события, не вызывая при этом увеличения срока выполнения всего комплекса работ. Для всех работ (i,j) на основе ранних и поздних сроков свершения всех событий можно определить показатели:
Ранний срок начала- tpn(i,j)=p(i) ;
Ранний срок окончания - tpo(i,j)=tp(i)+t(i,j);
Поздний срок окончания - tno(U)=tn(j);
Поздний срок начала -tпн(i,j)=tn(j)-t(i,j);
Полный резерв времени -Rn(i,j)=tn(j)-tp(i)-t(i,j);
Независимый резерв -
Rн(i,j)=max{0; tp(j)–tn(i)-t(i,j)}=max{0;Rn(i,j)-R(i)-R(j)}.
Полный резерв времени показывает, на сколько можно увеличить время выполнения конкретной работы при условии, что срок выполнения всего комплекса работ не изменится.
Независимый резерв времени соответствует случаю, когда все предшествующие работы заканчиваются в поздние сроки, а все последующие - начинаются в ранние сроки. Использование этого резерва не влияет на величину резервов времени других работ.

34. Сроки раннего и позднего начала и окончания работ в задачах сетевого планирования

Работа – это некоторый процесс, приводящий к достижению определенного результата и требующий затрат каких-либо ресурсов, имеет протяженность во времени.

Начало и окончание любой работы описываются парой событий, которые называются начальным и конечным событиями


Временные параметры работ определяются на основе ранних и поздних сроков событий:

· – ранний срок начала работы;

· – ранний срок окончания работы;

· – поздний срок окончания работы;

· – поздний срок начала работы;


35. Сроки совершения событий в задачах сетевого планирования

Событие – момент времени, когда завершаются одни работы и начинаются другие. Событие представляет собой результат проведенных работ и, в отличие от работ, не имеет протяженности во времени. Например, фундамент залит бетоном, комплектующие поставлены, отчеты сданы...

В сетевой модели имеется начальное событие (с номером 1), из которого работы только выходят, и конечное событие (с номером N), в которое работы только входят.

Путь – это последовательность работ в сетевом графике, в которой конечное событие одной работы совпадает с начальным событием следующей за ней работы. Полный путь – это путь от исходного до завершающего события. Критический путь –максимальный по продолжительности полный путь. Работы, лежащие на критическом пути, называют критическими. Критические работы имеют нулевые свободные и полные резервы. Подкритический путь – полный путь, ближайший по длительности к критическому пути. Сетевой график может содержать не один, а несколько критических путей. Критическими называются также работы и события, расположенные на этом пути. Резервный интервал от t до t* для событий, лежащих на критическом пути, равен 0. Для завершающего события сетевого графика поздний срок свершения события должен равняться его раннему сроку, т. е. tп = t*п.

– ранний срок наступления события i, минимально необходимый для выполнения всех работ, которые предшествуют событию i

– поздний срок наступления события i, превышение которого вызовет аналогичную задержку наступления завершающего события сети;

– резерв события i, т.е. время, на которое может быть отсрочено наступление события i без нарушения сроков завершения проекта в целом.

Ранние сроки свершения событий рассчитываются от исходного (И) к завершающему (З) событию следующим образом:

1) для исходного события И ;

2) для всех остальных событий I

Межотраслевые балансы могут разрабатываться на плановый и отчетный период в натуральном, натурально-стоимостном и стоимостном выражении.

МОБ в натуральном выражении (в физических измерителях) охватывают только важнейшие виды продукции. Натурально-стоимостной (баланс смешанного типа) охватывает весь общественный продукт. Стоимостной баланс характеризует процесс воспроизводства в денежном выражении.

МОБ представлен в виде системы линейных уравнений. МОБ представляет собой таблицу, в которой отражен процесс формирования и использования совокупного общественного продукта в отраслевом разрезе. Таблица показывает структуру затрат на производство каждого продукта и структуру его распределения в экономике. По столбцам отражается стоимостной состав валового выпуска отраслей экономики по элементам промежуточного потребления и добавленной стоимости. По строкам отражаются направления использования ресурсов каждой отрасли.

В. Леонтьев создал научно обоснованный метод "затраты-выпуск", который позволяет анализировать межотраслевые связи в национальном хозяйстве и определять возможные направления оптимизации отраслевой структуры.

В общем виде модель МОБ Леонтьева имеет следующий вид:

где X- объем производства какой-либо отрасли;Y - конечный продукт этой отрасли;А - матрица технологических коэффициентов прямых затрат, aij, которые показывают, сколько продукции отрасли необходимо затратить для производства единицы продукции отрасли.


37. Типы данных и виды переменных в эконометрических задачах

При эконометрическом моделировании экономических процессов используют следующие типы эмпирических (статистических) данных:

а) пространственные;

б) временные.

Пространственными данными является набор сведений по разным экономическим объектам, но за один и тот же период или момент времени. Примером таких данных явл сведения по разным фирмам (объем производства, численность работников, стоимость основных производственных фондов, прибыль за определенный период и т.д.).

Временными данными является набор сведений, характеризующих один и тот же объект, но в разные периоды или моменты времени. Примером таких данных явл данные о ежемесячных объемах грузооборота порта, о годовых объемах перевезенных грузов судоходной компанией, о среднегодовой себестоимости перевозки одной тонны груза по судоходной компании за ряд лет.

Переменные, участвующие в эконометрической модели, разделяются на следующие виды:

1) текущие экзогенные или независимые переменные (xt), значения которых задаются извне модели на данный момент времени t;

2) текущие эндогенные или зависимые переменные (yt), значения которых определяются внутри модели на данный момент времени t;

3) лаговые (экзогенные (xt-1, xt-2 и т.д.) или эндогенные переменные(yt-1, yt-2 и т.д.)), датированные предыдущими моментами времени и находящиеся в уравнении с текущими переменными;

4) предопределенные (объясняющие) переменные, к которым относятся текущие экзогенные переменные (xt), лаговые экзогенные переменные (xt-1, xt-2 и т.д.), а также лаговые эндогенные переменные (yt-1, yt-2 и т.д.)

Любая эконометрическая модель объясняет значения текущих эндогенных переменных в зависимости от предопределенных переменных.


Похожая информация.


Рассмотрим вначале коэффициент детерминации для простой линейной регрессии, называемый также коэффициентом парной детерминации.

На основе соображений, изложенных в разделе 3.1, теперь относительно легко найти меру точности оценки регрессии. Мы показали, что общую дисперсию можно разложить на две составляющие - на «необъясненную» дисперсию и дисперсию обусловленную регрессией. Чем больше по сравнению с тем больше общая дисперсия формируется за счет влияния объясняющей переменной х и, следовательно, связь между двумя переменными у их более интенсивная. Очевидно, удобно в качестве показателя интенсивности связи, или оценки доли влияния переменной х на использовать отношение

Это отношение указывает, какая часть общего (полного) рассеяния значений у обусловлена изменчивостью переменной х. Чем большую долю в общей дисперсии составляет тем лучше выбранная функция регрессии соответствует эмпирическим данным. Чем меньше эмпирические значения зависимой переменной отклоняются от прямой регрессии, тем лучше определена функция регрессии. Отсюда происходит и название отношения (3.6) - коэффициент детерминации Индекс при коэффициенте указывает на переменные, связь между которыми изучается. При этом вначале в индексе стоит обозначение зависимой переменной, а затем объясняющей.

Из определения коэффициента детерминации как относительной доли очевидно, что он всегда заключен в пределах от 0 до 1:

Если то все эмпирические значения (все точки поля корреляции) лежат на регрессионной прямой. Это означает, что для В этом случае говорят о строгом линейном соотношении (линейной функции) между переменными у их. Если дисперсия, обусловленная регрессией, равна нулю, а

«необъясненная» дисперсия равна общей дисперсии. В этом случае Линия регрессии тогда параллельна оси абсцисс. Ни о какой численной линейной зависимости переменной у от в статистическом ее понимании не может быть и речи. Коэффициент регрессии при этом незначимо отличается от нуля.

Итак, чем больше приближается к единице, тем лучше определена регрессия.

Коэффициент детерминации есть величина безразмерная и поэтому он не зависит от изменения единиц измерения переменных у и х (в отличие от параметров регрессии). Коэффициент не реагирует на преобразование переменных.

Приведем некоторые модификации формулы (3.6), которые, с одной стороны, будут способствовать пониманию сущности коэффициента детерминации, а с другой стороны, окажутся полезными для практических вычислений. Подставляя выражение для в (3.6) и принимая во внимание (1.8) и (3.1), получим:

Эта формула еще раз подтверждает, что «объясненная» дисперсия, стоящая в числителе (3.6), пропорциональна дисперсии переменной х, так как является оценкой параметра регрессии.

Подставив вместо его выражение (2.26) и учитывая определения дисперсий а также средних х и у, получим формулу коэффициента детерминации, удобную для вычисления:

Из (3.9) следует, что всегда С помощью (3.9) можно относительно легко определить коэффициент детерминации. В этой формуле содержатся только те величины, которые используются для вычисления оценок параметров регрессии и, следовательно, имеются в рабочей таблице. Формула (3.9) обладает тем преимуществом, что вычисление коэффициента детерминации по ней производится непосредственно по эмпирическим данным. Не нужно заранее находить оценки параметров и значения регрессии. Это обстоятельство играет немаловажную роль для последующих исследований, так как перед проведением регрессионного анализа мы можем проверить, в какой степени определена исследуемая регрессия включенными в нее объясняющими

переменными. Если коэффициент детерминации слишком мал, то нужно искать другие факторы-переменные, причинно обусловливающие зависимую переменную. Следует отметить, что коэффициент детерминации удовлетворительно отвечает своему назначению при достаточно большом числе наблюдений. Но в любом случае необходимо проверить значимость коэффициента детерминации. Эта проблема будет обсуждаться в разделе 8.6.

Вернемся к рассмотрению «необъясненной» дисперсии, возникающей за счет изменчивости прочих факторов-переменных, не зависящих от х, а также за счет случайностей. Чем больше ее доля в общей дисперсии, тем меньше, неопределеннее проявляется соотношение между у и х, тем больше затушевывается связь между ними. Исходя из этих соображений мы можем использовать «необъясненную» дисперсию для характеристики неопределенности или неточности регрессии. Следующее соотношение служит мерой неопределенности регрессии:

Легко убедиться в том, что

Отсюда очевидно, что не нужно отдельно вычислять меру неопределенности, а ее оценку легко получить из (3.11).

Теперь вернемся к нашим примерам и определим коэффициенты детерминации для полученных уравнений регрессий.

Вычислим коэффициент детерминации по данным примера из раздела 2.4 (зависимость производительности труда от уровня механизации работ). Используем для этого формулу (3.9), а промежуточные результаты вычислений заимствуем из табл. 3:

Отсюда заключаем, что в случае простой регрессии 93,8% общей дисперсии производительности труда на рассматриваемых предприятиях обусловлено вариацией показателя механизации работ. Таким образом, изменчивость переменной х почти полностью объясняет вариацию переменной у.

Для этого примера коэффициент неопределенности т. е. только 6,2% общей дисперсии нельзя объяснить зависимостью производительности труда от уровня механизации работ.

Вычислим коэффициент детерминации по данным примера из раздела 2.5 (зависимость объема производства от основных фондов). Необходимые

промежуточные результаты вычислений приведены в разделе 2.5 при определении оценок коэффициентов регрессии:

Таким образом, 91,1% общей дисперсии объема производства исследуемых предприятий обусловлено изменчивостью значений основных фондов на этих предприятиях. Данная регрессия почти полностью исчерпывается включенной в нее объясняющей переменной. Коэффициент неопределенности составляет 0,089, или 8,9%.

Следует отметить, что приведенные в данном разделе формулы предназначены для вычисления по результатам выборки большого объема коэффициента детерминации в случае простой регрессии. Но чаще всего приходится довольствоваться выборкой небольшого объема . В этом случае вычисляют исправленный коэффициент детерминации учитывая соответствующее число степеней свободы. Формула исправленного коэффициента детерминации для общего случая объясняющих переменных будет приведена в следующем разделе. Из нее легко получить формулу исправленного коэффициента детерминации в случае простой регрессии

Коэффициент детерминации

Для оценки качества подбора линейной функции (близости расположения фактических данных к рассчитанной линии регрессии) рассчитывается квадрат линейного коэффициента корреляции , называемый коэффициентом детерминации.

Проверка осуществляется на основе исследования коэффициента детерминации и проведения дисперсионного анализа.

Регрессионная модель показывает, что вариация Y может быть объяснена вариацией независимой переменной Х и значением возмущения e. Мы хотим знать, насколько вариация Y обусловлена изменением Х и насколько она является следствием случайных причин. Другими словами, нам нужно знать, насколько хорошо рассчитанное уравнение регрессии соответствует фактическим данным, т.е. насколько мала вариация данных вокруг линии регрессии.

Для оценки степени соответствия линии регрессии нужно рассчитать коэффициент детерминации, суть которого можно хорошо уяснить, рассматривая разложение общей суммы квадратов отклонений переменной Y от среднего значения на две части – «объясненную» и «необъясненную» (рис. 4).

Из рис. 4 видно, что .

Возведем обе части этого равенства в квадрат и просуммируем по всем i от 1 до n .

Перепишем сумму произведений в виде:

Здесь использованы следующие свойства:

2) метод наименьших квадратов (МНК)исходит из условия:

необходимым условием существования минимума функции Q является равенство нулю ее первых частных производных по b 0 и b 1 .

.

Или .

Отсюда следует, что .



Y i


Рисунок 4. Структура вариации зависимой переменной Y

Таким образом, в результате будем иметь:

(1)

Общая сумма квадратов отклонений индивидуальных значений зависимой переменной Y от среднего значения вызвана влиянием множества причин, которые мы условно разделили на две группы: фактор Х и прочие факторы (случайные воздействия). Если фактор Х не оказывает влияния на результат (Y), то линия регрессии на графике параллельна оси абсцисс и . Тогда вся дисперсия зависимой переменной Y обусловлена воздействием прочих факторов, и общая сумма квадратов отклонений совпадает с остаточной суммой квадратов. Если же прочие факторы не влияют на результат, то Y связан с Х функционально, и остаточная сумма квадратов равна нулю. В этом случае сумма квадратов отклонений, объясненная регрессией, совпадает с общей суммой квадратов.

Разделим обе части уравнения (1) на левую часть (на общую сумму квадратов), получим:

(2)

Доля дисперсии зависимой переменной, объясненная регрессией, называется коэффициентом детерминации и обозначается R 2 . Из (2) коэффициент детерминации определяется:

. (3)

Величина коэффициента детерминации находится в пределах от 0 до 1 и служит одним из критериев проверки качества линейной модели. Чем больше доля объясненной вариации, тем соответственно меньше роль прочих факторов, следовательно, линейная модель хорошо аппроксимирует исходные данные, и ею можно пользоваться для прогноза значений результативного признака.

коэффициент детерминации принимает значения от нуля, когда х не влияют на У, до единицы, когда изменение У полностью объясняется изменением х . Таким образом, коэффициент детерминации характеризует «полноту» модели.

Преимущества коэффициента детерминации: он легко вычисляется, интуитивно понятен и имеет четкую интерпретацию. Но несмотря на это его использование иногда связано с проблемами:

· нельзя сравнивать величины R 2 для моделей с различными зависимыми переменными;

· R 2 всегда возрастает по мере включения новых переменных в модель. Это свойство R 2 может создавать у исследователя стимул необоснованно включать дополнительные переменные в модель, и в любом случае становится проблематичным определить, улучшает ли дополнительная переменная качество модели;

· R 2 малопригоден для оценки качества моделей временных рядов, т.к. в таких моделях его значение часто достигает величины 0,9 и выше; дифференциация моделей на основании данного коэффициента является трудновыполнимой задачей.

Одна из перечисленных проблем – увеличение R 2 при введении в модель дополнительных переменных – решается путем коррекции коэффициента на уменьшение числа степеней свободы в результате появления в модели дополнительных переменных.

Скорректированный коэффициент детерминации рассчитывается так:

, (4)

Как видно из формулы, при добавлении переменных будет увеличиваться только в том случае, если рост R 2 будет «перевешивать» увеличение количества переменных. Действительно,

т.е. доля остаточной дисперсии с включением новых переменных должна уменьшаться, но, умноженная на она, в то же время, будет расти с ростом числа включенных в модель переменных (р); в итоге, если положительный эффект от включения новых факторов «перевесит» изменение числа степеней свободы, то увеличится; в противном случае – может и уменьшиться.

Оценка качества уравнения (адекватности выбранной модели эмпирическим данным) производится с помощью F-теста. Суть оценки сводится к проверке нулевой гипотезы Н 0 о статистической незначимости уравнения регрессии и коэффициента детерминации. Для этого выполняется сравнение фактического F факт и критического (табличного) F табл значений F-критерия Фишера:

. (5)

В случае справедливости гипотезы

Н 0: b 0 = b 1 = … = b р = 0 (или R 2 истин = 0)

статистика F факт должна подчиняться F – распределению с числом степеней свободы числителя и знаменателя, соответственно равными

n 1 = р и n 2 = n – p – 1.

Табличное значение F-критерия для вероятности 0,95 (или 0,99) и числа степеней свободы n 1 = р, n 2 = n – p – 1 сравнивается с вычисленным; при выполнении неравенства F > F табл отвергается нулевая гипотеза о том, что истинное значение коэффициента детерминации равно нулю; это дает основание считать, что модель адекватна исследуемому процессу.

Для парной модели в критерии проверки для R 2 числителю соответствует одна степень свободы и (n – 2) степеней свободы соответствует знаменателю. Расчет F-критерия для проверки значимости R 2 выполняется следующим образом:



.

Обратившись к F-таблице, видим, что табличное значение при 5%-м уровне значимости для n 1 = 1 и n 2 = 50 составляет примерно 4. Так как расчетное значение F-критерия больше табличного, то при доверительной вероятности 0,95 отвергаем нулевую гипотезу о том, что истинное значение коэффициента детерминации равно нулю.

Таким образом, можно сделать вывод о том, что коэффициент детерминации (а значит, и модель в целом) являются статистически надежным показателем взаимосвязи рассматриваемых фондовых индексов.

Квадратный корень из величины коэффициента детерминации для парной модели является коэффициентом корреляции – показателем тесноты связи.

Третья стадия – проверка выполнимости основных предпосылок классической регрессии – предмет дальнейшего изучения .

Понравилась статья? Поделитесь ей