Министерство образования и науки Российской Федерации
Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования
ТАМБОВСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ
Институт экономики и качества жизни
|
УТВЕРЖДАЮ Зав. кафедрой
М.А. Блюмподпись инициалы, фамилия «____»___________________2014 г. |
ПОЯСНИТЕЛЬНАЯ ЗАПИСКА
к курсовой работе по исследованию операций
наименование учебной дисциплины
на тему: Метод наименьших квадратов как применение теорем поиска экстремума функций многих переменных
Автор работы А.М.Филимонова Группа ББИ-21
инициалы, фамилия
номер, наименование
Обозначение курсовой работы ТГТУ.080500.018 ДЭ
Руководитель работы А.Н.Пчелинцев
подпись, дата инициалы, фамилия
Члены комиссии: |
____________________________________________ подпись, дата инициалы, фамилия ____________________________________________ подпись, дата инициалы, фамилия ____________________________________________ подпись, дата инициалы, фамилия |
Нормоконтролер |
Т.И. Лапина подпись, дата инициалы, фамилия |
Тамбов 2014 г.
ЗАДАНИЕ
на курсовую работу
Студент А.М.Филимонова код 018 Группа ББИ-21
инициалы, фамилия
1 Тема: Метод наименьших квадратов как применение теорем поиска экстремума функций многих переменных
2 Срок представления работы к защите
« » 2014 г.
3 Исходные данные для проектирования (научного исследования)
Учебная литература по теме работы
4 Перечень разделов пояснительной записки
4.1 Введение
4.2 Метод наименьших квадратов
4.3 Линейная парная регрессия и её коэффициенты
4.4 Применение МНК
4.5 Заключение
4.6 Список используемых источников
5 Перечень графического материала:
Таблица 1 – Статистические данные в общем виде
Таблица 2 – Выборка из экономических показателей
Таблица 3 – Упорядоченная выборка
Таблица 4 – Расчётная таблица выборки
Рисунок 1 – График, изображающий прямую регрессии и точки отклонений
Рисунок 2 – График найденной регрессии
Руководитель работы |
А.Н.Пчелинцев подпись, дата инициалы, фамилия |
Задание принял к исполнению |
А.М.Филимонова подпись, дата инициалы, фамилия |
СОДЕРЖАНИЕ
Введение………………………………………………………………………... |
5 |
|
1 |
Метод наименьших квадратов………………………………………….. |
6 |
1.1 |
История появления метода наименьших квадратов………………….. |
6 |
1.2 |
Понятие и определение метода наименьших квадратов……………… |
7 |
2 |
Линейная парная регрессия и её коэффициенты……………………… |
10 |
2.1 |
Понятие линейной парной регрессии………………………………….. |
10 |
2.2 |
Вывод формул для нахождения коэффициентов регрессии…………. |
11 |
2.3 Проверка достаточного условия экстремума (минимума) функции..... 3 Применение МНК………………………………………………….…….. |
15 19 |
|
3.1 Пример использования МНК для линейной парной регрессии …….. |
19 |
3.2 Области применения МНК………………………………………………. 21
Заключение…………………………………………………………………….. 24
Список используемых источников………………………………………….... 25
ВВЕДЕНИЕ
Метод наименьших квадратов имеет большое применение во многих областях, так как это один из методов оценки величин по результатам измерений, содержащим случайные ошибки. Он часто оказывается полезным при обработке наблюдений.
Также, метод наименьших квадратов используется как составная часть некоторой более общей проблемы. Например, при необходимости проведения аппроксимации наиболее часто употребляется именно метод наименьших квадратов. На этом подходе основаны: регрессионный анализ в статистике, оценивание параметров в технике и т.д.
Цель моей курсовой работы – рассмотреть метод наименьших квадратов как применение теорем поиска экстремума функций многих переменных.
Исходя из поставленной цели, необходимо решить следующие задачи:
- рассмотреть метод наименьших квадратов, линейную парную регрессию;
- вывести формулы для нахождения коэффициентов линейной парной регрессии;
- доказать, что найденная функция принимает минимальное значение, если коэффициенты являются решениями системы.
1 МЕТОД НАИМЕНЬШИХ КВАДРАТОВ
1.1 История появления метода наименьших квадратов
До начала XIX в. учёные не имели определённых правил для решения системы уравнений, в которой число неизвестных меньше, чем число уравнений; до этого времени употреблялись частные приёмы, зависевшие от вида уравнений и от остроумия вычислителей, и потому разные вычислители, исходя из тех же данных наблюдений, приходили к различным выводам. Гауссу (1795) принадлежит первое применение метода, а Лежандр (1805) независимо открыл и опубликовал его под современным названием (фр. Méthode des moindres quarrés). Лаплас связал метод с теорией вероятностей, а американский математик Эдрейн (1808) рассмотрел его теоретико-вероятностные приложения.
Метод распространён и усовершенствован дальнейшими изысканиями Энке, Бесселя, Ганзена и других. Как и в случае арифметической середины, вновь изобретённый способ не даёт, конечно, истинных значений искомых, но зато даёт наиболее вероятные значения. Он получил название метода наименьших квадратов, потому что после подстановки в начальные уравнения неизвестных величин, выведенных этим способом, в правых частях уравнений получаются если и не нули, то небольшие величины, сумма квадратов которых оказывается меньшей, чем сумма квадратов подобных же остатков после подстановки каких бы то ни было других значений неизвестных. Решение уравнений по способу наименьших квадратов даёт возможность выводить вероятные ошибки неизвестных, то есть величины, по которым судят о степени точности выводов.
Работы А. А. Маркова в начале XX века позволили включить метод наименьших квадратов в теорию оценивания математической статистики, в которой он является важной и естественной частью. Усилиями Ю. Неймана, Ф.Дэвида, А. Эйткена, С. Рао было получено немало важных результатов в этой области. Метод наименьших квадратов был доминирующей темой математической статистики. В некоторых аспектах он имел такое же значение для статистики, как метод расчета для математики в предыдущем столетии. «Доказательства» метода показали направление для развития теории статистики; руководством для применения высших методов стали справочники, объясняющие использование названного метода, а дискуссии вокруг приоритетности его открытия сигнализировали об осознании интеллектуальным обществом значения метода. Подобно математическому методу расчета данный «расчет наблюдений» не возник из ничего, а исследование его премудростей и потенциала заняло более столетия. На протяжении практически всего этого времени статистические методы вместе называли «комбинацией наблюдений». Данная фраза охватывает ключевое составляющее метода наименьших квадратов и описывает концепцию, эволюция которой задавала темп его развития.
1.2 Понятие и определение метода наименьших квадратов
Метод наименьших квадратов — один из методов регрессионного анализа, использующийся для нахождения оценок параметров регрессии ,основанный на минимизации суммы квадратов всех остатков.
Регрессионный (линейный) анализ — статистический метод исследования зависимости между зависимой переменной Y и одной или несколькими независимыми переменными X1,X2,...,Xp. Независимые переменные иначе называют регрессорами или предикторами, а зависимые переменные — критериальными. Терминология зависимых и независимых переменных отражает лишь математическую зависимость переменных, а не причинно-следственные отношения.
Когда искомая величина может быть измерена непосредственно, как, например, длина отрезка или угол, то, для увеличения точности, измерение производится много раз, и за окончательный результат берут арифметическое среднее из всех отдельных измерений. Это правило арифметической середины основывается на соображениях теории вероятностей; легко показать, что сумма квадратов уклонений отдельных измерений от арифметической середины будет меньше, чем сумма квадратов уклонений отдельных измерений от какой бы то ни было другой величины. Само правило арифметической середины представляет, следовательно, простейший случай метода наименьших квадратов.
Основная идея данного метода состоит в том, что в качестве критерия точности решения задачи рассматривается сумма квадратов ошибок, которую стремятся свести к минимуму. При использовании этого метода можно применять как численный, так и аналитический подход.
В частности, в качестве численной реализации метод наименьших квадратов подразумевает проведение как можно большего числа измерений неизвестной случайной величины. Причем, чем больше вычислений, тем точнее будет решение. На этом множестве вычислений (исходных данных) получают другое множество предполагаемых решений, из которого затем выбирается наилучшее. Если множество решений параметризировать, то метод наименьших квадратов сведется к поиску оптимального значения параметров.
В качестве аналитического подхода к реализации МНК на множестве исходных данных (измерений) и предполагаемом множестве решений определяется некоторая функциональная зависимость (функционал), которую можно выразить формулой, получаемой в качестве некоторой гипотезы, требующей подтверждения. В этом случае метод наименьших квадратов сводится к нахождению минимума этого функционала на множестве квадратов ошибок исходных данных.
Зачастую отклонения измерений от точного значения бывают как положительными, так и отрицательными. При определении средней погрешности измерений простое суммирование может привести к неверному выводу о качестве оценки, поскольку взаимное уничтожение положительных и отрицательных значений понизит мощность выборки множества измерений. А, следовательно, и точность оценки. Для того чтобы этого не произошло, и суммируют квадраты отклонений. Даже более того, чтобы выровнять размерность измеряемой величины и итоговой оценки, из суммы квадратов погрешностей извлекают квадратный корень.
Метод наименьших квадратов применяется также для приближённого представления заданной функции другими (более простыми) функциями и часто оказывается полезным при обработке наблюдений. Мы выполняем регрессионный анализ, используя выборку наблюдений, где a и b – выборочные оценки истинных (генеральных) параметров, α и β , которые определяют линию линейной регрессии в популяции (генеральной совокупности).
2 ЛИНЕЙНАЯ ПАРНАЯ РЕГРЕССИЯ И ЕЁ КОЭФФИЦИЕНТЫ
2.1 Понятие линейной парной регрессии
Регрессией в теории вероятностей и математической статистике принято
называть зависимость среднего значения какой-либо величины (y) от некоторой
другой величины или от нескольких величин (xᵢ). Начальным пунктом эконометрического анализа зависимостей обычно является оценка линейной зависимости переменных. Если имеется некоторое множество точек наблюдений, через него всегда можно попытаться провести такую прямую линию, которая является наилучшей в определенном смысле среди всех прямых линий, то есть «ближайшей» к точкам наблюдений по их совокупности. Для этого нужно вначале определить понятие близости прямой к некоторому множеству точек на плоскости. Меры такой близости могут быть различными. Однако любая разумная мера должна быть, очевидно, связана с расстояниями от точек наблюдений до рассматриваемой прямой линии.
Парной регрессией называется модель, выражающая зависимость средне-
го значения зависимой переменной y от одной независимой переменной х
ŷ = f (x) (1)
где ŷ – зависимая переменная (результативный признак); х – независимая,
объясняющая переменная (признак–фактор).
Парная регрессия применяется, если имеется доминирующий фактор, обуславливающий большую долю изменения изучаемой объясняемой переменной,который и используется в качестве объясняющей переменной.
Множественной регрессией называют модель, выражающую зависимость
среднего значения зависимой переменной y от нескольких независимых пере-
менных х1, х2, …, хp
ŷ = f (х1, х2, …, хp) (2)
Множественная регрессия применяется в ситуациях, когда из множества
факторов, влияющих на результативный признак, нельзя выделить один доми-
нирующий фактор и необходимо учитывать одновременное влияние несколь-
ких факторов.
Используя уравнение регрессии (1), соотношение между значениями пе-
ременными у и х (модель связи) можно записать как
y = f (x) +ε (3)
где первое слагаемое f(x) можно интерпретировать как ту часть значения y, ко-торая объяснена уравнением регрессии (1), а второе слагаемое ε как необъяс-ненную часть значения y (или возмущение). Соотношение между этими частя-
ми характеризует качество уравнения регрессии, его способность представлять
зависимость между переменными х и y. При построении уравнения регрессии ε
рассматривается как ошибка модели, представляющая собой случайную вели-
чину, удовлетворяющую определенным предположениям.
Наличие составляющей ε обусловлено такими причинами, как наличие дополнительных факторов, оказывающих влияние на переменную y, неверный
вид функциональной зависимости f(x), ошибки измерения, выборочный харак-
тер исходных данных.
По виду аналитической зависимости различают линейные и нелинейные
регрессии.
Линейная парная регрессия описывается уравнением:
ŷ= a + b∙x (4)
Итак, эта функция (4), описывающая изменение условного математического ожидания случайной переменной y при изменении значений х, называется функцией регрессии, а ее график – линией регрессии.
2.2 Вывод формул для нахождения коэффициентов регрессии
Пусть случайно выбранные исходные данные записаны в таблицу для упрощения дальнейших расчётов (таблица 1).
Таблица 1 – Статистические данные в общем виде
X |
x1 |
x2 |
… |
xn |
Y |
y1 |
y2 |
… |
yn |
Она содержит статистические данные, или данные экспериментов. Если в качестве X выступает время, то имеем динамический ряд (тогда xᵢ размещены в возрастающем порядке). Необходимо получить аналитическую зависимость
ŷ = f (x) (5)
которая наилучшим образом описывает начальные данные. Словосочетание «наилучшим образом», будем понимать в смысле минимума суммы квадратов отклонений значений yᵢ ,данных в таблице от ŷᵢ , рассчитанных по формуле (5):
(6)
Определение зависимости (5) необходимо, в т.ч., и для нахождения:
что уже представляет собой задачу прогнозирования.
Нанесѐм точки из таблицы на координатную плоскость и сделаем предположение, что зависимость (5) есть линейная
а отклонения от прямой вызваны случайными факторами.
Вначале определим понятие близости прямой к некоторому множеству точек на плоскости; меры такой близости могут быть различными. Однако любая разумная мера должна быть, очевидно, связана с расстояниями от точек наблюдений до рассматриваемой прямой линии (рисунок 1).
Рисунок 1 – График, изображающий прямую регрессии и точки отклонений
Определим уравнение прямой (найдем значения коэффициентов a и b), так, чтобы получить решение задачи E→min , т.е. необходимо найти минимум функции
Функция E = E(a, b) . Продифференцируем E по a и по b. Получим:
Для того, чтобы найти минимум функции E(a,b), приравняем нулю производные и упростим систему:
Последнюю систему можно представить в матричном виде:
Решая её получим:
.
Вычислив a и b, получим функцию ŷ =a + bx , которая в классе линейных функций наилучшим образом описывает табличную зависимость в смысле минимума суммы квадратов отклонений. Ещё можно было бы рассчитать прогноз по формуле:
2.3 Проверка достаточного условия экстремума (минимума) функции
Исследуя на экстремум функцию с помощью производных, можно доказать, что функция принимает минимальное значение, если коэффициенты а и b являются решениями системы. Чтобы при найденных а и b функция принимала наименьшее значение, необходимо чтобы в этой точке матрица квадратичной формы дифференциала второго порядка для функции:
была положительно определенной.
Дифференциал второго порядка имеет вид:
То есть
Следовательно, матрица квадратичной формы имеет вид:
Причем значения элементов не зависят от а и b .
Покажем, что матрица положительно определенная. Для этого нужно, чтобы угловые миноры были положительными.
Угловой минор первого порядка:
.
Неравенство строгое, так как точки xᵢ несовпадающие. В дальнейшем это будем подразумевать.
Угловой минор второго порядка:
Докажем, что
.
1.Проверим справедливость неравенства для любого значения n, например для n=2.
Получили верное неравенство для любых несовпадающих значений x.
2.Предполагаем, что неравенство верное для n :
3.Докажем, что неравенство верное для n+1.
То есть, нужно доказать, что
Исходя из предположения что неравенство верное:
Докажем это:
Выражение в фигурных скобках положительно по предположению пункта 2, а остальные слагаемые положительны, так как представляют собой квадраты чисел. Этим доказательство завершено.
Можно сделать вывод о том, что найденные значения а и b соответствуют наименьшему значению функции
следовательно, являются искомыми параметрами для метода наименьших квадратов.
3 ПРИМЕНЕНИЕ МЕТОДА НАИМЕНЬШИХ КВАДРАТОВ
3.1 Пример использования МНК для линейной парной регрессии
Задача состоит в том, чтобы по конкретной выборке (xᵢ; yᵢ), i=1,2,…n ;
найти коэффициенты a и b такие ,что построенная линия регрессии являлась бы наилучшей в определенном смысле среди всех других прямых.
Имеется выборка из 10 наблюдений (X) и (Y) (таблица 2).
Таблица 2 – Выборка из экономических показателей
xᵢ |
67 |
23 |
10 |
51 |
57 |
36 |
42 |
5 |
18 |
30 |
yᵢ |
186 |
172 |
171 |
182 |
182 |
176 |
177 |
169 |
166 |
180 |
Требуется найти выборочное уравнение регрессии Y на X. Построить выборочную линию регрессии Y на X.
Проведем упорядочивание данных по значениям xᵢ и yᵢ (таблица 3).
Таблица 3 – Упорядоченная выборка
xᵢ |
5 |
10 |
18 |
23 |
30 |
36 |
42 |
51 |
57 |
67 |
yᵢ |
169 |
171 |
166 |
172 |
180 |
176 |
177 |
182 |
182 |
186 |
Для упрощения вычислений составим расчетную таблицу, в которую занесем необходимые численные значения (таблица 4).
Таблица 4 – Расчётная таблица выборки
№ |
xᵢ |
yᵢ |
xᵢ² |
xᵢ∙yᵢ |
1 |
5 |
169 |
25 |
845 |
2 |
10 |
171 |
100 |
1710 |
3 |
18 |
166 |
324 |
2988 |
4 |
23 |
172 |
529 |
3956 |
5 |
30 |
180 |
900 |
5400 |
6 |
36 |
176 |
1296 |
6336 |
7 |
42 |
177 |
1764 |
7434 |
8 |
51 |
182 |
2601 |
9282 |
9 |
57 |
182 |
3249 |
10374 |
10 |
67 |
186 |
4489 |
12462 |
∑ |
339 |
1761 |
15277 |
60787 |
В этом случае система уравнений имеет вид:
10a +339b=1761
339a+15277b=60787
Отсюда выразим a:
a=(1761-339b)/10 ;
Подставим во второе уравнение системы.
339∙(1761-339b)/10+15277b=60787;
59697,9-11492,1b+15277b=60787;
3784,9b=1089,1;
b=0,29;
a=(1761-339∙0,29)/10=166,269.
Таким образом, выборочное уравнение регрессии имеет вид :
ŷ=166,269+0,29x
В нём значения a=166,269 и b=0,29 минимальны. Другими словами, прямая будет «ближайшей» к точкам наблюдений по их совокупности.
Нанесем на координатную плоскость точки (xᵢ; yᵢ) и отметим прямую найденной регрессии (рисунок 2).
Рисунок 2 – График найденной регрессии
3.2 Области применения метода наименьших квадратов
МНК широко используется в различных областях. Например, в теории вероятностей и математической статистике метод используется для определения такой характеристики случайной величины, как среднее квадратичное отклонение, определяющей ширину диапазона значений случайной величины. В математическом анализе и различных областях физики, использующих для вывода или подтверждения гипотез данный аппарат, МНК применяют, в частности, для оценки приближенного представления функций, определенных на числовых множествах, более простыми функциями, допускающими аналитические преобразования.
Еще одно применение этого метода – отделение полезного сигнала от наложенного на него шума в задачах фильтрации.
Ещё одна область применения МНК – эконометрика. Здесь данный метод настолько широко используется, что для него были определены некоторые специальные модификации. Метод наименьших квадратов основан на ряде предпосылок относительно природы данных и результатов построения модели. Основные из них - это четкое разделение исходных переменных на зависимые и независимые, некоррелированность факторов, входящих в уравнения, линейность связи, отсутствие автокорреляции остатков, равенство их математических ожиданий нулю и постоянная дисперсия. Эмпирические данные не всегда обладают такими характеристиками, т.е. предпосылки МНК нарушаются. Применение этого метода в чистом виде может привести к таким нежелательным результатам, как смещение оцениваемых параметров, снижение их состоятельности, устойчивости, а в некоторых случаях может и вовсе не дать решения. Для смягчения нежелательных эффектов при построении регрессионных уравнений, повышения адекватности моделей существует ряд усовершенствований МНК, которые применяются для данных нестандартной природы.
Большинство задач эконометрики, так или иначе, сводится к решению систем линейных эконометрических уравнений, описывающих поведение некоторых систем - структурных моделей. Основной элемент каждой такой модели – временной ряд, представляющий собой набор некоторых характеристик, значения которых зависят как от времени, так и от ряда других факторов. При этом может наблюдаться соответствие между внутренними (эндогенными) характеристиками модели и внешними (экзогенными) характеристиками. Это соответствие выражается обычно в виде систем линейных экономических уравнений. Характерной особенностью таких систем является наличие взаимосвязей между отдельными переменными, которые с одной стороны, усложняют ее, с другой – переопределяют. Что является причиной появления неопределенности при выборе решения таких систем. Дополнительным фактором, усложняющим решение таких задач, является зависимость параметров моделей от времени.
Основная цель задач эконометрики – идентификация моделей, то есть определение структурных взаимосвязей в выбранной модели, а также оценивание ряда ее параметров. Восстановление зависимостей во временных рядах, составляющих модели, может быть выполнено, в частности, с помощью как прямого МНК, так и некоторых его модификаций, а также ряда других методов. Специальные модификации МНК при решении таких задач специально развиты для разрешения тех или иных проблем, возникающих в процессе численного решения систем уравнений. В частности, одна из таких проблем связана с наличием исходных ограничений на параметры, которые нужно оценивать. Например, доход частного предприятия может быть потрачен на потребление или на его развитие. Следовательно, сумма частей данных двух видов затрат заведомо равна 1. В систему эконометрических уравнений эти части могут входить независимо друг от друга. Следовательно, можно оценить различные виды трат с помощью МНК, без учета исходного ограничения, а затем подкорректировать полученный результат.
ЗАКЛЮЧЕНИЕ
В результате проведённых действий можно утверждать, что найденные с помощью нормальной системы уравнений коэффициенты линейной парной регрессии являются наилучшими среди всех других. Чтобы это выяснить, действительно, необходимо было рассмотреть метод наименьших квадратов и применить теоремы поиска экстремума функций многих переменных. Также был приведен пример линейной регрессии, построен её график, в котором прямая является «ближайшей» к точкам данных наблюдений.
Метод наименьших квадратов может использоваться для «решения» переопределенных систем уравнений (когда количество уравнений превышает количество неизвестных), для поиска решения в случае обычных (не переопределенных) нелинейных систем уравнений, для аппроксимации точечных значений некоторой функцией. МНК является одним из базовых методов регрессионного анализа для оценки неизвестных параметров регрессионных моделей по выборочным данным. Сегодня этот способ представляет собой один из важнейших разделов математической статистики и широко используется для статистических выводов в различных областях науки и техники. Ведь этот метод применяется именно к преобразованным данным и позволяет получать оценки, которые обладают не только свойством несмещенности, но и имеют меньшие выборочные дисперсии, что является важным условием для науки и техники.
СПИСОК ИСПОЛЬЗУЕМЫХ ИСТОЧНИКОВ
- Колмогоров А.Н. «Основные понятия теории вероятностей»_2009 г.
- Вентцель Е. «Теория вероятностей»_С_2010, 4-е изд.
- URL:http://fb.ru/article/32814/gde-primenyaetsya-metod-naimenshih-kvadratov
- Тутубалин В.Н. «Теория вероятностей и случайных процессов». (2009 г.)
- URL: http://www.vevivi.ru/best/Klassicheskii-metod-naimenshikh-kvadratov-ref108272.html
- URL: http://www.okultur.narod.ru/Lections/MethodsForecasting.pdf
- Письменный Д.Т. «Конспект лекций по теории вероятностей, математической статистике и случайным процессам» .3-е изд.(2010 г.)
Скачать: