Разработка средств поддержки анализа и прогнозирования временных рядов

0

Факультет информационных технологий

Кафедра управления и информатики в технических системах

Разработка средств поддержки анализа и прогнозирования временных рядов

Аннотация

Пояснительная записка содержит 94 страницы, в том числе 24 рисунка, 22 таблицы, 38 источников, 2 приложения.

В ходе выполнения магистерской диссертации было разработано средство поддержки анализа и прогнозирования временных рядов. Пояснительная записка содержит теоретическое обоснование научной проблемы, описание предметной области, а так же всех стадий разработки программного средства. Также она содержит описание математического аппарата, архитектуры программного средства, функционального назначения, проектирования и разработку базы данных, алгоритмов программного средства и тестирование.

Содержание

Введение……………………………………………………………………………

1 Исследовательский раздел……………………………………………………...

1.1 Теоретическое обоснование научной проблемы …………………………...

1.1.1 Data Mining. Основные понятия……………………………………………

1.1.2 Классификация задач Data Mining…………………………………………

1.1.3 Задачи классификации и регрессии……………………………………......

1.1.4 Задачи поиска ассоциативных правил……………………………………..

1.1.5 Задача кластеризации……………………………………………………..

1.1.6 Прогнозирование временных рядов………………….…………………….

1.1.7 Классификация временных рядов…………………………………….........

1.2 Описание объектов автоматизации………………………………………......

1.3 Обзор существующих аналогов………………………………………………

1.4 Обзор и обоснование выбора методов разработки………………………….

1.4.2 Методы проектирования базы данных…………………………………….

1.5 Обзор и обоснование выбора инструментальных средств…………………

1.5.1 Выбор инструментального средства разработки программного средства………………………………………………………………

1.5.2 Выбор СУБД…………………………………………………………………

1.6 Постановка магистерской работы……………………………………………

1.6.1 Формализация поставленной задачи……………………………………….

1.6.2 Требования к функциям, выполняемым системой………………………..

1.6.3 Требования к структуре…………………………………………………….

1.6.4 Требование к эргономике и технической эстетике………………………

2 Проектный раздел……………………………………………………………….

2.1 Декомпозиция поставленной задачи………………………………………...

2.2 Выбор и обоснование математического аппарата…………………………..

2.3 Разработка информационного обеспечения АИС…………………………..

2.3.1 Внешний уровень базы данных…………………………………………….

2.3.2 Концептуальный уровень базы данных……………………………………

2.3.3 Физическая модель базы данных на основе выбранной СУБД………….

2.3.4 Реализация ограничений целостности базы данных……………………...

2.4 Обоснование архитектуры и функциональной схемы программного средства. ………………………………………………………..

2.4.1 Функциональная схема программного средства………………………….

2.4.2 Архитектура программного средства……………………………………...

2.4.3 Разработка алгоритмов отдельных подзадач……………………………...

3 Экспериментальный отдел……………………………………………………...

3.1 Отладка и тестирование программы (испытание программы)…………….

3.2 Документирование…………………………………………………………….

3.3 Настройка (конфигурирование), доработка и сопровождение…………….

3.4 Качественная и количественная оценка результатов анализа……………...

Заключение…………………………………………………………………….......

Список использованных источников…………………………………………….

Приложение А SQL-скрипты……………………………………………………..

Приложение Б Текст программы………………………………………………...

Введение

Работа направлена на решение актуальной научной проблемы – разработка средств поддержки анализа и прогнозирования временных рядов.

Теория вероятностей и математическая статистика играет важную роль в выявлении количественных закономерностей и качественных утверждений в естественнонаучных, инженерно-технических и гуманитарных исследованиях. Необходимость её изучения диктуется современным уровнем развития науки и экономики, когда математика стала универсальным языком науки и элементом общей культуры.

Применение персональных компьютеров в процессе принятия управленческих решений в наше время стала особенно актуальна.

Появилась возможность ввести в практику научных исследований прикладные программы математического и статистического анализа типа пакетов Statistica, StatGraphics, Matlab, Mathematica, Maple, MathCAD, и т.п.

Корпоративная база данных любого современного предприятия обычно содержит набор таблиц, хранящих записи о тех или иных фактах либо объектах (например, о товарах, их продажах, клиентах, счетах). Как правило, каждая запись в подобной таблице описывает какой-то конкретный объект или факт. Однако совокупность большого количества таких записей, накопленных за несколько лет, может стать источником дополнительной, гораздо более ценной информации, которую нельзя получить на основе одной конкретной записи, а именно, сведений о закономерностях, тенденциях или взаимозависимостях между какими-либо данными. Все специалисты знакомы с простым и доступным даже непрофессиональным программистам средством решения задач теории вероятностей. Это средство – табличный процессор Microsoft Excel, однако данное средство имеет существенный недостаток – это низкая производительность при работе с большими объемами данных. Так появилась цель разработать средство, которое бы производило интеллектуальный анализ, имеющийся БД.

Объектом исследования является статистические данные ЗАО «КОМСТАР-Регионы».

Предметом исследования является методы Data Mining.

Задачи исследования:

Для достижения цели поставлены следующие научные задачи:

− провести анализ основных методов Data Mining;

− провести анализ объекта автоматизации;

− обзор аналогов программных систем;

− выбор метода разработки программного средства;

− выбор инструментальных средств проектирования программного продукта.

К инженерным задачам можно отнести:

− выбор и обоснование математического аппарата;

− разработка информационного обеспечения АИС;

− разработка архитектуры и функциональной схемы программного средства;

− разработка алгоритмов отдельных подзадач;

− отладка и тестирование АИС;

− разработка сопровождающей документации.

Для решения поставленных задач был использован широкий круг источников по данному вопросу, в том числе теория вероятности, математическая статистика.

Методы исследования. Теоретические исследования базировались на методах объектно-ориентированного проектирования (декомпозиции, абстракции, иерархии), проектом предусмотрено применение СУБД Borland Interbase, знаний основных процедур и функций Delphi.

Научная новизна. Разработано средство поддержки анализа и прогнозирования временных рядов. Разработанный программный продукт предназначен для автоматизации прогнозирования временных рядов, с целью повышения качества услуг ЗАО «КОМСТАР Регионы».

Теоретической и методологической базой исследования являются труды таких отечественных и зарубежных ученых: Л.А. Демидова, Колмогоров, Е.С. Вентцель, В.Е. Гмурман, О.И. Ларичев, Л.Н. Фадеева, В.Н. Шепель, В.Н. Тарасов, В.С. Балииова, Г.А. Данилин, Е.С. Вентцель, Г.В. Горелова, А. Гарнаев, Р.Н. Михеев, Г.З. Гарбер, С. А. Айвазян, В. С. Мхиторян, Дж. Форсайт, Д. Каханер, Патрик Блаттнер, А.С. Солодовников, О.О. Замков, Б.В. Гнеденко, М.В. Грачева, А.Н. Колмогоров, Штайнер Гюнтер, Л.Н. Фадеева, Б.В. Гнеденко, А.И. Орлов, Т.В. Юрченко, Р.А. Фатхутдинов, Э.А. Смирнов, М. Мескон, Ф. Хедоури, В.В. Глушенко, И.И. Глушенко, К. Карлберг, А.Ю. Гарнаев, М. Додж, К. Кината, К. Стинсон, А.В. Елесин, В.И. Окулич, А.В. Потапов, Н.М. Трубилов, А.И. Кибзун, Е.Р. Гориянова, А.В. Наумов, А.Н. Сиротин, и другие, а так же материалы периодической печати, методологические указания, ресурсы глобальной сети Internet.

Апробация работы.

Основные результаты диссертационной работы обсуждались и были одобрены на XXXIV научной конференции студентов (ОГУ, 2012), на XXXV научной конференции студентов (ОГУ, 2013).

1 Исследовательский раздел

1.1 Теоретическое обоснование научной проблемы

1.1.1 Data Mining. Основные методы

Среди математических дисциплин, изучаемых в вузе, теория вероятностей и математическая статистика занимает особое положение. Во-первых, она является теоретической базой статистических дисциплин. Во-вторых, методы теории вероятностей и математической статистики непосредственно используются при изучении массовых совокупностей, обработке результатов и выявлении закономерностей наблюдаемых случайных явлений. Наконец, теория вероятностей и математическая статистика имеет важное методологическое значение в познавательном процессе, при выявлении общей закономерности исследуемых процессов, служит логической основой индуктивно-дедуктивного умозаключения.

Понятие Data Mining, появившееся в 1978 году, приобрело высокую популярность в современной трактовке примерно с первой половины 1990-х годов. До этого времени обработка, и анализ данных осуществлялся в рамках прикладной статистики, при этом в основном решались задачи обработки небольших баз данных.

Одно из важнейших назначений методов Data Mining состоит в наглядном представлении результатов вычислений, что позволяет использовать инструментарий Data Mining людьми, не имеющих специальной математической подготовки. В то же время, применение статистических методов анализа данных требует хорошего владения теорией вероятностей и математической статистикой.

Современный компьютерный термин Data Mining переводится как «извлечение информации» или «добыча данных». Нередко наряду с Data Mining встречаются термины Knowledge Discovery («обнаружение знаний») и Data Warehouse («хранилище данных»). Возникновение указанных терминов, которые являются неотъемлемой частью Data Mining, связано с новым витком в развитии средств и методов обработки и хранения данных. Итак, цель Data Mining состоит в выявлении скрытых правил и закономерностей в больших объемах данных.

Data Mining — это не один, а совокупность большого числа различных методов обнаружения знаний. Все многообразие методов Data Mining делится на две большие группы: статистические и кибернетические методы. Эта схема разделения основана на различных подходах к обучению математических моделей. Преимуществом такой классификации является ее удобство для интерпретации – она используется при описании математических средств современного подхода к извлечению знаний из массивов исходных наблюдений (оперативных и ретроспективных), т.е. в задачах Data Mining.

Статистические методы Data Mining.

Статистические методы представляют собой четыре взаимосвязанных раздела:

− предварительный анализ природы статистических данных (проверка гипотез стационарности, нормальности, независимости, однородности, оценка вида функции распределения, ее параметров и т.п.);

− выявление связей и закономерностей (линейный и нелинейный регрессионный анализ, корреляционный анализ и др.);

− многомерный статистический анализ (линейный и нелинейный дискриминантный анализ, кластерный анализ, компонентный анализ, факторный анализ и др.);

− динамические модели и прогноз на основе временных рядов.

Арсенал статистических методов Data Mining классифицирован на четыре группы методов:

− дескриптивный анализ и описание исходных данных;

− анализ связей (корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ);

− многомерный статистический анализ (компонентный анализ, дискриминантный анализ, многомерный регрессионный анализ, канонические корреляции и др.);

− анализ временных рядов (динамические модели и прогнозирование).

Кибернетические методы Data Mining.

Второе направление Data Mining – это множество подходов, объединенных идеей компьютерной математики и использования теории искусственного интеллекта.

К этой группе относятся следующие методы:

− искусственные нейронные сети (распознавание, кластеризация, прогноз);

− эволюционное программирование (в т.ч. алгоритмы метода группового учета аргументов);

− генетические алгоритмы (оптимизация);

− ассоциативная память (поиск аналогов, прототипов);

− нечеткая логика;

− деревья решений;

− системы обработки экспертных знаний.

Методы Data Mining также можно классифицировать по задачам Data Mining.

В соответствии с такой классификацией выделяем две группы. Первая из них – это подразделение методов Data Mining на решающие задачи сегментации (т.е. задачи классификации и кластеризации) и задачи прогнозирования.

В соответствии со второй классификацией по задачам методы Data Mining могут быть направлены на получение описательных и прогнозирующих результатов.

Описательные методы служат для нахождения шаблонов или образцов, описывающих данные, которые поддаются интерпретации с точки зрения аналитика.

К методам, направленным на получение описательных результатов, относятся итеративные методы кластерного анализа, в том числе: алгоритм k-средних, k-медианы, иерархические методы кластерного анализа, самоорганизующиеся карты Кохонена, методы кросс-табличной визуализации, различные методы визуализации и другие.

Прогнозирующие методы используют значения одних переменных для предсказания/прогнозирования неизвестных (пропущенных) или будущих значений других (целевых) переменных.

К методам, направленным на получение прогнозирующих результатов, относятся такие методы: нейронные сети, деревья решений, линейная регрессия, метод ближайшего соседа, метод опорных векторов и др.

Согласно В.А. Дюку [1], выделяют пять стандартных типов закономерностей, выявляемых методами Data Mining:

− ассоциация (высокая вероятность связи событий друг с другом);

− последовательность (высокая вероятность цепочки связанных во времени событий);

− классификация (имеются признаки, характеризующие группы, к которой принадлежит то, или иное событие, или объект);

− временные закономерности (наличие шаблонов в динамике поведения тех или иных данных).

1.1.2 Классификация задач Data Mining

Рассмотрим основные задачи Data Mining.

Классификация (Classification) – наиболее простая и распространенная задача Data Mining. В результате решения задачи классификации обнаруживаются признаки, которые характеризуют группы объектов исследуемого набора данных – классы; по этим признакам новый объект можно отнести к тому или иному классу.

Кластеризация (Clustering) – является логическим продолжением идеи классификации. Это задача более сложная, особенность кластеризации заключается в том, что классы объектов изначально не предопределены. Результатом кластеризации является разбиение объектов на группы.

Ассоциация (Associations) – в ходе решения задачи поиска ассоциативных правил отыскиваются закономерности между связанными событиями в наборе данных.

Отличие ассоциации от двух предыдущих задач Data Mining: поиск закономерностей осуществляется не на основе свойств анализируемого объекта, а между несколькими событиями, которые происходят одновременно.

Последовательность (Sequence),или последовательная ассоциация (sequential association) – позволяет найти временные закономерности между транзакциями. Задача последовательности подобна ассоциации, но ее целью является установление закономерностей не между одновременно наступающими событиями, а между событиями, связанными во времени (т.е. происходящими с некоторым определенным интервалом во времени).

Прогнозирование (Forecasting) – в результате решения задачи прогнозирования на основе особенностей исторических данных оцениваются пропущенные или же будущие значения целевых численных показателей.

Определение отклонений или выбросов (Deviation Detection), анализ отклонений или выбросов – цель решения данной задачи – обнаружение и анализ данных, наиболее отличающихся от общего множества данных, выявление так называемых нехарактерных шаблонов.

Оценивание (Estimation) – задача оценивания сводится к предсказанию непрерывных значений признака.

Анализ связей (Link Analysis) – задача нахождения зависимостей в наборе данных.

Визуализация (Visualization, Graph Mining) – в результате визуализации создается графический образ анализируемых данных. Для решения задачи визуализации используются графические методы, показывающие наличие закономерностей в данных.

1.1.3 Задача классификации и регрессии

При анализе часто требуется определить, к какому из известных классов относятся исследуемые объекты, т. е. классифицировать их. Например, когда человек обращается в банк за предоставлением ему кредита, банковский служащий должен принять решение: кредитоспособен ли потенциальный клиент или нет. Очевидно, что такое решение принимается на основании данных об исследуемом объекте (в данном случае - человеке): его месте работы, размере заработной платы, возрасте, составе семьи и т. п. В результате анализа этой информации банковский служащий должен отнести человека к одному из двух известных классов «кредитоспособен» и «некредитоспособен».

Другим примером задачи классификации является фильтрация электронной почты. В этом случае программа фильтрации должна классифицировать входящее сообщение как спам (нежелательная электронная почта) или как письмо. Данное решение принимается на основании частоты появления в сообщении определенных слов (например, имени получателя, безличного обращения, слов и словосочетаний: приобрести, «заработать», «выгодное предложение» и т. п.).

В общем случае количество классов в задачах классификации может быть более двух. Например, в задаче распознавания образа цифр таких классов может быть 10 (по количеству цифр в десятичной системе счисления). В такой задаче объектом классификации является матрица пикселов, представляющая образ распознаваемой цифры. При этом цвет каждого пиксела является характеристикой анализируемого объекта.

В Data Mining задачу классификации рассматривают как задачу определения значения одного из параметров анализируемого объекта на основании значений других параметров. Определяемый параметр часто называют зависимой переменной, а параметры, участвующие в его определении - независимыми переменными. В рассмотренных примерах независимыми переменными являлись:

− зарплата, возраст, количество детей и т. д.;

− частота определенных слов;

− значения цвета пикселов матрицы.

Зависимыми переменными в этих же примерах являлись:

− кредитоспособность клиента (возможные значения этой переменной «да» и «нет»);

− тип сообщения (возможные значения этой переменной «spam» и «mail»);

− цифра образа (возможные значения этой переменной 0, 1,..., 9).

Необходимо обратить внимание, что во всех рассмотренных примерах независимая переменная принимала значение из конечного множества значений: {да, нет}, {spam, mail}, {0, 1,..., 9}. Если значениями независимых и зависимой переменных являются действительные числа, то задача называется задачей регрессии. Примером задачи регрессии может служить задача определения суммы кредита, которая может быть выдана банком клиенту.

Задача классификации и регрессии решается в два этапа. На первом выделяется обучающая выборка. В нее входят объекты, для которых известны значения как независимых, так и зависимых переменных. В описанных ранее примерах такими обучающими выборками могут быть:

− информация о клиентах, которым ранее выдавались кредиты на разные суммы, и информация об их погашении;

− сообщения, классифицированные вручную как спам или как письмо;

− распознанные ранее матрицы образов цифр.

На основании обучающей выборки строится модель определения значения зависимой переменной. Ее часто называют функцией классификации или регрессии. Для получения максимально точной функции к обучающей выборке предъявляются следующие основные требования:

− количество объектов, входящих в выборку, должно быть достаточно большим. Чем больше объектов, тем построенная на ее основе функция классификации или регрессии будет точнее;

− в выборку должны входить объекты, представляющие все возможные классы в случае задачи классификации или всю область значений в случае задачи регрессии;

− для каждого класса в задаче классификации или каждого интервала области значений в задаче регрессии выборка должна содержать достаточное количество объектов.

На втором этапе построенную модель применяют к анализируемым объектам (к объектам с неопределенным значением зависимой переменной).

Задача классификации и регрессии имеет геометрическую интерпретацию. Рассмотрим ее на примере с двумя независимыми переменными, что позволит представить ее в двумерном пространстве на рисунке 1.1. Каждому объекту ставится в соответствие точка на плоскости. Символы «+» и «-» обозначают принадлежность объекта к одному из двух классов. Очевидно, что данные имеют четко выраженную структуру: все точки класса «+» сосредоточены в центральной области. Построение классификационной функции сводится к построению поверхности, которая обводит центральную область. Она определяется как функция, имеющая значения «+» внутри обведенной области и «-» - вне.

Рисунок 1.1 – Классификация в двумерном пространстве

Как видно из рисунка, есть несколько возможностей для построения обводящей области. Вид функции зависит от применяемого алгоритма.

Основные проблемы, с которыми сталкиваются при решении задач классификации и регрессии, - это неудовлетворительное качество исходных данных, в которых встречаются как ошибочные данные, так и пропущенные значения, различные типы атрибутов - числовые и категорические, разная значимость атрибутов, а также так называемые проблемы overfitting и underfilling. Суть первой из них заключается в том, что классификационная функция при построении «слишком хорошо» адаптируется к данным, и встречающиеся в них ошибки и аномальные значения пытается интерпретировать как часть внутренней структуры данных. Очевидно, что такая модель будет некорректно работать в дальнейшем с другими данными, где характер ошибок будет несколько иной. Термином underfitting обозначают ситуацию, когда слишком велико количество ошибок при проверке классификатора на обучающем множестве. Это означает, что особых закономерностей в данных не было обнаружено и либо их нет вообще, либо необходимо выбрать иной метод их обнаружения.

1.1.4 Задача поиска ассоциативных правил

Поиск ассоциативных правил является одним из самых популярных приложений Data Mining. Суть задачи заключается в определении часто встречающихся наборов объектов в большом множестве таких наборов. Данная задача является частным случаем задачи классификации. Первоначально она решалась при анализе тенденций в поведении покупателей в супермаркетах. Анализу подвергались данные о совершаемых ими покупках, которые покупатели складывают в тележку (корзину). Это послужило причиной второго часто встречающегося названия — анализ рыночных корзин (Basket Analysis). При анализе этих данных интерес прежде всего представляет информация о том, какие товары покупаются вместе, в какой последовательности, какие категории потребителей, какие товары предпочитают, в какие периоды времени и т. п. Такая информация позволяет более эффективно планировать закупку товаров, проведение рекламной кампании и т. д.

Например, из набора покупок, совершаемых в магазине, можно выделить следующие наборы товаров, которые покупаются вместе:

− {чипсы, пиво};

− {вода, орехи}.

Следовательно, можно сделать вывод, что если покупаются чипсы или орехи, то, как правило, покупаются пиво или вода соответственно. Обладая такими знаниями, можно разместить эти товары рядом, объединить их в один пакет со скидкой или предпринять другие действия, стимулирующие покупателя приобрести товар.

Задача поиска ассоциативных правил актуальна не только в сфере торговли. Например, в сфере обслуживания интерес представляет, какими услугами клиенты предпочитают пользоваться в совокупности. Для получения этой информации задача решается применительно к данным об услугах, которыми пользуется один клиент в течение определенного времени (месяца, года). Это помогает определить, например, как наиболее выгодно составить пакеты услуг, предлагаемых клиенту.

В медицине анализу могут подвергаться симптомы и болезни, наблюдаемые у пациентов. В этом случае знания о том, какие сочетания болезней и симптомов встречаются наиболее часто, помогают в будущем правильно ставить диагноз.

При анализе часто вызывает интерес последовательность происходящих событий. При обнаружении закономерностей в таких последовательностях можно с некоторой долей вероятности предсказывать появление событий в будущем, что позволяет принимать более правильные решения. Такая задача является разновидностью задачи поиска ассоциативных правил и называется сиквенциальным анализом.

Основным отличием задачи сиквенциального анализа от поиска ассоциативных правил является установление отношения порядка между исследуемыми наборами. Данное отношение может быть определено разными способами. При анализе последовательности событий, происходящих во времени, объектами таких наборов являются события, а отношение порядка соответствует хронологии их появления.

Сиквенциальным анализ широко используется, например, в телекоммуникационных компаниях, для анализа данных об авариях на различных узлах сети. Информация о последовательности совершения аварий может помочь в обнаружении неполадок и предупреждении новых аварий. Например, если известна последовательность сбоев (1):

, (1)

где — сбой с кодом, то на основании факта появления сбоя можно сделать вывод о скором появлении сбоя. Зная это, можно предпринять профилактические меры, устраняющие причины возникновения сбоя. Если дополнительно обладать и знаниями о времени между сбоями, то можно предсказать не только факт его появления, но и время, что часто не менее важно.

1.1.5 Задача кластеризации

Задача кластеризации состоит в разделении исследуемого множества объектов на группы «похожих» объектов, называемых кластерами. Слово кластер английского происхождения (cluster), переводится как сгусток, пучок, группа. Родственные понятия, используемые в литературе, - класс, таксон, сгущение. Часто решение задачи разбиения множества элементов на кластеры называют кластерным анализом.

Кластеризация может применяться практически в любой области, где необходимо исследование экспериментальных или статистических данных. Рассмотрим пример из области маркетинга, в котором данная задача называется сегментацией.

Концептуально сегментирование основано на предпосылке, что все потребители - разные. У них разные потребности, разные требования к товару, они ведут себя по-разному: в процессе выбора товара, в процессе приобретения товара, в процессе использования товара, в процессе формирования реакции на товар. В связи с этим необходимо по-разному подходить к работе с потребителями: предлагать им различные по своим характеристикам товары, по-разному продвигать и продавать товары. Для того чтобы определить, чем отличаются потребители друг от друга и как эти отличия отражаются на требованиях к товару, и производится сегментирование потребителей.

В маркетинге критериями (характеристики) сегментации являются: географическое местоположение, социально-демографические характеристики, мотивы совершения покупки и т. п.

На основании результатов сегментации маркетолог может определить, например, такие характеристики сегментов рынка, как реальная и потенциальная емкость сегмента, группы потребителей, чьи потребности не удовлетворяются в полной мере ни одним производителем, работающим на данном сегменте рынка, и т. п. На основании этих параметров маркетолог может сделать вывод о привлекательности работы фирмы в каждом из выделенных сегментов рынка.

Для научных исследований изучение результатов кластеризации, а именно выяснение причин, по которым объекты объединяются в группы, способно открыть новые перспективные направления. Традиционным примером, который обычно приводят для этого случая, является периодическая таблица элементов. В 1869 г. Дмитрий Менделеев разделил 60 известных в то время элементов на кластеры или периоды. Элементы, попавшие в одну группу, обладали схожими характеристиками. Изучение причин, по которым элементы разбивались на явно выраженные кластеры, в значительной степени определило приоритеты научных изысканий на годы вперед. Но лишь спустя 50 лет квантовая физика дала убедительные объяснения периодической системы.

Кластеризация отличается от классификации тем, что для проведения анализа не требуется иметь выделенную зависимую переменную. С этой точки зрения она относится к классу unsupervised learning. Эта задача решается на начальных этапах исследования, когда о данных мало что известно. Ее решение помогает лучше понять данные, и с этой точки зрения задача кластеризации является описательной задачей.

Для задачи кластеризации характерно отсутствие каких-либо различий, как между переменными, так и между объектами. Напротив, ищутся группы наиболее близких, похожих объектов. Методы автоматического разбиения на кластеры редко используются сами по себе, просто для получения групп схожих объектов. После определения кластеров применяются другие методы Data Mining, для того чтобы попытаться установить, а что означает такое разбиение, чем оно вызвано.

Кластерный анализ позволяет рассматривать достаточно большой объем информации и резко сокращать, сжимать большие массивы информации, делать их компактными и наглядными.

Отметим ряд особенностей, присущих задаче кластеризации.

Во-первых, решение сильно зависит от природы объектов данных (и их атрибутов). Так, с одной стороны, это могут быть однозначно определенные, четко количественно очерченные объекты, а с другой — объекты, имеющие вероятностное или нечеткое описание.

Во-вторых, решение значительно зависит также и от представления кластеров и предполагаемых отношений объектов данных и кластеров. Так, необходимо учитывать такие свойства, как возможность/невозможность принадлежности объектов нескольким кластерам. Необходимо определение самого понятия принадлежности кластеру: однозначная (принадлежит/не принадлежит), вероятностная (вероятность принадлежности), нечеткая (степень принадлежности).

1.1.6 Прогнозирование временных рядов

Для проектирования программного средства были проанализированы основные методы Data Mining, выбор был сделан в пользу «метода прогнозирования», так как основной целью исследования было предсказание будущих событий.

Задачи прогнозирования решаются в самых разнообразных областях человеческой деятельности, таких как наука, экономика, производство и множество других сфер.

Прогнозирование является важным элементом организации управления, как отдельными хозяйствующими субъектами, так и экономики в целом.

Развитие методов прогнозирования непосредственно связано с развитием информационных технологий, в частности, с ростом объемов хранимых данных и усложнением методов и алгоритмов прогнозирования, реализованных в инструментах Data Mining. Задача прогнозирования, пожалуй, может считаться одной из наиболее сложных задач Data Mining, она требует тщательного исследования исходного набора данных и методов, подходящих для анализа.

Прогнозирование (от греческого Prognosis), в широком понимании этого слова, определяется как опережающее отражение будущего. Целью прогнозирования является предсказание будущих событий.

Прогнозирование (forecasting) является одной из задач Data Mining и одновременно одним из ключевых моментов при принятии решений.

Прогнозирование направлено на определение тенденций динамики конкретного объекта или события на основе ретроспективных данных, т.е. анализа его состояния в прошлом и настоящем. Таким образом, решение задачи прогнозирования требует некоторой обучающей выборки данных.

Прогнозирование - установление функциональной зависимости между зависимыми и независимыми переменными.

Прогнозирование является распространенной и востребованной задачей во многих областях человеческой деятельности. В результате прогнозирования уменьшается риск принятия неверных, необоснованных или субъективных решений. Примеры его задач: прогноз движения денежных средств, прогнозирование урожайности агрокультуры, прогнозирование финансовой устойчивости предприятия и т.д.

Основой для прогнозирования служит историческая информация, хранящаяся в базе данных в виде временных рядов.

Существует понятие Data Mining временных рядов (Time-Series Data Mining). На основе ретроспективной информации в виде временных рядов возможно решение различных задач Data Mining. На рисунке 1.2 представлены результаты опроса относительно Data Mining временных рядов. Как видим, наибольший процент (23 %) среди решаемых задач занимает прогнозирование. Далее идут классификация и кластеризация (по 14 %), сегментация и выявление аномалий (по 9 %), обнаружение правил (8 %). На другие задачи приходится менее чем по 6 %. Однако чтобы сосредоточиться на понятии прогнозирования, мы будем рассматривать временные ряды лишь в рамках решения задачи прогнозирования.

Рисунок 1.2 – Data Mining временных рядов

1.1.7 Классификация временных рядов

Одной из задач исследования является выявление видов временных рядов и определение основных признаков их отличия. Для решения данной задачи необходимо ответить на следующие вопросы: Что из себя представляет временный ряд? Какие элементы включает? и т.д.

Термин временные ряды в статистике России пока непривычен. В учебниках по общей теории статистики преобладают термины ряды динамики, динамические ряды [2]. Следовательно, динамические ряды - понятие, относящееся к тем рядам уровней, в которых содержится тенденция изменения, а временные ряды - более общее понятие, включающее как динамические, так и статические последовательности уровней какого-либо показателя. Таким образом, временной ряд представляет собой ряд расположенных в хронологической последовательности числовых значений статистического показателя, характеризующих изменение общественных явлений во времени. В каждом временном ряду имеются два основных элемента: время t и конкретное значение показателя (уровень ряда) у. Уровни ряда - это показатели, числовые значения которых составляют динамический ряд, т.е. они отображают количественную оценку (меру) развития во времени изучаемого явления [3]. При изучении динамики общественных явлений статистика решает ряд задач, чтобы дать числовую характеристику особенностей и закономерностей их развития на отдельных этапах:

− измеряет абсолютную и относительную скорость роста либо снижения уровня за отдельные промежутки времени;

− дает обобщающие характеристики уровня и скорости его изменения за тот или иной период;

− выявляет и численно характеризует основные тенденции развития явлений на отдельных этапах;

− дает сравнительную числовую характеристику развития данного явления в разных регионах или на разных этапах;

− выявляет факторы, обусловливающие изменение изучаемого явления во времени;

− делает прогнозы развития явления в будущем (экстраполяция и интерполяция) [4].

Классификация временных рядов:

− Моментные и интервальные временные ряды.

Моментным рядом называется такой ряд, уровни которого характеризуют состояние явления на определенные даты (моменты времени). Примерами моментных рядов могут быть последовательность показателей численности населения на начало года, поголовье скота в фермерских хозяйствах на 1 декабря или 1 июня за несколько лет, величина запаса какого-либо материала на начало периода и т.д.

Интервальный (периодический) временной ряд - последовательность, в которой уровень явления относят к результату, накопленному или вновь произведенному за определенный интервал времени. Таковы, например, ряды показателей объема продукции предприятия по месяцам года, количества отработанных человеко-дней по отдельным периодам (месяцам, кварталам, полугодиям, годам, пятилетиям и т.п.) и т.д. Также примером такого ряда могут служить данные о динамике добычи нефти в Российской Федерации;

− Комплексные и изолированные временные ряды. По числу показателей можно выделить изолированные и комплексные (многомерные) ряды динамики или ряды частных и агрегированных показателей соответственно.

Частные показатели характеризуют изучаемое явление односторонне, изолированно. Например, среднесуточный объем выпуска промышленной продукции дает возможность оценить динамику промышленного производства, численность граждан, состоящих на учете в службе занятости; показывает эффективность социальной политики государства; остатки наличных денег у населения и вклады населения в банках отражают платежеспособность населения и т.д.

В многомерном ряду представлена динамика нескольких показателей (система обобщающих показателей), характеризующих одно явление. Система обобщающих показателей - множество взаимосвязанных непротиворечивых показателей, характеризующих явление или процесс с полнотой, необходимой и достаточной для воспроизведения изучаемой закономерности. Вот эти так называемые агрегированные показатели основаны на частных показателях и характеризуют изучаемый процесс комплексно. Так, чтобы иметь представление о состоянии экономики в России в целом, необходимо определять агрегированный показатель экономической конъюнктуры, включающий в себя и вышеперечисленные частные показатели. Их определяют также при исследовании эффективности производства, технического уровня предприятий, качества продукции, экологического состояния [5].

− полные и неполные временные ряды. В зависимости от расстояния между уровнями временные ряды подразделяются на ряды с равноотстоящими и неравноотстоящими уровнями во времени (соответственно полные и неполные временные ряды). Ряды следующих друг за другом периодов или следующих через определенные промежутки дат называются равноотстоящими или полными. Если же в рядах даются прерывающиеся периоды или неравномерные промежутки между датами, то ряды называются неравноотстоящими или неполными.

− временные ряды абсолютных, относительных, средних величин. В зависимости от способа выражения уровней временных рядов подразделяются на ряды абсолютных, относительных и средних величин. При этом ряды абсолютных величин рассматриваются как исходные, а ряды относительных и средних величин - как производные.

Временные ряды абсолютных величин более полно характеризуют развитие процесса или явления, например: объема валового внутреннего продукта в целом, грузооборота транспорта, инвестиций в основной капитал, производства продукции животноводства и т.д.

Ряды относительных величин могут характеризовать во времени темпы роста (или снижения) определенного показателя; изменение удельного веса того или иного показателя в совокупности; изменение показателей интенсивности отдельных явлений, например, удельный вес приватизированных предприятий в той или иной отрасли; производство продукции на душу населения; структура инвестиций в основной капитал по отраслям экономики.

Временные ряды средних величин служат для характеристики изменения уровня явления, отнесенного к единице совокупности, например: данные о среднегодовой численности занятых в экономике, о средней урожайности отдельных сельскохозяйственных культур, о средней заработной плате в отдельных отраслях и т.д.

В результате было выявлено 4 классификации временных рядов, которые различаются по времени, по числу показателей, по расстоянию между уровнями ряда, а так же в зависимости от способа выражения уровней. В дальнейшем будем использовать интервальные временные ряды.

Теоретической и методологической базой исследования являются труды таких отечественных и зарубежных ученых: В.Н. Афанасьев, М.М. Юзбашев, Н.А. Садовникова, Т.В. Лебедева, А.А. Барсеган, М.С. Куприянов, В.В. Степаненко, И.И. Холод, Н.Б. Паклин, В.И. Орешков, О.И. Ларичев, В.С. Мхитарян, В.С. Трошин, Е.В. Адамова, К.К. Шевченко, В.Е. Гмурман и другие, а так же материалы периодической печати, методологические указания, ресурсы глобальной сети Internet.

Назад Вперед

Категория: Дипломные работы / Дипломные работы по информатике

Уважаемый посетитель, Вы зашли на сайт как незарегистрированный пользователь.
Мы рекомендуем Вам зарегистрироваться либо войти на сайт под своим именем.