Интеллектуализация обработки данных донозологической диагностики

0

3 Результаты экспериментальных исследований

Для разработка общего методологического подхода обработки данных донозологической диагностики функционального состояния человека, определяющего порядок действий и математические методы, обеспечивающие повышения качества решения задачи прогнозирования и диагностики соответствующих классов заболеваний за счет применения интеллектуальных методов анализа данных использовались результаты массового обследования студентов, проведенное Кафедрой профилактической медицины Оренбургского государственного университета. Всего было обследовано 4700 практически здоровых лиц возраста от 18 до 22 лет.

Исходные данные представляют собой матрицу объекты-признаки. Объектами являются студенты, которые участвовали в обследование, признаками — показатели функциональных состояний. В таблице 1 приведены некоторые признаки используемы для оценки функционального состояния.

Таблица 3- Описание набора данных

Имя признака

Тип признака

Диапазон значений

Пример

1

Рост (см)

Количественный

158 ... 193

173

2

Вес (кг)

Количественный

53 ... 119

69

3

Головные боли

Порядковый

1 ... 3

1

4

Частота дыхания в минуту

Количественный

17 ... 53

30

5

Жизненная емкость легких (мл)

Количественный

1800 ... 7200

3000

6

Боль в сердце

Бинарный

1 ... 2

2

7

Артериальное давление сидя САД (мм.рт.ст.)

Количественный

85 ... 140

85

8

Хронические заболевания органов дыхания

Бинарный

1... 2

1

Для анализа результатов исследования использовался язык программирования для статистической обработки данных R. R - это свободная программная среда вычислений с открытым исходным кодом в рамках проекта GNU. Язык создавался как аналогичный языку S, разработанному в Bell Labs и является его альтернативной реализацией, хотя между языками есть существенные отличия, но в большинстве своём код на языке S работает в среде R. Изначально R был разработан сотрудниками статистического факультета Оклендского университета Россом Айхэкой (англ. Ross Ihaka) и Робертом Джентлменом (англ. Robert Gentleman) (первая буква их имён — R), на момент 2011 года язык и среда поддерживаются и развиваются организацией R Foundation.

R широко используется как статистическое программное обеспечение для анализа данных и фактически стал стандартом для статистических программ.

R доступен под лицензией GNU GPL. Распространяется в виде исходных кодов, а также откомпилированных приложений под ряд операционных систем: FreeBSD, Solaris и другие дистрибутивы Unix и Linux, Microsoft Windows, Mac OS.

В R используется интерфейс командной строки, хотя доступны и несколько графических интерфейсов пользователя, например пакет R Commander, RKWard, RStudio, Weka, Rapid Miner, KNIME, а также средства интеграции в офисные пакеты.

3.1 Результаты иерархической агломеративной кластеризации

В соответствие с первым этапом предложенным по во второй главе подходом обработки данных донозологической диагностики функционального состояния человека, проведена кластеризация обследуемых лиц по показателям функционального состояния. Поскольку на выходе получается «дерево» , для его построения использовали каждую пятую строку данных, иначе ветки сидели бы слишком плотно. При ее проведении использовался алгоритм иерархической агломеративной кластеризации. В качестве метрики выбрано расстояние Евклида. Формирование классов осуществлялось с использованием метода Уорда, в результате чего получились хорошо очерченные кластеры(рисунок 17).

Анализ дендрограммы иерархической кластеризации позволил остановится на трех групповом разбиении выборки(рисунок 17).

Рисунок 17 - Дендрограмма иерархической кластеризации

обследуемых лиц

Для того чтобы иметь представление о том насколько хорошо выполнена кластеризация, построим график силуэтов кластеров, используя выходные значения алгоритма иерархической агломеративной кластеризации. Этот график показывает как близко каждая точка в одном кластере близка к точкам соседних кластеров. Эта мера находится в диапазоне от +1(показывает, что точка сильно удалена от соседних кластеров) до -1(показывает, что точка, вероятно, была приписана к данному кластеру неверно). Значение 0 показывает, что точка данного кластера неотличима от точек других кластеров.

На рисунке 18 изображен график силуэтов трех выделенных кластеров. Из рисунка видно, что более половины точек во всех кластерах имеют большие значения силуэта(больше 0,5). Таким образом разбиение можно считать успешным.

Рисунок 18 - График силуэтов для разбиения на 3 кластера

В результате анализа выделенным классам дана соответствующая предметная интерпретация характеризующая разные уровни адаптации организма человека к окружающей среде: первый кластер - функциональное напряжение, второй кластер - норма, третий кластер - функциональное перенапряжение.

3.2 Результаты отбора информативных признаков

Согласно второму этапу предложенного во второй главе концепции отбор информативных показателей оценки функционально состояния проводилась с использованием метода направленного отбора. Формирование набора осуществлялось с использованием информационного критерия Акаике.

Метод направленного отбора позволил исключить неинформативные признаки(показатели). Набор признаков с максимальным значением критерия Акаике является лучшим набором для прогнозирования. В таблице 4 приведены веса(информативность) подмножества признаков, посчитанные с использованием метода направленного отбора. Различия в их значениях значительны, что свидетельствует об разной информативности всех признаков.

Таблица 4 - Информативность подмножества признаков

Y

Признаки

AIC

groups

X27 + X44

64.79

groups

X27 + X44 + X9

75.17

groups

X27 + X44 + X9 + X5

79.9

groups

X27 + X44 + X9 + X5 + X23

85.32

groups

X27 + X44 + X9 + X5 + X23 + X68

88.5

groups

X27 + X44 + X9 + X5 + X23 + X68+X6

88.9

groups

X27 + X44 + X9 + X5 + X23 + X68+X6 + X57

90.1

groups

X27 + X44 + X9 + X5 + X23 + X68+X6 + X57 + X60

92.3

groups

X27 + X44 + X9 + X5 + X23 + X68+X6 + X57 + X60 + X61

92.6

. . .

. . .

. . .

В список наиболее информативных попали такие признаки, как X6 - вес, X68 - артериальное давление ДАД, X67 - артериальное давление САД возраст, X57 - боль в сердце, X68 - артериальное давление ДАД, X60 - пульс, X72 - умственная работоспособность в течении учебного дня, X73 - продолжительность суточного сна и т.д. В дальнейшем подмножество информативных признаков были использованы для анализа однородной композицией алгоритмов.

3.3 Оценка качества однородной композиции на основе деревьев решений

Разработка решающих правил оценки уровня адаптации по данным обследования студентов проводилась с использованием однородной композиции алгоритмов. В качестве базовой модели композиции использовались деревья решений С4.5.

Для получения оптимальной композиции использовалось несколько принципиально разных внешних критериев:

- критерий регуляризации;

- критерий скользящего контроля.

Критерии скользящего контроля отбирает несколько лучших деревьев решений, качество которых не отличается в пределах дисперсии критерия(рисунок 19).

Рисунок 19 - Оценка скользящего контроля

Рисунок 20 - Среднеквадратичная ошибка

В результате лучшим деревьям решений назначается вес, в соответствие с значением среднеквадратичной ошибки(рисунок 20). Чем меньше нормализованное значение критерия среднеквадратичной ошибки, тем больше вес дерева решений.

Точность прогноза композиции оценивалась с использованием критерия скользящего контроля(рисунок 21).

Рисунок 21 - Ошибки на скользящем контроле

Таблица - 5 Таблица сопряженности

Истинная группа

Результат классификации

Класс

Класс

Класс

Класс

1973

51

18

Класс

9

2325

14

Класс

8

2

305

В результате использование методов интеллектуального анализа данных позволило создать подход обработки данных, общая точность которого составила 97,4% правильных прогнозов(диагноз).

Заключение

Список используемых источников

1 Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning. -Springer, 2008. -764 c.

2 Барсегян А. А., Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP. - Спб.: БХВ-Петербург, 2007. - 384с.

3 Башмаков А. И., Интеллектуальные информационные системы/ А.И. Башмаков, И.А., Башмаков. – М.: МГТУ им. Н.Э. Баумана, 2005. – 304с.

4 Вагин В.Н., Головина Е.Ю., Загорянская А.А., Фомина М.В. Достоверный и правдоподобный вывод в интеллектуальных системах. – М.: Физматлит, 2005. – 704 с.

5 Воронцов К. В., Коэволюционный метод обучения алгоритмических композиций // Таврический вестник информатики и математики. – 2006. – №2. –С. 51 – 66.

6 Городецкий В. И., Серебряков С. В. Методы и алгоритмы коллективного распознавания: обзор // Труды СПИИРАН. – 2006. - Вып. 3, т. 1. – С. 139 –171.

7 Дьяконов А. Г., Анализ данных, обучение по прецедентам, логические игры, системы WEKA, RapidMiner и MatLab. - М.: Издательский отдел факультета ВМК МГУ имени М.В. Ломоносова, 2010. - 278с.

8 Дюк В. А., Технологии Data mining в медико-биологических исследованиях// Новости искусственного интеллекта. -2005. - №3. С.49-57

9 Жвалевский О. В., Отбор информативных признаков: постановка задачи и методика ее решения // Труды СПИИРАН. – 2007. Вып. 4, – С. 416 –426.

10 Журавлев Ю.И., Рязанов В.В., Сенько О.В., Распознавание Математические методы. Программная система. Практические применения.- Москва: Фазис, 2006. -157с.

11Кацко И.А., Паклин Н.Б. Практикум по анализу данных на компьютере: Учеб. пособие для вузов - М.: Издательство «КолосС», 2009. - 278 с

12 Корлякова М.О., Твердохлеб Н.С. Выбор метода вычисления информативности признаков//Десятая национальная конференция по искусственному интеллекту с международным участием КИИ-2006. Труды конференции. - 2006. - №3. С.56-65

13 Кочетов А.Г., Лянг О.В., Масенко В.П., Методы статистической обработки медицинских данных. - М.: РКНПК, 2012. – 42с.

14 Кричевский М. Л., Интеллектуальный анализ данных в менеджменте: Учеб. пособие. СПб.: СПбГУАП, 2005. - 208 с.

15 Кулаичев А. П. Методы и средства комплексного анализа данных. - М: ИНФРА-М, 2011.- 512с.

16 Лбов Г. С., Бериков В. Б., Устойчивость решающих функций в задачах распознавания образов и анализа разнотипной информации. - Новосибирск: Институт математики, 2006. - 218с.

17 Лбов Г.С., Бериков В.Б., Современные тенденции в кластерном анализе.- Новосибирск: Институт математики, 2009. - 30с.

18 Лепский А. Е., Броневич А. Г., Математические методы распознавания образов: Курс лекций.-Таганрог: Изд-во ТТИ ЮФУ, 2009.-155 с.

19 Люггер Д. Ф., Искусственный интеллект: стратегии и методы решения сложных проблем. – М.: Вильямс, 2005. – 864с.

20 Мерков А. Б., Распознавание образов. Введение в методы статистического обучения. - М.: Едиториал УРСС, 2011 - 256c.

21 Новиков Д.А., Новочадов В.В. Статистические методы в медико-биологическом эксперименте.- Волгоград: Издательство ВолГМУ, 2005. – 84 с.

22 Паклин Н.Б., Орешков В.И., Бизнес-аналитика: от данных к знаниям: учеб. пособие / Н.Б. Паклин, В.И., Орешков. – СПб.: Питер, 2010. – 704с.

23 Реброва О.Ю., Применение методов интеллектуального анализа данных для решения задачи медицинской диагностики// Новости искусственного интеллекта. -2005. - №3. С.76-80

24 Ройзензон Г.В., Способы снижения размерности признакового пространства для описания сложных систем в задачах принятия решений// Новости искусственного интеллекта. -2006. - №1. С.18-28

25 Рутковский Л., Методы и технологии искусственного интеллекта. М.: Горячая линия–Телеком, 2010.- 520 c.

26 Симчера В. М., Методы многомерного анализа статистических данных : учеб. пособие для вузов / В. М. Симчера. - М. : Финансы и статистика, 2008. - 400 с.

27 Тюмиков Д. К., Блашенцева С. А., Субботин А. М., Савченков Н. Н., Регрессионно-логическая модель диагностики заболеваний// Проблемы управления. –2011. – №1. –С.63–67

28 Филаретов Г.Ф., Лебедев Д.С, Задача уменьшения размерности пространства исходных данных при прогнозировании характера течения острого панкреатита// Новости искусственного интеллекта. -2006. - №1. С.29-35

29 Фомина М. Н., Методы обнаружения знаний в массивах данных с шумом// Новости искусственного интеллекта. -2006. - №3. С.63-80

30 Шлезингер М., Главач В. Десять лекций по статистическому и структурному распознаванию. — Киев: Наукова думка, 2004.-544с.

 

Скачать: Intellektualizaciya-obrabotki-dannyh-donozologicheskoy-diagnostiki.doc

Назад Вперед

Категория: Дипломные работы / Дипломные работы по информатике

Уважаемый посетитель, Вы зашли на сайт как незарегистрированный пользователь.
Мы рекомендуем Вам зарегистрироваться либо войти на сайт под своим именем.