Интеллектуализация обработки данных донозологической диагностики

0

1.3 Методы обработки данных в прикладных медико-биологических исследованиях

Медицинская диагностика в ее компьютерной реализации основана на решение задачи классификации, где каждому объекту (наблюдению, пациенту, событию) представленного значениями его признаков (симптомов, показателей, свойств) из некоторой предметной области ставится в соответствие предметное заключение(класс, диагноз) по определённому алгоритму принятия решений в соответствии с поставленной целью (рисунок 1).

Рисунок 1 - Принципиальная схема задачи классификации

Далее будем считать, что имеется некоторое конечное множество объектов произвольной природы, представленных совокупностью соответствующих векторов. Данное множество объектов(явлений, ситуаций, наблюдений) разбивается на ряд подмножеств где - число классов. Под классом понимается подмножество объектов, обладающих, с точки зрения исследователя, некоторыми общими свойствами. Так в медицинской диагностики класс - люди, имеющие одно и то же заболевание, и т.д. Каждый объект задается в виде векторов значений n признаков(переменных, характеристик) где - множество допустимых значений -го признака. В зависимости от множества признаки делятся на следующие типы:

- если или , назовем бинарной переменой. Эта характеристика обычно отражает отсутствие или наличие некоторого свойства у рассматриваемого объекта;

- если - набор некоторых неупорядоченных элементов(имен, символов), назовем номинальной переменной. Различные имена можно обозначить цифрами, т.е.

- если - упорядоченное множество значений, порядковой переменной;

- если - множество дискретных числовых значений, назовем дискретной количественной переменной;

- если - некоторый интервал на вещественной прямой, назовем непрерывной количественной переменной.

Для переменных четвертого и пятого типов определены арифметические операции на множестве их значений. Переменные от первого до четвертого типа назовем дискретными, я пятого - непрерывными; переменные первого, второго и третьего типов - качественными, а четвертого и пятого - количественными. Декартово произведение задает многомерное пространство переменных. Произвольному объекту соответствует признаковое описание, где - значение переменной для объекта. Обозначим через, - через,

Таким образом, исходные данные представляются в виде матрицы типа «объект-признак» следующего вида:

Здесь -я строка представляет собой -е наблюдение, а -й столбец образован значениями, которые принимает -й признак в различных наблюдениях.

Пусть решается задача классификации в случае классов. Вводится целевая переменная с множеством значений Переменная является номинальной переменной. Целевая переменная известная только на объектах обучающей выборки Требуется построить алгоритм классификации - решающую функцию, которая по признаковому описанию произвольного объекта предсказывала бы его класс, то есть приближала бы неизвестную функцию на всем множестве. Решающую функцию можно определить как некоторым образом организованную совокупность числовых данных, получаемую обычно в процессе обучения и сравнительно несложную последовательность операций, приводящих к классификации предъявленного вектора на основе использования этой совокупности данных.

По мере возрастания сложности систем наблюдений и заключений, снижения уровня формализации эмпирических медицинских знаний усложняются методы синтеза решающих функций. Вид и степень сложности решающего правила зависит от:

- размерности пространства заключений;

- уровня формализации эмпирических медицинских знаний;

- размерности пространства исходных показателей, соотношения в нем количественных и качественных показателей.

Известно несколько различных подходов к решению задачи построения решающих функций. Эти подходы(методы обработки) основаны на различных представлениях о задаче, использования специфической для каждой прикладной области дополнительной информации и т.п.

Существует большое количество методов(подходов) обработки данных в прикладных медико-биологических исследованиях. Все эти методы можно разделить на два основных направления в разработке правил принятия решений в прикладных медико-биологических исследованиях :

1) экспертные системы;

2) методы интеллектуального анализа данных.

Опишем основные направления решению задачи классификации, методы, разработанные в рамках этих направлений, и их наиболее существенные достоинства и недостатки.

1.3.1 Экспертные системы

Экспертная система — это система, которая оперирует со знаниями в определенной предметной области с целью выработки рекомендаций или решения проблем. Поэтому ее необходимо наделить функциями, позволяющими решать задачи, которые в отсутствие эксперта(специалиста в конкретной предметной области) невозможно правильно решить. Следовательно, необходимым этапом в ее разработке является приобретение соответствующих знаний от эксперта. Если перечислить требование к экспертным системам, то получится следующие:

- использование знаний, связанных с конкретной предметной областью;

- приобретение знаний от эксперта;

- определение реальной и достаточно сложной задачи;

- наделение системы способностями эксперта.

На рисунке 2 показана базовая структура экспертной системы, ниже перечислены функции, которые должны выполняться ее структурные элементы.

Рисунок 2 - Базовая структура экспертной системы

Во-первых, необходим механизм представления знаний в конкретной предметной области и управления ими. Для реализации этих функций используется механизм, называемой базой знаний. Во-вторых, необходим механизм, который на основании знаний, имеющихся в базе знаний, способен делать логические выводы. Этот механизм называется механизмом логических выводов. В-третьих, необходим механизм получения знаний от эксперта, поддержка базы знаний и дополнения ее при необходимости. Механизмом, реализующим эти функции, является модуль приобретения знаний. В-четвертых, необходим механизм, который не только способен давать заключения, но и представлять различные комментарии, прилагаемые к этому заключению, и объяснять его мотивы. Механизм, реализующий эти функции, называется модулем советов и объяснений.

Перечисленные структурные элементы являются наиболее характерными, хотя в реальных экспертных системах их функции могут быть усилены соответствующим образом, или расширены.

Основу экспертной системы составляет база знаний, под которой понимают совокупность знаний, относящихся к некоторой предметной области и формально представленных таким образом, чтобы на их основе можно было осуществлять рассуждения. Большинство экспертных систем базируются на правиле продукций: «Если – то». С использованием правила продукций создано много диагностических экспертных систем для конкретных групп болезней. Диагностические экспертные системы развивались в направлении их универсализации и расширения возможностей. Созданы системы, самостоятельно строящие дерево вопросов и т.п.

Вторая часть любой экспертной системы - механизм логического вывода, или решатель. В нем реализуются процедура достоверного вывода, алгоритмы правдоподобных рассуждений другие процедуры для выработки экспертных заключений.

Третий блок - модуль приобретения знаний, или интеллектуальный интерфейс, - организует взаимодействие пользователя с экспертной системой в удобной форме. В блоке общения используются достижения искусственного интеллекта, касающиеся понимания текстов на естественном языке, а также представления результатов работы экспертной системы в наглядном и выразительном виде.

Четвертый блок экспертной системы - модуль советов и объяснений. Его функция состоит в выдаче информации, объясняющей и иллюстрирующей путь получения того или иного вывода, если он интересует пользователя.

Экспертная система может полностью взять на себя функции, выполнение которых обычно требует привлечения опыта человека-специалиста, или играть роль ассистента для человека, принимающего решение. Другими словами, система (техническая или социальная), требующая принятия решения, может получить его непосредственно от программы или через промежуточное звено — человека, который общается с программой. Тот, кто принимает решение, может быть экспертом со своими собственными правилами, и в этом случае программа может «оправдать» свое существование, повышая эффективность его работы.

Основным источников знаний для ЭС систем являются эксперты в соответствующих областях. Многие исследователи рассматривают получение знаний от экспертов в качестве одного из главных «узких мест» технологии экспертных систем. Существует множество причин подобному положению дел. Выделим некоторые из них:

- использование экспертами узкоспециализированных терминов с неочевидным для неспециалиста смыслом;

- невозможность формализации в терминах математической теории большого числа знаний и фактов, используемых экспертом при решении задач;

- обширный контекст экспертного анализа: очень многие знания, используемые экспертом, кажутся ему само собой разумеющимися, но для постороннего отнюдь таковыми не являются;

- эксперты не хотят делиться своим опытом;

- эксперты не хотят вводить данные в экспертную систему, мотивируя это недружественностью интерфейса, боязнью что-то испортить, собственной занятостью и т.д. ;

- ни один эксперт не обладает полными знаниями в своей предметной области.

Помимо перечисленных трудностей можно отметить также недостаток квалифицированных инженеров по знаниям, способных эффективно осуществить перенос компетентности специалиста в ЭС, отсутствие удобных и эффективных средств приобретения знаний.

Точность определения правильного диагноза экспертными системами имеет большой разброс, а процент правильно определенных диагнозов – невысок. Все это привело к тому, что ЭС не смогли получить повсеместное распространение и внедрение.

1.3.2 Методы интеллектуального анализа данных

Методы интеллектуального анализа данных представляют собой совокупность методов обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений.

В основу современных методов интеллектуального анализа данных положена концепция шаблонов (паттернов), отражающих фрагменты многоаспектных взаимоотношений в данных. Эти шаблоны представляют собой закономерности, свойственные подвыборкам данных, которые могут быть компактно выражены в понятной человеку форме. Поиск шаблонов производится методами, не ограниченными рамками априорных предположений о структуре выборки и виде распределений значений анализируемых показателей.

Важное положение методов интеллектуального анализа данных - нетривиальность разыскиваемых шаблонов. Это означает, что найденные шаблоны должны отражать неочевидные, неожиданные регулярности в данных, составляющие так называемые скрытые значения.

Преимущества подхода основанного на методах интеллектуального анализа является четкая структуризация задачи классификации, а недостатком - построение классифицирующих функций, базирующихся на формальных моделях.

Известно несколько различных подходов интеллектуального анализа данных, пригодных для отнесения объекта к одному из нескольких классов по заданным признакам с учетом изменчивости. Эти подходы основаны на различных представлениях о задаче, использования специфической для каждой прикладной области дополнительной информации и т.п. В одних задачах классификации распознавание осуществляется автоматически(обучение без учителя), в других - заданы классы принадлежности рядов объектов в обучающей выборке(обучение с учителем).

Рисунок 3 - Принцип классификации на основе методов интеллектуального анализа данных

Кратко опишем основные существующие подходы к решению данной задачи, методы, разработанные в рамках этих подходов, и их наиболее существенные достоинства и недостатки.

При применение подхода, связанного с использование ограничений на класс распределений, предполагается, что существует некоторое распределение переменных, описывающих объекты генеральной совокупности для каждого класса. Имеется два направления данного подхода: параметрической и непараметрическое.

При использование параметрического подхода предполагается модель распределения, неизвестные параметры которой оценивают по выборке. В основе процедуры оценивания может лежать принцип правдоподобия или байесовский принцип. Обычно предлагаемая многомерная нормальная модель распределения с различными ограничениями на вид ковариационной матрицы, позволяющими снизить число оцениваемых параметров.

В параметрическом подходе к задаче классификации разработаны методы байесовских дискриминантных функций, классификационных функций, простейшего(«наивного») байесовского классификатора. Метод логической регрессии, рассматривает задачу классификации с двумя классами как задачу регрессионного анализа, в которой вместо самого класса прогнозируют его вероятность(т.е. количественную характеристику). Параметрический подход наиболее теоретически разработан , однако обладает тем недостатком, что часто модель не адекватна действительному распределению, а проверка адекватности в случае ограниченного числа наблюдений затруднительна.

При использовании непараметрического подхода вид модели распределения заранее не известен, предполагается лишь некоторое ограничение на степень вариабельности плотности распределения. В рамка данного подхода существует несколько различных направлений. При первом направлении решающая функция формируется на основе предварительно восстановленной по выборке функции распределения. Так методы ядерных(потенциальных) функций основаны на представлении о том, что каждой точке многомерного пространства, в которой имеется наблюдение, соответствует некоторая функция плотности(потенциал). Для любой точки можно определить суммарный потенциал, который и служит оценкой неизвестной общей плотности. Часто в качестве потенциальных функций выступают гауссовы колбообразные функции.

Второе направление непараметрического подхода не требует предварительного восстановления плотности распределения и основано на аппроксимации решающей функции функциями некоторого заданного вида. К этой группе может быть отнесен метод -ближайших соседей. К недостатком непараметрического подхода можно отнести трудности восстановления распределения в случае ограниченного числа объектов(наблюдений). Существующие методы дают возможность обрабатывать лишь информацию, описываемую количественными переменными(признаками).

Следующий подход связан с ограничениями на класс решающих функций. К этой группе относятся методы поиска оптимальных дискриминантных функций заданного вида (линейных, квадратичных кусочно-линейных и т.д.) осуществляют поиск разделяющих гиперповерхностей, для которых критерий качества принимает оптимальное значение. Критерием качества обычно служит оценка вероятности ошибки классификации, вычисляемая непосредственно по обучающей либо по тестовой выборке. В качестве алгоритмов поиска оптимальных параметров дискриминантной функции используют алгоритмы градиентного спуска, стохастической аппроксимации, генетический алгоритм и т.д. К недостаткам этих методов можно отнести проблемы, возникающие при наличие большого числа переменных(признаков).

Геометрический подход основан на гипотезе компактности. Предполагается, что в пространстве исходных переменных или в пространстве переменных, полученном из исходного с помощью некоторого преобразования определена метрика. Тогда полагают, что точки, соответствующие одному классу, расположены в этом пространств кучно(компактно) или образуют визуально хорошо различимые геометрические конфигурации, или разделяются с помощью гиперповерхностей простого вида. Данный подход используется при классификации с помощью вычисления расстояния Махаланобиса, а также в методе канонических дискриминантных функций, представляющих собой набор линейных комбинаций некоррелированных переменных, для которых критерий отношения межгруппового разброса к внутригрупповому принимает оптимальное значение. Так же к этой группе относятся методы: предельных упрощений, метод опорных векторов, метод структурной минимизации риска и т.д. К недостаткам методов, основанных на гипотезе компактности можно отнести их ориентацию в основном на количественные переменные, а также проблемы, возникающие при наличии сложных многосвязных областей, соответствующих каким-либо классам.

Алгебраический подход основан на использовании аппарата и методов дискретной математики, алгебры и математической логики. Началу развития данного направления положили работы М. М. Бондара и М. Вайнцвайга, в которых был предложен алгоритм КОРА поиска информативных сочетаний значений признаков, а также работы Ю. И. Журавлева, в которых были предложены алгоритмы поиска тупиковых тестов(элементарных классификаторов, информативных фрагментов признаковых описаний) и алгоритмы вычисления на их основе оценок степени принадлежности объекта к классам (АВО-алгоритмы). Данные алгоритмы теоретически позволяют реализовать любые другие алгоритмы классификации и решать задачи, характеризующиеся сложными зависимостями между признаками. Тупиковые тесты применяются для определения информационных весов признаков. Необходимо найти все тупиковые тесты таблицы, что возможно только для небольших таблиц данных. Для преодоления этих трудностей были разработаны алгоритмы вычисления оценок, основанные на определении близости распознаваемого объекта к определенному классу на заданных опорных множествах. Решение о принадлежности объекта к одному из классов принимается на основе суммирования оценок близости по всем опорным множествам. Наиболее эффективно методы вычисления оценок принимаются для обработки дискретных и бинарных характеристик.

При логико-вероятностном подходе классификация осуществляется путем нахождения логических закономерностей в наблюдаемых данных. При этом часто используется принцип минимальной длины описания. Данные методы основаны на формировании разбиения пространства разнотипных переменных. Требуемое число элементов разбиения задается как эвристический параметр.

Все выше перечисленное делает методы интеллектуального анализа данных самыми распространенными методами обработки данных во многих задачах медицинской диагностики. Методы обработки данных диагностических систем, полученные с использованием методов интеллектуального анализа данных, имеют несомненное преимущество по сравнению с методами обработки данных, построенными с помощью экспертов: качество знание экспертов искажено по сравнению со знаниями, полученными с помощью методов интеллектуального анализа данных. Кроме того, они устойчивы к неверным данным в выборке.

Рассматривая задачу интеллектуализации обработки данных при донозологическом скрининге функционального состояния человека можно сделать вывод, что ее решение может быть адекватно проведено с использованием методов интеллектуального анализа данных. Это связано с тремя обстоятельствами:

- во-первых, объектом исследования является практически здоровый человек, что на многие порядки снижает размерность пространства альтернатив(классов) выбора, которое составляет в донозологической диагностике обычно не белее трех или пяти;

- во-вторых, пространство наблюдений имеет, как правило, большую размерность;

- в-третьих, донозологическое обследование в силу их массовости позволяют формировать наборы данных достаточно больших объемов, что позволяет исследователям хорошо структурировать медицинские данные путем использования методов интеллектуального анализа данных.

1.4 Цель и задачи исследования

На основании проведенного анализа дынных литературы можно сделать вывод, что известные подходы к донозологической диагностики функциональных состояний человека хотя и носят комплексный характер, но не обеспечивают потенциально достижимого в современных условиях качество классификации при ограничениях на технико-экономические затраты и время принятия решений. Отсутствие надежных аналитических критериев классификации снижает эффективность управления функциональными состояниями, имеющими целью улучшения качества медицинского обслуживания за счет решения задачи прогнозирования и ранней диагностики заболеваний. В то же время, современные математические методы и информационные технологии позволяют решать исследуемые классы задач с достаточным для практики качеством в условиях нечеткого и неполного описания исходных данных и при плохо формализуемой структуре классов.

С учетом сказанного, целью диссертации является разработка общего методологического подхода обработки данных донозологической диагностики функционального состояния человека, определяющего порядок действий и математические методы, обеспечивающие повышения качества решения задачи прогнозирования и диагностики соответствующих классов заболеваний за счет применения интеллектуальных методов анализа данных.

Для достижения поставленной цели необходимо решить следующие задачи:

- на основание анализа структуры данных выбрать способ выделения и в последующем различия типологических состояний организма человека, формирующихся под воздействием факторов жизнедеятельности;

- построить метод отбора информативных признаков изучаемых функций организма человека, адекватно характеризующих функциональное состояние человека;

- построить алгоритм принятия решений с учетом «размытости» границ между альтернативными состояниями по показателям характеризующим функциональное состояние человека;

- оценить эффективность предложенных методов в ходе испытаний на репрезентативных контрольных выборках.

Категория: Дипломные работы / Дипломные работы по информатике

Уважаемый посетитель, Вы зашли на сайт как незарегистрированный пользователь.
Мы рекомендуем Вам зарегистрироваться либо войти на сайт под своим именем.