Интеллектуализация обработки данных донозологической диагностики

0

2 Интеллектуализация донозологического скрининга функционального состояния человека

Обоснование подхода обработки данных донозологической диагностики при оценки функционального состояния человека является междисциплинарной задачей. Сложность ее решения во многом обусловлена самим объектом изучения - организмом человека, функционирование которого несопоставимо сложнее функционирования любой технической системы. Поэтому обоснование указанного подхода целесообразно проводить с учетом особенностей медико-биологической информации.

2.1 Характерные особенности медико-биологических данных

Современный уровень методического и методологического обеспечения для решения задач оценки функционального состояния человека в прикладных медико-биологических исследованиях характеризуется активным внедрением математических методов и формализуемых процедур. Это объясняется стремлением исследователей:

- внести большую строгость, четкость, ясность в понимание характера исходных данных;

- расширить глубину анализа за счет привлечения неочевидных способов рассуждения;

- получить критерии(признаки), позволяющие с высокой степень надежности распознавать изучаемые функциональные состояния.

Более широкое внедрение в практику прикладных медико-биологических исследований методов интеллектуального анализа данных сдерживается не столько из-за отсутствия адекватной медико-биологическим задачам методов анализа данных, сколько из-за отсутствия логического обоснования применения тех или иных методов интеллектуального анализа данных, учитывающих как особенности медицинской информации, так и специфику живых систем.

Методы интеллектуального анализа данных определяют как комплекс приемов и принципов, согласно которым производят сбор, анализ, систематизацию, сравнение и интерпретацию данных для получения научных и практических выводов. Они имеют как математическую сторону, связанную с процессом получения тех или иных оценок, так и нематематическую: методологию, методику и логику проведения исследования, методические и методологические вопросы постановки содержательных задач данной предметной области.

Эффективность применения методов интеллектуального анализа данных определяется комплексом условий, включающим в себя:

- адекватность и корректность полученных эмпирических данных поставленным задачам;

- полноту данных, соответствие их объема требованиям применяемых формализованных методов;

- соответствие данных основным ограничениям, свойственным конкретным методам;

- знание исследователем особенностей применяемых методов и его способность к адекватной интерпретации полученных зависимостей.

Выбор метода для получения количественных критериев оценки такой сложной системы как живой организм невозможен без предварительного анализа характерных особенностей медико-биологических данных. Ведущими из них при оценке функционального состояния человека являются:

- мультиколлинеарность показателей диагностики;

- наличие индивидуальных особенностей выраженности одних и тех же показателей у разных лиц.

Мультиколлинеарность медико-биологических показателей отражает корреляционную структуру биологических объектов. Мультиколлинеарность обозначает тесную корреляционную взаимосвязь между отбираемыми для анализа факторов, совместно воздействующими на общий результат. Существование мультиколлинеарности является серьезной проблемой медико-биологических данных. Суть проблемы в том, что поскольку коллинеарные показатели приводят к избыточной однотипной информации, исследователь может недооценить значимость других показателей в той степени, в которой они того заслуживают. Серьезной проблемой является и то, что иногда мультиколлинеарность сложно обнаружить.

Мультиколлинеарность между различными показателями функционирования систем организма является отражение действия скрытых(латентных) причин(факторов), непосредственно недоступных для прямого измерения, но порождающих разные по силе связи. Поэтому можно сказать, что регистрируемая в ходе диагностики функционального состояния информация является избыточной, поскольку разные показатели отражают одни и те же механизмы функционирования оцениваемой системы организма.

Второй характерной особенностью медико-биологических данных является их неоднородность, заключающаяся в том, что существуют некоторые классы лиц с близким состоянием различных функции организма, достоверно различающиеся в исследуемой выборке. Такие состояния можно условно назвать типологическими. Спектр типологических состояний ограничен и его полярными классами являются «здоровье» и «болезнь». Основная задача донозологической диагностики - выделить спектр состояний в диапазоне нормального функционирования организма, отличающихся разным уровнем напряжения регулярных систем. Наихудшим из донозологических состояний является истощение механизмов регуляции. Лица, имеющие данное состояние, могут быть отнесены к группе «риска»

Таким образом, анализ характерных особенностей медико-биологических данных позволяет наметить основные путь к идентификации типологических состояний человека и отбора интегральных критериев, то есть признаков которые разделяют типологические состояния.

2.2 Минимизация признакового пространства

При изучение функционального состояния человека одним из основных этапов является получение информативных показателей оценки изучаемых функции организма, адекватно характеризующих функциональное состояние человека. Отбор информативных показателей (признаков) позволяет уменьшить размерность модели не только с тем, чтобы удалить все незначащие признаки, не несущие в себе какой-то полезной для анализа информации, и тем самым упростить модель, но и чтобы устранить избыточные признаки, то есть информация, которую несут такие признаки, является лишней. Поэтому размерность входного вектора может оказать серьезные проблемы при оценки функционального состояния такие как:

- рост вычислительных затрат и времени, требуемого на обработку данных, до совершенно неприемлемых значений;

- сложность построения модели, трудность понимания ее пользователем;

- сложность интерпретации результатов анализа и оценки их достоверности;

- снижение качества результатов анализа. В исходном наборе могут содержаться данные, не связанные с исследуемым объектом. Если такие данные не будут исключены перед анализом, то они могут увести решение задачи в неверном направлении.

Все сокращаемы признаки можно разделить на две группы:

- незначащие - признаки, которые слабо или никак не связаны с результатами анализа. Использование таких признаков нецелесообразно по двум причинам. Во-первых, они не несут в себе информации, которая может быть использована при анализе, не содержит закономерностей и структур, которые могут представлять интерес при оценки функционального состояния организма. Во-вторых, использование незначащих данных может нанести ущерб результатам анализа. Такие данные могу содержать закономерности, которые не имеют отношения к решаемой задачи, но которые могут быть обнаружены моделью вместо искомых.

- избыточные - признаки, которые содержат полезную информацию, но без которых могут быть получены хорошие результаты анализа. Вся необходимая информация содержится в одном или нескольких других входных признаках, которые также используются для анализа, а избыточный признак в том или ином виде дублирует ее.

Основное отличие незначащих признаков от избыточных заключается в том, что незначащие признаки имеют низкую степень связи с результатами анализа, а избыточные - высокую степень связи с другими входными показателями исходного множества данных.

Пусть задан вектор признаков. Среди них необходимо выбрать наиболее информативные, т.е. получить новый вектор признаков, причем .

Отбор информативных признаков может производится в двух направлениях:

- отбор - определяется значимость каждого признака исходного множества для решения задачи. Затем признаки отбираются в порядке в порядке уменьшения их значимости. Как только попадает признак, значимость котор1ого меньше некоторого порога, отбор прекращается. Порог значимости устанавливается или на основе статистического анализа исходного множества, или опытным путем(рисунок 4).

- исключение - размер исходной выборки сокращается путем отбрасывания незначащих и избыточных признаков. Например, для каждого признака исходной выборки определяется коэффициент значимости, а затем исключаются все признаки, значимость которых ниже некоторого порога.

Рисунок 4 - Сокращение признаков путем отбора

Возможен и другой вариант. По мере исключения признаков результирующая выборка становится все менее похожа на исходную. Задается условия, что выборка, полученная в результате сокращения исходной, не должна отличаться от нее более чем на 70%. Затем все признаки исходной выборки ранжируются по уровню их значимости и начинается процесс исключения наименее значимых. Он будет продолжаться до тех пор, пока отличие исходной выборки от сокращенной не превысит допустимое значение(рисунок 5).

Рисунок 5 - Сокращение признаков путем исключения

В настоящее время используется большое количество различных подходов к отбору информативных показателей. Одни из этих подходов относятся к эвристическим, другие основаны на строгом статистическом анализе данных, третьи сочетают в себе и то и другое. Тем не менее можно выделить ряд общих требований ко всем алгоритмам снижения размерности данных:

- подмножество данных, образованное в результате сокращения размерности исходного множества, должно унаследовать от него столько информации, сколько необходимо для получения решения с заданной точностью;

- вычислительные и временные затраты на обработку данных с целью сокращения их размерности не должны обесценивать преимущества, полученные в результате сокращения размерности;

- модель, полученная на основе множества данных со сниженной размерностью, должна быть проще для разработки, реализации и понимания, чем модель, построенная на исходном множестве;

- признаки, оставшиеся после процедуры сокращения размерности, должны иметь высокий уровень значимости для решения задачи и не должны быть коррелированны между собой, а также содержать закономерности, которые могут увести аналитический процесс в сторону от правильных результатов.

Несмотря на разнообразие подходов, применяемым для отбора информативных признаков из исходного множества данных, отбор информативных показателей на основе оценки информационного содержания позволяет получить наиболее глубокую и полную информацию о внутренней структуре системного ответа организма человека. Отбор информативных показателей производится в соответствии с некоторым критерием. Этот критерий формулируется так, чтобы искомое решение доставляло оптимум (минимум или максимум) соответствующего функционала. Количество ошибок при классификации объектов выборки — это один из самых простых функционалов, а критерий (основанный на нем) — самый простой критерий отбора. Вместо числа ошибок можно рассматривать процент правильно распознанных объектов, причём, если речь идет о классификации объектов двух и более классов, следует учитывать наихудший процент правильно распознанных объектов из числа тех, которые получены для всех классов.

Минимум ошибок классификации на обучающей выборке — это внутренний критерий отбора, в то время как минимум ошибок классификации на контрольной выборке — это внешний критерий отбора. Внутренний критерий позволяет отсеять заведомо неоптимальные наборы. Задавая некоторую нижнюю границу процента правильно распознанных объектов, мы сужаем число тех наборов, среди которых производится поиск оптимального. Каждый такой набор затем проверяется в соответствии с внешним критерием.

Таким образом, ставится задача: найти оптимальный набор признаков и указать наилучшие условия, при которых он был получен.

Универсальный способ решения задачи — это полный перебор вариантов. В тех случаях, когда полный перебор невозможен, прибегают к эвристическим процедурам, существенно сокращающим объем вычислений. Таковы алгоритмы направленного отбор, основанные на включении и/или исключении признаков. Вместо того чтобы перебирать все варианты, алгоритм начинает с некоторого фиксированного набора признаков и последовательными операциями дополнения и/или исключения признаков добиться улучшения качества классификации. В ходе выполнения алгоритма направленного набора вариантов в общем случае получаются оптимальные наборы, которые могут существенно отличаться от исходного по составу признаков. Таким образом, метод направленного отбора — это эффективный в вычислительном отношении способ отбора информативных признаков, который позволяет в получить оптимальные набор.

Данный метод включает в себя следующие этапы:

1) Из списка всех возможных входных переменных выбирается та, которая имеет наибольшую корреляцию с переменной, после чего набор, содержащая лишь одну выбранную независимую переменну, проверяется на значимость при помощи информационного критерия Акаике

где - сумма квадратов ошибок алгоритма на выборке, - количество переменных, - количество объектов.

Если значимость набора не подтверждается, то алгоритм на этом заканчивается за неимением существенных входных переменных. В противном случае эта переменная вводится в модель и осуществляется переход к следующему пункту алгоритма.

Следует отметить, что в данном случае проверка на значимость всей модели в целом будет равносильна проверке на значимость выбранной независимой переменной, так как на данном этапе модель еще не содержит других входных переменных.

2) Из всех переменных-претендентов на включение в модель выбирается та, которая имеет наибольшее значение критерия.

3) Проводится проверка на значимость выбранной в пункте 2 независимой переменной. Если ее значимость подтверждается, то она включается в модель, и осуществляется переход к пункту 1 (но уже с новой независимой переменной в составе модели). В противном случае алгоритм останавливается.

Процедуру отбора независимых переменных по методу направленного отбора можно представить в виде блок-схемы, изображенной на рисунке 6.

Рисунок 6 - Блок-схема метода направленного отбора

Категория: Дипломные работы / Дипломные работы по информатике

Уважаемый посетитель, Вы зашли на сайт как незарегистрированный пользователь.
Мы рекомендуем Вам зарегистрироваться либо войти на сайт под своим именем.