Моделирование кредиторской задолженности заемщиков коммерческого банка

0

3 Моделирование уровня кредитоспособности заемщиков

3.1 Классификация заемщиков по степени кредитоспособности на основе самоорганизующихся карт Кохонена

Перед нами ставится задача снижения количества неверно классифицированных заемщиков.

Рассмотренная выше бинарная модель позволяет классифицировать заемщиков только на две группы. Такое жесткое разбиение заемщиков не всегда уместно, так как высока вероятность ошибок первого и второго рода, то есть неверное отнесение заемщика в другой класс. С целью уменьшения количества ошибок попробуем выделить большее количество групп.

Так как данные о заемщиках имеют различную природу (количественные и качественные), а также сильно зашумлены это обуславливает необходимость использования аппарате нейронных сетей для проведения классификации.

Самоорганизующиеся карты Кохонена – один из частных видов нейронных сетей. Карты Кохонена - инструмент для обнаружения взаимосвязей между объектами, это один из методов проецирования многомерного пространства наблюдений на пространство более низкой размерности (чаще всего, двухмерное) - карту. Поэтому карты Кохонена часто используют для решения задач визуализация и кластеризации [38].

Элементы самоорганизующейся карты называют узлами или нейронами. Узлы некоторым образом связаны между собой, например, они могут образовывать решетку. Число узлов в карте и ее структуру выбирает аналитик. Каждому узлу в соответствие ставятся два набора параметров: координаты узла и вес. По координатам узла на карте можно определить его соседей - ближайшие узлы. Веса - это главный элемент модели Кохонена. Каждому узлу соответствует вектор весов, равный по размерности количеству входных наблюдений. Таким образом, для каждого наблюдения находят свой вес. Веса рассчитываются с помощью итеративной процедуры, в ходе которой параметры карты подгоняются под наблюдения. По ее завершении, самоорганизующаяся карта построена [43].

Карта Кохонена позволяет провести визуализация многомерных данных в двумерном пространстве. Результаты представляются в виде серии двухмерных изображений (сколько размерностей во входных данных, столько и изображений). На рисунках цветом обозначают, насколько велико значение рассматриваемой компоненты вектора весов в том или ином узле. Чаще всего пользуются градиентными палитрами: чем меньше значение в узле карты, тем темнее соответствующий участок изображения, по аналогии с географическими картами (Self Organizing Maps – SOM).

Алгоритм функционирования самообучающихся карт представляет собой один из вариантов кластеризации многомерных векторов. Примером таких алгоритмов может служить алгоритм k-ближайших средних. Важным отличием алгоритма SOM является то, что в нем все нейроны (узлы, центры классов) упорядочены в некоторую структуру (обычно двумерную сетку). При этом в ходе обучения модифицируется не только нейрон-победитель, но и его соседи, но в меньшей степени. За счет этого SOM можно считать одним из методов проецирования многомерного пространства в пространство с более низкой размерностью. При использовании этого алгоритма вектора, схожие в исходном пространстве, оказываются рядом и на полученной карте.

При реализации алгоритма SOM заранее задается конфигурация сетки (прямоугольная или шестиугольная), а также количество нейронов в сети. Некоторые источники рекомендуют использовать максимально возможное количество нейронов в карте. При этом начальный радиус обучения в значительной степени влияет на способность обобщения при помощи полученной карты. В случае, когда количество узлов карты превышает количество примеров в обучающей выборке, то успех использования алгоритма в большой степени зависит от подходящего выбора начального радиуса обучения. Однако, в случае, когда размер карты составляет десятки тысяч нейронов, то время, требуемое на обучение карты обычно бывает слишком велико для решения практических задач, таким образом необходимо достигать допустимого компромисса при выборе количества узлов.

Обучение состоит из последовательности коррекций векторов, представляющих собой нейроны. На каждом шаге обучения из исходного набора данным случайно выбирается один из векторов, а затем производится поиск наиболее похожего на него вектора коэффициентов нейронов. При этом выбирается нейрон-победитель, который наиболее похож на вектор входов. Под похожестью в данной задаче понимается расстояние между векторами, обычно вычисляемое в евклидовом пространстве[38].

Построим карту Кохонена с помощью аналитической платформы Deductor. Было задано 800 нейронов, форма ячейки карты шестиугольник, количество классов было задано 4.

Для интерпретации классов по цветам воспользуемся общепринятой градацией серого, в которой белый цвет соответствует максимальным значениям оцениваемого показателя, а черный – минимального. Таким образом выделяются не только класс благонадежных и неблагонадежных заемщиков, но два других класса, «предположительно благонадежные» и «предположительно неблагонадежные».

Графически выделение 4 классов благонадежности заемщиков представлено на рисунке 3.1.

При данном методе отрисовки полученную карту можно представить в виде карты, имеющей слои определенного цвета. Каждый слой представляет собой раскраску, порожденную одной из компонент исходных данных. Полученный набор раскрасок может использоваться для анализа закономерностей, имеющихся между компонентами набора данных.

После формирования карты получают набор узлов, который отображается в виде двумерной картинки. При этом каждому узлу карты ставится в соответствие участок на рисунке, четырех или шестиугольный, координаты которого определяются координатами соответствующего узла в решетке.

Для определения цвета ячейки используются значения компонент. Наиболее часто используют градации серого. В этом случае ячейки, соответствующие узлам карты, в которые попали элементы с минимальными значениями компонента или не попало вообще ни одной записи, будут изображены черным цветом, а ячейки, в которые попали записи с максимальными значениями такого компонента, будут соответствовать ячейки белого цвета.

Рисунок 3.1 – Кластеризация на основе самоорганизующейся карты Кохонена.

Интерпретируя классы согласно градации серого видим, что класс «абсолютно благонадежных заемщиков» находится на разных концах карты. Это означает, что при очень высоком значении одних показателей нивелируется значение других. Так, например, при очень высоком уровне дохода вне зависимости от того какие значения принимают другие показатели заемщик получает статус «абсолютно благонадежный». Подобная картина соответствует и другим трем классам.

В таблице 3.1 представлено средних значений показателей по полученным классам.

Таблица 3.1 – Описание объектов внутри классов

Наименование показателя

Класс 1

Класс 2

Класс 3

Класс 4

1

2

3

4

5

Наличие иждивенцев, %

2,90%

100%

0,70%

0%

Наличие других кредитов, %

100%

6,60%

0%

0%

Семейное положение, %

0%

95%

53,40%

100%

Наличие предыдущих кредитов, %

70,70%

49,70%

60,80%

60,80%

Наличие недвижимости, %

36,20%

67,80%

75,70%

75,70%

Стаж, лет

8

10

9

13

Возраст, лет

32

39

35

37

Срок кредита, мес.

18,88

20,755

23,196

22,231

Анализируя таблицу 3.1 можно отметить, описать каждый из полученных классов и получить правила отнесения заемщиков по степени их благонадежности.

Так, очевидно, что класс 1 - «Абсолютно неблагонадежные» заемщиков – это группа заемщиков, имеющих другие текущие кредиты, не состоящие в браке, большая часть которых уже брала кредиты в банках и не имеет собственного жилья. Это наиболее рискованные заемщики, выдавать кредит которым не рекомендуется.

Следующий класс заемщиков – «Предположительно неблагонадежные» – это заемщики в возрасте 39 лет, состоящие в браке и имеющие иждивенцев, в редких случаях имеющие другие кредиты. Этим заемщикам также не рекомендуется выдавать кредит, однако, окончательное решение по заемщикам, попавшим в этот класс банку придется принимать в индивидуальном порядке.

Следующий класс заемщиков – «Предположительно благонадежные» «Абсолютно благонадежные» имеют заемщиков имеющих кредитную историю, не имеющих в наличии иждивенцев, а также не имеющие других текущих кредитов. Несмотря на то, что в данный класс попадают преимущественно благонадежные заемщики рекомендуется выносить решение по каждой заявке в индивидуальном порядке.

Последний класс заемщиков – «Абсолютно благонадежные» заемщики имеют заемщиков имеющих кредитную историю, не имеющих в наличии иждивенцев, а также не имеющие других текущих кредитов, а также состоят в браке. Это наиболее предпочтительные для банка заемщики и в дальнейшем они будут рассматриваться как эталон.

Для подтверждения верного выделения нескольких классов построим также проекцию Саммона.

Под проекцией Саммона понимают метод анализа данных, основанный на визуализации исходной многомерной выборки на плоскость. При этом рядом с ней оказываются те элементы выборки, которые находятся рядом и в исходном многомерном пространстве.

Визуальное отображение проекции Саммона представлено на рисунке 3.2.

Рисунок 3.2 – Проекция Саммона

Согласно рисунку 3.2 очевидно, что заемщики разбиваются примерно на 4 класса, что обуславливает дальнейшую необходимость выявления более чем двух классов.

На основании построенных карты Кохонена и проекции Саммона получили разбиение всех заемщиков на 4 группы.

На основании полученных результатов можно сделать вывод, что для банка целесообразней выделения большего количества классов. На основе полученной классификации построим модель множественного выбора.

3.2 Оценка кредитоспособности заемщиков на основе модели множественного выбора

В целом ряде случаев не существует естественного упорядочения альтернатив, благодаря которому и возникает монотонная связь между латентной переменной и наблюдаемой переменной, принимающей конечное количество значений.

Пусть имеется K таких альтернатив и пусть i-ый объект исследования приписывает k-ой альтернативе полезность uik, так что:

(3.1)

/// расписать, что показывают все переменные

Предположим, что i-ый субъект выбирает альтернативу k, если для него эта альтернатива имеет максимальную полезность. В этом случае полагаем, что yi=k. Тогда вероятность того, что i-ый субъект выберет альтернативу k, равна:

. (3.2)

Выразить такую вероятность в явном виде весьма проблематично, однако, если предположить, что общим для всех случайных величин является стандартное распределение экстримальных значений первого типа с функцией распределения вида (3.3), называемой распределением Гумбеля:

(3.3)

то формула для вычисления вероятности примет вид (3.4):

. (3.3)

Однако, если числитель и знаменатель выражения (3.3) разделить на , то каким бы ни было значение линейной комбинации , вероятность будет зависеть только от разностей . Это обстоятельство приводит к естественной нормализации, при которой вероятность примет вид (3.4):

. (3.4)

Модель вида (3.4) называют по-разному. Так, в книгах Вербека об этой модели говорится как о мультиномиальной логит-модели. В книгах Грина и Дэвидсона она называется условной логит-моделью, а под мультиномиальной понимается модель вида (3.5):

, (3.5)

В модели (3.5) объясняющие переменные специфичны только в отношении самих субъектов исследования, но не в отношении альтернатив, а специфичными в отношении альтернатив являются коэффициенты модели.

В рамках данной модели необходимо выдвинуть ряд замечаний.

Во-первых, в рассмотренной мультиномиальной логит-модели объясняющие переменные специфичны только в отношении самих субъектов исследования. Отсюда вытекает тождество (3.6):

(3.6)

То есть отношение вероятностей выбора альтернатив k и m определяется только параметрами уравнений для полезностей этих двух альтернатив и собственными атрибутами i-ого субъекта и не зависит от параметров уравнений для полезностей остальных (К-2) альтернатив.

Во-вторых, если рассматривается условная логит-модель с постоянными значениями коэффициентов во всех К уравнениях, то объясняющие переменные специфичны в отношении альтернатив, то есть отношение вероятностей выбора альтернатив k и m определяется только общим параметром уравнений для полезностей различных альтенатив и значениями в i-ом наблюдении объясняющих переменных, соответствующим k-ой и m-ой альтернативам. Это отношение не зависит от значений в i-ом наблюдении объясняющих переменных, соответствующих остальным (К-2) альтернативам. Такое свойство независимости оказывается нежелательным во многих ситуациях [52].

Так как нами были введены дополнительные градации показателя благонадежность, то для оценки принадлежности потенциальных заемщиков к одному из классов будем использовать модель множественного выбора, на примере мультиномиальной логит-модели.

В нашем случае имеется 4 градации показателя «благонадежность»:

0, Абсолютно неблагонадежные заемщики

y = 1, Предположительно неблагонадежные заемщики

2, Предположительно благонадежные заемщики .

3, Абсолютно благонадежные заемщики

По следующему набору показателей, влияющих на благонадежность заемщика:

x1 – срок кредита (мес.);

x2- месячный уровень дохода (руб.);

x3- стаж (1 – менее двух лет; 2 – 2-5 лет; 3 – 5-10 лет; 4 – 10-20 лет; 5 – более 20 лет);

x4- семейное положение (0 – нет; 1 - да);

x5- возраст (лет);

x6- наличие других кредитов (0 – нет; 1 - да);

x7- наличие недвижимости (0 – нет; 1 - да);

x8 - наличие предыдущих кредитов (0 – нет; 1 - да);

x9 - наличие иждивенцев (0 – нет; 1 - да).

Модель была оценена таким образом, что класс 3 – «Абсолютно благонадежные» заемщики, был взят за эталон. В итоге получены результаты оценивания коэффициентов модели для классов заемщиков 0 – 2 представлены в приложении Г. Оценка модели проводилась в ППП Gretl.

Таким образом, было получено 3 модели, отражающие в себе вероятность попадания в определенный класс.

Запишем модель для класса «Абсолютно неблагонадежных» заемщиков. Результаты оценивания коэффициентов модели представлены в таблице 3.2.

Таблица 3.2 – Результаты оценивания коэффициентов модели для класса «Абсолютно неблагонадежных» заемщиков

Показатель

Коэффициент

z-статистика

P-значение

-

1

2

3

4

5

const

-141,5

-3,355

8*10-4

***

срок кредита

0,051

0,584

0,559

-

месячный уровень дохода

0,009

3,392

7*10-4

***

стаж

-0,789

-0,943

0,345

-

семейное положение

0,414

0,263

0,792

-

Продолжение таблицы 3.2

1

2

3

4

5

возраст

0,145

1,911\

0,056

*

наличие других кредитов

-2,588

-1,091

0,275

-

наличие недвижимости

-0,578

-0,396

0,692

-

наличие предыдущих кредитов

1,255

0,661

0,508

-

наличие иждивенцев

-1,554

-0,83

0,406

-

Тогда модель для класса «Абсолютно неблагонадежных» заемщиков примет вид (3.7) - (3.7а) :

, (3.7)

, (3.7а)

Анализируя полученную модель видим, что на класс «Абсолютно неблагонадежных» заемщиков наиболее сильное влияние оказывают такие параметры как уровень дохода и возраст, в то время как остальные показатели оказывают среднее влияние. Этот факт позволяет сделать предположение о том, что эти два показателя оказывают наибольшее влияние на кредитоспособность заемщика.

Запишем модель для класса «Предположительно неблагонадежных» заемщиков. Результаты оценивания коэффициентов модели представлены в таблице 3.3.

Таблица 3.3 – Результаты оценивания коэффициентов модели для класса «Предположительно неблагонадежных» заемщиков

Показатель

Коэффициент

z-статистика

P-значение

-

1

2

3

4

5

const

-140,4

-3,329

9*10-4

***

срок кредита

0,027

0,307

0,758

-

месячный уровень дохода

0,009

3,384

7*10-4

***

стаж

-0,704

-0,844

0,398

-

семейное положение

0,798

0,511

0,609

-

возраст

0,147

1,947

0,051

*

наличие других кредитов

-3,085

-1,305

0,192

-

наличие недвижимости

-0,104

-0,072

0,942

-

наличие иждивенцев

-1,375

-0,741

0,458

-

Тогда модель для класса «Предположительно неблагонадежных» заемщиков примет вид (3.8) - (3.8а) :

, (3.8)

, (3.8а)

Анализируя полученную модель видим, что на класс «Предположительно неблагонадежных» заемщиков наиболее сильное влияние оказывают такие параметры как уровень дохода и возраст.

Запишем модель для класса «Предположительно благонадежных» заемщиков. Результаты оценивания коэффициентов модели представлены в таблице 3.4.

Таблица 3.4 – Результаты оценивания коэффициентов модели для класса «Предположительно благонадежных» заемщиков

Показатель

Коэффициент

z-статистика

P-значение

-

1

2

3

4

5

const

-0,379

-0,721

0,471

-

срок кредита

-0,086

-5,899

<1*10-5

***

месячный уровень дохода

1*10-4

3,072

2.1*10-4

***

стаж

0,302

3,348

8*10-4

***

семейное положение

0,256

1,142

0,253

-

возраст

0,021

2,154

0,031

**

наличие других кредитов

-0,639

-2,635

0,008

***

наличие недвижимости

0,675

3,147

0,001

***

наличие предыдущих кредитов

-0,277

-1,294

0,195

-

наличие иждивенцев

-0,578

-1,98

0,047

**

Тогда модель для класса «Предположительно благонадежных» заемщиков примет вид (3.9) - (3.9а) :

, (3.9)

. (3.9а)

Анализируя полученную модель видим, что в классе «Предположительно благонадежные» на показатель благонадежности заемщика положительное влияние оказывают такие показатели как месячный уровень дохода, стаж, семейное положение, возраст, наличие недвижимости и отрицательное влияние таких показателей как срок кредита, наличие других кредитов, наличие предыдущих кредитов, наличие иждивенцев.

На рисунке Г.1 (Приложение Г) представлена гистограмма распределения регрессионных остатков, на уровне значимости 0,05 была принята гипотеза о нормальном законе распределения регрессионных остатков. Характеристики качества модели представлена на рисунке 3.4.

Рисунок 3.4 – Проверка качества модели в пакете Gretl

Построенная модель является значимой. Таким образом, видим, что 75% случаев правильно предсказано, что говорит о высоком качестве модели.

Рассматривая классы более подробно видим, что на класс «Абсолютно неблагонадежные» положительное влияние оказывают такие параметры как срок кредита, месячный уровень дохода, семейное положение, возраст, наличие предыдущих кредитов и отрицательное влияние такие параметры как стаж, наличие других кредитов, наличие недвижимости, наличие иждивенцев.

Давая аналогичную характеристику класса «Предположительно неблагонадежные» видим, что в этом классе наблюдается положительное влияние на благонадежность заемщика таких параметров как срок кредита, месячный уровень дохода, семейное положение, возраст, наличие предыдущих кредитов и отрицательное влияние таких параметров как стаж, наличие других кредитов, наличие недвижимости, наличие иждивенцев.

В классе «Предположительно благонадежные» на показатель благонадежности заемщика положительное влияние оказывают такие показатели как месячный уровень дохода, стаж, семейное положение, возраст, наличие недвижимости и отрицательное влияние таких показателей как срок кредита, наличие других кредитов, наличие предыдущих кредитов, наличие иждивенцев.

Для проверки полученной модели были взяты десять заемщиков, пять из которых были признаны банком благонадежными, а пять – неблагонадежные. В итоге в группу «абсолютно неблагонадежных» попало два не кредитоспособных заемщика, в группу «предположительно неблагонадежных» попало три некредитоспособных заемщика, а в группу «предположительно благонадежных» четыре кредитоспособных заемщика. Таким образом, согласно модели три заемщика банком были классифицированы верно, а для еще семи заемщиков нужно было более подробно остановиться на определении их кредитоспособности. Нами была оценена мультиномиальная логит-модель, которая позволяет отнести потенциального заемщика, к одному из четырех классов благонадежности.

Категория: Дипломные работы / Дипломные работы по экономике

Уважаемый посетитель, Вы зашли на сайт как незарегистрированный пользователь.
Мы рекомендуем Вам зарегистрироваться либо войти на сайт под своим именем.