Моделирование кредиторской задолженности заемщиков коммерческого банка

0

1.2 Основные подходы к анализу кредитоспособности

Математические методы дают наглядную возможность построения моделей для оценки кредитных рисков по имеющемуся набору скоринговых параметров (как количественных, так и качественных).

С помощью этих выражений можно вычислять вероятности дефолтов заемщиков. Под дефолтами заемщиков условимся для простоты понимать случаи просрочки кредитой по кредиту, случаи полного или частичного невозврата кредита, случаи возврата кредита в обесцененном виде [27].

Средняя вероятность дефолта заемщика Q оценивается по формуле 1.1.

, (1.1)

где m - количество известных дефолтов конкретного заемщика;

n - общее число выданных этому заемщику кредитов.

Вышеприведенное выражение используется для оценки вероятности дефолта одного заемщика по данным о его предыдущем поведении. Если эту оценку использовать для оценки вероятности дефолта всего кредитного портфеля банка, то в данном случае m - это общее количество дефолтов всех заемщиков кредитного портфеля банка, а n - это общее число выдававшихся банком кредитов.

Среднеквадратическое отклонение (СКО) вероятности дефолта заемщика или вероятности дефолта всего кредитного портфеля банка оценивается по формуле:

, (1.2)

где величина определяется по формуле 1.3:

. (1.3)

Имея количественную оценку вероятности дефолта заемщика, можно достаточно точно оценить суммарные финансовые потери банка при кредитовании [26]. Разумеется, могут быть и другие подходы к содержанию понятия «дефолт заемщика».

Рассмотрим существующие подходы к оценке кредитоспособности потенциальных заемщиков. Одним из них является применения различных скоринговых систем, позволяющие определить: значение кредитного лимита для клиента и вероятность возврата им кредита.

В общем виде скоринг – это способ отнесение заемщика в классы кредито- или некредитоспособных. Впервые эту классификацию использовал в 1941 году Дэвид Дюран, разделив совокупность на «плохих» и «хороших» заемщиков.

Он выделил следующие коэффициенты при начислении баллов:

1) возраст – 0,1 балл за каждый год свыше 20 лет(максимум- 0,30);

2) пол – женский(0,40), мужской (0);

3) срок проживания - 0,042 за каждый год в данной местности (максимально- 0,42);

4) профессия- 0,55 - за профессию с низким риском, 0 - за профессию с высоким риском, 0,16 - другие профессии;

5) работа- 0,21 – предприятия в общественной отрасли, 0- другие;

6) занятость – 0,059- за каждый год работы на данном предприятии;

7) финансовые показатели – наличие банковского счета- 0,45, наличие недвижимости - 0,35, наличие полиса по страхованию – 0,19.

Таким образом, Дюран определил границу выдачи ссуды как 1,25 и более. Если набранная сумма баллов менее 1,25, следовательно, заемщик является некредитоспособным, а если более, то кредитоспособным [35].

В настоящее время в США широко распространен взаимный обмен информацией по вопросам кредитования. Под покровительством Национальной ассоциа­ции управления кредитом тысячи кредитных менеджеров постоянно встречаются для обмена информацией и опытом.

Кредитное законодательство 1974 г. США и Великобритании, устанавливающее принципы равно­правия в области кредитования, создало условия для формирования службы кредитных бюро. В таких бюро располагается кредитная история всех заемщиков, когда-либо обращавшихся за ссудой в любую кредитную организацию страны.

Зарубежный опыт функционирования специализированных рыночных организаций – кредитных бюро – демонстрирует ряд таких положительных результатов для банковской системы, как снижение рисков кредитования, упрощение процедуры оценки кредитоспособности заемщиков, снижение затрат на проверку достоверности информации о заемщике [42].

Банки, заключившие договоры с кредитными бюро, могут получать информацию о кредитных историях клиентов и предоставлять соответствующую информацию. Установлена определенная регулярность предоставления банками информации о своих клиентах – один раз в месяц. Кроме того, в режиме реального времени банки передают информацию обо всех поступивших к ним заявлениях на получение кредита от физических лиц, что позволяет бюро постоянно дополнять базу данных. Кредитное бюро гарантирует своевременную передачу кредитных отчетов о клиентах по запросу банка, а банк, в свою очередь, обязан своевременно предоставлять необходимую информацию в соответствии с требованиями кредитного бюро [51].

Во Франции кредитоспособность физического лица оценивается по системе весовых коэффициентов. Программа определения целесообразности и условий выдачи потребительского кредита содержит три раздела: информация по кредиту и по клиенту, финансовое положение клиента.

В первый раздел вводятся данные о служащем банка, выдающем кредит, номер досье клиента, название агентства, вид и сумма кредита, периодичность его погашения, процентная ставка, дата предоставления кредита, день месяца, выбранный клиентом для ее погашения. Ответ на вопрос о необходимости страхования, абсолютный размер ежемесячного погашения кредита со страховым платежом и без него, общий размер процентов и страховых кредитой, которые будут уплачены банку.

Во второй раздел программы вводятся данные о профессии клиента, его принадлежности к определенной социальной группе, работодателе, чистом годовом заработке, расходах за год, стаже работы.

На основе ввода перечисленной информации служащие банка получают заключение, можно ли выдать кредит. В основе подхода лежит модель неравнозначного присвоения весовых коэффициентов. Решение выдается на основе заполненной кредитной анкеты, путем сравнения ответов заемщика и минимальным набором требований банка. При отрицательном ответе агентство банка может направить клиента в свою дирекцию для дополнительного рассмотрения вопроса о возможности предоставления кредита [55].

Одним из наиболее часто применяемых подходов к оценке кредитоспособности заемщика является дискриминантный анализ. Дискриминантный анализ является статистическим методом, который позволяет изучать различия между двумя и более группами объектов по нескольким переменным одновременно. Основным предположением дискриминантного анализа является то, что существуют две или более группы, которые по некоторым переменным отличаются от других групп, причем такие переменные могут быть измерены по интервальной шкале либо по шкале отношений. Дискриминантный анализ помогает выявлять различия между группами и дает возможность классифицировать объекты по принципу максимального сходства [24].

Дискриминантный анализ требует выполнения ряда предположений:

1) нормальное распределение. Предполагается, что анализируемые переменные представляют выборку из многомерного нормального распределения. Однако, пренебрежение условием нормальности обычно не является «фатальным» в том смысле, что результирующие критерии значимости все еще «заслуживают доверия». Также можно воспользоваться специальными критериями нормальности и графиками;

2) однородность дисперсий/ковариаций. Предполагается, что матрицы дисперсий/ковариаций переменных однородны. Как и ранее, малые отклонения не фатальны, однако прежде чем сделать окончательные выводы при важных исследованиях, необходимо обратить внимание на внутригрупповые матрицы дисперсий и корреляций. В частности, можно построить матричную диаграмму рассеяния, весьма полезную для этой цели. При наличии сомнений необходимо произвести анализ заново, исключив одну или две малоинтересных совокупности. Если общий результат (интерпретация) сохраняется, то имеется разумное решение. Также можно использовать многочисленные критерии и способы для того, чтобы проверить, нарушено это предположение в данных или нет;

3) корреляции между средними и дисперсиями. Большинство «реальных» угроз корректности применения критериев значимости возникает из-за возможной зависимости между средними по совокупностям и дисперсиями (или стандартными отклонениями) между собой. Ясно, что если имеется большая изменчивость в совокупности с высокими средними в нескольких переменных, то эти высокие средние ненадежны. Однако критерии значимости основываются на объединенных дисперсиях, то есть, на средней дисперсии по всем совокупностям. Поэтому критерии значимости для относительно больших средних (с большими дисперсиями) будут основаны на относительно меньших объединенных дисперсиях и будут ошибочно указывать на статистическую значимость;

4) задача с плохо обусловленной матрицей. Другое предположение в дискриминантном анализе заключается в том, что переменные, используемые для дискриминации между совокупностями, не являются полностью избыточными. При вычислении результатов дискриминантного анализа происходит обращение матрицы дисперсий/ковариаций для переменных в модели. Если одна из переменных полностью избыточна по отношению к другим переменным, то такая матрица называется плохо обусловленной и не может быть обращена [38].

Показатель кредитоспособность зависит от многих факторов, часть из которых не наблюдаема. В связи с этим необходимо искать зависимость в виде функции регрессии, но применение линейной модели невозможно, так как у – дихотомическая переменная (наличие задолженности). Такая зависимость описывается с помощью модели бинарного выбора. В рамках данной модели исследуется зависимость качественной переменной, имеющей два уровня от вариации объясняющих переменных. Тогда модель бинарного выбора принимает вид (1.4):

. (1.4)

Модель (1.4) должна удовлетворять следующим свойствам:

1) ;

2) F(z) – не убывающая функция;

3)

4)

В зависимости от того какая выбрана функция в качестве F различают:

1) логит-модель бинарного выбора, в которой функция F примет вид:

, (1.5)

2) пробит-модель бинарного выбора, в которой функция F примет вид:

. (1.6)

Данные модели и их практическое применение широко раскрыто в работах таких авторов как Носко, Айвазян [66,67].

О качестве полученных моделей можно судить согласно значениях ошибок первого и второго рода или согласно виду ROC-кривой.

ROC-кривая (Receiver Operator Characteristic) – кривая, которая наиболее часто используется для представления результатов бинарной классификации в машинном обучении. Поскольку классов два, один из них называется классом с положительными исходами, второй – с отрицательными исходами. ROC-кривая показывает зависимость количества верно классифицированных положительных примеров от количества неверно классифицированных отрицательных примеров. В терминологии ROC-анализа первые называются истинно положительным, вторые – ложно отрицательным множеством. При этом предполагается, что у классификатора имеется некоторый параметр, варьируя который, мы будем получать то или иное разбиение на два класса. Этот параметр часто называют порогом, или точкой отсечения (cut-off value). В зависимости от него будут получаться различные величины ошибок I и II рода.

В логистической регрессии порог отсечения изменяется от 0 до 1 – это и есть расчетное значение уравнения регрессии. Будем называть его рейтингом.

ROC-кривая получается следующим образом:

1) для каждого значения порога отсечения, которое меняется от 0 до 1 с шагом dx (например, 0.01) рассчитываются значения чувствительности Se и специфичности Sp. В качестве альтернативы порогом может являться каждое последующее значение примера в выборке;

2) строится график зависимости: по оси Y откладывается чувствительность Se, по оси X – 100%–Sp (сто процентов минус специфичность), или, что то же самое, FPR – доля ложно положительных случаев. [39]

Таким образом, на основании данной модели банк достоверно может определить насколько верно выдавались кредиты в предыдущие моменты времени и, в зависимости от результата, корректировать свою кредитную политику.

1.3 Модели оценки кредитоспособности физических лиц

Остановимся на моделях, которые будут использованы для оценки уровня кредитоспособности потенциальных заемщиков.

На первом этапе построения любой модели необходимо провести отбор факторов оказывающих влияние на наличие у заемщика задолженности по кредиту. Особенность данной задачи состоит в том, что ряд показателей, характеризующих заемщиков, являются порядковыми или номинальными. В связи с этим для отбора скоринговых параметров можно использовать информационную статистику, анализ таблиц сопряженности или анализ ассоциативных возможностей.

Проффессором М. М. Ковалевым было предложено статистическое значение IV как специальный показатель оценки значимости скоринговых параметров. Предложенная им статистика IV (Information Value) должна относить каждый фактор в одну из четырех групп по степени их значимости [40].

Для каждой переменной рассчитываем показатель информационной статистики, который определяется следующим образом:

, (1.7)

где gi – количество заемщиков, не имеющих задолженностей по кредиту, в атрибуте,

bi – количество заемщиков, имеющих задолженности, в атрибуте,

g и b – количество благонадежных и неблагонадежных для данной переменной соответственно.

Данный показатель позволяет определить, насколько хорошо с помощью данной переменной можно определить принадлежность заемщика к классу благонадежности: чем больше значение IV, тем больше значимость переменной и как следствие оказывает ли этот показатель влияние на наличии задолженности [40].

Автором была предложена следующая градация для значения данного коэффициента:

1) менее 0,02 –незначимая переменная;

2) 0,02 – 0,1 - мало значимая переменная;

3) 0,1 – 0,3 - значимая переменная;

4) 0,3 и более –сильная переменная.

Также очень частым способом оценки взаимосвязи между двумя номинальными параметрами является таблица сопряженности.

Таблица сопряженности – средство представления совместного распределения двух переменных, предназначенное для исследования связи между ними. Таблица сопряженности является наиболее универсальным средством изучения статистических связей, так как в ней могут быть представлены переменные с любым уровнем измерения.

Строки таблицы сопряженности соответствуют значениям одной переменной, столбцы - значениям другой переменной (количественные шкалы предварительно должны быть сгруппированы в интервалы). На пересечении строки и столбца указывается частота совместного появления fij соответствующих значений двух признаков xi и yj. Сумма частот по строке fi называется маргинальной частотой строки; сумма частот по столбцу fj - маргинальной частотой столбца. Сумма маргинальных частот равна объему выборки n; их распределение представляет собой одномерное распределение переменной, образующей строки или столбцы таблицы.

В таблицах сопряженности могут быть представлены как абсолютные, так и относительные частоты (в долях или процентах).

В общем виде таблица сопряженности представима в следующем виде, представленном в таблице 1.1.

Таблицы сопряженности используются для проверки гипотезы о наличии связи между двумя признаками ( Статистическая связь, Критерий «хи-квадрат» ), а также для измерения тесноты связи ( Коэффициент фи, Коэффициент контингенции, Коэффициент Крамера). Нулевая гипотеза (H0) формулируется: переменные x и y независимы [41].

Таблица 1.1 – Теоретическое распределение вероятностей для таблицы сопряженности

Признак

B1

B2

Всего

1

2

3

4

A1

p11

p12

p10

A2

p21

p22

p20

Всего

p01

p02

p00

Объемы современных баз данных, которые весьма внушительны, вызвали устойчивый спрос на новые масштабируемые алгоритмы анализа данных. Одним из популярных методов обнаружения знаний стали алгоритмы поиска ассоциативных правил [28].

Рассмотрим данную задачу с целью выявления портрета наиболее типичного заемщика.

Целью анализа является установление следующих зависимостей: если встретился некоторый набор элементов X, то на основании этого можно сделать вывод о том, что другой набор элементов Y также же должен появиться.

Задача нахождения ассоциативных правил разбивается на две подзадачи:

1) нахождение всех наборов элементов, которые удовлетворяют порогу минимальной поддержки. Такие наборы элементов называются часто встречающимися;

2) генерация правил из наборов элементов, найденных согласно п.1. с достоверностью, удовлетворяющей порогу минимальной достоверности.

В настоящее время существуют большое число различных алгоритмов построения ассоциативных правил [28].

Деревья решений и нейронные сети относятся к алгоритмам, решающим задачи классификации. Под задачей классификации здесь понимается возможность отнесения какого-либо объекта (а именно потенциального заемщика) к одному из ранее обозначенных классов.

Деревья решений – это метод автоматического анализа данных, в результате которого получается модель как способ представления правил в иерархической, последовательной структуре, в которой каждому объекту соответствует единственный узел, дающий решение [29].

Опишем метод классификации на основе деревьев решений. На основе имеющейся базы данных за прошлые периоды строится дерево. Относительно каждого заемщика должно быть известно была ли возвращена основная сумма долга по кредиту, были ли выплачены проценты и не было ли просрочек в платежах. Таким образом эти известные ситуации обучающей выборки при построении дерева попадут в верхний узел, а затем распределятся вниз, образуя дочерние узлы. Критерием разбиения являются значимо различные значения одного определенного входного фактора. Для определения поля, по которому произведется разбиение используется мера неопределенности или так называемая энтропия. Причем выбирается то поле, при разбиении по которому устраняется больше неопределенности. А величина неопределенности зависит от количества примесей (разноклассовые объекты), находящихся в одном узле. Нулевая энтропия свидетельствует о том, что объекты относятся к одному классу [29].

Полученную в результате модель используют при определении класса заемщиков в ситуации поступления очередной заявки на получение кредита.

Особенностью этого метода классификации является то, что при существенном изменении текущей ситуации на рынке дерево решений адаптируется, то есть перестраивается в соответствии с текущей обстановкой.

Еще одним подходом является построение искусственной нейронной сети, которая представляет собой математическую модель в виде системы соединенных и взаимодействующих между собой искусственных нейронов. Система используемой при оценки уровня кредитоспособности заемщиков нейросети представима в виде двухслойного персептрона, причем каждый нейрон распределительного слоя соединен со слоями выходного слоя, расположенного в виде двумерной решетки. Нейроны второго слоя называются кластерными элементами, а их количество определяет предельное количество групп, на которые система разделит входные данные. Таким образом, с ростом количества нейронов второго слоя увеличивается детализация результатов процесса кластеризации [30,31].

Также необходимо подчеркнуть, что система работает на основе соревновательного метода: нейроны выходного слоя соревнуются друг с другом, а победивший элемент-нейрон имеет вектор весов наиболее приближенный к входному вектору сигналов. За меру близости между векторами чаще всего берут обычное евклидово расстояние между ними.

Цикл обучения сети продолжается то тех пор пока не будет достигнуто нужное состояние, а в качестве критерия остановки процесса обучения можно взять один из следующих критериев:

1) топологическую упорядоченность матрицы весов;

2) момент, в который изменение весов стало незначительным;

3) стабилизацию выхода сети [32].

Для визуализации многомерных данных с целью определения количества классов могут быть использованы самоорганизующиеся карты Кохонена, это соревновательная нейронная сеть с обучением без учителя, выполняющая задачу визуализации и кластеризации. Идея сети предложена финским учёным Т. Кохоненом.

Самоорганизующаяся карта состоит из компонентов, называемых узлами или нейронами. Каждый из узлов описывается двумя векторами. Первый - вектор веса m, имеющий такую же размерность, что и входные данные. Второй - вектор r, представляющий собой координаты узла на карте. Обычно узлы располагают в вершинах регулярной решётки с квадратными или шестиугольными ячейками.

Изначально известна размерность входных данных, по ней некоторым образом строится первоначальный вариант карты. В процессе обучения векторы веса узлов приближаются к входным данным. Для каждого наблюдения выбирается наиболее похожий по вектору веса узел, и значение его вектора веса приближается к наблюдению. Также к наблюдению приближаются векторы веса нескольких узлов, расположенных рядом, таким образом если в множестве входных данных два наблюдения были схожи, на карте им будут соответствовать близкие узлы. Циклический процесс обучения, перебирающий входные данные, заканчивается по достижении картой допустимой (заранее заданной аналитиком) погрешности, или по совершении заданного количества итераций [32].

Алгоритм построения карты Кохонена можно представить в следующем виде:

Первым этапом является инициализация Наиболее распространены три способа задания первоначальных весов узлов:

1) задание всех координат случайными числами;

2) присваивание вектору веса значение случайного наблюдения из входных данных;

3) выбор векторов веса из линейного пространства, натянутого на главные компоненты набора входных данных.

Вторым этапом является работа цикла.

Пусть t — номер итерации (инициализация соответствует номеру 0).

Выбрать произвольное наблюдение из множества входных данных.

Найти расстояния от него до векторов веса всех узлов карты и определить ближайший по весу узел . Это - нейрон-победитель. Условие на :

, (1.8)

где - вектор веса узла .

Если находится несколько узлов, удовлетворяющих условию, нейрон-победитель выбирается случайным образом среди них.

Определить с помощью функции (функции соседства) соседей и изменение их векторов веса.

3 этап: Задание . Функция определяет «меру соседства» узлов и и изменение векторов веса. Она должна постепенно уточнять их значения, сначала у большего количества узлов и сильнее, потом у меньшего и слабее. Часто в качестве функции соседства используется гауссовская функция:

, (1.9)

где - обучающий сомножитель, монотонно убывающий с каждой последующей итерацией (то есть определяющий приближение значения векторов веса нейрона-победителя и его соседей к наблюдению; чем больше шаг, тем меньше уточнение);

— координаты узлов и на карте;

— сомножитель, уменьшающий количество соседей с итерациями, монотонно убывает.

Параметры и их характер убывания задаются для каждой задачи свои. Изменение векторов веса производится по формуле:

. (1.10)

Таким образом, вектора веса всех узлов, являющихся соседями нейрона-победителя, приближаются к рассматриваемому наблюдению.

Вычисление ошибки карты, например, как среднее арифметическое расстояний между наблюдениями и векторами веса соответствующих им нейрон-победитель:

, (1.11)

где N - количество элементов набора входных данных.

Особой задачей является прогнозирование тех или иных финансовых показателей. Модели для прогнозирования нестационарных временных рядов были предложены Дж. Боксов и Г. Дженкинсом и получили название моделей авторегрессии проинтегрированного скользящего среднего (АРПСС(pd,q) - модели).

В моделях АРПСС(pd,q) используются идеи о возможности приближенно трансформировать нестационарные временные ряды в стационарные путем перехода от исходного ряда к его разностям соответствующего порядка d. Полученный таким образом ряд можно описать моделями авторегрессии, скользящего среднего или авторегрессии скользящего среднего [18,45].

Пусть ρt­ - нестационарный временной ряд со стационарными разностями d – го порядка. Модель АРПСС(pd,q) записывается в следующем виде:

, (1.12)

где .

С учетом ввода оператора сдвига Lρt­ = ρt­-1 и Δ = 1 – L, модель АРПСС(pd,q) можно записать в форме:

, (1.13)

, (1.14)

. (1.15)

Искомые параметры p,q определяют соответственно порядок авторегрессионной составляющей и порядок скользящего среднего, d – порядок интегрирования.

Еще одним распространенным подходом к прогнозированию является метод на основе экспоненциального сглаживания уровней временного ряда, суть которого заключается во взвешивании уровней исходного временного ряда, причем веса убывают по экспоненциальной функции. На основе сглаженного временного ряда можно построить прогноз на τ периодов времени вперед, сделанный в момент времени t [45].

Рассмотренные модели временных рядов могут быть использованы для прогнозирования суммарной кредиторской задолженности.

Таким образом, в данной главе было введено понятие кредитного риска, а также обоснована необходимость моделирования кредитного риска. Нами были рассмотрены подходы к управлению кредитным риском, которое осуществляется путем регулирования уровня кредиторской задолженности.

Были рассмотрены методы и модели, позволяющие заранее классифицировать заемщика по степени его благонадежности. Среди этих методов такие эконометрические модели как бинарная логит-модель и модель множественного выбора, нейросетевые модели, в том числе карта Кохонена и деревья решений.

Категория: Дипломные работы / Дипломные работы по экономике

Уважаемый посетитель, Вы зашли на сайт как незарегистрированный пользователь.
Мы рекомендуем Вам зарегистрироваться либо войти на сайт под своим именем.