3.2. Разработка алгоритма извлечения и структурирования знаний с целью автоматизированного формирования анкеты КЗ



Применительно к поставленной задаче анализа СПП были рассмотрены работы, посвященные аналогичным задачам [55, 57, 93, 97, 98, 151], из которых следует, что в качестве начального этапа системного анализа подобных объектов используются различные виды группировки или разбиения множества на подмножества, теоретической основой которых всегда является некоторое отношение эквивалентности.

Для обозначения этой процедуры, в том числе в области анализа данных в социальной и экономической психологии, обычно используются термины: типология, кластеризация и классификация [45].
В работе следует придерживаться следующих положений, принятых в  данных областях  исследований:
  • «Разбиение, классы которого описаны через признаки, использованные при его построении, называют типологией или типологической группировкой» [138];
  • «Тип – это совокупность исследуемых объектов, гомогенная относительно заданного множества признаков. А типология – это совокупность типов, выделяемых на множестве исследуемых объектов. Тип может быть представлен некоторым усредненным представителем» [138];
  • «Выход при разбиении множества исследуемых объектов на уровень гомогенности (однородности) означает, что не осталось способов различать элементы внутри классов, то есть исчерпан набор признаков, порождающих новые разбиения» [98];
  • «Реальные отличия между двумя объектами имеют две составляющие: интертипные отличия, имеющие системный комплексный качественный характер; отличия внутри типа, имеющие случайный, количественный характер» [98].

Далее, использование типологии кредитных заемщиков позволит перейти к их классификации на ее основании, при утверждении, что если «типологическая группировка описана еще и в терминах какой-либо другой системы признаков, относящихся к данному явлению, то есть устанавливает в явной форме теоретические связи между различными сторонами изучаемой системы, то ее называют классификацией» [45].
В терминах исследуемой предметной области следует построить типологию КЗ, на основе которой будет формироваться анкета КЗ,  посредством которой и будет определяться СПП конкретного соискателя для оценки возможных рисков, связанных с субъективным кредитным поведением.
Такую задачу следует отнести к задаче кластеризации и построения классификатора в соответствии с полученной типологией КЗ [72].
При выборе метода выявления типологии как задачи кластеризации необходимо учитывать, что: получение кредита физическим лицом является действием, отношение к которому проявляется через выявленные посредством ассоциативного семантического эксперимента – СПП в связи с анкетируемыми признаками: демографическими (пол, возраст), социальными (семейное положение, образование); признаки имеют разные параметры, имеют разную размерность, имеют дискретные непараметрические распределения, которые задаются таблично; признаки не должны иметь преимуществ, то есть признак «мужчина» не лучше и не хуже признака «женщина» равно, как и полученные ответы на вопросы анкеты; ассоциативные ряды содержат значительно отличное количество ассоциаций у респондентов и имеют грубый шум – единожды встретившиеся ассоциации; группировки, определяющие структуру  типологии, содержат разные количества респондентов; автоматизированная система формирования анкеты должна давать возможность автоматически формировать анкету (по умолчанию), и при этом должна быть прозрачная и открытая, чтобы  осуществить возможность активного вмешательства ЛПР – аналитика, формирующего анкету КЗ.
По совокупности перечисленных особенностей предметной области исследований были проанализированы работы, посвященные вопросам использования методов выявления типологии, изложенные в работах [24, 32, 33, 151]. Из них следует, что методология интеллектуального анализа данных (ИАД или наиболее часто применимое Data Mining) наиболее актуальна на данный момент и отвечает обозначенной проблеме.
Технологии  Data Mining, в том числе, реализуют и наиболее традиционные методы, основанные на выдвижении гипотез и их проверки  статистическими критериями. Такие методы выделения типологий в социальных экономических и психологических исследованиях подробно изложены в работах [45, 40, 97, 98, 138]. Так же проблемы выделения типологий решаются методами классификации и снижения размерности, например, факторным и дискриминантным анализами [5, 6, 7, 56, 133]. В рассмотренных работах уделяется внимание кластерному анализу, как наиболее отвечающему вопросам выделения типологии на основе анализа данных, но значительно менее широко используемом в области социологических и психологических исследований из-за сложности его реализации. Подробно материал, посвященный кластерному анализу, изложен в работе [92].
Исходя из перечисленных выше особенностей следует, что наибольший интерес представляют работы, посвященные вопросам дискретной математики [9], а именно теории множеств, математической логики, теории графов. Проблемы наличия противоречий  при осуществлении процедуры кластеризации рассмотрены в работе [109].
Далее, для собственно реализации автоматизированной системы построения анкеты КЗ на основе выделения типологии с учетом перечисленных особенностей, изучены вопросы разработки интеллектуальных информационных систем, изложенные авторами в работах [44, 116, 152]. Отметим мнение, что «выделение объектов и их совокупностей – естественный (или) даже единственный способ организации нашего мышления» [100].
Особое внимание было уделено работам, в которых подробно описаны наиболее актуальные аспекты применительно к данной проблеме, а именно типичные модели представления знаний, способы обработки знаний, системы управления знаниями касаемо семантических сетей [9, 24, 33, 147].
Так как всем перечисленным выше особенностям в большей мере отвечает методология искусственного интеллекта, реализующая, в том числе технологии Data Mining, основанная на графовом представлении, наибольшее внимание следует уделить работам, положения которых взяты за основу для решения  обозначенной проблемы [9, 24, 33,146, 147].
Таким образом, данную задачу следует определить как задачу кластеризации для определения СЗП, образующих СПП  в соответствии с полученной типологией КЗ на основе положений теоретико-множественного представления. И далее, на основе сформированной анкеты КЗ, как задачу построения классификатора,  посредством которого и будет определяться СПП конкретного соискателя для оценки возможных рисков, связанных с субъективным кредитным поведением.
В соответствии с полученной в ходе первого этапа семантического эксперимента (ассоциативного эксперимента) структурой СПП имееммножествосущественныхпризнаков , где
, 1 , респондент имеет «хорошую» кредитную историю;
0, респондент имеет «плохую» кредитную историю.
, 1, респондент мужчина;
2, респондент женщина;
, 1, респондент имеет среднее спец. образование;
2, респондент имеет высшее образование.
, 1, респондент имеет детей;
2, респондент не имеет детей;
, 1, возраст респондента до 25 лет;
2, возраст респондента от 25 до 35 лет;
3, возраст респондента от 35 до 45 лет;
4, возраст респондента   свыше 45 лет.


Имеем множество групп респондентов

Имеем множество респондентов

Имеем множество ассоциативных рядов, отличных по количеству данных респондентами СПП,

– максимальное количество СЗП иначе длина ассоциативного ряда.
Каждому респонденту ставится в соответствие ряд СЗП
Имеем мультимножество ,
M – количество уникальных векторов , – количество повторений соответственно.
Необходимо построить СПП в соответствии с выявленной экспериментально и статистически доказанной  структурой, характерное для типов КЗ, отличных по существенным социально-демографическим признакам и признаку «хорошая/плохая» кредитная история, то есть найти кластер, который формируется для каждой из: характерных только для определенного типа кредитных заемщиков СПЗ; принадлежащих не единственному типу, но наиболее характерных для определенного типа кредитных заемщиков СПЗ.
Для решения задачи выявления СПП для типов заемщиков, отличных по существенным социально-демографическим признакам и признаку «хорошая»/«плохая» кредитная история, и поддержания его в актуальном состоянии представим исходные данные в виде двух ориентированных графов (для мужчин и женщин соответственно), так что взаимосвязанные социально-демографические признаки образуют взвешенные ориентированные деревья для мужчин и для женщин.
Корнем дерева является «пол» (другими словами нулевой уровень иерархии), узлами дерева будут значения социально-демографических признаков, при чем на одном уровне иерархии рассматриваются значения одного признака. В качестве листьев дерева будут выступать значения «хорошая»/«плохая» кредитная история. Весовые коэффициенты отражают количество респондентов с определенными социально-демографическими признаками и «хорошей»/«плохой» кредитной историей. Пример представлен на рис. 3.2.
Добавим к деревьям и множества вершин и , соответствующих выявленным в ходе эксперимента ассоциациям. Добавленные вершины могут быть связаны дугами более чем с одним узлом нижнего уровня иерархии ориентированного дерева, соответственно нарушается свойство «любые две вершины соединены единственной простой цепью», и в таком случае мы имеем дело с ориентированными графами и соответственно, и . Весовые коэффициенты добавившихся дуг соответствуют количеству респондентов, указавших соответствующую конечной вершине ассоциацию. Пример ориентированного дерева

Рис. 3.2. Пример ориентированного дерева , где корень – мужчины;
1-й уровень – типы образования; 2-й уровень – возрастные категории;
3-й уровень – тип кредитной истории («хорошая» G/«плохая» B
кредитная история)

Необходимо выявить такое подмножество ассоциаций, исключение которых из рассматриваемого ориентированного графа позволит получить ориентированное дерево – граф, в котором любые две вершины соединены единственной простой цепью. Полученное дерево будет содержать в качестве листьев характерные ассоциации – СЗП, уникально описывающие каждую социально-демографическую группу. Другими словами получим СПП для  каждого типа  заемщиков.
Анализируемые данные, полученные в результате ассоциативного эксперимента (как социального или психологического эксперимента), свободного от навязывания какими-либо стимулами, имеют отличительные особенности:
  • данные имеют грубый шум – единожды встретившиеся ассоциации;
  • длины ассоциативных рядов, то есть количество ассоциаций, данных разными респондентами значительно отличны (в данном эксперименте от 5 до  96 ассоциаций);
  • количество респондентов, представляющих различные типы заемщиков значительно отличны (в данном эксперименте от 6 до 95 человек);
  • структура СПП может меняться в зависимости от признаков как в сторону ее расширения, так и уменьшения количества признаков, определяющих структуру СПП;
  • положение признаков на уровне иерархии может меняться в зависимости от принятой структуры СПП кроме наиболее существенных признаков (в данном случае «пол», и «хорошая»/ «плохая» кредитная история);
  • количество СЗП, определяющих СПП для определенного типа КЗ и формирующих анкету, может быть задано по умолчанию или меняться в зависимости требований ЛПР.

Перечисленные особенности обуславливают наличие противоречий  и необходимость решения вызванных ими проблем по умолчанию или действиями согласно плану активного вмешательства ЛПР.
В данном случае возникает необходимость разработки плана активного вмешательства ЛПР согласно перечисленным проблемам, который реализуется следующим набором решающих правил.
ЛПР может задать порядок подчиненности при построении ориентированного дерева социально-демографических признаков, по умолчанию система принимает решение о построении дерева в том порядке признаков, в котором они хранятся в таблице.
Например:
  • Пол –gt; Возраст –gt; Образование –gt; Наличие детей –gt; Признак возврата кредита;
  • Пол –gt;Образование –gt; Возраст –gt; Наличие детей –gt; Признак возврата кредита;
  • Пол –gt;Образование –gt;Наличие детей –gt; Возраст –gt; Признак возврата кредита,  и т.п. 

Неизменным в порядке является условие, что признак «пол» является вершиной ориентированного дерева, признаки «хорошая»/ «плохая» кредитная история листьями дерева.
ЛПР задает необходимое количество СЗП для формирования анкеты (по умолчанию 50).
ЛПР задает количество в результирующем наборе СПЗ: ассоциаций, характерных для каждой группы, ассоциаций, встречающихся в группах с одним отличным признаком «хорошая»/ «плохая» кредитная история с максимальной разностью весов с учетом поправочного коэффициента на разные объемы выборок в группах.
ЛПР задает поправочный коэффициент, учитывающий неравномерные объемы выборок в группах (по умолчанию определяется группа с максимальным количеством человек и ей присваивается коэффициент равный единице, остальным – пропорционально количеству человек в группе, для которой определяется поправочный коэффициент).
ЛПР принимает решение о необходимости реализовывать изменение группировки респондентов по набору социально-демографических признаков, если в начальном наборе групп характерные или смежные ассоциации найдены не для всех.
Для реализации графовой модели типологии КЗ в условиях перечисленных особенностей анализируемых данных и реализации плана активного вмешательства ЛПР, выбран продукционный метод построения систем, иначе систем, основанных на правилах. Продукционные системы (RBS-системы) – системы с правилами типа «если (условие), …то (действие)». Под условием (антецедентом) понимается  некоторое предложение-образец, по которому осуществляется поиск в БП, а под «действием» (консеквентом) – действия, выполняемые при успешном исходе поиска (могут быть промежуточными, выступающими как условия и целевыми, завершающими работу системы). Условие является заголовком правила, действие его телом.
Продукционную модель, представленную в форме дерева правил отличает наглядность, высокая модульность и простой механизм логического вывода. Такой подход оправдан еще и тем, что: количество исходов конечно, таким образом можно создать базу с конечным набором правил, описывающих все возможные варианты исходов; возможна реализация прямых (выборка с прямым логическим выводом или «распознай-действуй») и обратных (выборка с обратным логическим выводом или «предположи-проверь») стратегий принятия решений, а также их комбинации; модульное построение – рабочие правила представляют знания в атомарной форме, а операторы можно объединять и редактировать независимо один от другого, обеспечивая простоту их расширения [152].
Для значительной оптимизации временных затрат, необходимых для поиска правил (в основном, это объясняется тем, что в случае возрастания количества правил для решения задачи в тот же период времени уже не возникает линейного роста требуемой вычислительной мощности), предлагается использование древовидных структур, что позволяет создавать очень большие системы, основанные на правилах, не заботясь о производительности [152].
Рассмотрим решение перечисленных проблем с точки зрения возможных операций над исходным графом для построения СПП.
На этапе предварительной обработки основная задача состоит в исключении грубых шумов из исходного графа и поправке на различия объемов выборок.
Решение проблем:
  1. Удаление единожды встретившихся ассоциаций:

Обозначим – «грубый шум», где , – корень . Исключая множество вершин из графа , получаем граф , в котором
, , где .
  1. Нормирование количества респондентов в группах: определение группы с максимальным количеством респондентов, которой присваивается коэффициент равный единице, остальным пропорционально отношению количества человек в рассматриваемой группе к определенному максимальному количеству респондентов:

Пусть дуга такая, что , где – множество дуг, инцидентных листьям. Тогда заменим на .
Рассмотрим обозначенные проблемы с точки зрения осуществления плана  ЛПР, аналитика формирующего анкету, и их возможное разрешение.
Анализ возможных операций  и исходов при выборе итогового множества СПЗ с разрешением противоречий по подграфу с множеством уникальных характерных  ассоциаций для групп:
  1. Выбор характерных ассоциаций, уникально характеризующих определенную группу.

Решение проблемы осуществляется путем исключения из нехарактерных ассоциаций и построение ориентированного дерева , в котором корень связан с любой ассоциацией единственной простой цепью:
Обозначим – множеств характерных ассоциаций, где – корень . Исключая множества вершин из графа  , получаем граф .
  1. Все множества характерных ассоциаций пусты.

Решение проблемы осуществляется путем изменения структуры дерева исключением всего предпоследнего уровня иерархии дерева :
Пусть , тогда из второго снизу уровня иерархии ():
  • выделим множество ;
  • добавим к вершины и ;
  • добавим к дуги и такие, что и , где и – листья, соответствующие «хорошей» и «плохой» кредитной истории;
  • удалим из вершины .
  1. Некоторые множества характерных ассоциаций пусты.

Решение проблемы осуществляется путем изменения структуры дерева исключением всего предпоследнего уровня иерархии дерева :
Пусть , тогда из второго снизу уровня иерархии ():
  • выделим множество ;
  • добавим к вершины и ;
  • добавим к дуги и такие, что и , где и – листья, соответствующие «хорошей» и «плохой» кредитной истории;
  • построим множества вершин и ;
  • добавим к множество дуг и , где и ;
  • удалим из вершины ,, .
  1. Все множества характерных ассоциаций не пусты, но количество ассоциаций неодинаково в группах.

Решение проблемы осуществляется путем уравнивания количества ассоциаций в группах удалением из групп ассоциации с наименьшими весами инцидентных им ребер, пока количество ассоциаций в группах не станет равным:
  • упорядочим вершины из по убыванию весов инцидентных им дуг.  Найдем , затем из удаляем вершин, инцидентных дугам с наименьшими весами.
  1. Совокупное количество выявленных ассоциаций больше заданного ЛПР.

Решение проблемы осуществляется путем приведения совокупного количества ассоциаций к указанному ЛПР: построим множество ассоциаций ,  упорядочим его элементы по убыванию весового коэффициента . Из множества удалим  ассоциации с наименьшими весовыми коэффициентами, где – ограничение на количество ассоциаций, заданное ЛПР. Из дерева (СH – credit history) удалим вершины, соответствующие удаленным ассоциациям.
Далее представлен анализ возможных операций  и исходов при выборе итогового множества СПЗ с разрешением противоречий по подграфу с множеством смежных характерных ассоциаций (для групп с различиями по кредитной истории).
  1. Выбор ассоциаций со значимым различием, характеризующих группы с одинаковым набором социально-демографических признаков, но отличные по признаку «хорошая»/«плохая» кредитная история.

Решение проблемы осуществляется путем поиска смежных вершин в ориентированных подграфах, полученных из исходного , далее путем выбора, где пути к узлам с «хорошей» и «плохой» кредитной историей равны и содержат один и тот же набор вершин. Найденные смежные вершины должны принадлежать только одному из подграфов.
Пусть – множество листьев . построим
– множества ассоциаций, характеризующих группы с одинаковым набором социально-демографических признаков, но отличные по «хорошая»/ «плохая» кредитная история.
Таким образом, получим новый граф , являющийся деревом, листьями которого будут ассоциации из множеств , инцидентные .
  1. Все множества ассоциаций, характеризующих группы с одинаковым набором социально-демографических признаков, но отличные по «хорошая»/«плохая» кредитная история, пусты.

Решение проблемы осуществляется путем изменения структуры дерева исключением всего предпоследнего уровня иерархии дерева :
Пусть , тогда из второго снизу уровня иерархии ():
  • выделим множество ;
  • добавим к вершины и ;
  • добавим к ребра и такие, что и , где и – листья, соответствующие «хорошей» и «плохой» кредитной истории;
  • удалим из множество вершин .
  1. Некоторые множества ассоциаций, характеризующих группы с одинаковым набором социально-демографических признаков, но отличные по «хорошая»/«плохая» кредитная история, пусты.

Решение проблемы осуществляется путем изменения структуры дерева исключением всего предпоследнего уровня иерархии дерева :
Пусть , тогда из второго снизу уровня иерархии ():
  • выделим множество ;
  • добавим к  вершины и ;
  • добавим к дуги и такие, что и , где и – листья, соответствующие «хорошей» и «плохой» кредитной истории;
  • построим множества вершин и ;
  • добавим к множество дуг и , где и ;
  • удалим из вершины ,, .
  1. Все множества ассоциаций, характеризующих группы с одинаковым набором социально-демографических признаков, но отличные по «хорошая»/«плохая» кредитная история, не пусты, но количество ассоциаций неодинаково в группах.

Решение проблемы осуществляется путем удаления из групп ассоциации с наименьшими весами инцидентных им ребер, пока количество ассоциаций в группах не станет равным:
Упорядочим вершины из по убыванию весов инцидентных им дуг. Найдем , затем из удаляем вершин, инцидентных дугам с наименьшими весами.
  1. Совокупное количество выявленных ассоциаций больше заданного ЛПР.

Решение проблемы осуществляется путем приведения совокупного количества ассоциаций к указанному ЛПР:
Построим множество ассоциаций ,  упорядочим его элементы по убыванию весового коэффициента . Из множества удалим  ассоциации с наименьшими весовыми коэффициентами, где – ограничение на количество ассоциаций, заданное ЛПР. Из дерева удалим вершины, соответствующие удаленным ассоциациям.
Аналогичное решение проблем осуществляется для .
Алгоритм формирования анкеты КЗ использует БП, то есть набор разработанных решающих правил и критериев, представленных в табл. 3.1, 3.2. Правила составляют БП для определения СЗП, формирующих СПП кредитного заемщика, и разработаны для двух задач: определения СЗП, являющихся уникальными ассоциациями для определенного типа КЗ (см. табл. 3.1) и являющихся смежными ассоциациями для нескольких типов КЗ, но с характерными значимыми отличиями (см. табл. 3.2).

Таблица 3.1
Правила для определения СЗП, являющихся уникальными ассоциациями для определенного типа КЗ
Условное
обозначение
Правило
Значение
по
умолчанию
(True – истина,
False – ложь,
Null – не задано)
Тип
правила
(H-заголовок,
B-тело)
Настраи-вается ЛПР
1 2 3 4 5
G Множество уникальных ассоциаций пустое NULL H Нет
A Есть уникальные ассоциации для всех групп NULL H Нет
B Количество ассоциаций одинаково во всех группах NULL H Нет
C Выполнить перегруппировку для поиска уникальных ассоциаций во всех группах False H Да
D Есть ограничение на количество ассоциаций для СПП False H Да


Продолжение табл. 3.1
1
2
3 4 5
E
Количество найденных ассоциаций равно количеству для СЗП
NULL H Нет
F
Количество найденных ассоциаций меньше количества СЗП
NULL H Нет
H
Выполнить перегруппировку пока множество уникальных ассоциаций пустое
True H Да
K
Усечь список ассоциаций до равного количества их в каждой группе
False H Нет

S1
Определить количество уникальных ассоциаций в каждой группе NULL B Нет

S2
Определить общее количество ассоциаций NULL B Нет

S3
Передать все найденные ассоциации в результат формирования СПП NULL B Нет

S4
Сортировать найденные ассоциации по весу, оставить по одной на группу с максимальным весом, поместить в результат NULL B Нет

S5
Сортировать найденные ассоциации по весу внутри групп, отбрасывать по одной из группы, пока количество больше требуемого, затем поместить итоговое множество в результат NULL B Нет


Окончание табл. 3.1
1 2 3 4 5
S6 Выполнить перегруппировку, пока не будут найдены уникальные ассоциации для каждой группы NULL B Нет
S7 Передать пустое множество ассоциаций в результат NULL B Нет
S8 Выполнить перегруппировку, пока множество уникальных ассоциаций пустое NULL B Нет
S9 Сортировать найденные ассоциации по весу внутри переформированных групп, отбрасывать по одной из группы, пока количество больше требуемого, затем поместить итоговое множество в результат NULL B Нет
S10 Сортировать найденные ассоциации в группе по убыванию веса и отбросить ассоциации снизу по минимальному количеству в группе NULL B Нет
X Пустое тело правила NULL B Нет


Разработанные правила представлены в виде древовидной структуры с иерархической проверкой символов (заголовков правил), где в квадрате указан заголовок правила, в круге – тело правила, Х в круге – отсутствие тела правила, T на связи – заголовок принял значение «истина», F на связи – «ложь».
На рис. 3.3, 3.4 показана логическая структура поиска решения на основе разработанной БП.

Таблица 3.2
Правила для определения СЗП, являющихся
смежными ассоциациями для нескольких типов КЗ,
но с характерными значимыми отличиями
Условное обозначение Правило Значение по умолчанию
Тип
правила
Настраи-вается ЛПР
1 2 3
4
5
AB Подмножество смежных вершин пустое NULL
H
Нет
BC Выполнить перегруппировку для поиска смежных ассоциаций
TRUE
H Да
CD Есть смежные ассоциации для каждой группы
NULL
H Нет
DE Выполнить перегруппировку для поиска смежных ассоциаций для каждой группы
False
H Да
EF Есть ограничение на количество смежных ассоциаций для формирования пространства
False
H Да
FG Количество смежных ассоциаций больше заданного
NULL
H Нет
HI Задан уровень значимости различий, меньше которого в результирующем СПП быть не должно
False
H Да
S20 Передать пустое множество в результат
NULL
B Нет
S21 Выполнять перегруппировку, пока множество смежных ассоциаций пустое
NULL
B Нет
S22 Передать полученное множество в результат
NULL
B Нет
S23 Отсортировать смежные ассоциации по убыванию веса, отбросить ассоциации с меньшими весами до определенного количества и передать оставшиеся ассоциации в результат
NULL
B Нет


Окончание табл. 3.2
1 2 3 4 5
S24 Отбросить смежные ассоциации с уровнем значимости различий меньше заданного NULL B Нет
S26 Выполнять перегруппировку, пока не найдены смежные ассоциации для каждой группы. NULL B Нет

Рис. 3.3. Древовидная структура иерархической проверки символов (заголовков правил), являющаяся базой правил для выбора СПП из набора уникальных ассоциаций, где в соответствии с табл. 3.1 в квадрате указан заголовок правила, в круге – тело правила, Х в круге – отсутствие тела правила, T на связи – заголовок принял значение «истина», F на связи – «ложь»

Рис. 3.4. Древовидная структура иерархической проверки
символов (заголовков правил), являющаяся базой правил
для выбора СЗП из набора характерных
смежных ассоциаций (начало)


Рис. 3.4. Древовидная структура иерархической
проверки символов (окончание)

Обобщая результаты, можно представить разработанный алгоритм  извлечения и структурирования знаний, отражающих субъективное кредитное поведение с целью автоматизированного формирования анкеты КЗ (рис. 3.5). Следует заметить, что разработанный алгоритм легко адаптируется и может быть без изменения использован для решения совершенно различных  экспериментальных  задач выделения СПП (профессиональная пригодность, предпочтения потребителей и т.п.).
Первым шагом является планирование ассоциативного эксперимента, которое заключается в определении цели и задач эксперимента, определении и обеспечении направленности эксперимента, определении и обеспечении однородности выборки, определении ограничений для обеспечения внешней и внутренней валидности, обеспечении возможности верификации полученных данных вследствие эксперимента (с учетом рекомендаций планирования проведения социально-экономических и психодиагностических экспериментов).
Вторым шагом является собственно проведение анкетирования респондентов – КЗ в целях получения ассоциативного ряда. При проведении данной процедуры следует также придерживаться рекомендаций проведения социально-экономических и психодиагностических экспериментов.
Третьим шагом является определение структуры типологии. На данном этапе необходимо определить наиболее значимые признаки, определяющие типологию (в данном случае  – типологию КЗ – социально-демографические признаки и «хорошая»/«плохая» кредитная история).
На четвертом шаге алгоритма реализованы основные подходы кластерного анализа. Особенностями разработанного алгоритма кластеризации является то, что признаки представлены в виде ориентированного графа, неизменным является условие, что признак «пол» – это вершина, признаки «хорошая»/«плохая» кредитная история соединены с ассоциациями, расположенными на последнем уровне иерархии. Задача состоит в том, чтобы выявить такое подмножество ассоциаций, исключение которых из рассматриваемого ориентированного графа позволит получить ориентированное дерево, в котором любые две вершины соединены единственной простой цепью. Полученное дерево будет содержать в качестве листьев характерные ассоциации – СЗП, уникально описывающие каждую социально-демографическую группу, а также характерные ассоциации, встречающиеся в различных группах со значимыми различиями частот встречаемости (уровень значимости варьируется  в зависимости от степени жесткости системы и может быть назначен ЛПР), и в соответствии с этими различиями ассоциации будут отнесены только к ветке с большим значением частоты встречаемости. Другими словами, получим СПП для  каждого типа КЗ. Сами правила обхода графа в целях построения СПП представлены продукционной БП с древовидной структурой. Перед запуском процесса формирования СПП необходимо выполнить предварительную проверку достижимости результата согласно заданному плану ЛПР, то есть выполнить алгоритм с обратным логическим выводом (рис. 3.6). В случае недостижимости результатов дается управляющий сигнал на ужесточение/смягчение критерия/критериев, которые приводят к противоречиям. Далее запускается алгоритм с прямым логическим выводом для формирования СПП (рис. 3.7). Это позволяет уйти от перебора данных, полученных в ходе эксперимента за счет проверки самых крайних ситуаций (например, по типу «плохая»/«хорошая» кредитная история). При этом появление нового респондента приводит к пересмотру структур ориентированных деревьев.
Пятым шагом алгоритма является собственно формирование анкеты КЗ. Наличие данного шага в описываемом алгоритме объясняется предусмотренной возможностью его использования для задач, отличных от представленной, например, для проведения социологических исследований при разработке маркетинговой политики, формировании рекламной политики банка и др.
Данный алгоритм позволяет формировать необходимое количество вариантов анкет, учитывая отличительные особенности данных, полученных в результате ассоциативного эксперимента, свободного от навязывания стимулов респонденту и учитывая  требования предметной области,  осуществлять  актуальный анализ данных на базе графовой модели типологии КЗ с применением БП древовидной структуры.

Рис. 3.5. Схема алгоритма извлечения и структурирования знаний,
отражающих субъективное кредитное поведение (начало)



Рис. 3.5. Схема алгоритма извлечения и структурирования знаний,
отражающих субъективное кредитное поведение (продолжение)



Рис. 3.5. Схема алгоритма извлечения и структурирования
знаний, отражающих субъективное кредитное поведение
(окончание)



Рис. 3.6. Схема алгоритма предварительной проверки
достижимости результата формирования
СПП по правилам ЛПР (начало)



Рис. 3.6. Схема алгоритма предварительной проверки
достижимости результата формирования
СПП по правилам ЛПР (окончание )




Рис. 3.7. Схема алгоритма автоматизированного
формирования анкеты КЗ (начало)

Рис. 3.7. Схема алгоритма автоматизированного
формирования анкеты КЗ (окончание)



Рис. 3.8. Схема алгоритма автоматизированного
формирования анкеты КЗ

Таким образом, алгоритм извлечения и структурирования знаний, отражающих субъективное кредитное поведение заемщика, учитывает требования предметной области и отличительные особенности данных, полученных в результате ассоциативного эксперимента, свободного от навязывания стимулов респонденту (что приводит к наличию противоречий). Алгоритм базируется на актуальном анализе данных, представленных в форме графовой модели типологии КЗ с применением БП древовидной структуры, позволяет автоматизировать процесс идентификации и интерпретации типологии КЗ с целью автоматизированного формирования анкеты КЗ. Причем, предложенные решения учитывают возможность разрешения противоречий по умолчанию или действиями, согласно плану активного вмешательства ЛПР. Алгоритм предусматривает предварительную проверку достижимости результата (формирования СПП) согласно правилам ЛПР, что позволяет уйти от перебора данных, полученных в ходе эксперимента. Алгоритм является универсальным, не привязан к конкретному типу исследований, его можно использовать для широкого круга социальных, социально-экономических исследований.


<< | >>
Источник: Андиева Е.Ю., Семенова И.И.. Поддержка принятия решений в системе кредитования: монография. Омск: СибАДИ,2010. 168 с.. 2010

Еще по теме 3.2. Разработка алгоритма извлечения и структурирования знаний с целью автоматизированного формирования анкеты КЗ:

  1. 2.2. КЛАССИФИКАЦИЯ ИНСТРУМЕНТАЛЬНЫХ СРЕД, ИСПОЛЬЗУЕМЫХ В СППР
  2. 2.1 Разработка обобщенного алгоритма выбора конфигурации логистической системы распределения продукции
  3. Оглавление
  4. Глава 3. Извлечение и структурирование знаний, отражающих субъективное кредитное поведение
  5. 3.1. Определение структуры СПП для формирования анкеты КЗ
  6. 3.2. Разработка алгоритма извлечения и структурирования знаний с целью автоматизированного формирования анкеты КЗ
  7. 4.3. Построение модели знаний
  8. Глава 5. Разработка алгоритма интеллектуальной поддержки принятия решений на основе оценки кредитоспособности с ситуационным управлением системой оценки рисков
  9. 6.2. Описание состава разрабатываемого программного обеспечения в соответствии со структурой ИСППР и функциями аналитика и кредитного инспектора
  10. СТРУКТУРНЫЕ ОСОБЕННОСТИ ПРОМЫШЛЕННОЙ ПОЛИТИКИ
  11. 2.2. Подготовка к разработке управленческого решения
  12. Тема 2 ПОДГОТОВКА К РАЗРАБОТКЕ УПРАВЛЕНЧЕСКОГО РЕШЕНИЯ
  13. 7.2. Философия Познание как форма активной интеллектуальной деятельности человека; роль философии в формировании научного знания; методы научного познания; методы эмпирического и теоретического исследований; роль практики в познании; знание и вера
  14. 10.5. Информатика тенденции и перспективы развития компьютерной техники и информационных технологий
  15. 18.2. Маркетинг формирование товарной политики и рыночной стратегии; разработка ценовой политики