Калиткин, Карпенко, Михайлов, Тишкин, Черненков - Математические модели природы и общества - 2005 (947500), страница 69
Текст из файла (страница 69)
ф 2. Установление связей между значимыми рубриками 2.1. Уровни связей. После рубрицирования статей, поступивших за фиксированный период времени, составляется матрица связей А, элементами которой ам (г, 1 =- 1, 2,..., л.. и — число рубрик) являются частоты принадлежности статей одновременно к йй и 1ьй рубрикам, ан число статей, принадлежащих только л-й рубрике. Элементы матрицы А обладают свойством симметричности относительно главной диагонали ам — — ом(л Ф 2).
Матрюле А соответствует пеориентироваюпяй граф, вершинами которого являются рубрики. Наличие ребра (связи) между 1-й и ~ьй рубриками определяется ненулевым значением элемента матрицы связей ам ф 0 (при а,з =- 0 ребро отсутствует). Под весом связи будем понимать значение ам. По матрице Л составляется матрица В, элементы которой (л, — — 1, если а,, ф О, и (лм — — О, если ал — — О. Среди всей совокупности рубрик выделены т (гц ( и) рубрик, внутри которых произошли большие изменения, такие рубрики назовем значимыми. Возникают следующие задачи. Задача 1. Среди полного набора и рубрик выделить рубрику (несколько рубрик) имеющих существенную связь с отдельно взятой значимой рубрикой.
Задача 2. Среди полного набора и рубрик выделить рубрику (несколько рубрик), связывающую две проблемные рубрики. Для выявления и упорядочения рубрик, имеющих связь с отдельно взятой значимой рубрикой обозначим; й — номер значимой рубрики, >' номер текущей рубрики. Процедура решения первой задачи состоит из следующих этапов. На первом этапе устанавливается наличие связи первого уровня, т.е. связи между значимой и текуплей рубриками (рис.
1). В случае су~цествования такой связи (аь, ф 0) вводится величина Ъ''Я=(льу=!, (й~), 1=1,2,...,п) (! 9) и фиксируется вес установленной связи Я, =аь,. (20) Г1ри отсутствии связи (21) 332 Гл. П. Моеютироеггние взиимосаязей яроблви нря обраоожке тексаов Рис 1 Связь первого уровня между значимой и текущей рубриками Каждой бнй рубрике ставится в соответствие пара чисел , (бы ~аь) (22) Рис. 2 Связь второго уровня между значимой и текущей рубриками Для каждой обй рубрики подсчитывается число связей второго уровня о",." = 2' б„.~ (т ф 1, 1 ф й), (23) если Я,'" = 1 и =О (г,фз, )ф(с), (24) если Уь = О.
Подсчитывается сумма весов связей второго уровня 5,'!и = Е а„(! Ф у, у 1 й), (25) если У~ = 1, 1 оы" =О 3 (26) если ог'и = О. Пары упорядочиваются в порядке возрастания значений элементов. Таким образом, устанавливается номер рубрики, имеющей наиболее тесную связь (наибольший вес связи оть) с значимой рубрикой. На втором этапе устанавливается йаличие связей второго уровня между текущей 1-й О = 1,2,..., и, ) ф )с) рубрикой и рубриками, имеющимн связь первого уровня (Яг1ь уе О, г' =.
1,2,...,п„г ф )ь 1), (рис. 2). ф 2 Усаиноегение еензей межбу знинимыми рубрикими и средний вес связи второго уровня гы Р' ! (27) (28) если озь =-О. На третьем этапе каждой рубрике ставится в соответствие набор из четырех чисел (о'.ь,Я;.ь,Ь"",Р,ь), ф ф 4',) =- 1,2,...,п). (29) Данные наборы упорядочиваются в порядке убывания числа связей озн, далее в порядке убывания среднего веса связи Р'~'. По данным наборам выбирается рубрика ун имеющая наибольшее число связей с проблемно-ориентированной рубрикой, (~|в-, ~зь) (30) и рубрика уз, имею4пая наибольший средний вес связи, 4 12 — гззах (2 (оз Р4 )) .
(31) Среди рубрик, имею4цих с значимой рубрикой связи первого либо второго уровня, выбирается пара рубрик уз, 24 с наибольшим весом связи, т.с. находится пз,щ = шахгнаха, (32) у при выполнении одного из условий язьязь Ф 0 я!ьбон Ф О з о'~о "ф О, о,'н,з,' ф О. Таким образом, после проведения расчетных этапов для й-й значимой рубрики устанавливаются: 1. Рубрики, прямо связанные с значимой руорикой, расположенные в порядке убывания веса связи.
2. Рубрики, непосредственно не связанные с значимой рубрикой (имеющис с ней опосредованную связь через прямо связанные рубрики), расположенные в порядке убывания числа связей и среднего веса связи. 3. Рубрики с наибольшим числом связей и наибольшим средним весом связи. 4. Пара (несколько пар) рубрик с наибольшим весом внутренней связи. Для выявления и упорядочивания рубрик, связывающих две проблемные рубрики, обозначим; йы йз — номера значимых рубрик. номер текущей рубрики.
Э 2 Устиггов.гение сюгзей между знинииыни рубрикизги при выполнении треоования Я, ' †. — 1, если это требование не выполгм няется оз"' =-О, Я'ю =О. з ' з' Определяется средний вес связи Ргь~ чзю ' если 5' "' ф 0 (41) Рыг = О, если ь'зщ = О. Аналогично для значимой рубрики кз — х бгз 5' г=-~ а, (42) (43) (44) при выполнении требования 5г ' = 1, если это требование не 1ьг няется з Ь'" -' = О. 3 Выг!Ол- (45) (4б) (48) (50) 1 — (53 51 Рз) (1~йг йг у=1 ~ и) (59) Рубрики поочередно упорядочиваются в порядке убывания значений элементов пар. На первом месте находится рубрика, имеющая наибольшее число связей второго уровня. Если гпах(бз) = О, связь между 3 проблемными рубриками йг, Йз отсутствует.
Определяется средний вес связи эивг (47) Ргзп —.. О, если ~~~г —" О. Для текущей рубрики рассчитываются средний вес связей второго уровня (49) общее число связей второго уровня 53 5зьг 1 банг з з общий вес связей второго уровня 54 ~вщ 1 явь (51) 3 3 На третьем этапе каждой текущей рубрике ставится в соответствие набор чисел 336 Гл. Л.
Мобвлировопив ввиимосвлзвй проблвм при обрабогпкв маковое Ят~с — — щах (Я + Я,' ' 1 ~' '), (у ~ )сы /сз, 3 = 1, 2,..., и) (53) Определяется рубрика,уз с максимальным средним весом связи Ртя = щах ( — (Р -~- Ь Ы + бьсв)), (1 ф йс,),"з, 1 = 1, 2, ..., и), (54) где 1 число ненулевых слагаемых. Определяется пара рубрик 7 и 1, имеющих наибольший вес связи, следующим образом псу = псахссм (55) При выполнении хотя бы одного из следующих условий Я,'М 7-'- О, о,' -' рО, Язь' 7' О, о, ' рО, пг с = швхас;.
При выполнении хотя бы одного из следующих условий Фь ФО, бис ФО, Я"Ю ФО, Язьс ФО у ' в ' в (5б) (57) (58) После проведения расчетных этапов для пары значимых рубрик установлены: 1. Рубрики, прямо связанные с каждой значимой рубрикой отдельно, расположенные в порядке убывания веса связи. 2. Рубрики, непосредственно не связанные с проблемными (имеющие с ними опосредованную связь через прямо связанные рубрики), расположенные в порядке убывания числа, веса и среднего веса связи. 3. Рубрики с наибольшей суммой весов, средним весом связи. 4.
Пара (несколько пар) рубрик с наибольшим весом внутренней связи. 2.2. Типы связей. Между проблемными рубриками йс, )сз существует связь первого типа (рис. 3), если для них выполняется условие (59) Вес такой связи равен аь,ь, Межу проблемными рубриками существует связь второго типа (рис. 4), если существует рубрика (несколысо рубрик), для которой выполняется условие Б, ' 8' ' ф О, (~ ф )сн )сз, 1 = 1, 2,..., и).
(60) Вес такой связи равен сумме весов азы + оиы По полученным наборам определяется рубрика 7с с максимальной суммой весов р 2 Усаиноеление связей между значимыми рубрикими Рис. 3 Связь первого тяпа между проблемными рубриками Рис. 4. Связь второ1о типа между проблемными рубриками Между проблемными рубриками существует связь третьего типа (рис. 5), если существует пара рубрик с номерами зы )з (несколько пар рубрик), для которых выполняется условие (61) О~ Ф йы Ц, дз ~ йы йз, )~ т' )з, )ы )з — 1, 2, ..,, и). Межу проблемными рубриками существует связь четвертого типа (рис. 6), если существует тройка рубрик с номерами )ы )ж з (несколько троек), для которых выгюлнястся условие (62) Рис.
б. Связь третьего типа между проблемными рубриками 338 Ел. Ей а1ооелироваяие взаимосвязей проблем при обрабогпке текстов (11 -,в йм)са, 1а /. гл,)са, З -,в (гм (са, З~ тс 1а —;.~ 1, тм йпт — 1, 2, ..., п) (63) Вес такой связи равен сумме весов (64) о~., н + вяз + ага + аязом Если между проблемными рубриками не установлено связи хотя бы одного типа проблемные рубрики считаются несвязанными. Рис 6. Связь четвертого типа между проблемными рубриками Пусть (см (са„й„(щ < и) . номера значимых рубрик.
Для нар рубрик й~ и йз, (г~ и (ч и т. д. до й ~ и (с,„аналогично паре рубрик (с1 и )са выявляются все типы связей. ф 3. Вероятностная модель определения области действия причинно-следственных связей Существует пелый ряд различных трактовок понятия причины. В одних случаях о событии А говорят как о причине собьпия В, если осуществление А является достаточным условием последующего осуществления В. В других случаях причина рассматривается как необходимое условие наступления следствия. Еще одна трактовка связана с пониманием причины как такого события, которое одновременно удовлетворяет как условию достаточности, так и условию необходимости. Такого понимания причины придерживался Дж.
С. Милль, впервые четко сформулировавший основные методы установления причинной зависимости в известном труде «Система логикив (1843 г.). Традипионно предполагалось, что причинная зависимость носит жестко детерминированный характер. Однако, она может быть и не столь однозначной, например, когда связь между причиной Л и следствием В осуществляется вероятностным образом. Через понятие вероятности, согласно Суппесу (2), причинная связь определяется следующим ооразом: собьпие Л является причиной события В только если 1. Р(.4), вероятность события А, больше 0; 2.
А происходит раньше В; Э 3 Вероятностния яосгель оярег1еления оплести деистеия 339 3. )э(В~А), вероятность наступления В при наличии Л, больше вероятности В, то есть > 1. (65) Каждое из перечисленных условий необходимо для осуществления причинной (каузальной) зависимости В от А. Взятые вместе они достаточны для того, чтобы считать событие Л причиной В в силу приведенного здесь определения.
Принимая данное определение за основу дальнейшего анализа причинно-следственных отношений, следует в первую очередь подвергнуть детальному разбору соотношение (65), играюпгее важную роль уже на предварительной стадии установления причинно-следственных связей, а именно, при выделении в пространстве признаков пары сооытий (А, В) области поиска возможных причин того или иного конкретного события.