Калиткин, Карпенко, Михайлов, Тишкин, Черненков - Математические модели природы и общества - 2005 (947500), страница 67
Текст из файла (страница 67)
Предполагается, что в общем случае такое представление является результатом определенным образом организованного просмотра некоторой совокупности документов ЛХ,' экспертом-аналитиком и последующей редукции сформированного им концепта проблемы к некоторой когнитивпой структуре Кво которая и фиксируется в формализованном языке модели поиска.
Здесь под когнитивной структурой Кл, проолемы Р, понимается множество слов Х, (терминологический портрет Р,) и пар слов из Ть играющих ключевую роль в раскрытии содержания проолемы Р,. В з 1 рассматривается процедура построения когнитивной структуры проблемы Р, в контексте решения еще одной, вспомогатслююй. задачи: формирования выборки относящихся к Р, документов с целью выделения в ЛХв рубрики г, Е ЛХл, соответствующей данной проблеме, в случае, если эта рубрика заранее отсутствует.
Тем самым предусматривается возможность оперативного включения возникающих новых проблем в сферу применения рассматриваемой модели поиска. Целесообразность такого подхода обусловлена также и тем обстоятельством, что, в рамках принятой концепции, совместно с построением когнитивной структуры проблемы завершается и основной этап решения данной вспомогательной задачи. Важным этапом анализа взаимосвязи проблем является выявление причинно-следственных зависимостей.
Главная роль здесь отводится выдвижению и проверке гипотез о возможных причинах тех или иных явлений. Такие предположения позволяют наметить границы, в рамках которых действуют, либо прекращают действовать причинные (казуальные) закономерности и, тем саьиым, сузить область поиска причины того или иного явления. В результате, применение известных методов установления причинной связи, таких, например, как метод сходства, метод различия [!( становится более результативным.
В Э 2 применительно к задаче установления области поиска возможных причин значимых изменений частоты рубрик строится модель взаимосвязей рубрик. Основу этой модели составляет множество рубрик (г,) с заданным на нем отношением, связывающим рубрики г при наличии в них общих документов, количество которых определяет вес гвязи этих рубрик ам. Исходную информацию модели составляет матрица [[а, [[, применение которой для выявления причинно-гледственных связей достаточно ограничено.
В этой связи в З 3 рассматривается модель, обеспечивающая возможность более гибкого описания условий, ограничивающих область поиска возможных причин исследуемых событий. Наконец, в з 4 приводится описание модели поиска, ориентированной на поддержку действий исследователя при подборке исходной информации для анализа взаимосвязей произвольной пары проблем Р„ Р: из множества ЛХр.
Э 1 Проблеме~ и их оредстивление в моделях ооиско 325 ф 1. Проблемы и их представление в моделях поиска; выделение актуальных проблем для анализа взаимосвязей 1.1. Представление процесса формирования системы знаний по проблеме как итеративной процедуры. При поиске по рубрикатору Й отбор документов, относящихся к некоторой проблеме (теме) Р, осуществляется экспертом-аналитиком непосредственно, исходя из заданного распределения документов по рубрикам.
Если соответствующая проблеме Р рубрика г отсутствует, она, при необходимости, может быть создана, например, с применением средств авторуорицирования. В этом случае, однако, требуется решение вспомогательной задачи — формирования обучающей совокупности ЛХ,в на базе некоторого множества документов Л1„. Ниже рассматривается ряд вопросов, связанных с ее постановкой и решением, приводится описание логико-лингвистической модели, ориентированной на поддержку действий эксперта-аналитика при решении этой задачи.
Сходство задач рубрицирования множества документов ЛХе и формирования обучающей совокупности ЛХоо очевидно: как одна, так и другая, вне зависимости от подхода к ее рец~ению, включает в качестве основной компоненты подзадачу отнесения документа из заданного множества документов к некоторой рубрике. Вместе с тем, имеют место и определенные различия. В задаче рубрицирования документов множества ЛХе исходнылги являются требования полноты и точности выделения рубрик.
При формировании обучающей совокупности ЛХ,в требуется лишь точность выделения документов. Обязательным является также условие, согласно которому совокупность ЛХяв должна отражать все разнообразие представленных в документах ЛХ, аспектов проблемы Р, значимых для проводимого пользователем исследования. Еще одно требование состоит в том, что документы ЛХ„* не должны содержать «лишнейя информации, и, следовательно, являясь документами рубрики г, одновременно принадлежать каким-либо другим рубрикам рубрикатора Л. Таким образом, полноты поиска документов, принадлежащих г, в этом случае не требуется: необходимо включение в состав ЛХ„в лишь некоторой части таких документов.
Ясно, что поиск документов, включаемых в состав ЛХом с необходимостью базируется на сопоставлении наличного знания о проблеме Р с содержанием каждого из документов ЛХ„. При этом важно, что само знание о проблеме Р в ходе поиска не остается неизменным: возможно его пополнение, корректировка; соответственно, подлежат изменению и критерии отбора документов множества ЛХ„в состав Л1„;. Наличие тесной связи процедур формирования обучаюгдей совокупности ЛХ,в и построения системы знаний о проблеме Р свидетельствует о том, что решение рассматриваемой задачи формирования Л1„- в общем случае может быть достигнуто лишь в ходе итеративного процесса. Согласно сказанному, каждый шаг этого процесса вплоть до шага, завершающе- 326 Рл. 1лХ. Моделирониние нзаилгосвлзей проблем при обриботке текстов го построение системы знаний о проблеме Р, может быть представлен в виде следующей последовательности подлежащих выполнению процедур: 1) исходя из наличного знания о проблеме Р, поиск документов г)в Е ЛХ„(д = 1, 2, ..., О), илгеюших отношение к данной проблеме; 2) просмотр докулгентов, относящихся к проблеме Р; выделение документов, включаемых в состав рубрики г; в ходе прослютра -.
фиксация и накопление элементов нового знания о данной проблел1е; 3) объединение имевшегося ранее знания о проблеме (п. !) с новым в единую систему; 4) корректировка критериев соотнесения документов ЛХ, рубрике г в соответствии с полученной системой знаний о проблеме Р. Начало данного процесса определяется заданием исходной системы знаний о проблеме, а также согласованных с ней критериев отнесения документов множества ЛХ, рубрике г.
На последнем, заключительном этапе решения задачи просмотр документов г(в б ЛХ,, относящихся к г, сопровождается выделением тех из них, которые не содержат «лишней» информации, и включением последних в состав обучающей совокупности Л(„в ). Уже одно перечисление подлежащих выполнению подзадач свидетельствует о толю. что в общелг случае алгоритмизация процесса решения рассматриваемой задачи требует привлечения весьма сложных средств анализа содержания как самой проолемы, так и документов исходно(1 совокупности ЛХ„. Использование таких средств, однако, выходит за рамки принятого здесь подхода.
Далее речь идет лишь о достаточно простом инструментарии, ориентированном на поддержку действий пользователя, направленных на формирование обучающих совокупностей ЛХ„г. Концептуальной основой инструментария служит модель, элементами которой являются проблема Р и документы (сообщения СИИ), образующие множество ЛХв —. (дп . д .—.
1,2, Ц). Проблема представлена в модели своей когнитивной структурой Лв. В составе Л в выделяется также некоторая подструктура Л з, отдельные элементы— слова или пары слов которой в контексте содержания документов ЛХ, устойчиво ассоциируются с рассматриваемой проблемой. Вхождения элементов Л в в тексты документов М, называются далее потенциальными ссылками на проблему Р.
Характеристиками произвольного гХв Е ЛХ, являются объем Ч(с(я) и степень релевантпости г(п проблелге Р— — Ве1(г(п). Объем 1л(г(п) излгеряется числом символов в составе текста документа; степень ре- ) Случай, когда за недостатком имеющихся в распоряжении материалов при формировании обучающих совокупностей используются отдельные фрагменты документов ЛЛ, удовлетворяюпгие указанным условиям, принципиальных отличий не имеет и, поэтому, здесь не рассматривается Э 1 Проблемы и их оредотлоеление и моделях поиска 327 левантности документа гХо проблеме Р количеством потенциальных ссылок на Р, имеющих вхождение в текст данного документа.
Таким образом, степень релевантности проблеме Р документов, не содержащих ссылок на данную проблему, равняется О: считается, что, в отличие от остальных, такие документы отношения к проблеме Р не имеют. Вводится в рассмотрение и еще один показатель — «качествоь документа с1ч, характеризующий на содержательном уровне реальные шансы до на включение аналитиком в состав обучающей совокупности ЛХым Данный показатель, хотя в явном виде и не фиксируется в формализме модели, однако, неявно, в силу ожидаемого характера его зависимости от характеристик И(гХч) и Ве1(г)я), в значительной степени определяет состав функций, выполняемых инструментарием.