Программные системы информационного обеспечения научной деятельности - модели, структуры и алгоритмы (1094956), страница 8
Текст из файла (страница 8)
3. Алгоритм построения онтологии.Cледующий этап создания тезауруса и онтологии — классификация дескрипторов всоответствии с разделами данной предметной области. С целью экономии трудозатратэкспертов на первом этапе работы возможно ограничиться классификацией дескрипторов, при этом для классификации следует использовать, по возможности, разделыклассификатора максимально низкого уровня. После того, как дескриптор будет классифицирован, связанным с ним ключевым словам приписывается тот же классификационный индекс, что и дескриптору.Наконец, проводится определение типа термина в соответствии с рекомендациямиZthes, что позволяет существенно упростить работу с онтологией.В § 5.2 приведены теоретические основы поиска документов “по аналогии”, т.е. нахождения по данному множеству документов класса схожих по содержанию документов.
Указанная задача рассматривается применительно к документам научной тематики, сообщениям на новостных лентах и художественным произведениям. Сравнительный анализ соответствующих алгоритмов позволил сделать вывод о том, что длядокументов научной тематики процедуру кластеризации целесообразно проводить наоснове меры сходства, притом в качестве координат метрики, вводимой на множестведокументов, используются основные атрибуты из библиографического описания: авторы; ключевые слова; термины из тезауруса предметной области, входящие в аннотацию.25Количественная характеристика меры сходства определяется на множестве документов D как µ : D × D → [0, 1], причем функция µ в случае полного сходства принимает значение 1, в случае полного различия — 0.
Вычисление меры сходства междудокументами d1 и d2 осуществляется по формуле видаµ(d1 , d2 ) =Xαi µi (d1 , d2 ),где i — номерXэлемента (атрибута) библиографического описания, αi — весовые коэффициенты,αi = 1, µi (d1 , d2 ) — мера сходства по i-му элементу. Если шкалы —номинальные, то мера сходства по i-й шкале определяется следующим образом: еслизначения i-х атрибутов документов совпадают, то мера близости равна 1, иначе — 0.Если значения атрибутов составные, то µi = ni1 /ni0 , где ni0 = max{ni0 (d1 ), ni0 (d2 )},ni0 (dj ) — общее количество элементов, составляющих значение i-го атрибута документа dj , ni1 — количество совпадающих элементов.Для непосредственной процедуры нахождения объектов, аналогичных объектам иззаданного множества, необходимо задать пороговое значение меры сходства r ∈ (0, 1).Если заданное множество D∗ состоит из одного объекта d∗ , то при µ(d∗ , dj ) ≤ r делаетсявывод, что объект dj аналогичен заданному, в противном случае считается, что аналогия отсутствует.
Ситуация осложняется, если множество D∗ содержит более одногообъекта. Тогда критерием аналогичности объекта dj элементам множества D∗ служитнеравенство µ(D∗ , dj ) ≤ r, в котором µ(D∗ , dj ) — расстояние от объекта dj до множестваD∗ (обычно под этим подразумевается минимум расстояний от объекта dj до элементовмножества D∗ , хотя иногда в качестве µ(D∗ , dj ) целесообразно рассматривать расстояние от объекта dj до определенного тем или иным способом “центра” множества D∗ ).Независимо от количества элементов в множестве D∗ , возможно задание “градаций аналогичности”, определяемых посредством набора чисел {ri }, i = 1, .
. . , n, где rk < rl приk < l. Если rk < µ(D∗ , d1 ) ≤ rk+1 , а rl < µ(D∗, d2) ≤ rl+1 при k < l, то считается,что объект d1 более схож с элементами множества D∗ , чем объект d2 . Введение градаций аналогичности используется, например, для установления приоритета просмотрадокументов, найденных в процессе информационного поиска.Указанные процедуры поиска аналогичных документов могут быть снабжены дополнительными условиями, связанными, например, с исключением из поисковой выдачи соответствующих документов при реализации ситуации “несимметричного сходства”,когда по тексту аннотации следует выдавать полнотекстовую версию статьи, но, разумеется, не наоборот.В § 5.3 излагается методика кластеризации научных документов на основании мерысходства их библиографических описаний.
Отличительные особенности предлагаемойметодики заключаются в следующем:– использование нескольких шкал: авторы; ключевые слова (авторские); текст аннотации, из которого извлекаются ключевые термины, — что особенно важно приработе не с полными текстами документов, а с аннотациями (обычно используется только одна шкала: извлеченные из текста ключевые слова — М.Е.Кондратьев,О.В.Пескова и др.);– в качестве извлеченных ключевых терминов рассматриваются словосочетания;– используется апостериорный выбор продукционных правил для определения весовых коэффициентов при шкалах.Для определения меры сходства использован алгоритм, основанный на функцииконкурентного сходства или FRiS-функции (Н.Г.Загоруйко, 2007): решение о принад-26лежности документа d к первому кластеру принимается не в том случае, когда расстояние r1 до этого кластера “мало”, а когда оно меньше расстояния r2 до конкурирующегокластера.
Для вычисления меры конкурентного сходства, измеренной в абсолютнойшкале, используется нормированная величина F12 = (r2 − r1 )/(r2 + r1 ).Тестирование алгоритма проводилось на электронной базе данных “Сибирского математического журнала”, содержавшей библиографические описания статей журнала,вышедших в период с 2000 по 2005 годы (порядка 700 записей). В качестве единственной шкалы для вычисления меры на пространстве документов использовались кодыклассификатора MSC2000 (обычно документу приписано 3 или более кодов).
Поскольку совпадение данных кодов для группы документов является объективным критериемсовпадения тематики данных документов, такую меру можно считать образцовой. Есликоды классификатора центроида кластера содержались в числе кодов классификатора 2-го уровня данного документа, то мы полагали, что документ отнесен к кластеруправильно.Были проведены сравнительные расчеты по широко известному жадному алгоритму и FRiS-алгоритму.
На рис. 4 отображен состав полученных кластеров. По горизонтальной оси отмечены номера кластеров, по вертикальной — количество документов вкластере. В качестве критерия принадлежности публикации к кластеру использовался его код классификатора MSC2000. Погрешность классификации в первом случаесоставила 12 %, во втором 4 %.Рис. 4.
Сравнение жадного и FRiS алгоритмов.Далее при задании меры был принят во внимание тот факт, что значения весовыхкоэффициентов в формуле вычисления меры сходства определяются предполагаемойапостериорной достоверностью данных соответствующей шкалы, и в определенных случаях один из коэффициентов может быть увеличен с пропорциональным уменьшениемостальных.Эксперимент на коллекции статей “Сибирского математического журнала”, в котором устанавливалось наибольшее сходство с результатом кластеризации по мере,базирующейся на кодах классификатора MSC2000, позволил получить апостериорновыбираемые правила для определения весовых коэффициентов на основании предполагаемой достоверности данных:1) если каждый из документов d1 и d2 имеет более двух авторов и, как минимум,2/3 из них совпадают, то коэффициент при атрибуте “авторы” равен 1;2) если каждый из документов d1 и d2 содержит более трех ключевых слов и, какминимум, 3/4 этих слов совпадают, то коэффициент при атрибуте “ключевыеслова” равен 1;273) если каждый из документов d1 и d2 содержит более четырех ключевых терминовв аннотации и, как минимум, 3/5 этих терминов совпадают, то коэффициент приатрибуте “аннотация” равен 1;4) если условия ни одного из правил 1–3 не выполнены, то коэффициент при атрибуте “авторы” равен 0,2, а при атрибутах “ключевые слова” и “аннотация” равен 0,4.Интересно отметить, что эти правила применимы как для FRiS-алгоритма, так идля жадного алгоритма.В шестой главе излагается структура внешнего представления научной инаучно-организационной информации.Предложена методика задания структуры представления информации на основании многомерной классификации.Поскольку на практике большинство рядовых пользователей испытывает затруднения в самостоятельном построении запросов более сложных, нежели простой контекстный или атрибутивный поиск, постольку базовая структура представления информации должна отвечать такой совокупности заранее сформулированных информационныхзапросов (например, содержать соответствующие гиперссылки), которая в состоянииудовлетворить основные информационные потребности пользователей системы.Разработана базовая структура представления информации на основании многомерной (т.е.
не сводящаяся только к предметной) классификации, классификация документов, позволяющая включать в метаописание документа некий многомерный наборклассификационных признаков.Алгоритм задания структуры состоит в следующем.Любой документ di каталога системы представляется как di =< mj,ki >. Рассмотримподмножество метаданных MC , определяющее набор классификационных признаковдокументов. Для фиксированного элемента метаданных M j , где M j ∈ MC , множестводокументов разбивается на классы эквивалентности, соответствующие различным значениям этого элемента метаданных.Будем считать два экземпляра сущностей толерантными, если у них совпадает значение хотя бы одного из элементов метаданных, входящих в MC Каждое такое значениепорождает класс толерантности.
Рассмотрим всевозможные сочетания значений элементов метаданных, входящих в MC . Множества документов, обладающие одинаковымнабором значений, суть ядра. Ядра служат классами эквивалентности на множестведокументов.Выделим подмножество элементов метаданных M ∗ = {M jk }lk=1 , M jk ⊂ MC , определяющее для данной предметной области важнейшие характеристики документов (или, в зависимости от специфики задачи, описываемых документами сущkностей), при этом M jk = {mji k }li=1.
Тогда ядра толерантности, задающие базовую структуру представления информации, суть элементы декартова произведенияΠM ∗ = M j1 × M j2 × · · · × M jl . Тем самым поиск интересующего пользователя классадокументов сводится к выбору соответствующего элемента (mji11 , mji22 , . . . , mjill ) ∈ ΠM ∗ ,т.
е. к отображению S ∗ : ΠM ∗ → D, а предварительная классификация документов —к обратному отображению C ∗ : D → ΠM ∗ .Разумеется, обычный атрибутивный поиск описывается аналогичным образом, однако элементы метаданных M jk — важнейшие характеристики документов — выбираются так, что количество возможных значений для них (или, по крайней мере, длябольшинства из них) достаточно невелико, что позволяет предоставить пользователюсовокупность заранее сформулированных информационных запросов (например, соответствующие гиперссылки), которая в состоянии удовлетворить основные информационные потребности.28Таким образом, базовая структура представления информации в каталоге описывается посредством задания подмножества метаданных, определяющего набор классификационных признаков, и сочетаний значений этих метаданных.Показано, что для коллекции “Персоны” целесообразны следующие классификаторы: 1) тематический, 2) хронологический, 3) географический; для коллекции “Публикации”: 1) тематический, 2) жанровый, 3) хронологический; для коллекции “Юридическиедокументы”: 1) уровень издавшего документ органа, 2) источник права (ветвь власти),3) хронология.В седьмой главе описана практическая реализация программной системы информационного обеспечения научной деятельности: приведена функциональная схема программной системы (рис.