Программные системы информационного обеспечения научной деятельности - модели, структуры и алгоритмы (1094956), страница 6
Текст из файла (страница 6)
Документы, описываемые при помощи одних и тех же элементов метаданных, образующих множество Mi ⊆ M , образуют класс Ki . Если M1 ⊂ M , M2 ⊆ Mи M1 ⊂ M2 , то класс K2 является подклассом класса K1 . Множество унифицированных структурированных документов-описаний одного класса, как ужеотмечалось, называют каталогом. Фактически, каталог объединяет поисковыеобразы исходных документов.– Структурность системы обеспечивается выбором модели связей между документами, позволяющей адекватно описывать различные аспекты соответствующихмежсущностных отношений. Достаточно универсальный характер имеет, например, уже модель направленных связей. Суть ее состоит в том, что связь междудокументами задается как вхождение документа di0 в качестве значения некоторого элемента метаданных M j документа di и определяется формулойM j < di , di0 , ml,ki,i0 >,где ml,ki,i0 — атрибуты этой связи, являющиеся значениями соответствующих элементов метаданных: l — индекс элемента, k — количество значений (с учетомповторений)– Множественность описания системы подразумевает наличие множества различных аспектов построения системы (модель данных системы, информационнаямодель системы, ее содержательное наполнение и проч.)В § 3.3 излагаются особенности модели направленных связей между документами,которая записывается в виде A(R, V ): объект R имеет атрибут A со значением V (R —головной документ, а V — подчиненный).Основное отличие предлагаемой модели от модели RDF состоит в том, что выстраиваемые отношения переносятся на уровень элементов, определяющих структурудокументов, причем связи между документами устанавливаются путем задания на множестве документов бинарных отношений с дополнительными атрибутами, не укладывающимися в общую схему.
С другой стороны, аналогичная модель “многие-ко-многим”(Ш.Атре, Дж. Ульман) использует многоместные отношения с их последующей декомпозицией в процессе нормализации. Таким образом, в предлагаемой модели декомпозиция проводится на более высоком уровне абстрагируемости от структуры данных, чтоделает ее более универсальной.Выделены два вида отношений:– Отношение порядка между документами, выстраивающее иерархию подчиненияв коллекции, например отношение подчиненности между документами в коллекции “Организации”. Данный тип отношения предполагает установление толькоодносторонней связи между документами.18– Отношение связи между документами, например отношение типа принадлежности между документами коллекции “Организации” и документами коллекции“Персоны”.
Данный тип отношения допускает установление двухсторонней связи между документами, в том смысле, что одновременно может существовать иобратная связь. Таким образом, направленность связи определяется порядкомзаписи аргументов отношения A(R, V ), т.е. любой объект также может играть ироль значения.Различие отношений первого и второго типа заключается в том, что отношениямпервого типа изначально приписано свойство — иерархия, а отношениям второго типаникаких свойств изначально не приписано. Свойства отношений второго типа определяются для каждого конкретного отношения.Исходя из свойств отношений второго типа, в документе выделяются два типа элементов:1) элементы, содержание которых не зависит от значений атрибутов отношения;2) элементы, содержание которых может зависеть от значений атрибутов отношения (например, от должности персоны в организации зависит служебная информация).Персона может занимать различные позиции: быть автором или редактором публикации, занимать некоторую должность в организации, быть председателем или членомсовета и т.д.
Все эти случаи представляются одним типом отношения, который можетпринимать различные наименования (директор, аспирант, председатель совета, автори т.д.)Отличительной особенностью предложенной модели является возможность связиимен с информацией об их носителях в случае, когда соответствующие денотаты (персоны) входят одновременно в разные структурные группы. Модель данных позволяетне вводить дублирующие записи, а разделять информацию о персоне на две части: личную — связанную с самой персоной, и ролевую — связанную с позициями, занимаемымиперсоной, причем каждой позиции соответствует новая ролевая запись.В § 3.4 представлена структура логических компонентов интеллектуальной системы. Для получения новых знаний пользователь может:1) формулировать такие запросы, которые для объектов с заданными требованиямина значения признаков указывают значение других признаков;2) проверять, истинно или нет утверждение Rs (di1 , .
. . , din ) относительно сущностей,описываемых документами di1 , . . . , din . Высказыванию Rs (di1 , . . . , din ) формальносоответствует n–местный предикат Ps , определенный на множестве документов,причем при его построении могут использоваться определенные документы системы (точнее, значения атрибутов этих документов), информация из онтологиипредметной области и т.п.Возможность получения в результате поискового запроса пертинентных документовпоявляется лишь в том случае, когда информационно-поисковый язык имеет средствавыражения имманентных отношений, то есть обладает онтологией, включающей тезаурус.
Показано, что наличие онтологии в качестве составной части информационнопоискового языка, используемого при создании каталога, является обязательным условием возможности реализации сложных внутрисистемных информационных запросов.Если количество документов в системе, способных выступать в качестве аргументов предиката Ps , велико, то проводится проверка истинности предиката на различных19наборах документов, автоматически перебираемых системой. Тем самым реализуетсямеханизм автоматического извлечения данных из документов с целью пополнения базыданных посредством этих фактов, который характеризует интеллектуальные информационные системе высокого уровня.Отличие предлагаемого подхода от традиционных экспертных систем (см., например, работы Т.А.Гавриловой, В.Ф.Хорошевского и др.) состоит в том, что последниепредназначены для решения узкоспециализированных задач, содержат относительнонебольшой объем документов, и основной упор при их создании делается на развитиебольшого количества продукционных правил.В четвертой главе представлена методика автоматизированного определенияметаданных слабоструктурированных документов.В § 4.1 изложен алгоритм автоматизированного извлечения метаданных из однородных слабоструктурированных документов (например, размещенных на одном сайте), которые имеют однородную структуру.
Алгоритм учитывает информацию о гипертекстовой разметке обрабатываемых документов, при этом надо иметь в виду, чтодокумент может не обладать xml-разметкой и не содержать метаданные в мета-теге,поэтому следует ориентироваться только на html-разметку.Основанный на типичном для интеллектуальных информационных системчеловеко-машинном взаимодействии, алгоритм частичной автоматизации процесса извлечения метаданных сводится к выполнению последовательных операций:1)2)3)4)создание шаблона разметки для обрабатываемого сайта;создание списка адресов, где расположены документы;обработка документов;поддержание актуальности информации.Для того или иного конкретного сайта шаблон документа имеет видSh = hT itle, T agb , T age , Reg, Sepi,где T itle — название поля (выбираемое из стандартного набора элементов метаданных),T agb и T age — теги (последовательности символов), определяющие в программном кодекаталогизируемого сайта соответственно начало и конец данного поля, Reg — регулярное выражение, определяющее символы данного поля (по умолчанию задается выражение, соответствующее произвольному набору символов, Sep — разделитель элементовмножественного поля (употребляется лишь для полей, могущих содержать несколькозначений).Отличительной особенностью предложенного алгоритма автоматизированного извлечения метаданных от коммерческих пакетов является возможность получения недостающих метаданных из удаленных баз данных.Важной особенностью данного алгоритма, описанной в § 4.2, является возможностьавтоматизированного определения таких важных (но далеко не всегда непосредственноналичиствующих) метаданных документа, как классификационные признаки (т.е.
коды того или иного классификатора) и ключевые слова, с использованием удаленныхбиблиографических баз и словарей удаленного доступа.Для обращения к библиографической базе данных с целью получения классификационных признаков документа автоматически формируется строка запроса к серверубиблиографической базы, например “Zentralblatt MATH”, использующая в качестве параметров запроса уже извлеченные с веб-страницы журнала библиографические данные. При наличии сведений о запрошенном документе в базе данных сервер выдает20страницу с его описанием, на которой присутствуют, среди прочих библиографическихданных, классификационные коды по классификатору MSC2000 и ключевые слова наанглийском языке. Обработка полученной страницы, то есть извлечение недостающихметаданных документа, производится по стандартному шаблону указанного выше типа.После получения ключевых слов документа из англоязычной библиографическойбазы данных может возникнуть проблема их перевода на русский язык.
Частичнаяавтоматизация этого процесса основана на использовании словарей, доступных черезИнтернет, например словаря “Лингво” компании “Яндекс” посредством автоматического формирования строки запроса к удаленному словарю с последующей обработкойрезультатов запроса. При этом, так как количество возможных ключевых слов, относящихся к той или иной предметной области, как правило, не слишком велико, топрежде всего проверяется, не занесено ли уже ранее переводимое ключевое слово в англоязычную часть тезауруса предметной области. Таким образом, происходит процессобучения системы: чем больше слов и словосочетаний переведено, тем меньше программа обращается к удаленному словарю через Интернет, так как уже переведенные словаи словосочетания заносятся в тезаурус.Общая схема алгоритма автоматизированного определения метаданных слабоструктурированных документов представлена на рис.
1.Рис. 1. Алгоритм автоматизированного определения метаданных.В § 4.3 описаны принципы и алгоритмы автоматизации процесса извлечения изтекстов ключевых слов. Обычно при координатном индексировании научных текстовиспользуется подход, основанный на извлечении одиночных ключевых слов (см., например, обзор О.В.Песковой), что упрощает морфологический анализ, но имеет серьезные21теоретические недостатки: возможность ложной координации, ложных синтагматических связей и др.Среди некоммерческих программных продуктов, решающих указанную задачу,можно назвать стимер компании “Яндекс”, который, однако, анализирует текст только на синтаксическом уровне, позволяя извлекть словосочетания заданной структуры, но не проверяя принадлежность словосочетаний к тому или иному лексическомусловарю.