Главная » Просмотр файлов » Программные системы информационного обеспечения научной деятельности - модели, структуры и алгоритмы

Программные системы информационного обеспечения научной деятельности - модели, структуры и алгоритмы (1094956), страница 6

Файл №1094956 Программные системы информационного обеспечения научной деятельности - модели, структуры и алгоритмы (Программные системы информационного обеспечения научной деятельности - модели, структуры и алгоритмы) 6 страницаПрограммные системы информационного обеспечения научной деятельности - модели, структуры и алгоритмы (1094956) страница 62018-02-16СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 6)

Документы, описываемые при помощи одних и тех же элементов метаданных, образующих множество Mi ⊆ M , образуют класс Ki . Если M1 ⊂ M , M2 ⊆ Mи M1 ⊂ M2 , то класс K2 является подклассом класса K1 . Множество унифицированных структурированных документов-описаний одного класса, как ужеотмечалось, называют каталогом. Фактически, каталог объединяет поисковыеобразы исходных документов.– Структурность системы обеспечивается выбором модели связей между документами, позволяющей адекватно описывать различные аспекты соответствующихмежсущностных отношений. Достаточно универсальный характер имеет, например, уже модель направленных связей. Суть ее состоит в том, что связь междудокументами задается как вхождение документа di0 в качестве значения некоторого элемента метаданных M j документа di и определяется формулойM j < di , di0 , ml,ki,i0 >,где ml,ki,i0 — атрибуты этой связи, являющиеся значениями соответствующих элементов метаданных: l — индекс элемента, k — количество значений (с учетомповторений)– Множественность описания системы подразумевает наличие множества различных аспектов построения системы (модель данных системы, информационнаямодель системы, ее содержательное наполнение и проч.)В § 3.3 излагаются особенности модели направленных связей между документами,которая записывается в виде A(R, V ): объект R имеет атрибут A со значением V (R —головной документ, а V — подчиненный).Основное отличие предлагаемой модели от модели RDF состоит в том, что выстраиваемые отношения переносятся на уровень элементов, определяющих структурудокументов, причем связи между документами устанавливаются путем задания на множестве документов бинарных отношений с дополнительными атрибутами, не укладывающимися в общую схему.

С другой стороны, аналогичная модель “многие-ко-многим”(Ш.Атре, Дж. Ульман) использует многоместные отношения с их последующей декомпозицией в процессе нормализации. Таким образом, в предлагаемой модели декомпозиция проводится на более высоком уровне абстрагируемости от структуры данных, чтоделает ее более универсальной.Выделены два вида отношений:– Отношение порядка между документами, выстраивающее иерархию подчиненияв коллекции, например отношение подчиненности между документами в коллекции “Организации”. Данный тип отношения предполагает установление толькоодносторонней связи между документами.18– Отношение связи между документами, например отношение типа принадлежности между документами коллекции “Организации” и документами коллекции“Персоны”.

Данный тип отношения допускает установление двухсторонней связи между документами, в том смысле, что одновременно может существовать иобратная связь. Таким образом, направленность связи определяется порядкомзаписи аргументов отношения A(R, V ), т.е. любой объект также может играть ироль значения.Различие отношений первого и второго типа заключается в том, что отношениямпервого типа изначально приписано свойство — иерархия, а отношениям второго типаникаких свойств изначально не приписано. Свойства отношений второго типа определяются для каждого конкретного отношения.Исходя из свойств отношений второго типа, в документе выделяются два типа элементов:1) элементы, содержание которых не зависит от значений атрибутов отношения;2) элементы, содержание которых может зависеть от значений атрибутов отношения (например, от должности персоны в организации зависит служебная информация).Персона может занимать различные позиции: быть автором или редактором публикации, занимать некоторую должность в организации, быть председателем или членомсовета и т.д.

Все эти случаи представляются одним типом отношения, который можетпринимать различные наименования (директор, аспирант, председатель совета, автори т.д.)Отличительной особенностью предложенной модели является возможность связиимен с информацией об их носителях в случае, когда соответствующие денотаты (персоны) входят одновременно в разные структурные группы. Модель данных позволяетне вводить дублирующие записи, а разделять информацию о персоне на две части: личную — связанную с самой персоной, и ролевую — связанную с позициями, занимаемымиперсоной, причем каждой позиции соответствует новая ролевая запись.В § 3.4 представлена структура логических компонентов интеллектуальной системы. Для получения новых знаний пользователь может:1) формулировать такие запросы, которые для объектов с заданными требованиямина значения признаков указывают значение других признаков;2) проверять, истинно или нет утверждение Rs (di1 , .

. . , din ) относительно сущностей,описываемых документами di1 , . . . , din . Высказыванию Rs (di1 , . . . , din ) формальносоответствует n–местный предикат Ps , определенный на множестве документов,причем при его построении могут использоваться определенные документы системы (точнее, значения атрибутов этих документов), информация из онтологиипредметной области и т.п.Возможность получения в результате поискового запроса пертинентных документовпоявляется лишь в том случае, когда информационно-поисковый язык имеет средствавыражения имманентных отношений, то есть обладает онтологией, включающей тезаурус.

Показано, что наличие онтологии в качестве составной части информационнопоискового языка, используемого при создании каталога, является обязательным условием возможности реализации сложных внутрисистемных информационных запросов.Если количество документов в системе, способных выступать в качестве аргументов предиката Ps , велико, то проводится проверка истинности предиката на различных19наборах документов, автоматически перебираемых системой. Тем самым реализуетсямеханизм автоматического извлечения данных из документов с целью пополнения базыданных посредством этих фактов, который характеризует интеллектуальные информационные системе высокого уровня.Отличие предлагаемого подхода от традиционных экспертных систем (см., например, работы Т.А.Гавриловой, В.Ф.Хорошевского и др.) состоит в том, что последниепредназначены для решения узкоспециализированных задач, содержат относительнонебольшой объем документов, и основной упор при их создании делается на развитиебольшого количества продукционных правил.В четвертой главе представлена методика автоматизированного определенияметаданных слабоструктурированных документов.В § 4.1 изложен алгоритм автоматизированного извлечения метаданных из однородных слабоструктурированных документов (например, размещенных на одном сайте), которые имеют однородную структуру.

Алгоритм учитывает информацию о гипертекстовой разметке обрабатываемых документов, при этом надо иметь в виду, чтодокумент может не обладать xml-разметкой и не содержать метаданные в мета-теге,поэтому следует ориентироваться только на html-разметку.Основанный на типичном для интеллектуальных информационных системчеловеко-машинном взаимодействии, алгоритм частичной автоматизации процесса извлечения метаданных сводится к выполнению последовательных операций:1)2)3)4)создание шаблона разметки для обрабатываемого сайта;создание списка адресов, где расположены документы;обработка документов;поддержание актуальности информации.Для того или иного конкретного сайта шаблон документа имеет видSh = hT itle, T agb , T age , Reg, Sepi,где T itle — название поля (выбираемое из стандартного набора элементов метаданных),T agb и T age — теги (последовательности символов), определяющие в программном кодекаталогизируемого сайта соответственно начало и конец данного поля, Reg — регулярное выражение, определяющее символы данного поля (по умолчанию задается выражение, соответствующее произвольному набору символов, Sep — разделитель элементовмножественного поля (употребляется лишь для полей, могущих содержать несколькозначений).Отличительной особенностью предложенного алгоритма автоматизированного извлечения метаданных от коммерческих пакетов является возможность получения недостающих метаданных из удаленных баз данных.Важной особенностью данного алгоритма, описанной в § 4.2, является возможностьавтоматизированного определения таких важных (но далеко не всегда непосредственноналичиствующих) метаданных документа, как классификационные признаки (т.е.

коды того или иного классификатора) и ключевые слова, с использованием удаленныхбиблиографических баз и словарей удаленного доступа.Для обращения к библиографической базе данных с целью получения классификационных признаков документа автоматически формируется строка запроса к серверубиблиографической базы, например “Zentralblatt MATH”, использующая в качестве параметров запроса уже извлеченные с веб-страницы журнала библиографические данные. При наличии сведений о запрошенном документе в базе данных сервер выдает20страницу с его описанием, на которой присутствуют, среди прочих библиографическихданных, классификационные коды по классификатору MSC2000 и ключевые слова наанглийском языке. Обработка полученной страницы, то есть извлечение недостающихметаданных документа, производится по стандартному шаблону указанного выше типа.После получения ключевых слов документа из англоязычной библиографическойбазы данных может возникнуть проблема их перевода на русский язык.

Частичнаяавтоматизация этого процесса основана на использовании словарей, доступных черезИнтернет, например словаря “Лингво” компании “Яндекс” посредством автоматического формирования строки запроса к удаленному словарю с последующей обработкойрезультатов запроса. При этом, так как количество возможных ключевых слов, относящихся к той или иной предметной области, как правило, не слишком велико, топрежде всего проверяется, не занесено ли уже ранее переводимое ключевое слово в англоязычную часть тезауруса предметной области. Таким образом, происходит процессобучения системы: чем больше слов и словосочетаний переведено, тем меньше программа обращается к удаленному словарю через Интернет, так как уже переведенные словаи словосочетания заносятся в тезаурус.Общая схема алгоритма автоматизированного определения метаданных слабоструктурированных документов представлена на рис.

1.Рис. 1. Алгоритм автоматизированного определения метаданных.В § 4.3 описаны принципы и алгоритмы автоматизации процесса извлечения изтекстов ключевых слов. Обычно при координатном индексировании научных текстовиспользуется подход, основанный на извлечении одиночных ключевых слов (см., например, обзор О.В.Песковой), что упрощает морфологический анализ, но имеет серьезные21теоретические недостатки: возможность ложной координации, ложных синтагматических связей и др.Среди некоммерческих программных продуктов, решающих указанную задачу,можно назвать стимер компании “Яндекс”, который, однако, анализирует текст только на синтаксическом уровне, позволяя извлекть словосочетания заданной структуры, но не проверяя принадлежность словосочетаний к тому или иному лексическомусловарю.

Характеристики

Список файлов диссертации

Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6367
Авторов
на СтудИзбе
309
Средний доход
с одного платного файла
Обучение Подробнее