Главная » Просмотр файлов » Программные системы информационного обеспечения научной деятельности - модели, структуры и алгоритмы

Программные системы информационного обеспечения научной деятельности - модели, структуры и алгоритмы (1094956), страница 8

Файл №1094956 Программные системы информационного обеспечения научной деятельности - модели, структуры и алгоритмы (Программные системы информационного обеспечения научной деятельности - модели, структуры и алгоритмы) 8 страницаПрограммные системы информационного обеспечения научной деятельности - модели, структуры и алгоритмы (1094956) страница 82018-02-16СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 8)

3. Алгоритм построения онтологии.Cледующий этап создания тезауруса и онтологии — классификация дескрипторов всоответствии с разделами данной предметной области. С целью экономии трудозатратэкспертов на первом этапе работы возможно ограничиться классификацией дескрипторов, при этом для классификации следует использовать, по возможности, разделыклассификатора максимально низкого уровня. После того, как дескриптор будет классифицирован, связанным с ним ключевым словам приписывается тот же классификационный индекс, что и дескриптору.Наконец, проводится определение типа термина в соответствии с рекомендациямиZthes, что позволяет существенно упростить работу с онтологией.В § 5.2 приведены теоретические основы поиска документов “по аналогии”, т.е. нахождения по данному множеству документов класса схожих по содержанию документов.

Указанная задача рассматривается применительно к документам научной тематики, сообщениям на новостных лентах и художественным произведениям. Сравнительный анализ соответствующих алгоритмов позволил сделать вывод о том, что длядокументов научной тематики процедуру кластеризации целесообразно проводить наоснове меры сходства, притом в качестве координат метрики, вводимой на множестведокументов, используются основные атрибуты из библиографического описания: авторы; ключевые слова; термины из тезауруса предметной области, входящие в аннотацию.25Количественная характеристика меры сходства определяется на множестве документов D как µ : D × D → [0, 1], причем функция µ в случае полного сходства принимает значение 1, в случае полного различия — 0.

Вычисление меры сходства междудокументами d1 и d2 осуществляется по формуле видаµ(d1 , d2 ) =Xαi µi (d1 , d2 ),где i — номерXэлемента (атрибута) библиографического описания, αi — весовые коэффициенты,αi = 1, µi (d1 , d2 ) — мера сходства по i-му элементу. Если шкалы —номинальные, то мера сходства по i-й шкале определяется следующим образом: еслизначения i-х атрибутов документов совпадают, то мера близости равна 1, иначе — 0.Если значения атрибутов составные, то µi = ni1 /ni0 , где ni0 = max{ni0 (d1 ), ni0 (d2 )},ni0 (dj ) — общее количество элементов, составляющих значение i-го атрибута документа dj , ni1 — количество совпадающих элементов.Для непосредственной процедуры нахождения объектов, аналогичных объектам иззаданного множества, необходимо задать пороговое значение меры сходства r ∈ (0, 1).Если заданное множество D∗ состоит из одного объекта d∗ , то при µ(d∗ , dj ) ≤ r делаетсявывод, что объект dj аналогичен заданному, в противном случае считается, что аналогия отсутствует.

Ситуация осложняется, если множество D∗ содержит более одногообъекта. Тогда критерием аналогичности объекта dj элементам множества D∗ служитнеравенство µ(D∗ , dj ) ≤ r, в котором µ(D∗ , dj ) — расстояние от объекта dj до множестваD∗ (обычно под этим подразумевается минимум расстояний от объекта dj до элементовмножества D∗ , хотя иногда в качестве µ(D∗ , dj ) целесообразно рассматривать расстояние от объекта dj до определенного тем или иным способом “центра” множества D∗ ).Независимо от количества элементов в множестве D∗ , возможно задание “градаций аналогичности”, определяемых посредством набора чисел {ri }, i = 1, .

. . , n, где rk < rl приk < l. Если rk < µ(D∗ , d1 ) ≤ rk+1 , а rl < µ(D∗, d2) ≤ rl+1 при k < l, то считается,что объект d1 более схож с элементами множества D∗ , чем объект d2 . Введение градаций аналогичности используется, например, для установления приоритета просмотрадокументов, найденных в процессе информационного поиска.Указанные процедуры поиска аналогичных документов могут быть снабжены дополнительными условиями, связанными, например, с исключением из поисковой выдачи соответствующих документов при реализации ситуации “несимметричного сходства”,когда по тексту аннотации следует выдавать полнотекстовую версию статьи, но, разумеется, не наоборот.В § 5.3 излагается методика кластеризации научных документов на основании мерысходства их библиографических описаний.

Отличительные особенности предлагаемойметодики заключаются в следующем:– использование нескольких шкал: авторы; ключевые слова (авторские); текст аннотации, из которого извлекаются ключевые термины, — что особенно важно приработе не с полными текстами документов, а с аннотациями (обычно используется только одна шкала: извлеченные из текста ключевые слова — М.Е.Кондратьев,О.В.Пескова и др.);– в качестве извлеченных ключевых терминов рассматриваются словосочетания;– используется апостериорный выбор продукционных правил для определения весовых коэффициентов при шкалах.Для определения меры сходства использован алгоритм, основанный на функцииконкурентного сходства или FRiS-функции (Н.Г.Загоруйко, 2007): решение о принад-26лежности документа d к первому кластеру принимается не в том случае, когда расстояние r1 до этого кластера “мало”, а когда оно меньше расстояния r2 до конкурирующегокластера.

Для вычисления меры конкурентного сходства, измеренной в абсолютнойшкале, используется нормированная величина F12 = (r2 − r1 )/(r2 + r1 ).Тестирование алгоритма проводилось на электронной базе данных “Сибирского математического журнала”, содержавшей библиографические описания статей журнала,вышедших в период с 2000 по 2005 годы (порядка 700 записей). В качестве единственной шкалы для вычисления меры на пространстве документов использовались кодыклассификатора MSC2000 (обычно документу приписано 3 или более кодов).

Поскольку совпадение данных кодов для группы документов является объективным критериемсовпадения тематики данных документов, такую меру можно считать образцовой. Есликоды классификатора центроида кластера содержались в числе кодов классификатора 2-го уровня данного документа, то мы полагали, что документ отнесен к кластеруправильно.Были проведены сравнительные расчеты по широко известному жадному алгоритму и FRiS-алгоритму.

На рис. 4 отображен состав полученных кластеров. По горизонтальной оси отмечены номера кластеров, по вертикальной — количество документов вкластере. В качестве критерия принадлежности публикации к кластеру использовался его код классификатора MSC2000. Погрешность классификации в первом случаесоставила 12 %, во втором 4 %.Рис. 4.

Сравнение жадного и FRiS алгоритмов.Далее при задании меры был принят во внимание тот факт, что значения весовыхкоэффициентов в формуле вычисления меры сходства определяются предполагаемойапостериорной достоверностью данных соответствующей шкалы, и в определенных случаях один из коэффициентов может быть увеличен с пропорциональным уменьшениемостальных.Эксперимент на коллекции статей “Сибирского математического журнала”, в котором устанавливалось наибольшее сходство с результатом кластеризации по мере,базирующейся на кодах классификатора MSC2000, позволил получить апостериорновыбираемые правила для определения весовых коэффициентов на основании предполагаемой достоверности данных:1) если каждый из документов d1 и d2 имеет более двух авторов и, как минимум,2/3 из них совпадают, то коэффициент при атрибуте “авторы” равен 1;2) если каждый из документов d1 и d2 содержит более трех ключевых слов и, какминимум, 3/4 этих слов совпадают, то коэффициент при атрибуте “ключевыеслова” равен 1;273) если каждый из документов d1 и d2 содержит более четырех ключевых терминовв аннотации и, как минимум, 3/5 этих терминов совпадают, то коэффициент приатрибуте “аннотация” равен 1;4) если условия ни одного из правил 1–3 не выполнены, то коэффициент при атрибуте “авторы” равен 0,2, а при атрибутах “ключевые слова” и “аннотация” равен 0,4.Интересно отметить, что эти правила применимы как для FRiS-алгоритма, так идля жадного алгоритма.В шестой главе излагается структура внешнего представления научной инаучно-организационной информации.Предложена методика задания структуры представления информации на основании многомерной классификации.Поскольку на практике большинство рядовых пользователей испытывает затруднения в самостоятельном построении запросов более сложных, нежели простой контекстный или атрибутивный поиск, постольку базовая структура представления информации должна отвечать такой совокупности заранее сформулированных информационныхзапросов (например, содержать соответствующие гиперссылки), которая в состоянииудовлетворить основные информационные потребности пользователей системы.Разработана базовая структура представления информации на основании многомерной (т.е.

не сводящаяся только к предметной) классификации, классификация документов, позволяющая включать в метаописание документа некий многомерный наборклассификационных признаков.Алгоритм задания структуры состоит в следующем.Любой документ di каталога системы представляется как di =< mj,ki >. Рассмотримподмножество метаданных MC , определяющее набор классификационных признаковдокументов. Для фиксированного элемента метаданных M j , где M j ∈ MC , множестводокументов разбивается на классы эквивалентности, соответствующие различным значениям этого элемента метаданных.Будем считать два экземпляра сущностей толерантными, если у них совпадает значение хотя бы одного из элементов метаданных, входящих в MC Каждое такое значениепорождает класс толерантности.

Рассмотрим всевозможные сочетания значений элементов метаданных, входящих в MC . Множества документов, обладающие одинаковымнабором значений, суть ядра. Ядра служат классами эквивалентности на множестведокументов.Выделим подмножество элементов метаданных M ∗ = {M jk }lk=1 , M jk ⊂ MC , определяющее для данной предметной области важнейшие характеристики документов (или, в зависимости от специфики задачи, описываемых документами сущkностей), при этом M jk = {mji k }li=1.

Тогда ядра толерантности, задающие базовую структуру представления информации, суть элементы декартова произведенияΠM ∗ = M j1 × M j2 × · · · × M jl . Тем самым поиск интересующего пользователя классадокументов сводится к выбору соответствующего элемента (mji11 , mji22 , . . . , mjill ) ∈ ΠM ∗ ,т.

е. к отображению S ∗ : ΠM ∗ → D, а предварительная классификация документов —к обратному отображению C ∗ : D → ΠM ∗ .Разумеется, обычный атрибутивный поиск описывается аналогичным образом, однако элементы метаданных M jk — важнейшие характеристики документов — выбираются так, что количество возможных значений для них (или, по крайней мере, длябольшинства из них) достаточно невелико, что позволяет предоставить пользователюсовокупность заранее сформулированных информационных запросов (например, соответствующие гиперссылки), которая в состоянии удовлетворить основные информационные потребности.28Таким образом, базовая структура представления информации в каталоге описывается посредством задания подмножества метаданных, определяющего набор классификационных признаков, и сочетаний значений этих метаданных.Показано, что для коллекции “Персоны” целесообразны следующие классификаторы: 1) тематический, 2) хронологический, 3) географический; для коллекции “Публикации”: 1) тематический, 2) жанровый, 3) хронологический; для коллекции “Юридическиедокументы”: 1) уровень издавшего документ органа, 2) источник права (ветвь власти),3) хронология.В седьмой главе описана практическая реализация программной системы информационного обеспечения научной деятельности: приведена функциональная схема программной системы (рис.

Характеристики

Список файлов диссертации

Свежие статьи
Популярно сейчас
А знаете ли Вы, что из года в год задания практически не меняются? Математика, преподаваемая в учебных заведениях, никак не менялась минимум 30 лет. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6381
Авторов
на СтудИзбе
308
Средний доход
с одного платного файла
Обучение Подробнее