Главная » Просмотр файлов » Диссертация

Диссертация (1137218), страница 16

Файл №1137218 Диссертация (Методы и алгоритмы обработки текстовых данных на основе графовых дискурсивных моделей) 16 страницаДиссертация (1137218) страница 162019-05-20СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 16)

При этом чем больше объектов в контексте обладают этимпризнаком, тем меньше изменится значение индекса.108Итоговый критерий DII представляет собой комбинациюописанных выше индексов. В данной работе использовалисьследующие способы комбинации:1. Линейная комбинация описанных индексов: DII   k1I1  k2 I 22. Произведениеиндексовсостепеннымикоэффициентами:DII  I1k1  I 2k2Так как абсолютные значения коэффициентов влияют только назначениепорога,акачествофильтрациибудет определятьсясоотношением коэффициентов в формуле критерия, можно сузитьсемейство критериев без потери оптимального, взяв 1 в качествезначения одного из коэффициентов. Тогда семейства критериев будутпредставлены в виде формул с одной степенью свободы:DII   I1  kI 2DII  I1  I 2kСледуетотметить,чтоприранжированииспомощьюпроизведения формальные понятия, для которых значения одного изиндексов равны или близки к нулю, окажутся в конце списка.

То естьэтот способ делает обязательным наличие у понятия обоих свойств,описанных выше. Неизвестный коэффициент может определяться спомощью экспертной оценки, так как интерпретация обоих индексов,использованных в критерии, достаточно легка для понимания.Другой подход к подбору коэффициента заключается воптимизации критерия качества ранжирования формальных понятий.Алгоритм подбора коэффициента получает на вход множествоформальных понятий одного контекста с разметкой: '1' - все объектыпонятия - дубли, '0' - понятие содержит различные объекты. Далеерассматривается сетка на положительной вещественной оси, и на ней109максимизируется метрика качества ранжирования. Одна из такихметрик - Mean Average Precision (MAP) - более подробно описананиже.4.2.4 Формирование списков тождественных объектовСписки объектов, которые алгоритм будет выдавать в качестветождественных, формируются на основе объемов формальныхпонятий с высоким значением критерия.

Алгоритм предусматриваетдварежимаработы:автоматическоепринятиерешенияиполуавтоматический режим с привлечением эксперта-аналитика.В автоматическом режиме подразумевается, что аналитик неучаствует в принятии решения о том, являются ли объектыформального контекста тождественными. Формирование состоит издвух этапов.Первый этап заключается в фильтрации формальных понятий попорогу на разработанный критерий. На этом шаге могут добавлятьсяразличные эвристики, которые трудно учесть с помощью критерия. Врезультате фильтрации формируется список формальных понятий свысоким значением критерия.Второйэтапзаключаетсявформированиисписковтождественных объектов.

Поскольку предполагается, что отношение«быть тождественным» (здесь и далее - на множестве объектов)транзитивное, а объекты отобранного формального понятия связаныэтим отношением друг с другом, задача формирования списков такихобъектов сводится к поиску компонент связности этого отношения намножестве объектов.Построение списков осуществляется следующим образом.Вначале строится симметричное отношение R «быть тождественным».110Для каждого формального понятия с объемом {g1,R добавляются пары ( g1, gi ), g  2, gn} в отношениеn . Затем по построенномуотношению находятся компоненты связности алгоритмом на основеобхода вширину.Полученныекомпонентысвязностибудутсоответствовать спискам объектов, выделенных как тождественныедруг другу.Альтернативный режим работы алгоритма подразумевает, чторешение о том, являются ли объекты понятия тождественными,принимает аналитик.

В этом случае алгоритм предлагает понятияаналитику в порядке уменьшения «уверенности», что его объектытождественны друг другу.Алгоритм последовательно предлагает аналитику оценитьпонятия, упорядоченные по убыванию значений критерия DII. Приэтом списки формируются по мере получения ответов аналитика.Перед тем как предлагать понятие аналитику для оценки,находятся все списки тождественных объектов, имеющие пересечениес объемом понятия. Если объем уже вкладывается в один из списковдублей, то понятие не предлагается аналитику для оценки, Впротивном случае, аналитику предлагается оценить понятие. Еслианалитик дает положительный ответ по формальному понятию(считает, что объекты этого понятия тождественны друг другу), тоалгоритм редактирует списки: Если объем понятия не имеет ни одного пересечения сосписками, он добавляется как новый список. Если объем понятия имеет одно пересечение, то объекты изобъема добавляются к списку, с которым есть пересечение.111 Если объем понятия имеет пересечения с несколькимисписками, то эти списки объединяются в один и пополняютсяобъектами из объема.Такимобразом,алгоритмполучаетсписокобъектов,соответствующий текущей разметке аналитика.

Соответственно,аналитик может на каждом шаге остановить процесс оценки понятийи получить сформированные списки.Ранжирование формальных понятий по индексу DII позволяетдавать эксперту в первую очередь понятия, которые с большейвероятностью содержат тождественные объекты, что значительноупрощает работу эксперту по сравнению с оценкой понятий впроизвольном порядке.4.3 Альтернативные методыВ ходе исследования был проведен сравнительный анализразработанного метода с несколькими из наиболее распространенныхметодов, способных решать данную задачу.

Использовавшиесяметоды основаны на анализе формальных понятий и попарномсравнении объектов контекста. В качестве методов попарногосравнения объектов были рассмотрены методы на основе расстоянияХэмминга и абсолютного сходства. Данные методы могут бытьприменены к многозначному контексту или напрямую к онтологии, нодля простоты сравнения они будут описаны в применении кбинарному контексту.4.3.1 Метод на основе экстенсиональной устойчивости понятияУстойчивость формального понятия была впервые введена в [4].Позднее в работах [3,9] было предложено различать два типаустойчивости: экстенсиональную и интенсиональную.

В данной112работе использовалась экстенсиональная устойчивость, так какпредполагается, что тождественные объекты должны быть сильносвязаны большим количеством признаков и иметь небольшоеколичествоотдельныхпризнаков,соответственно,формальноепонятие, которое они образуют, должно быть устойчиво к удалениюотдельных признаков.Алгоритмпоискатождественныхобъектованалогиченосновному методу: из множества формальных понятий выделяютсянаиболее(экстенсионально)устойчивыепонятия.Затемпредполагается, что объекты из объема устойчивого формальногопонятия являются тождественными. По множеству выбранныхформальных понятий строится отношение «быть тождественным» R.Затемнаходятсякомпонентысвязностиданногоотношения.Полученные компоненты выдаются на вход в качестве итоговыхсписков объектов.4.3.2 Метод на основе меры абсолютного сходстваДанный метод основан на попарном сравнении объектов.Предполагается,чтообъектыонтологии,являющиесятождественными, имеют большое количество общих признаков.Поэтому в качестве критерия близости объектов используетсяколичество их общих признаков.

Индикатор, основанный на данноймере, представляет собой порог на количество общих признаков.Алгоритм получает на вход квадратную матрицу близостиA : A[i][ j]  k  i-й и j-й объекты имеют k общих бинарных признаков,а также порог t ( N ) .ПоматрицеAипорогустроитсяматрицасмежностиB : A[i][ j]  t  B[i][ j]  1. Матрица смежности (аналогично входной113матрице) является симметричной и описывает некоторое отношениеблизости R. Исходя из того, что отношение «быть тождественным»являетсяотношениемэквивалентностииобладаеттранзитивности, по полученному отношениютранзитивноезамыканиеR .КлассысвойствомR строится егоэквивалентностивRсоответствуют группам тождественных объектов.

Тот же результатможно получить, выделив все компоненты связности отношения R.Асимптотическая сложность алгоритма по времени - O n2  m ,где n - количество объектов в формальном контексте, m - количествопризнаков.4.3.3 Метод на основе расстояния ХэммингаАлгоритм поиска дублей основан на попарном сравненииобъектов. В качестве метрики близости используется расстояниеХэмминга. Вначале составляется квадратная матрица расстояниймежду объектами. Затем, по построенной матрице A и заданномупорогу t ( N ) строится матрица B отношения «быть тождественным»R : A[i][ j ]  t  B[i][ j ]  1, ( xi , x j )  R .Полученноеотношениесимметрично и рефлексивно.

По данному отношению находятсякомпоненты связности. Объекты, попавшие в одну компонентусвязности, считаются тождественными.Асимптотическая временная сложность алгоритма в худшемслучае аналогична сложности алгоритма на основе абсолютногосходства - O n2  m , где n - количество объектов в формальномконтексте, m - количество признаков.1144.4 Экспериментальные исследования4.4.1 Эксперименты на формальных контекстах4.4.1.1 Схема экспериментаДля того чтобы получить статистические оценки качестваразработанного алгоритма, основные эксперименты проводились наискусственносгенерированныхданныхсзаранееизвестнымитождественными объектами.

Это позволило оценить качество методана большом количестве входных данных и провести количественноесравнение разработанного метода с наиболее распространеннымиальтернативными подходами. Наряду с этим, при генерации данныхтакже учитывались особенности прикладной онтологии, что позволяетэкстраполировать полученные результаты на реальные данные.Для оценки качества метода использовались различные метрикикачества на искусственно сгенерированных контекстах.

Характеристики

Список файлов диссертации

Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6390
Авторов
на СтудИзбе
307
Средний доход
с одного платного файла
Обучение Подробнее