Главная » Просмотр файлов » Автореферат

Автореферат (1137275), страница 4

Файл №1137275 Автореферат (Разработка вычислительных методов анализа текстов с использованием аннотированных суффиксных деревьев) 4 страницаАвтореферат (1137275) страница 42019-05-20СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 4)

Описывается эксперимент по разработке фильтра на основе СУВСС и демонстрируется его эффективность с точки зрения оптимизируемого критерия – полноты, а так же с точки зрения времен15Рис. 4 — Фрагмент достроенной таксономии ТВиМС. В прямоугольникахнаходятся темы основы таксономии, в скругленных прямоугольниках –достроенные категории и подкатегории Википедии. Листья достроеннойтаксономии – названия статей Википедии – помещены в овалы. В облачкахнаходятся уточнения листьев.Рис. 5 — Фрагмент достроенной таксономии ЧМ. В прямоугольникахнаходятся темы основы таксономии, в скругленных прямоугольниках –достроенные категории и подкатегории Википедии.

Листья достроеннойтаксономии – названия статей Википедии – помещены в овалы.16ной сложности. Использование критерия полноты обусловлено тем, что ошибкавторого рода – пропуск обсценного слова при фильтрации существенно важнее,чем ошибка первого рода – определение нормативного слова как обсценного.Для эксперимента по верификации нашего подхода рассматриваютсянесколько способов фильтрации обсценной лексики:Поиск по совпадению: слово t входит в стоп-лист в неизмененной формеПоиск по лемме: нормальная форма слова t входит в стоп-листПоиск по основе (стему): основа (стем) слова t входит в стоп-листПоиск по составляющим: найдено такое стоп-слово s, что коэффициентЖаккара между множеством n-грамм, на которые разбивается слово s имножеством n-грамм, на которые разбивается слово t превышает некийзаранее заданный порог;– Поиск по редакционному расстоянию: найдено такое стоп-слово s, чторедакционное расстояние Левенштейна (то есть, число операций вставки, удаления и замены символа) [Левенштейн, 1965] между ним и словомt ниже некого заранее заданного порога;– Поиск с использованием СУВСС: оценка вхождения слова t в АСД, построенное по стоп-листу, превышает некий заранее заданный порог.––––В качестве стоп-листа был использован список слов, запрещенных к использованию для наименования ресурсов в доменной зоне “рф”.

Стоп-лист содержит 4023 слова, например, таких как “говнецо”, “сиська”, “шалашовка”. Коллекция текстов была составлена и размечена автором исследования самостоятельно. Она состоит из научных статей об этимологии русского мата, текстовпроизведений Юза Алешковского, Игоря Губермана и Владимира Сорокина, песен групп Ленинград и Красная Плесень, стихотворений Сергея Есенина, Владимира Маяковского и Александра Пушкина, постов Артемия Лебедева в ЖивомЖурнале, статей, опубликованных на портале Луркмор, а так же частушек, анекдотов и пословиц. Общий размер коллекции составляет 294916 словоупотреблений и 60868 словоформ.По точности лучшим методом фильтрации является поиск совпадения.Худшими фильтрами по точности оказываются фильтры, основанные на расстоянии Левенштейна, но эти же фильтры являются лучшими по полноте.

Второеместо по полноте занимает фильтр, основанный на АСД: этот фильтр обнаруживает порядка 60% обсценной лексики. Остальные фильтры существенно проигрывают по полноте, но выигрывают по точности. Среди двух использованныхлемматизаторов, лучшие результаты достигаются при использовании Mystem.Стемминг позволяет достичь выигрыша порядка 10% по полноте сравнению слемматизацией при относительно несущественном падении точности.

Вычисление меры Жаккара на n-граммах при сравнительно высокой точности приводитк низким значением полноты.Важным параметром для сравнения фильтров является их вычислительнаясложность. Приведем оценки вычислительной сложности каждого фильтра. До17пустим, что n – это максимум из всех возможных длин слов, m – максимум издлины частотного слова и стоп-листа, n ≪ m. Тогда:– Сложность поиска по совпадению (лемме, стему) составляет O(m) –слово (лемма, стем) проверяется на совпадение со словами (стемами) изстоп-листа;– Сложность попарного вычисления коэффициента Жаккара на множествах n-грамм для слов из частотного словаря и стоп-листа и расстоянияЛевенштейна составляет O(n2 · m2 ), сложность проверки одного слова– O(n2 · m);– Сложность построения АСД с помощью алгоритма Укконена для стоплиста составляет O(m · n), сложность проверки одного слово – O(n).Таким образом, по общим мерам качества (аккуратности и F2 -мере), выигрывают фильтры, использующие поиск совпадения по леммам.

Однако, с учетомважности полноты и эффективности по времени, наилучшими являются фильтры, использующие СУВВС. Они сбалансированы по точности и полноте, имеют аккуратность, сопоставимую с другими рассматриваемыми фильтрами, хотяи невысокое значение F2 -меры из-за низкой точности.В шестой главе приводится описание программных комплексов, реализующих разработанные в исследовании модели и методы, а также решающиенекоторые вспомогательные задачи сбора и обработки данных. Программныйкомплекс EAST реализует предложенный алгоритм построения нормированного аннотированного суффиксного дерева за линейное время, а также выполняетпредварительную обработку текстов.

Программный комплекс EAST распространяется свободно и доступна как в виде консольного приложения, так и в виде библиотеки для языка Python. Программный комплекс WikiDP позволяет извлекатьиз Википедии данные различных типов, такие как дерево категорий с корнем взаданном узле и принадлежащие к этом дереву статьи.В заключении приводятся основные выводы, итоги и результаты работы.Основные результаты работы– Предложена теоретико-множественная модель представления коллекций текстовых документов, в которой текст рассматривается как последовательность символов.

Представлением текста служат все символьноепоследовательности фиксированной длины и короче и их частоты;– Предложено использовать метод нормированного аннотированного суффиксного дерева, который позволяет за линейное от размера текста время найти всего его фрагменты заданной длины и короче, а также вычислить их частоты, для оценки частот теоретико-множественной моделипредставления коллекций текстовых документов;– Предложена мера релевантности СУВСС представляет собой среднююусловную частоту символа в максимальном совпадении и позволяет находить оценки релевантности строки тексту, которые– не зависят от размера входного текста или коллекции текстов;18– учитывают нечеткие совпадения между входной строкой и текстом.– Предложены и верифицированы методы для решения следующих задач:1.

Метод рубрикации научных статей в соответствии с системойрубрик, заданной таксономией. Экспериментальное сравнениемеры релевантности СУВСС с существующими мерами релевантности показывает, что при использовании СУВСС достигаются показатели точности в 1.5 выше, чем при использованиидругих мер релевантности.2. Метод пополнения таксономии предметной области. Экспертное оценивание примеров пополненных таксономий показывает, что метод позволяет построить обширные и качественныетаксономии.3. Метод фильтрации обсценной лексики. Устанавливается аналогия между очисткой от обсценной лексики и поиском по однословному ключу с поправкой на оптимизируемый критерий.Демонстрируется эффективность метода СУВСС по сравнениюсо стандартными методами поиска по однословным ключам иредакционному расстоянию по полноте и временной эффективности.– Разработано два программных комплекса: WikiDP – для загрузки статейи дерева категорий русскоязычной Википедии; EAST – для построениянормированных суффиксных деревьев, вычисления меры релевантностиСУВСС и построения таблиц релевантности строк тексту.Публикации в журналах, входящих в перечень ВАК:1.

Черняк Е.Л. Меры релевантности строка-текст в проблеме рубрикациинаучных статей / Черняк Е.Л., Миркин Б.Г. // Бизнес-информатика. 2014.№ 2. С. 51–62. – 1.15 п.л. (личный вклад автора – 0.5 п.л.)2. Черняк Е.Л. Метод аннотированного суффиксного дерева для оценкистепени вхождения строк в текстовые документы / Черняк Е.Л., МиркинБ.Г., Чугунова О.Н. // Бизнес-информатика. 2012. № 2.

С. 31–41. – 1 п.л.(личный вклад автора – 0.45п.л.)3. Черняк Е.Л. Системы автоматической обработки текстов / Черняк Е.Л.,Ильвовский Д.А. // Открытые системы. СУБД. 2014. № 1. С. 51–43. –0.45 п.л. (личный вклад автора – 0.3 п.л.)Прочие публикации:1. Chernyak E.L. A Method for Refining a Taxonomy by Using AnnotatedSuffix Trees and Wikipedia Resources / Chernyak E.L., Mirkin B.G.

//2nd International Conference On Information Technology and QuantitativeManagement ITQM 2014. Procedia Computer Science. 2014. Vol. 31. P. 193– 200 – 0.4 п.л. (личный вклад автора – 0.2 п.л.)192. Chernyak E.L. An AST method for scoring string-to-text similiarity insemantic text analysis / Chernyak E.L., Mirkin B.G. // Springer. 2014. Vol.92. P. 92 – 96 – 0.35 п.л. (личный вклад автора – 0.2 п.л.)3. Chernyak E.L. An approach to the problem of annotation of researchpublications / Chernyak E.L. // Proceedings of 8th ACM InternationalConference On Web Search and Data Mining.

Характеристики

Список файлов диссертации

Разработка вычислительных методов анализа текстов с использованием аннотированных суффиксных деревьев
Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6390
Авторов
на СтудИзбе
307
Средний доход
с одного платного файла
Обучение Подробнее