Главная » Просмотр файлов » Диссертация

Диссертация (1137276), страница 16

Файл №1137276 Диссертация (Разработка вычислительных методов анализа текстов с использованием аннотированных суффиксных деревьев) 16 страницаДиссертация (1137276) страница 162019-05-20СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 16)

Во-первых, положениекатегории “Деревья принятия решений” в таксономии ТВиМС нас удивило.91Таблица 30 — Качество очистки от шумаэкспертышум не шумшум731 67АСДне шум 21264Таблица 31 — Качество достраивания категорий Википедии к темамтаксономии и формирования промежуточных уровнейэкспертыродитель не родительродитель40351АСДне родитель 9578Согласно нашему методы ReTAST-w категория “Деревья принятия решений”должна быть помещена под темой “Математическая статистика”. Однако, у те­мы “Математическая статистика” уже есть потомок “Машинное обучение”. Ме­тоду ReTAST-w не удается поймать связь между “Машинным обучением” и “Де­ревьями принятия решения” из-за невысокой релевантности строки “Машинноеобучение” всем четырем статьям в категории “Деревья принятия решения”.

Низ­кое значение релевантности объясняется тем, что ни в одной из четырех статейне упоминается машинное обучение. Во-вторых, категория “Преобразователи”,которая релевантна своей родительской категории “Эффективность алгорит­мов”, имеет подкатегории “Пьезоэлектрики”, “Источники питания”, “Излучателии приемники звука”. Эти три подкатегории релевантны категории “Преобразова­тели”, но никак не связаны с “Эффективностью алгоритмов”.

Это объясняетсятем, что слово “преобразователь” имеет двойственный смысл в русском языки.В-третьих, обе таксономии заполнены статьями, описывающих персоналии, на­пример, вероятностниками или лекторами МФТИ, и категорями, содержащимиданные статьи. Следовательно, требуется разработать дополнительные проце­дуры очистки, исключающие статьи, описывющие персоналии и категории, ихсодержащие.В экспертной оценке построенной таксономии ТВиМС участвовали дваэксперта. Полученные результаты представлены в Таблицах 30 и 31.92Рисунок 4.3 — Фрагмент достроенной таксономии ТВиМС. Впрямоугольниках находятся темы основы таксономии, в скругленныйпрямоугольниках – достроенные категории и подкатегории Википедии.Листья достроенной таксономии – названия статей Википедии – помещены вовалы.

В облачках находятся уточнения листьев.Аккуратность очистки от шума составлят 0.91, достраиваниякатегорий Википедии к темам таксономии и формирования промежуточныхуровней – 0.76.Достоверность проведенного экспертного оценивания определяется неза­висимо для обеих частей исследования. Согласованность ответов экспертов навопросы из Части 1 определяется с помощью коэффициента Коэна, на во­просы из Части 2 – долей несовпавших ответов. Коэффициент согласованности Коэна ответов на вопросы из Части 1 составляет 0.319, т.е., в принципе, от­веты экспертов можно считать согласованными.

Доля несовпавших ответов навопросы из Части 2 составляет 12%.Предложенный метод пополнения таксономии ReTAST-w позволяет по­строить качественную таксономию: доля полученных ошибок не велика, экс­пертные оценки, подтверждающие высосоке качество таксономии, – достаточновысоки и согласованы на приемлимом статистическом уровне.93Рисунок 4.4 — Фрагмент достроенной таксономии ЧМ. В прямоугольникахнаходятся темы основы таксономии, в скругленный прямоугольниках –достроенные категории и подкатегории Википедии.

Листья достроеннойтаксономии – названия статей Википедии – помещены в овалы.94Глава 5. Фильтрация обсценной лексикиВведение возрастной классификации информационной продукции в Рос­сии делает задачу автоматической фильтрации контента и Веб-цензуру особен­но актуальной.

Под фильтрацией контента обычно понимают ограничение до­ступа к ресурсам нежелательной тематики и содержания [93]. Идея фильтрацииконтента заключается в автоматическом ограничении доступа к определенномуи ресурсу и осуществляется за счет:– использования предопределенных баз категорий ресурсов;– категоризации данных в момент обращения пользователя;– предоставления Веб-ресурсом своей категории.Использование предопределённых баз категорий предполагает, что суще­ствуют списки адресов ресурсов и условий, при которых доступ к ним можетбыть ограничен. При обращении пользователя к какому-то ресурсу, проверя­ется, входит ли данный ресурс в базу запрещенных ресурсов и, если входит,возвращается страница ошибки.

Примером реализации такого алгоритма филь­трации может быть недавняя блокировка РуТреккера российскими провайде­рами.Категоризация данных в момент обращения пользователя предполагаетанализ контента, опубликованного на странице, к которой пользователь обра­щается. Могут выполняться проверки на наличие определенных слов, словосо­четаний и фиксированных выражений, которые сигнализируют о наличии за­прещённого контента [94; 95]. Рынок программного обеспечения подобного родаконтент-фильтров хорошо развит, существуют десятки программ, которые мо­гут быть использованы как на государственном, так и на частном уровне. Кэтому же направлению можно отнести и разработку спам-фильтров [96].Предоставления Веб-ресурсом своей категории предполагает, что владель­цы ресурса самостоятельно делают фильтры для ограничения доступа: напри­мер, проверяют, что все пользователи ресурса достигли определенного возрастаили сообщают пользователю категорию ресурса, после чего пользователь (илиопределённые надстройки пользовательского браузера) принимают решение опереходе на запрашиваемую страницу или отказе от нее.95Если первый и третий способ фильтрации требуют обращения ко внешнимисточникам, то для второго способа достаточно анализа опубликованного настранице контента.

Сконцентрируемся на этом направлении.Сформулируем формальную постановку задачи. Пусть дана коллекциятекстов и список стоп-слов, являющихся маркерами запрещенного контекста, – стоп-лист. Для каждого слова ∈ , входящего в коллекцию, требуетсяопределить:– входит ли само слово непосредственно в список ;– и входят ли производные или однокоренные слова или составляющиеслова в список .Таким образом, задача фильтрации стоп-слов эквивалента задаче поис­ка по однословному ключу [15]. Однако в качестве оптимизируемого критерияследует использовать не точность, которая обычно используется в задачах по­иска, а полноту: необходимо найти как можно больше вхождений стоп-слов втекст, при этом, допустимо ложное срабатывание фильтра. Другими словами,стоимость ошибки первого рода существенно ниже, чем ошибки второго рода, вотличии от задачи поиска.

Другим немаловажным параметром фильтра явля­ется время его работы: если предполагается использование фильтра в реальномрежиме времени, он должен работать быстро.Эксперимент, описанные ниже, посвящен проверке применимости методаАСД в задаче фильтрации слов по стоп-листу. В качестве стоп-листа рассмотренсписок обсценной, то есть, нецензурной и ненормативной лексики, а в качествефильтров – различные меры релевантности, в том числе, СУВСС.5.1Метод фильтрации обсценной лексики fASTРассмотрим несколько вариантов фильтрации обсценной лексики:– Поиск по совпадению: слово входит в стоп-лист в неизмененной форме– Поиск по лемме: нормальная форма слова входит в стоп-лист– Поиск по основе (стему): основа (стем) слова входит в стоп-лист– Поиск по составляющим: найдено такое стоп-слово , что коэффициентЖаккара между множеством -грамм, на которые разбивается слово96 и множеством -грамм, на которые разбивается слово превышаетнекий заранее заданный порог;– Поиск по редакционному расстоянию: найдено такое стоп-слово , чторедакционное расстояние Левенштейна (то есть, число операций встав­ки, удаления и замены символа) [97] между ним и словом ниже некогозаранее заданного порога;– Поиск с использованием СУВСС: оценка вхождения слова в АСД,построенное по стоп-листу, превышает некий заранее заданный порог.Обозначим метод фильтрации с использованием СУВСС через fAST ипроведем сравнение этого метода с остальными.5.2Экспериментальная верификация метода фильтрации fASTДля экспериментальной верификации метода fAST необходимы две состав­ляющие:– стоп-лист;– коллекция текстов, содержащих обсценную лексику, и разметка (указа­ния на обсценные слова).В качестве стоп-листа был использован список слов, запрещенных к ис­пользованию для наименования ресурсов в доменной зоне “рф”.

Стоп-лист со­держит 4023 слова, например, таких как “говнецо”, “сиська”, “шалашовка”. Кол­лекция текстов была составлена и размечена автором исследования самостоя­тельно. Она состоит из научных статей об этимологии русского мата, текстовпроизведений Юза Алешковского, Игоря Губермана и Владимира Сорокина,песен групп Ленинград и Красная Плесень, стихотворений Сергея Есенина,Владимира Маяковского и Александра Пушкина, постов Артемия Лебедева вЖивом Журнале (http://tema.livejournal.com/), статей, опубликованныхна портале Луркмор (https://lurkmore.to/), а так же частушек, анекдотови пословиц.

Общий размер коллекции составляет 294916 словоупотреблений и60868 словоформ.975.2.1Постановка экспериментаСравним все методы фильтрации между собой. Поскольку составленнаяколлекция размечена, то есть, про каждое слово, известно является ли оно об­сценным или нет, вычислим следующие показатели качества:– – число истинно-положительных слов, то есть, число слов, являю­щихся обсценными согласно разметке и признанными обсценными филь­тром;– – число истинно-отрицательных слов, то есть, число слов, неявля­ющихся обсценными согласно разметке и непризнанными обсценнымифильтром;– – число ложно-положительных слов, то есть, число слов, неявляю­щихся обсценными согласно разметке и признанными обсценными филь­тром;– – число ложно-положительных слов, то есть, число слов, являющих­ся обсценными согласно разметке и непризнанными обсценными филь­тром;– точность = + – доля обсценных слов, среди общего числаслов, признаными обсценными фильтром;– полнота = + – доля обсценных слов, среди общего числа слов,являющихся обсценными согласно разметке;+– аккуратность = +++ – доля истинно-положительных иистинно-отрицательных слов среди общего числа слов – аггрегирован­ная мера качества фильтра;·– 2 -мера 2 = 2 · +– среднее гармоническое точности и полноты – агрегированная мера качествафильтра.5.2.2Схема экспериментаЭксперимент осуществлялся в несколько шагов:981.

Считывание и первичная обработка (удаление знаков пунктуации, то­кенизация, приведение к нижнему регистру) коллекции текстов, общеечисло словоупотреблений – 294916;2. Составление частотного словаря по коллекции текстов, общее числословоформ – 60868;3. Считывание и приведение к нижнему регистру стоп-листа;4. Поиск совпадений между словоформами из частотного словаря и стоп­листом, вычисление показателей качества;5. Лемматизация частотного словаря, составленного по коллекции, с помо­щью PyMorphy2 [98], поиск совпадений между нормальными формамии стоп-листом, вычисление показателей качества;6. Лемматизация частотного словаря, составленного по коллекции, с по­мощью Mystem3 [99], поиск совпадений между нормальными формамии стоп-листом, вычисление показателей качества;7.

Характеристики

Список файлов диссертации

Разработка вычислительных методов анализа текстов с использованием аннотированных суффиксных деревьев
Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6390
Авторов
на СтудИзбе
307
Средний доход
с одного платного файла
Обучение Подробнее