Диссертация (1137276), страница 16
Текст из файла (страница 16)
Во-первых, положениекатегории “Деревья принятия решений” в таксономии ТВиМС нас удивило.91Таблица 30 — Качество очистки от шумаэкспертышум не шумшум731 67АСДне шум 21264Таблица 31 — Качество достраивания категорий Википедии к темамтаксономии и формирования промежуточных уровнейэкспертыродитель не родительродитель40351АСДне родитель 9578Согласно нашему методы ReTAST-w категория “Деревья принятия решений”должна быть помещена под темой “Математическая статистика”. Однако, у темы “Математическая статистика” уже есть потомок “Машинное обучение”. Методу ReTAST-w не удается поймать связь между “Машинным обучением” и “Деревьями принятия решения” из-за невысокой релевантности строки “Машинноеобучение” всем четырем статьям в категории “Деревья принятия решения”.
Низкое значение релевантности объясняется тем, что ни в одной из четырех статейне упоминается машинное обучение. Во-вторых, категория “Преобразователи”,которая релевантна своей родительской категории “Эффективность алгоритмов”, имеет подкатегории “Пьезоэлектрики”, “Источники питания”, “Излучателии приемники звука”. Эти три подкатегории релевантны категории “Преобразователи”, но никак не связаны с “Эффективностью алгоритмов”.
Это объясняетсятем, что слово “преобразователь” имеет двойственный смысл в русском языки.В-третьих, обе таксономии заполнены статьями, описывающих персоналии, например, вероятностниками или лекторами МФТИ, и категорями, содержащимиданные статьи. Следовательно, требуется разработать дополнительные процедуры очистки, исключающие статьи, описывющие персоналии и категории, ихсодержащие.В экспертной оценке построенной таксономии ТВиМС участвовали дваэксперта. Полученные результаты представлены в Таблицах 30 и 31.92Рисунок 4.3 — Фрагмент достроенной таксономии ТВиМС. Впрямоугольниках находятся темы основы таксономии, в скругленныйпрямоугольниках – достроенные категории и подкатегории Википедии.Листья достроенной таксономии – названия статей Википедии – помещены вовалы.
В облачках находятся уточнения листьев.Аккуратность очистки от шума составлят 0.91, достраиваниякатегорий Википедии к темам таксономии и формирования промежуточныхуровней – 0.76.Достоверность проведенного экспертного оценивания определяется независимо для обеих частей исследования. Согласованность ответов экспертов навопросы из Части 1 определяется с помощью коэффициента Коэна, на вопросы из Части 2 – долей несовпавших ответов. Коэффициент согласованности Коэна ответов на вопросы из Части 1 составляет 0.319, т.е., в принципе, ответы экспертов можно считать согласованными.
Доля несовпавших ответов навопросы из Части 2 составляет 12%.Предложенный метод пополнения таксономии ReTAST-w позволяет построить качественную таксономию: доля полученных ошибок не велика, экспертные оценки, подтверждающие высосоке качество таксономии, – достаточновысоки и согласованы на приемлимом статистическом уровне.93Рисунок 4.4 — Фрагмент достроенной таксономии ЧМ. В прямоугольникахнаходятся темы основы таксономии, в скругленный прямоугольниках –достроенные категории и подкатегории Википедии.
Листья достроеннойтаксономии – названия статей Википедии – помещены в овалы.94Глава 5. Фильтрация обсценной лексикиВведение возрастной классификации информационной продукции в России делает задачу автоматической фильтрации контента и Веб-цензуру особенно актуальной.
Под фильтрацией контента обычно понимают ограничение доступа к ресурсам нежелательной тематики и содержания [93]. Идея фильтрацииконтента заключается в автоматическом ограничении доступа к определенномуи ресурсу и осуществляется за счет:– использования предопределенных баз категорий ресурсов;– категоризации данных в момент обращения пользователя;– предоставления Веб-ресурсом своей категории.Использование предопределённых баз категорий предполагает, что существуют списки адресов ресурсов и условий, при которых доступ к ним можетбыть ограничен. При обращении пользователя к какому-то ресурсу, проверяется, входит ли данный ресурс в базу запрещенных ресурсов и, если входит,возвращается страница ошибки.
Примером реализации такого алгоритма фильтрации может быть недавняя блокировка РуТреккера российскими провайдерами.Категоризация данных в момент обращения пользователя предполагаетанализ контента, опубликованного на странице, к которой пользователь обращается. Могут выполняться проверки на наличие определенных слов, словосочетаний и фиксированных выражений, которые сигнализируют о наличии запрещённого контента [94; 95]. Рынок программного обеспечения подобного родаконтент-фильтров хорошо развит, существуют десятки программ, которые могут быть использованы как на государственном, так и на частном уровне. Кэтому же направлению можно отнести и разработку спам-фильтров [96].Предоставления Веб-ресурсом своей категории предполагает, что владельцы ресурса самостоятельно делают фильтры для ограничения доступа: например, проверяют, что все пользователи ресурса достигли определенного возрастаили сообщают пользователю категорию ресурса, после чего пользователь (илиопределённые надстройки пользовательского браузера) принимают решение опереходе на запрашиваемую страницу или отказе от нее.95Если первый и третий способ фильтрации требуют обращения ко внешнимисточникам, то для второго способа достаточно анализа опубликованного настранице контента.
Сконцентрируемся на этом направлении.Сформулируем формальную постановку задачи. Пусть дана коллекциятекстов и список стоп-слов, являющихся маркерами запрещенного контекста, – стоп-лист. Для каждого слова ∈ , входящего в коллекцию, требуетсяопределить:– входит ли само слово непосредственно в список ;– и входят ли производные или однокоренные слова или составляющиеслова в список .Таким образом, задача фильтрации стоп-слов эквивалента задаче поиска по однословному ключу [15]. Однако в качестве оптимизируемого критерияследует использовать не точность, которая обычно используется в задачах поиска, а полноту: необходимо найти как можно больше вхождений стоп-слов втекст, при этом, допустимо ложное срабатывание фильтра. Другими словами,стоимость ошибки первого рода существенно ниже, чем ошибки второго рода, вотличии от задачи поиска.
Другим немаловажным параметром фильтра является время его работы: если предполагается использование фильтра в реальномрежиме времени, он должен работать быстро.Эксперимент, описанные ниже, посвящен проверке применимости методаАСД в задаче фильтрации слов по стоп-листу. В качестве стоп-листа рассмотренсписок обсценной, то есть, нецензурной и ненормативной лексики, а в качествефильтров – различные меры релевантности, в том числе, СУВСС.5.1Метод фильтрации обсценной лексики fASTРассмотрим несколько вариантов фильтрации обсценной лексики:– Поиск по совпадению: слово входит в стоп-лист в неизмененной форме– Поиск по лемме: нормальная форма слова входит в стоп-лист– Поиск по основе (стему): основа (стем) слова входит в стоп-лист– Поиск по составляющим: найдено такое стоп-слово , что коэффициентЖаккара между множеством -грамм, на которые разбивается слово96 и множеством -грамм, на которые разбивается слово превышаетнекий заранее заданный порог;– Поиск по редакционному расстоянию: найдено такое стоп-слово , чторедакционное расстояние Левенштейна (то есть, число операций вставки, удаления и замены символа) [97] между ним и словом ниже некогозаранее заданного порога;– Поиск с использованием СУВСС: оценка вхождения слова в АСД,построенное по стоп-листу, превышает некий заранее заданный порог.Обозначим метод фильтрации с использованием СУВСС через fAST ипроведем сравнение этого метода с остальными.5.2Экспериментальная верификация метода фильтрации fASTДля экспериментальной верификации метода fAST необходимы две составляющие:– стоп-лист;– коллекция текстов, содержащих обсценную лексику, и разметка (указания на обсценные слова).В качестве стоп-листа был использован список слов, запрещенных к использованию для наименования ресурсов в доменной зоне “рф”.
Стоп-лист содержит 4023 слова, например, таких как “говнецо”, “сиська”, “шалашовка”. Коллекция текстов была составлена и размечена автором исследования самостоятельно. Она состоит из научных статей об этимологии русского мата, текстовпроизведений Юза Алешковского, Игоря Губермана и Владимира Сорокина,песен групп Ленинград и Красная Плесень, стихотворений Сергея Есенина,Владимира Маяковского и Александра Пушкина, постов Артемия Лебедева вЖивом Журнале (http://tema.livejournal.com/), статей, опубликованныхна портале Луркмор (https://lurkmore.to/), а так же частушек, анекдотови пословиц.
Общий размер коллекции составляет 294916 словоупотреблений и60868 словоформ.975.2.1Постановка экспериментаСравним все методы фильтрации между собой. Поскольку составленнаяколлекция размечена, то есть, про каждое слово, известно является ли оно обсценным или нет, вычислим следующие показатели качества:– – число истинно-положительных слов, то есть, число слов, являющихся обсценными согласно разметке и признанными обсценными фильтром;– – число истинно-отрицательных слов, то есть, число слов, неявляющихся обсценными согласно разметке и непризнанными обсценнымифильтром;– – число ложно-положительных слов, то есть, число слов, неявляющихся обсценными согласно разметке и признанными обсценными фильтром;– – число ложно-положительных слов, то есть, число слов, являющихся обсценными согласно разметке и непризнанными обсценными фильтром;– точность = + – доля обсценных слов, среди общего числаслов, признаными обсценными фильтром;– полнота = + – доля обсценных слов, среди общего числа слов,являющихся обсценными согласно разметке;+– аккуратность = +++ – доля истинно-положительных иистинно-отрицательных слов среди общего числа слов – аггрегированная мера качества фильтра;·– 2 -мера 2 = 2 · +– среднее гармоническое точности и полноты – агрегированная мера качествафильтра.5.2.2Схема экспериментаЭксперимент осуществлялся в несколько шагов:981.
Считывание и первичная обработка (удаление знаков пунктуации, токенизация, приведение к нижнему регистру) коллекции текстов, общеечисло словоупотреблений – 294916;2. Составление частотного словаря по коллекции текстов, общее числословоформ – 60868;3. Считывание и приведение к нижнему регистру стоп-листа;4. Поиск совпадений между словоформами из частотного словаря и стоплистом, вычисление показателей качества;5. Лемматизация частотного словаря, составленного по коллекции, с помощью PyMorphy2 [98], поиск совпадений между нормальными формамии стоп-листом, вычисление показателей качества;6. Лемматизация частотного словаря, составленного по коллекции, с помощью Mystem3 [99], поиск совпадений между нормальными формамии стоп-листом, вычисление показателей качества;7.