Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 49
Текст из файла (страница 49)
Вэтом случае эксперт может поставить более широкую рубрику (что не оченьплохо), ошибочную рубрику, или не ставить, на всякий случай, никакойрубрики;3) сложность в принятии решения о важности/неважности побочных тем длясодержания документа;4) наличие неформализованных ограничивающих правил рубрицирования. Сутьпроблемы заключается в том, что ограничивающие правила рубрицирования, несвязанные непосредственно с формулировкой конкретной рубрики, являютсясерьезной базой для субъективизма:- об этих правилах забывает часть экспертов,- для разных рубрик эти правила соблюдаются с разной степеньюпоследовательности,- эти правила неизвестны пользователю, в большой степени он опирается набуквальную формулировку рубрики.Таким образом, на наш взгляд, создание достаточно большой, последовательноотрубрицированной текстовой коллекции является серьезной организационнойпроблемой.13.3.2.
Проблемы методов машинного обученияПри разработке системы автоматической рубрикации, основанной на машинномобучении, необходима коллекция документов, размеченная экспертами по рубрикам. Дляэффективного обучения рубрицированию по большому рубрикатору требуется большеечисло размеченных документов. Важной особенностью такой размеченной коллекцииявляется то, что разметка должна быть выполнена последовательно, то есть, необходимо,чтобы эксперты применяли одни и те же принципы отнесения текстов к рубрике, чтобыпохожие документы получали похожие рубрики.Однако для многих возникающих на практике задач, где требуется автоматическаяклассификация текстов, коллекция классифицированных документов либо отсутствует,либо имеет недостаточный объем. В этом случае методы машинного обучениянеприменимы, и затраты на создание обучающей коллекции адекватного объема весьмавысоки.
Кроме того, при низкой степени согласованности проставления рубрик, методымашинного обучения дают весьма низкие результаты.Проблема создания обучающей коллекции достаточного объема и качестваобостряется с увеличением количества рубрик. Распределение количества документов порубрикам существенно неравномерно, поэтому бóльшая часть рубрик содержит весьмамало документов.Таким образом, факторами, усложняющими или делающими невозможнымприменение методов машинного обучения для автоматической рубрикации текстов,являются следующие:184множество примеров рубрикации отсутствует и не может быть создано вкороткое время;- множество примеров рубрикации существует, но при их созданииотсутствовали требования к качеству, например, документы отрубрицированыих авторами, то есть людьми, которые не имеют согласованного взгляда насодержание каждой конкретной рубрики;- множество примеров противоречиво и (или) недостаточно для большинстварубрик (очень большие классификаторы) – такая ситуация может возникнуть ипри едином руководстве ручной рубрикацией;- множество примеров для обучения взято из близкой, но другой коллекции, длякоторой значимое количество примеров имеется.Кроме того, попытки использования методов рубрикации, основанных намашинном обучении, в автоматизированных режимах с участием экспертов- индексаторовсталкиваются с проблемой плохой объяснимости результатов машинного обучения,невозможностью продемонстрировать эксперту конкретные слова или словосочетания,которые привели к выбору данной рубрики.-13.3.3.
Проблемы автоматического рубрицирования сиспользованием экспертного описания рубрикК достоинствам методов, основанных на знаниях, относится высокаяэффективность и "прозрачность" алгоритма — результаты обработки легкоинтерпретировать, то есть понять, почему документ был отнесен к данной рубрике. Дляреализации этих методов фактор непоследовательного рубрицирования коллекции неявляется существенным. Основным недостатком этого класса методов является высокаятрудоѐмкость описания рубрик.Проблемы автоматического рубрицирования с использованием «инженерногоподхода» связаны со следующими обстоятельствами:- для автоматической рубрикации нужно вручную создать образ рубрики, какнекоторое выражение на основе слов и (или) терминов реальных текстов,неполный учет вариантов употребления слов в тексте может привести кпроблемам автоматической рубрикации- при автоматической обработке конкретных текстов могут возникнутьдостаточно серьезные проблемы анализа языкового материала, контекстаупотребления того или иного слова, требующие привлечения обширных знанийо языке и предметной области, которые очень трудно описать в действующихпрограммных системах автоматической рубрикации.Так, серьезной проблемой, приводящей к появлению ложных рубрик или нехваткеправильных рубрик, является многозначность слов, то есть употребление слова в текстене в том значении, на которое рассчитывал эксперт, составляя образ рубрики.Еще одной неприятной проблемой является так называемая проблема ложнойкорреляции.
Ложная корреляция может возникнуть в случаях, когда для отнесения текстак рубрике необходимо присутствие в тексте двух логических элементов. Например, длярубрицирования по рубрике «Экономические реформы» необходимо присутствие в текстедвух тематических элементов – темы экономики и темы реформы.
Ложная корреляция и,соответственно, неправильное отнесение текста к данной рубрике возникает в тех случаях,когда такие тематические элементы присутствуют в тексте, но не имеют отношения друг кдругу. Например, такая ситуация может произойти, если в тексте речь шла о судебнойреформе и были упомянуты некоторые экономические вопросы.Сложной является и ситуация, которую можно обозначить как рубрикация понесущественному элементу.
Текст отнесен к рубрике по слову или словосочетанию,которое, по сути, соответствует содержанию рубрики, но в данном тексте это опорноеслово или словосочетание употреблено случайно или в каком-то специфическом185контексте, из-за чего текст становится нерелевантным рубрике.
Например, текст можетбыть ошибочно отнесен к рубрике «Средства массовой информации» на основеследующего фрагмента: «Около 40 человек умерли во Франции в результатеустановившейся в стране жары… Правительство и средства массовой информации следятза ситуацией…».Таким образом, при инженерном подходе к рубрикации после создания образоврубрик необходимо проводить несколько этапов тестирования сделанных описанийрубрик.13.4.
Системы автоматического рубрицирования приработе с реальными коллекциямиВ этом разделе мы рассмотрим, как решаются проблемы автоматическойрубрикации текстов в различных коммерческих компаниях, службах, функционированиекоторых требует автоматической рубрикации больших потоков текстовой информации.13.4.1.
Выводы семинара по Операционным системы классификацииВ 2001 и 2002 годах проводились специальные семинары «Operational textcategorization‖, целью которых был анализ ситуации в области автоматическойрубрикации текстов, в том смысле, насколько различные методы автоматическогорубрицирования используются в реальных условиях обработки больших текстовыхмассивах.Рассмотрим подробнее основные мнения докладчиков этих семинаров.М.
Вассон из компании LexisNexis сообщил, что система автоматическойрубрикации текстов работает в LexisNexis в течение многих лет. Система включает более70000 категорий, включая рубрики и именованные сущности. Требования по точности ипоследовательности рубрикации очень высокие, поскольку среди пользователей многопрофессионалов.Системы рубрикации в LexisNexis создавались вручную и итеративно.
Чистыепоходы машинного обучения оказались неэффективными из-за огромного разнообразияиспользуемых источников. Однако технологии обучения на примерах, например, в формелинейной регрессии используются в качестве вспомогательного механизма для ручногоописания рубрик и взвешивания слов и групп слов. Также, при использованиитехнологий, основанных на знаниях, все результаты просматриваются экспертом и могутбыть изменены.Докладчик подчеркнул, что данные по эффективности того или иного метода илипродукта по рубрикации текстов не всегда являются хорошими предсказателямиэффективности их использования в LexisNexis.Представители компании Kanisa описали свой опыт использования системавтоматической рубрикации текстов для поддержки интерактивных помогающих систем.Документы состоят из документов типа «часто задаваемые вопросы», руководств,информации о продукции, и их нужно классифицировать по нескольким измерениям, чтоозначает, что должны сосуществовать несколько таксономий (до 150 таксономий, до 2000категорий на таксономию), которые отражают различные точки зрения.Большое количество близких по смыслу категорий и нехватка данных по многимкатегориям (так же как и стоимость разметки) не дают возможности использовать чистыетехнологии обучения по примерам.
Текущий подход состоит в использовании ручногоопределения и описания рубрик, далее используются обучающие данные для настройкивесов.Также была представлена технология автоматического рубрицирования в рамкахпоисковой машины Northern Light Technology. Используется таксономия, состоящая из 16тысяч категорий (9 уровней) для тематического рубрицирования, таксономия 150 типов186документов и др., Таксономии созданы библиотекарями и базируются на существующихтаксономиях.Для автоматической рубрикации используется совокупность подходов, включая:- линейные классификаторы, обученные на примерах;- классификаторы, построенные на описываемых вручную правилах,- метаправила, которые заменяют множество более специфичных рубрик наболее общую,- ограниченную ручную рубрикацию.Точность рубрикации считается более важной, чем полнота.