Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 48
Текст из файла (страница 48)
В такой конструкции могутбыть также заданы части речи, способ написания (с большой или маленькой буквы), знакипрепинания. Каждому такому шаблону приписан вес, определяющий, насколько сильноэтот шаблон соответствует той или иной рубрике. Суммирование весов шаблонов,сопоставленных одной и той же рубрике по тексту, дает величину соответствия этойрубрики тексту. Решение о выборе рубрик для текста принимаются на основе правил, вкоторых учитывается, какие рубрики были обнаружены в тексте, в какой части текставстречались соответствующие шаблоны, и какой суммарный вес имеет каждая рубрика.Результаты работы таких систем на тех текстовых потоках, для которых онипроектировались, дают очень высокие оценки эффективности автоматическогорубрицирования.
Например, в работе (Hayes, 1992) приводятся следующиехарактеристики эффективности работы системы автоматического рубрицированияэкономических и финансовых сообщений информационного агентства Рейтер: точность 84%, полнота - 94%. Объем рубрикатора - 674 рубрики. В работе (Riloff, Lehnert, 1994)сообщается о реализации технологии автоматической рубрикации, достигающей 100%точности при 60% полноты.Однако разработка систем автоматического рубрицирования, основанных назнаниях, требует больших затрат труда и часто занимает несколько человеко-лет. В такихсистемах базы знаний и алгоритмы жестко настроены не только на предметную область,но и на рубрикатор, размер и формат текстов. Поэтому изменение рубрикатора илинеобходимость рубрицирования текстов той же предметной области, но из другогоисточника информации влечет за собой значительные дополнительные усилия.В настоящее время можно наблюдать всплеск научных работ, посвященныхприменению методов машинного обучения для автоматической рубрикации текстов.Приводятся высокие оценки результатов работы таких методов (Dumais и др., 1998;Joachims, 1998; Lewis, 2001; Yang, Liu, 1999).Однако, как отмечалось в ряде работ (Ageev и др., 2002; Dumais и др.; 2002, Lewis,2001; Sebastiani, 2001; Rose и др., 2002), для больших рубрикаторов - 500 и более рубрик из-за трудности формирования качественной непротиворечивой обучающей коллекцииединственно работающим подходом в настоящее время является так называемый"инженерный" подход (Wasson, 2001; Hayes, 1992; Добров, Лукашевич, 2002а),подразумевающий ручное описание смысла каждой рубрики.
Например, в компанииРейтер, предоставляющей текстовые коллекции, на которых продемонстрированы многиевысокие результаты технологий машинного обучения, в собственном бизнес-процессеиспользуется технология, сочетающая работу системы автоматической рубрикации,основанной на знаниях, с последующим просмотром редакторами (Rose и др., 2002).В следующих разделах мы подробнее опишем достигнутые результаты и проблемыразных технологий автоматической рубрикации текстов, а также на основе материаловсеминара Operational Text Categorization («Реально работающая» рубрикациятекстов)(Dumais и др., 2002; Lewis, Sebastiani, 2001) рассмотрим, каково состояние дел поприменению технологий автоматической рубрикации в реальных организациях нареальных текстовых массивах (в противовес к исследовательским публикациям нанаучных конференциях и в научных журналах). В заключение будут рассмотрены181подходы к использованию тезауруса WordNetинформации в методах машинного обучения.какдополнительногоисточника13.2.
Результаты автоматического рубрицирования наисследовательских коллекцияхРассмотрим результаты рубрикации для наиболее популярных англоязычных ирусскоязычных корпусов текстов.13.2.1. Исследование методов рубрикации на коллекции Reuters-21578Большое число исследований эффективности методов автоматической рубрикациипроводится на популярной коллекции финансовых сообщений информационногоагентства Рейтер — Reuters-21578, которая была специально создана для тестированияметодов автоматической рубрикации текстов (Lewis). Для этой коллекции характерныследующие особенности:- тексты сообщений небольшие по величине и принадлежат узкой предметнойобласти финансовых и биржевых новостей;- рубрикатор, включающий 135 рубрик, относительно прост, без иерархии,причем первоначально (Dumais и др., 1998; Debole, Sebastiani, 2004) длятестирования использовались лишь 10 наиболее частотных рубрик;- присвоение рубрик проводилось с контролем качества работы экспертов.
Вчастности, 40% из имеющихся 21578 документов не рекомендуются киспользованию из-за того, что присвоение рубрик к ним признанонекачественным. Оставшиеся 12902 документа помечены как «качественноотрубрицированные».Для 10 наиболее частотных рубрик коллекции Reuters-21578 результатыприменения машинного обучения весьма высоки — в среднем около 84% F-меры.Сравнительные исследования эффективности методов машинного обучения на коллекцииReuters-21578 (Dumais и др., 1998; Joachims 1998; Ageev и др., 2002) показали, чтонаиболее эффективным методом является метод опорных векторов SVM по сравнению сметодами Байеса, ближайших соседей, Rocchio, деревьев решений C4.5, нейронных сетей,Байесовских сетей.Дальнейшие исследования, однако, показали, что для менее частотных рубриккачество рубрикации методовм SVM значительно ниже.
В среднем по 50 наиболеечастотным рубрикам значение F-меры составляет 56% (Ageev, Dobrov, 2003).В 2004 году в работе (Debole, Sebasiani, 2004) было представлено детальноеисследование качества классификации коллекции Reuters-21578 в зависимости отиспользуемого алгоритма машинного обучения, подмножества рубрик и способаусреднения оценок. Оказалось, что:- выбор способа оценки и множества рубрик влияет на результат сильнее, чемвыбор метода машинного обучения;- качество классификации частотных рубрик значительно выше, чемнизкочастотных;- усреднение по парам документ-рубрика (микроусреднение) (Агеев, Кураленок2004) дает более высокий результат, чем усреднение по рубрикам(макроусреднение) — этот вывод формально следует из предыдущего, так каквысокочастотные рубрики дают больший вклад в микроусредненную метрику,чем макроусредненную;- лучший результат для 90 рубрик – всего около 50% F-меры в среднем порубрикам.Таким образом, при детальном рассмотрении системы рубрикации, основанные намашинном обучении, имеют серьезные проблемы даже на относительно простом182рубрикаторе: 50% F-меры означает, что только половина документов получилоправильные рубрики (Агеев и др., 2008)..13.2.2.
Исследование методов рубрикации на коллекции РОМИПСреди российских исследователей способом оценки эффективности системавтоматической рубрикации текстов является участие в Российском семинаре по методаминформационного поиска РОМИП (http://romip.ru). В дорожках классификации РОМИПиспользовались 5 коллекций документов, и три рубрикатора объемом 160-240 рубрик:- «Сайты интернет»: NAROD.RU (~700 000 документов), DMOZ (~300 000документов) и BY.WEB (~1 500 000 документов).- «Нормативно-правовые документы РФ»: 2004-2006 годы — ~64 000документов, 2007 год — ~300 000 документов.Задачи автоматической рубрикации текстов РОМИП имеют следующиеособенности:- коллекции документов и рубрикаторы имеют широкий спектр тематики;- значительное число рубрик;- для оценки рубрики присваиваются документам большим количествомэкспертов, зачастую — с низким контролем качества.Участники дорожек классификации РОМИП 2003-2009 годов применяли разныеметоды машинного обучения: SVM (во множестве вариаций, с оптимизацией различныхпараметров), нейронные сети, некоторые модификации метода Rocchio и др., Полученныелучшие результаты по разным типам документам и рубрикаторам составляют 45-55% Fмеры, что характерно также и для коллекции Reuters-21578.13.3.
Проблемы методов классификации текстовТрадиционно считается, что несоответствие результатов автоматическойклассификации ожидаемым, разумным критериям соответствия документов рубрикамвызвано несовершенством самих методов автоматической классификации. Данноепредположение является основной мотивацией для разработки более совершенныхмоделей представления текста и методов автоматической классификации.Однако определение основной тематики текста и выбор адекватных рубрикявляется сложной проблемой и для человека. Трудность ручного рубрицирования инеоднозначность выбора адекватных рубрик является проблемой, порождающей многиепроблемы автоматического рубрицирования (Агеев и др., 2008).Поэтому сначала мы рассмотрим проблемы ручного рубрицирования, а затемперейдем к описанию проблем автоматических методов рубрицирования.13.3.1. Проблемы ручного рубрицированияХарактерными особенностями ручного рубрицирования являются:- высокая точность рубрицирования.
Как показывает практика, процентдокументов, в которых проставлена явно неправильная рубрика, мал;- низкая скорость обработки документов;- низкая полнота рубрицирования. Обычно специалисты по рубрикациипроставляют рубрики, характеризующие основное содержание документа, хотядокумент может быть отнесен и к ряду других рубрик. В результате получается,что при сравнении результатов рубрикации разными экспертами одних и тех жедокументов процент совпадения проставленных рубрик может оказаться весьманизким – 60%, то есть похожие документы могут получить достаточно разныенаборы рубрик. Такая ситуация усугубляется при увеличении величины ииерархической сложности рубрикатора.183Непоследовательность ручного рубрицирования становится серьезной проблемойдля настройки разного типа систем автоматического рубрицирования, посколькузатрудняется построение формальных правил отнесения документов к той или инойрубрике.Представляется, что основными причинами непоследовательной работы экспертовиндексаторов при рубрицировании по большим классификаторам является:1) сложность ориентации в большом классификаторе (эксперт может не знать илизабыть о существовании более близкой по смыслу рубрики);2) неуверенность эксперта, который обычно является специалистом поограниченному кругу вопросов, при необходимости принимать точное решениепо вопросам, в которых он менее компетентен (например, специалист построительству будет менее компетентен в вопросах финансов и наоборот).