Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 50
Текст из файла (страница 50)
90 процентов точностинеобходимо для удобства пользователей. После значительной настройки системаавтоматической рубрикации в данной поисковой машине получает 90-95% точности пооценкам пользователей, и 60-65 % точности в соответствии с внутренними строгимиоценками. Полнота оценивается как 25%, но многие пропущенные документыпредставляют собой очень маленькие документы, или документы, созданныеисключительно для навигационных целей. Точность и полнота выше на документах, неотносящихся к интернету.Д. Льюис описал проект для Национального центра по благотворительнойстатистике (charitable), в котором необходимоавтоматически классифицироватьдеятельность неправительственных организаций США. Используемая таксономия большая и иерархическая.
Представлено более 20 тысяч примеров рубрикации. Однакобыли существенные проблемы с данными рубрикации: качество ручной рубрикации былоразличным (использовался труд стажеров и профессионалов), некоторая разметкапроисходила от разных версий рубрикатора и т.п. Несмотря на большой объем примеров,более 70% рубрик имело менее 20 примеров.Выводы организаторов семинара были следующими: в реальных системах широкоиспользуется обучение на примерах, однако редко работает схема: на входе данные – навыходе классифицирующая система.
Ручное описание рубрик до стадии обучения илимодификация классификаторов после обучения является достаточно распространеннымявлением в реально работающих системах. Причины включают как необходимость учетачеловеческого знания о предметной области, которые могли быть и не обнаруженыобучающей системой, так и проблемы отсутствия размеченных данных, стоимостьразметки, непоследовательность разметки. Важная роль предметных знаний частоприводит к использованию менее эффективных систем классификации, но позволяющихвмешательство человека.Меры эффективности, включая полноту и точность, иногда используются. Приэтом заказчики первоначально имеют завышенные ожидания (100% полнота и точность).Приходится проводить «обучение» по поводу пределов технологии и субъективностиклассификации, а также рассмотрение действительных потребностей в контекстеприложения.Кроме того, такие меры качества рубрикации как точность и полнота не отражаютполной картины.
В частности, некоторые ошибки системы рубрикации значительно хуже,чем другие в терминах восприятия пользователя. Приписывание категории, котораяошибочна, но близка по смыслу к правильной категории, рассматривается пользователямикак менее плохая ошибка, чем присваивание полностью не соответствующей по смыслукатегории.Многие участники семинара выразили ощущение, что лучше всего использоватьавтоматизированные системы или автоматизацию совместно с человеческим контролем,что может уменьшить издержки и увеличить последовательность в присвоении рубрик.13.4.2.
Организация рубрицирования в ReutersКак известно, компания Reuters уже в течение многих лет предоставляет своиотрубрицированные коллекции документов для исследований в области автоматической187рубрикации. Интересно рассмотреть, как организован процесс рубрикации документов всамой компании Reuters (Rose и др., 2004).Компания Reuters начала применять схему автоматизации проставления категорийдокументов с конца 90-х годов.
Применяется следующая схема классификации:Все сообщения должны быть классифицированы по теме, региону и секторупроизводства. Тематические классы представляет тематическую направленность каждогодокумента. Они организованы в 4 иерархические группы с четырьмя верхнимикатегориями: Corporate/Industrial, Economics, Government/Social, Markets. Всегонасчитывается 126 рубрик, однако 103 рубрики применяются для рубрикации сообщений.Для рубрикации по сектору производства используется рубрикатор из 870 рубрик,из которых 376 реально применяются к классификации документов. Имеется также 366кодов регионов. Основным принципом рубрикации считается, что документ долженсодержать хотя бы одну тематическую рубрику и хотя бы одну рубрику региона.Первоначально использовалась система рубрикации, основанная на правилах.Однако такой подход имел следующие недостатки:- создание правил требовало специального знания, что затрудняло добавлениеновых категорий и адаптацию системы к изменяющемуся выводу,- правила не обеспечивали меры уверенности в своем выводе, что не позволялофокусировать труд редакторов на наиболее сложных случаях, а также непозволяло обнаруживать изменения во входных документах, требующихизменений или добавлений в наборе категорий.Текущая схема обработки документов такова.
Сначала тексты проходят черезсистему рубрикации TIS, основанную на правилах, которая содержит правила дляпроставления большинства рубрик. Однако было выяснено, что проставление некоторыхрубрик трудно полностью автоматизировать. Поэтому эти рубрики проставляются тольковручную.Далее автоматически проверяется соответствие проставленных рубрик правилуналичия хотя бы одной тематической рубрики и хотя бы одного кода региона. Еслидокумент не соответствует данному правилу, то он сразу отправляется к редакторам. Еслисоответствует, то перемещается в специальную очередь.В очереди каждый документ подвергается проверке хотя бы одним редактором.Кроме того, каждый месяц старший редактор берет выборку отрубрицированныхдокументов на проверку, результаты этой проверки доводятся до сведения редакторов.Последовательность проводимого рубрицирования можно в некоторой степениоценить, если вычислить процентное соотношение, сколько раз рубрики, проставленныеданным редактором, были исправлены по отношению к числу сделанных решений:Результаты программы автоматической рубрикации – исправлялись в 77 процентахслучаев.
Средний процент коррекции по людям-редакторам – 5.16%.Для оценки последовательности рубрицирования конкретными людьми могут бытьсравнены средние величины простановки рубрик людьми. В среднем, коэффициенткорреляции составил – 0.968 со стандартным отклонением – 0.018. Наибольшееотклонение показывают начинающие редакторы и автоматическая система.Таким образом, в компании Reuter для автоматической рубрикации текста иобеспечения качества и последовательности рубрикации применяется достаточно сложнаяорганизационная схема.13.5. Использование тезаурусов в автоматической рубрикации текстовПодходы машинного обучения для автоматической рубрикации документовиспользуют для своего обучения набор свойств, характеристик исходного документа.Существенной составной частью этих свойств является множество слов (отличных отстоп-слов), упоминаемых в документах.188Одним из направлений в подходах, стремящихся увеличить предсказуемостнуюмощность обучающего метода, является использование знаний о синонимах илексических отношениях, описанных в WordNet.Наиболее популярным направлением исследований привлечения информации изWordNet для автоматической рубрикации текстов является дополнение пословногопредставления документа в виде векторной модели синсетами из WordNet, после чегоприменяется тот или иной метод машинного обучения.Одной из первых работ, в которой авторы пытались интегрировать лексическуюинформацию из WordNet в набор характеристик для машинного обучения, была работа (deBuenaga Rodriguez и др., 1997).
В этой работе было выдвинуто предположение, чтообучаемая модель может быть усилена за счет применения синонимов к заголовкамкатегорий, используемых для рубрикации. Для этого авторы вручную выбралиподходящие синсеты из WordNet. Применялось два метода машинного обучения: методRocchio и метод Widrow-Hoff. Сравнение этих методов, обученных только на векторахслов, и с учетом названий рубрик и их синонимов, проводилось на коллекции Reuters21578.Для обоих методов интегрированное представление дало значимое улучшение,особенно значительным улучшение было на рубриках с малым числом обучающихпримеров (<10).В работе (Scott, Matwin, 1998) WordNet используется для расширенияпредставления документа на базе всех слов документа.
Разрешение лексическоймногозначности не производится, а берутся все синсеты слов, встретившихся в документе.Кроме того, вектор синсетов дополняется гиперонимами. Это дополнение регулируетсяпараметром h – числом шагов обобщения. Использовался алгоритм обучения Ripper.Тестирование на нескольких коллекциях показало, что ни вектор из синсетов (h=0), нивектор с одним уровнем обобщения не дали стабильного улучшения на разныхколлекциях.В работе (Jensen, Martinez, 2000) также используются синсеты и гиперонимы, но извсех синсетов многозначного слова выбирается наиболее частотный по коллекции синсети соответствующий ему гипероним. Три алгоритма машинного обучения использовалисьдля классификации текстов на базе различных комбинаций характеристик: слов, синсетов,синсетов с гиперонимами, биграмм. Эксперименты проводились на трех разныхколлекциях.Авторы делают вывод, что использование гиперонимов привело к улучшениюпоказателей автоматической рубрикации на всех коллекциях, и, кроме того,использование гиперонимов всегда улучшает показатели по сравнению с применениемтолько исходных синсетов.В работе (Kehagias и др., 2001) сравнивается качество автоматической рубрикациитрех алгоритмов машинного обучения, включая Naïve Bayes и k-NN классификаторы, наБрауновском корпусе, который размечен значениями WordNet.
Тексты корпуса разделенына 15 категорий, и, собственно, этой классификацию и должны осуществлятьклассификаторы. Было отмечено, что результаты всех методов улучшились на множествесинсетов по сравнению с пословной базой обучения, однако это улучшение было слишкомнезначительным.Влияние трех разных онтологических ресурсов на качество автоматическойрубрикации изучалось в работе (Hotho, Bloehdorn, 2004). Исследовались такие ресурсы какWordNet, онтология тезауруса в медицинской области MESH (22 тысячи понятий ссинонимами и квазисинонимами) и тезаурус по сельскохозяйственной тематикеAGROVOC (17 тысяч понятий).
Исследование проводилось на базе метода машинногообучения AdaBoost.Эксперименты на коллекции Reuters для 50 рубрик с наибольшим числомположительных примеров проводились с использованием синсетов и гиперонимов189WordNet. На комбинированном представлении слова+синсеты+гиперонимы (5 уровней)было получено улучшение меры F1 на 3.29% (макроусреднение) и 2% (микроусреднение),что означает, что увеличение качества рубрикации было больше для рубрик с небольшимчислом положительных примеров.Медицинская онтология применялась для классификации текстов из коллекцииOHSUMED. Здесь также использовались 50 рубрик с наибольшим числом примеров.