Главная » Просмотр файлов » Тезаурусы в задачах информационного поиска. Лукашевич (2010)

Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 50

Файл №1185451 Тезаурусы в задачах информационного поиска. Лукашевич (2010) (Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf) 50 страницаТезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451) страница 502020-08-25СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 50)

90 процентов точностинеобходимо для удобства пользователей. После значительной настройки системаавтоматической рубрикации в данной поисковой машине получает 90-95% точности пооценкам пользователей, и 60-65 % точности в соответствии с внутренними строгимиоценками. Полнота оценивается как 25%, но многие пропущенные документыпредставляют собой очень маленькие документы, или документы, созданныеисключительно для навигационных целей. Точность и полнота выше на документах, неотносящихся к интернету.Д. Льюис описал проект для Национального центра по благотворительнойстатистике (charitable), в котором необходимоавтоматически классифицироватьдеятельность неправительственных организаций США. Используемая таксономия большая и иерархическая.

Представлено более 20 тысяч примеров рубрикации. Однакобыли существенные проблемы с данными рубрикации: качество ручной рубрикации былоразличным (использовался труд стажеров и профессионалов), некоторая разметкапроисходила от разных версий рубрикатора и т.п. Несмотря на большой объем примеров,более 70% рубрик имело менее 20 примеров.Выводы организаторов семинара были следующими: в реальных системах широкоиспользуется обучение на примерах, однако редко работает схема: на входе данные – навыходе классифицирующая система.

Ручное описание рубрик до стадии обучения илимодификация классификаторов после обучения является достаточно распространеннымявлением в реально работающих системах. Причины включают как необходимость учетачеловеческого знания о предметной области, которые могли быть и не обнаруженыобучающей системой, так и проблемы отсутствия размеченных данных, стоимостьразметки, непоследовательность разметки. Важная роль предметных знаний частоприводит к использованию менее эффективных систем классификации, но позволяющихвмешательство человека.Меры эффективности, включая полноту и точность, иногда используются. Приэтом заказчики первоначально имеют завышенные ожидания (100% полнота и точность).Приходится проводить «обучение» по поводу пределов технологии и субъективностиклассификации, а также рассмотрение действительных потребностей в контекстеприложения.Кроме того, такие меры качества рубрикации как точность и полнота не отражаютполной картины.

В частности, некоторые ошибки системы рубрикации значительно хуже,чем другие в терминах восприятия пользователя. Приписывание категории, котораяошибочна, но близка по смыслу к правильной категории, рассматривается пользователямикак менее плохая ошибка, чем присваивание полностью не соответствующей по смыслукатегории.Многие участники семинара выразили ощущение, что лучше всего использоватьавтоматизированные системы или автоматизацию совместно с человеческим контролем,что может уменьшить издержки и увеличить последовательность в присвоении рубрик.13.4.2.

Организация рубрицирования в ReutersКак известно, компания Reuters уже в течение многих лет предоставляет своиотрубрицированные коллекции документов для исследований в области автоматической187рубрикации. Интересно рассмотреть, как организован процесс рубрикации документов всамой компании Reuters (Rose и др., 2004).Компания Reuters начала применять схему автоматизации проставления категорийдокументов с конца 90-х годов.

Применяется следующая схема классификации:Все сообщения должны быть классифицированы по теме, региону и секторупроизводства. Тематические классы представляет тематическую направленность каждогодокумента. Они организованы в 4 иерархические группы с четырьмя верхнимикатегориями: Corporate/Industrial, Economics, Government/Social, Markets. Всегонасчитывается 126 рубрик, однако 103 рубрики применяются для рубрикации сообщений.Для рубрикации по сектору производства используется рубрикатор из 870 рубрик,из которых 376 реально применяются к классификации документов. Имеется также 366кодов регионов. Основным принципом рубрикации считается, что документ долженсодержать хотя бы одну тематическую рубрику и хотя бы одну рубрику региона.Первоначально использовалась система рубрикации, основанная на правилах.Однако такой подход имел следующие недостатки:- создание правил требовало специального знания, что затрудняло добавлениеновых категорий и адаптацию системы к изменяющемуся выводу,- правила не обеспечивали меры уверенности в своем выводе, что не позволялофокусировать труд редакторов на наиболее сложных случаях, а также непозволяло обнаруживать изменения во входных документах, требующихизменений или добавлений в наборе категорий.Текущая схема обработки документов такова.

Сначала тексты проходят черезсистему рубрикации TIS, основанную на правилах, которая содержит правила дляпроставления большинства рубрик. Однако было выяснено, что проставление некоторыхрубрик трудно полностью автоматизировать. Поэтому эти рубрики проставляются тольковручную.Далее автоматически проверяется соответствие проставленных рубрик правилуналичия хотя бы одной тематической рубрики и хотя бы одного кода региона. Еслидокумент не соответствует данному правилу, то он сразу отправляется к редакторам. Еслисоответствует, то перемещается в специальную очередь.В очереди каждый документ подвергается проверке хотя бы одним редактором.Кроме того, каждый месяц старший редактор берет выборку отрубрицированныхдокументов на проверку, результаты этой проверки доводятся до сведения редакторов.Последовательность проводимого рубрицирования можно в некоторой степениоценить, если вычислить процентное соотношение, сколько раз рубрики, проставленныеданным редактором, были исправлены по отношению к числу сделанных решений:Результаты программы автоматической рубрикации – исправлялись в 77 процентахслучаев.

Средний процент коррекции по людям-редакторам – 5.16%.Для оценки последовательности рубрицирования конкретными людьми могут бытьсравнены средние величины простановки рубрик людьми. В среднем, коэффициенткорреляции составил – 0.968 со стандартным отклонением – 0.018. Наибольшееотклонение показывают начинающие редакторы и автоматическая система.Таким образом, в компании Reuter для автоматической рубрикации текста иобеспечения качества и последовательности рубрикации применяется достаточно сложнаяорганизационная схема.13.5. Использование тезаурусов в автоматической рубрикации текстовПодходы машинного обучения для автоматической рубрикации документовиспользуют для своего обучения набор свойств, характеристик исходного документа.Существенной составной частью этих свойств является множество слов (отличных отстоп-слов), упоминаемых в документах.188Одним из направлений в подходах, стремящихся увеличить предсказуемостнуюмощность обучающего метода, является использование знаний о синонимах илексических отношениях, описанных в WordNet.Наиболее популярным направлением исследований привлечения информации изWordNet для автоматической рубрикации текстов является дополнение пословногопредставления документа в виде векторной модели синсетами из WordNet, после чегоприменяется тот или иной метод машинного обучения.Одной из первых работ, в которой авторы пытались интегрировать лексическуюинформацию из WordNet в набор характеристик для машинного обучения, была работа (deBuenaga Rodriguez и др., 1997).

В этой работе было выдвинуто предположение, чтообучаемая модель может быть усилена за счет применения синонимов к заголовкамкатегорий, используемых для рубрикации. Для этого авторы вручную выбралиподходящие синсеты из WordNet. Применялось два метода машинного обучения: методRocchio и метод Widrow-Hoff. Сравнение этих методов, обученных только на векторахслов, и с учетом названий рубрик и их синонимов, проводилось на коллекции Reuters21578.Для обоих методов интегрированное представление дало значимое улучшение,особенно значительным улучшение было на рубриках с малым числом обучающихпримеров (<10).В работе (Scott, Matwin, 1998) WordNet используется для расширенияпредставления документа на базе всех слов документа.

Разрешение лексическоймногозначности не производится, а берутся все синсеты слов, встретившихся в документе.Кроме того, вектор синсетов дополняется гиперонимами. Это дополнение регулируетсяпараметром h – числом шагов обобщения. Использовался алгоритм обучения Ripper.Тестирование на нескольких коллекциях показало, что ни вектор из синсетов (h=0), нивектор с одним уровнем обобщения не дали стабильного улучшения на разныхколлекциях.В работе (Jensen, Martinez, 2000) также используются синсеты и гиперонимы, но извсех синсетов многозначного слова выбирается наиболее частотный по коллекции синсети соответствующий ему гипероним. Три алгоритма машинного обучения использовалисьдля классификации текстов на базе различных комбинаций характеристик: слов, синсетов,синсетов с гиперонимами, биграмм. Эксперименты проводились на трех разныхколлекциях.Авторы делают вывод, что использование гиперонимов привело к улучшениюпоказателей автоматической рубрикации на всех коллекциях, и, кроме того,использование гиперонимов всегда улучшает показатели по сравнению с применениемтолько исходных синсетов.В работе (Kehagias и др., 2001) сравнивается качество автоматической рубрикациитрех алгоритмов машинного обучения, включая Naïve Bayes и k-NN классификаторы, наБрауновском корпусе, который размечен значениями WordNet.

Тексты корпуса разделенына 15 категорий, и, собственно, этой классификацию и должны осуществлятьклассификаторы. Было отмечено, что результаты всех методов улучшились на множествесинсетов по сравнению с пословной базой обучения, однако это улучшение было слишкомнезначительным.Влияние трех разных онтологических ресурсов на качество автоматическойрубрикации изучалось в работе (Hotho, Bloehdorn, 2004). Исследовались такие ресурсы какWordNet, онтология тезауруса в медицинской области MESH (22 тысячи понятий ссинонимами и квазисинонимами) и тезаурус по сельскохозяйственной тематикеAGROVOC (17 тысяч понятий).

Исследование проводилось на базе метода машинногообучения AdaBoost.Эксперименты на коллекции Reuters для 50 рубрик с наибольшим числомположительных примеров проводились с использованием синсетов и гиперонимов189WordNet. На комбинированном представлении слова+синсеты+гиперонимы (5 уровней)было получено улучшение меры F1 на 3.29% (макроусреднение) и 2% (микроусреднение),что означает, что увеличение качества рубрикации было больше для рубрик с небольшимчислом положительных примеров.Медицинская онтология применялась для классификации текстов из коллекцииOHSUMED. Здесь также использовались 50 рубрик с наибольшим числом примеров.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6384
Авторов
на СтудИзбе
308
Средний доход
с одного платного файла
Обучение Подробнее