Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 76

Файл №1185451 Тезаурусы в задачах информационного поиска. Лукашевич (2010) (Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf) 76 страницаТезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451) страница 762020-08-252020-08-25СтудИзба

Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 76)

Точность разрешения лексической многозначности поисточникам публикацийСовокупная точность работы системы по более гибкому алгоритму LocGlob впроцессе тестирования составила 73,37% и выросла на 6.7% относительно точностиразрешения многозначности, полученной по алгоритму Glob.Как и предполагалось, наибольший рост точности алгоритма, более гибкоучитывающего конфигурации путей отношений тезауруса, а также локальный иглобальный контекст, удалось получить на относительно коротких текстах новостныхсообщений. Рост точности разрешения многозначности на этих типах текстов составилболее 10%.Для получения лучших результатов тестировались разные наборы параметровалгоритма LocGlob.К особенностям наилучшего набора параметров можно отнести следующиезакономерности.Были выбраны разные пороги для разных видов многозначности: 4 балла дляА-многозначности, и 2 балла для М-многозначности.

Такой результат являетсяпредсказуемым, поскольку при М-многозначности между собой «соревнуются» несколькозначений, а при А-многозначности значение-контрагент находится вне зоны тезауруса.Выяснилось, что подтверждение от многозначного термина в локальном контекстезначимо так же, как и от однозначного термина. Эта закономерность не была очевидна,при ручном анализе было видно, что между парами многозначных терминов иногдавозникают ложные корреляции, приводящие к выбору неправильных значений для обоихтерминов.Наилучшей оказалась динамическая окрестность локального контекста 3+3.Лучший результат был получен для высоты деревьев 2 как для локального, так идля глобального уровня, то есть при поиске семантически близких терминов в среднемлучше использовать как подтверждение понятия, отстоящие от понятий, соответствующихмногозначному выражению, общая длина пути не более 4 отношений.Из всех типов перегибов «наихудшими», получившими максимальные баллыштрафа, оказались перегибы типа: видовое_понятие1 – родовое понятие – видовоепонятие_2, что ожидалось, а также перегиб-внизу типа: родовое понятие_1 – видовоепонятие – родовое понятие_2.При анализе результатов работы алгоритмов, изложенных в Таблице 19.1, нужноподчеркнуть важное обстоятельство.

Тезаурус содержит много однозначныхсловосочетаний, в состав которых входят многозначные слова, например, министробороны, уголовное дело, дополнительный отпуск. При анализе текста эти многозначные282слова попадают внутрь многословных терминов, и задача разрешения их многозначностине возникает.Однако если бы словосочетаний не было, то пришлось бы разрешатьмногозначность этих слов алгоритмически. Было подсчитано, что если учесть темногозначные слова, многозначность которых снимается за счет объемлющихсловосочетаний, то точность разрешения многозначности на основе комплекса«многословные термины тезауруса + алгоритм разрешения» возросла бы в среднем на5 процентов.Также мы исследовали вопрос, насколько точность разрешения многозначностизависит от частотности многозначной единицы в тексте. Была выявлена интереснаякорреляция, что разрешение многозначных слов, встретившихся в тексте один раз, во всехподколлекциях на несколько процентов ниже, чем в целом по коллекции.

Это означает,что точность разрешения для слов с большей частотностью выше, чем приведенная втаблице.18.3.2. Тестирование алгоритма разрешения многозначности назапросах из правовой областиИсследуя эффект нового алгоритма по разрешению лексической многозначностидля коротких текстов, мы сделали небольшую коллекцию 40 длинных запросов в областиправа из коллекции семинара по информационному поиску РОМИП (www.romip.ru),например, таких как компенсация подоходного налога при приобретении недвижимости.Для этой коллекции разрешение многозначности терминов Общественно-политическоготезауруса по алгоритму LocGlob достигло величины 82.02%, в то время как точностьпрежнего алгоритма Glob на этих запросах составляла величину 48.31%.Для такой коллекции параметры алгоритма LocGlob настраивались отдельно.Параметры, на которых были получены лучшие результаты для коллекции запросов,оказались совершенно иными, чем для коллекции статей: это максимальные величиныдеревьев – 7 шагов, минимальные пороги для обоих видов многозначности, минимальныецены перегибов.Такие результаты привели к мысли, что можно сделать систему автоматическойнастройки параметров алгоритма в зависимости от длины обрабатываемого текста.Был проведен следующий эксперимент: та же тестовая коллекция статей (см.раздел 18.3.1) была разделена на пять подколлекций по величине текстов.

Мы пыталисьподобрать лучшие параметры для каждой группы текстов и выявить функцию измененияосновных параметров. Однако в этом эксперименте четкой корреляции, позволяющейреализовать самонастройку параметров, не было выявлено. Группа самых короткихтекстов статей давала неожиданно низкий результат разрешения многозначности, причемлучший результат - 71.02% был получен на параметрах более близких к параметрам всейколлекции, чем к лучшим параметрам, полученных для запросов.18.3.3. Тестирование алгоритма разрешения многозначности по Тезаурусу РуТезДля тестирования алгоритма разрешения многозначности по всему ТезаурусуРуТез, что соответствует задаче «все слова текста» конференции Senseval, было взято по 2статьи из газет «Известия», «Комсомольская правда», «Независимая газета»,«Ведомости».

Количество многозначных единиц – 1120. Меньший объем коллекцииобъясняется значительно большими трудозатратами по подготовке эталонной разметки.Для алгоритма LocGlob была получена точность разрешения многозначности - 57.14%, сучетом разрешения за счет попадания в словосочетания, описанные в тезаурусе – 63.4%.Для лучшего набора параметров этой коллекции характерна большая величинаокна - используется динамическое окно 4+4.283Точность разрешения многозначности, показанная реализованным алгоритмом длязадачи «все слова текста», не использующая размеченного корпуса, приблизительносоответствует результатам работы лучших систем на конференции SENSEVAL.Мы получили этот результат без использования дополнительной информации онаиболее частотных значениях, без использования размеченного корпуса и т.п.Наилучший известный авторам алгоритм, использующий только WordNet, имеет точность- 50.89% на данных SENSEVAL-3 (напомним еще про 10% однозначных слов в тестовойколлекции этой конференции – см.

п. 10.1).Заключение к главе 18Реализованные алгоритмы автоматического разрешения многозначности показалимаксимальную среднюю точность разрешения многозначности 73.37% для тематическойлексики и терминологии Общественно-политического тезауруса, и 57.14% для всехзнаменательных слов текста, то есть по тезаурусу РуТез в целом.Возникает вопрос,много это или мало, и какое качество разрешениямногозначности нужно обеспечить для качественной работы тезауруса в приложенияхавтоматической обработки текстов.Качество разрешения многозначности для задачи «все слова текста» значительнопревышает показатели, достигнутые для алгоритмов, работающих на основе WordNet втех же условиях, то есть без учета информации из размеченного корпуса, и, в частностиинформации о самом частотном значении. Это, на наш взгляд, в значительной мересвязано с более богатой отношениями структурой Тезауруса РуТез.Однако представляется, что полученные результаты точности разрешениямногозначности для задачи «все слова текста» даже лучших методов недостаточны длятого, чтобы использоваться в реальных приложениях информационного поиска.

Так, вначале этой главы мы приводили данные о том, что в экспериментах было показано, чтодля того, чтобы получить новое качество поиска по сравнению с пословными моделяминеобходимо обеспечить, по крайней мере, 70% точности разрешения многозначности.С разрешением многозначности тематической лексики и терминологииОбщественно-политического тезауруса ситуация принципиально другая. Достигнутызначительно более высокие результаты разрешения многозначности. Эти результатыпотенциально могут быть увеличены за счет использования дополнительной информации(например, о самом частотном значении, которое можно выбирать при величинах оценкизначений ниже пороговых или близких к пороговым).Поэтому во многих приложениях мы более полагаемся на Общественнополитический тезаурус, а также исследуем комбинированные методы, сочетающихпословные методы обработки текстов и обработку по тематическим понятийнымресурсам, таким как тезаурусы и онтологии.284Глава 19.

Общественно-политический тезаурус как средство построениятематического представления текста19.1. Проблемы автоматического построения лексических цепочекКак мы указывали в п.14.2, описания языковых выражений в тезаурусах, могутиспользоваться для выявления лексической связности текста, что обычно делаетсяпосредством построения так называемых лексических цепочек – совокупностей языковыхвыражений текста, близких по смыслу.Основными критериями для построения лексических цепочек в большинствеподходов являются следующие:- наличие и сила связей между лексемами, описанных в некотором ресурсе,- расстояние между вхождениями лексем в тексте, измеряемое обычно впредложениях.

Характеристики

Тип файла

PDF-файл

Размер

4,72 Mb

Материал

Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf

Тип материала

Книга

Предмет

Анализ текстовых данных и информационный поиск

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов книги

tezaurusy-v-zadachah-informacionnogo-poiska.-lukashevich-2010.pdf.rar

Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.