Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 76
Текст из файла (страница 76)
Точность разрешения лексической многозначности поисточникам публикацийСовокупная точность работы системы по более гибкому алгоритму LocGlob впроцессе тестирования составила 73,37% и выросла на 6.7% относительно точностиразрешения многозначности, полученной по алгоритму Glob.Как и предполагалось, наибольший рост точности алгоритма, более гибкоучитывающего конфигурации путей отношений тезауруса, а также локальный иглобальный контекст, удалось получить на относительно коротких текстах новостныхсообщений. Рост точности разрешения многозначности на этих типах текстов составилболее 10%.Для получения лучших результатов тестировались разные наборы параметровалгоритма LocGlob.К особенностям наилучшего набора параметров можно отнести следующиезакономерности.Были выбраны разные пороги для разных видов многозначности: 4 балла дляА-многозначности, и 2 балла для М-многозначности.
Такой результат являетсяпредсказуемым, поскольку при М-многозначности между собой «соревнуются» несколькозначений, а при А-многозначности значение-контрагент находится вне зоны тезауруса.Выяснилось, что подтверждение от многозначного термина в локальном контекстезначимо так же, как и от однозначного термина. Эта закономерность не была очевидна,при ручном анализе было видно, что между парами многозначных терминов иногдавозникают ложные корреляции, приводящие к выбору неправильных значений для обоихтерминов.Наилучшей оказалась динамическая окрестность локального контекста 3+3.Лучший результат был получен для высоты деревьев 2 как для локального, так идля глобального уровня, то есть при поиске семантически близких терминов в среднемлучше использовать как подтверждение понятия, отстоящие от понятий, соответствующихмногозначному выражению, общая длина пути не более 4 отношений.Из всех типов перегибов «наихудшими», получившими максимальные баллыштрафа, оказались перегибы типа: видовое_понятие1 – родовое понятие – видовоепонятие_2, что ожидалось, а также перегиб-внизу типа: родовое понятие_1 – видовоепонятие – родовое понятие_2.При анализе результатов работы алгоритмов, изложенных в Таблице 19.1, нужноподчеркнуть важное обстоятельство.
Тезаурус содержит много однозначныхсловосочетаний, в состав которых входят многозначные слова, например, министробороны, уголовное дело, дополнительный отпуск. При анализе текста эти многозначные282слова попадают внутрь многословных терминов, и задача разрешения их многозначностине возникает.Однако если бы словосочетаний не было, то пришлось бы разрешатьмногозначность этих слов алгоритмически. Было подсчитано, что если учесть темногозначные слова, многозначность которых снимается за счет объемлющихсловосочетаний, то точность разрешения многозначности на основе комплекса«многословные термины тезауруса + алгоритм разрешения» возросла бы в среднем на5 процентов.Также мы исследовали вопрос, насколько точность разрешения многозначностизависит от частотности многозначной единицы в тексте. Была выявлена интереснаякорреляция, что разрешение многозначных слов, встретившихся в тексте один раз, во всехподколлекциях на несколько процентов ниже, чем в целом по коллекции.
Это означает,что точность разрешения для слов с большей частотностью выше, чем приведенная втаблице.18.3.2. Тестирование алгоритма разрешения многозначности назапросах из правовой областиИсследуя эффект нового алгоритма по разрешению лексической многозначностидля коротких текстов, мы сделали небольшую коллекцию 40 длинных запросов в областиправа из коллекции семинара по информационному поиску РОМИП (www.romip.ru),например, таких как компенсация подоходного налога при приобретении недвижимости.Для этой коллекции разрешение многозначности терминов Общественно-политическоготезауруса по алгоритму LocGlob достигло величины 82.02%, в то время как точностьпрежнего алгоритма Glob на этих запросах составляла величину 48.31%.Для такой коллекции параметры алгоритма LocGlob настраивались отдельно.Параметры, на которых были получены лучшие результаты для коллекции запросов,оказались совершенно иными, чем для коллекции статей: это максимальные величиныдеревьев – 7 шагов, минимальные пороги для обоих видов многозначности, минимальныецены перегибов.Такие результаты привели к мысли, что можно сделать систему автоматическойнастройки параметров алгоритма в зависимости от длины обрабатываемого текста.Был проведен следующий эксперимент: та же тестовая коллекция статей (см.раздел 18.3.1) была разделена на пять подколлекций по величине текстов.
Мы пыталисьподобрать лучшие параметры для каждой группы текстов и выявить функцию измененияосновных параметров. Однако в этом эксперименте четкой корреляции, позволяющейреализовать самонастройку параметров, не было выявлено. Группа самых короткихтекстов статей давала неожиданно низкий результат разрешения многозначности, причемлучший результат - 71.02% был получен на параметрах более близких к параметрам всейколлекции, чем к лучшим параметрам, полученных для запросов.18.3.3. Тестирование алгоритма разрешения многозначности по Тезаурусу РуТезДля тестирования алгоритма разрешения многозначности по всему ТезаурусуРуТез, что соответствует задаче «все слова текста» конференции Senseval, было взято по 2статьи из газет «Известия», «Комсомольская правда», «Независимая газета»,«Ведомости».
Количество многозначных единиц – 1120. Меньший объем коллекцииобъясняется значительно большими трудозатратами по подготовке эталонной разметки.Для алгоритма LocGlob была получена точность разрешения многозначности - 57.14%, сучетом разрешения за счет попадания в словосочетания, описанные в тезаурусе – 63.4%.Для лучшего набора параметров этой коллекции характерна большая величинаокна - используется динамическое окно 4+4.283Точность разрешения многозначности, показанная реализованным алгоритмом длязадачи «все слова текста», не использующая размеченного корпуса, приблизительносоответствует результатам работы лучших систем на конференции SENSEVAL.Мы получили этот результат без использования дополнительной информации онаиболее частотных значениях, без использования размеченного корпуса и т.п.Наилучший известный авторам алгоритм, использующий только WordNet, имеет точность- 50.89% на данных SENSEVAL-3 (напомним еще про 10% однозначных слов в тестовойколлекции этой конференции – см.
п. 10.1).Заключение к главе 18Реализованные алгоритмы автоматического разрешения многозначности показалимаксимальную среднюю точность разрешения многозначности 73.37% для тематическойлексики и терминологии Общественно-политического тезауруса, и 57.14% для всехзнаменательных слов текста, то есть по тезаурусу РуТез в целом.Возникает вопрос,много это или мало, и какое качество разрешениямногозначности нужно обеспечить для качественной работы тезауруса в приложенияхавтоматической обработки текстов.Качество разрешения многозначности для задачи «все слова текста» значительнопревышает показатели, достигнутые для алгоритмов, работающих на основе WordNet втех же условиях, то есть без учета информации из размеченного корпуса, и, в частностиинформации о самом частотном значении. Это, на наш взгляд, в значительной мересвязано с более богатой отношениями структурой Тезауруса РуТез.Однако представляется, что полученные результаты точности разрешениямногозначности для задачи «все слова текста» даже лучших методов недостаточны длятого, чтобы использоваться в реальных приложениях информационного поиска.
Так, вначале этой главы мы приводили данные о том, что в экспериментах было показано, чтодля того, чтобы получить новое качество поиска по сравнению с пословными моделяминеобходимо обеспечить, по крайней мере, 70% точности разрешения многозначности.С разрешением многозначности тематической лексики и терминологииОбщественно-политического тезауруса ситуация принципиально другая. Достигнутызначительно более высокие результаты разрешения многозначности. Эти результатыпотенциально могут быть увеличены за счет использования дополнительной информации(например, о самом частотном значении, которое можно выбирать при величинах оценкизначений ниже пороговых или близких к пороговым).Поэтому во многих приложениях мы более полагаемся на Общественнополитический тезаурус, а также исследуем комбинированные методы, сочетающихпословные методы обработки текстов и обработку по тематическим понятийнымресурсам, таким как тезаурусы и онтологии.284Глава 19.
Общественно-политический тезаурус как средство построениятематического представления текста19.1. Проблемы автоматического построения лексических цепочекКак мы указывали в п.14.2, описания языковых выражений в тезаурусах, могутиспользоваться для выявления лексической связности текста, что обычно делаетсяпосредством построения так называемых лексических цепочек – совокупностей языковыхвыражений текста, близких по смыслу.Основными критериями для построения лексических цепочек в большинствеподходов являются следующие:- наличие и сила связей между лексемами, описанных в некотором ресурсе,- расстояние между вхождениями лексем в тексте, измеряемое обычно впредложениях.