Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 39
Текст из файла (страница 39)
Каждая главапосвящена отдельной задаче или приложению.Структура каждой главы устроена сходным образом. Глава начинается с вводаобщих понятий, относящихся к данному приложению, характеризации основных методов,способов тестирования качества выполнения задачи. Далее рассматриваются результатыэкспериментов, в которых применялись тезаурусы и онтологии. Проводится сравнение срезультатами, полученными без привлечения онтологических ресурсов.Таким образом, в данной части мы описываем достигнутый уровень качестваметодов, включащих применение тезаурусов и онтологий для автоматической обработкитекстов в приложениях информационного поиска.147Глава 10.
Автоматическое разрешение многозначностиОдной из серьезных проблем, которые необходимо решать в рамках широкогокруга систем, включающих автоматическую обработку текстов на естественном языке сиспользованием лингвистических ресурсов, является проблема автоматическогоразрешения лексической многозначности, то есть выбора между разными значениямислов и словосочетаний, перечисленных в лингвистическом ресурсе (Кобрицов, 2004;Рахилина и др., 2006).В последние годы проблема разрешения лексической многозначности сталаисследоваться как отдельная задача. С 1998 года для тестирования системавтоматического разрешения лексической многозначности проводится специальнаяконференция Senseval (www.senseval.org).Подходы к разрешению лексической многозначности достаточно разнообразны.Для разрешения многозначности могут использоваться некоторые внешние источникиинформации, например, электронные словари и тезаурусы.
В качестве тезауруса обычноиспользуется тезаурус английского языка WordNet (см. главу 2). Кроме того, дляразрешения многозначности активно исследуется возможность применения методовмашинного обучения, для чего обычно используются семантически размеченные корпуса.Применяются и различные комбинации отдельных методов.10.1. Тестирование разрешения многозначности на конференции SensevalИсследования методов автоматического разрешения лексической многозначностикак отдельной задачи обычно делятся на два направления: разрешение лексическоймногозначности некоторой совокупности слов (чаще всего, несколько десятков) (см.п.10.1.1.) и разрешение лексической многозначности всех слов текста (см.
п. 10.1.2)(Kilgarriff, Rosenzweig, 2000; Snyder, Palmer, 2004).Для определения качества разрешения многозначности обычно используются двапараметра: точность и полнота.Полнота – это отношение правильно выбранных значений к общему количествунеоднозначных языковых выражений.Точность – это отношение правильно выбранных значений к общему количествуслов, рассматриваемых системой.Максимальное качество, которое может достигнуть система автоматическогоразрешения многозначности, ограничиваетсясогласием между ручной разметкой,сделанной разными экспертами. В настоящее время, согласие между экспертамидостигает 95% и выше для четко различимых значений. Для многозначных слов созначениями, близкими по смыслу, согласие между экспертами может составлять 65 – 70%.Нижняя граница качества разрешения многозначности определяется на основеслучайно выбранного значения (предполагается равновероятность значений) или наиболеечастотного значения (предполагается, что вероятность одного значения многократнопревышает вероятности других значений).Также в качестве базового метода для сравнения используется так называемыйметод Леска, который основан на сопоставлении словарных толкований слов, упомянутыхв анализируемом фрагменте текста (Lesk, 1986).Основные этапы применения метода таковы.
Сначала из толкового словаряизвлекаются толкования для всех значений слов текстового фрагмента. Для полученныхтолкований определяется их пересечение между собой и выбираются те значениямногозначных слов, толкования которых пересекаются с толкованиями слов-соседеймаксимально.148В качестве классической иллюстрации метода обычно приводится английскоевыражение pine cone, компоненты которого имеют следующие толкования:Pine1. kinds of evergreen tree with needle-shaped leaves2. waste away through sorrow or illnessCone1. solid body which narrows to a point2.
something of this shape whether solid or hollow3. fruit of certain evergreen treesМаксимальное пересечение между толкованиями достигается при первом значениислова Pine и третьем значении слова Cone ( Pine#1 Cone#3 = 2) – именно эти значения идолжны быть выбраны для интерпретации этого выражения.Для разрешения многозначности слов в конструкции более длинной, чем два слова,используется упрощенный алгоритм Леска, который определяет пересечение толкованийзначений слов с контекстами этих слов в тексте (Kilgarriff, Rosensweig, 2000). Простотаалгоритма делает его важным базовым уровнем для сравнения уровня достиженияпредлагаемых методов разрешения лексической многозначности. Помимо толкованийсловаря в этом методе могут дополнительно использоваться размеченные корпуса илипримеры употребления тех или иных значений слова.Для понимания уровня, достигнутого современными системами разрешениямногозначности, важно рассмотреть, каковы были лучшие результаты, показанныесистемами автоматического разрешения лексической многозначности на конференцииSenseval-3.10.1.1.
Задание «Набор многозначных слов»Для того, чтобы сформировать набор многозначных слов для тестированияавтоматических систем в рамках конференции Senseval, обычно предпринимаетсяспециальная процедура.Прежде всего, многозначные слова классифицируются по их частотности (вБританском национальном корпусе) и уровню их многозначности (по WordNet) (Kilgarriff,Rosenzweig 2000; Michalcea и др., 2004).
Для каждой части речи (существительное, глагол,прилагательное) списки, упорядоченные по частоте и многозначности, были поделены на4 подгруппы, тем самым получилась решетка 4x4. Далее была установлена величинанабора образцов – 40 слов, которые были набраны из ячеек решетки в соответствии сколичеством слов в каждой ячейке решетки.Количество примеров из корпуса для каждого образца также базировалось наполученной решетке. Для простых слов (с низкой частотностью и многозначностью)меньшее количество примеров из корпуса было достаточно. Более частотные и болеемногозначные слова являются более сложными для процедуры разрешениямногозначности, и поэтому такие слова должны были быть обеспечены большимколичеством примеров из корпуса.При ручной разметке примеров лексикограф имеет возможность выбрать одно извозможных значений слова, плюс две дополнительные возможности – «неясно» и «ниодно из вышеперечисленных».
Была также возможность выбора двух и более значений вслучае необходимости.Для определения качества работы программ в этом задании было выбрано триуровня гранулярности: подробный, обобщенный и смешанный.149На подробном уровне гранулярности засчитывается только единственнаясовпадающая метка значения. На обобщенном уровне гранулярности все подзначения(обозначенные как 1.1,1.2) собирались к меткам основных значений (таких как 1, 2) и вэталонном файле и файле автоматических результатов, то есть выбор системой значения1.1 рассматривается как правильный, если в эталонном файле содержатся отметкизначений 1, 1.1, или 1.2.
На третьем смешанном уровне гранулярности, засчитывались теответы систем, которые совпадали или были подвидом значений, указанных в эталонномфайле.Были также определены базовые алгоритмы (то есть простые алгоритмы, спомощью которых можно установить минимальный уровень, который должна достигатьпрограмма разрешения многозначности):- случайный выбор значения;- выбор наиболее частотного значения по коллекции;- выбор значения по методу Леска (Lesk) – метод сравнения словарныхопределений с текстами в трех вариантах (по толкованиям и примерам, толькопо толкования, по толкованиям, примерам и размеченному корпусу).Результаты Senseval-3 для задания разрешения многозначности для заданногонабора многозначных слов по англоязычной коллекции составили около 72% точностидля подробного уровня гранулярности, около 79% – для обобщенного уровнягранулярности.
Выбор наиболее частотного значения составил 55.2% точности дляподробного уровня, 64,5% для обобщенного уровня гранулярности значений.Для решения этой задачи используются в основном методы машинного обучения,использующие примеры, предоставленные организаторами, а также корпус SemCor,размеченный по значениям WordNet.В число, используемых для задания «набор многозначных слов», входят такиеметоды машинного обучения как метод SVM (Support Vector Machines), Методближайших соседей, Деревья решений, Решающие списки, Байесовские классификаторы,Нейронные сети и др.
В качестве признаков, на основе которых происходит обучение,используются: совместная встречаемость слов, коллокации (устойчивые выражения),биграммы, части речи, отношения между предикатом и его аргументами (подлежащее,дополнения) и др. Лучшие системы Senseval-3 используют комбинации несколькихклассификаторов, что показывает, что схемы голосования результатов, комбинирующиенесколько алгоритмов работают лучше, чем отдельные классификаторы (Pedersen, 2000).10.1.2. Задание «все слова текста»Для тестирования задачи «все слова текста» на конференции Senseval-3использовались три текста: две статьи из Wall Street Journal и фрагмент из Брауновскогокорпуса – общий объем 5000 слов (Kilgarriff, Rosenzweig, 2000; Snyder, Palmer, 2004).Всего для тестирования использовались 2081 слов. Аннотирование проводилось по наборузначений тезауруса WordNet.
Если в WordNet не было подходящего значения, топроставлялась помета U.По результатам конференции SENSEVAL-3 для английского языка в задачеразрешения многозначности для всех слов текста точность лучшей системы составляет65.2% (Snyder, Palmer, 2004).Все лучшие в SENSEVAL-3 алгоритмы разрешения многозначности используютсемантически размеченные корпуса по значениям WordNet. Семантическая разметкакорпуса обычно используется двумя основными способами: как основа для обученияпрограммы разрешения многозначности, и как информация о наиболее частотномзначении, которое выбирается в тех случаях, когда не удалось выбрать значение спомощью основного алгоритма. По оценкам, порядка 60% слов в тестовых текстахупотреблены в наиболее частотном значении, полученному по семантическиразмеченному корпусу SemCor (Snyder, Palmer, 2004).150Согласие между лексикографами-аннотаторами значений достигало – 72,5.Наибольший процент разногласий по разметке значений был связан с небольшим наборомтрудных слов, например, national.Для каждой системы было выполнено два вида подсчетов.
В первом случае отказсистемы определить значение рассматривался как U, таким образом, такой ответзасчитывался как правильный только если разметка также была U, и как неправильный, впротивном случае.Второй вид подсчета не учитывал те ответы, в которых система выдала U. Такимобразом, точность не менялась, а полнота при таком подсчете понижалась.При первой системе подсчетов максимальная точность 0.652, средняя точность посистемам – 0.522. При второй системе подсчетов – средняя точность 57.4, полнота – 51.9.Важно отметить, что иногда в счет «благополучно» разрешенных многозначныхединиц попадают также и однозначные термины. По нашей оценке, в одном из тестовыхтекстов около 10% размеченных слов имеют одно значение в WordNet, например, такиеслова как congressional, constituency, salary, legislator, reelection и др.
(Данные получены ссайта http://www.senseval.org/). Если рассчитать точность разрешения многозначности длялучшей системы, не считая этих однозначных слов, то величина точности разрешениямногозначности лучшей системы составит 59.9%.)10.2. Подходы к разрешению лексической многозначности наоснове тезаурусных знанийРазличные алгоритмы разрешения лексической многозначности на основетезаурусной структуры предлагались и тестировались для тезауруса английского языкаWordNet.Одним из классов предлагаемых методов является оценка семантической близостиконтекста вхождения того или иного многозначного термина к каждому из возможныхзначений – синсетов.Такая оценка близости может рассчитываться на основе сравнения путей междусинсетами слов контекста и синсетами рассматриваемого многозначного слова.В работе (Leacock, Chodorow, 1998) предполагается, что два значения темсемантически ближе, чем короче связывающий их путь.