Диссертация (1137511), страница 6
Текст из файла (страница 6)
В своей работе группа использовала набор вручную созданныхморфосинтаксических правил. На материале русского языка также проводилисьэксперименты по извлечению семантических отношений с использованием машиночитаемых словарей (см. работы Л. Пивоваровой с соавторами [45]. Для извлечения отношений использовался энциклопедический словарь.Разработчики WordNet.PT использовали также усовершенствованный подход для повышения точности извлечения отношений.
В [62] задается полнаяконтекстно-свободная грамматика, описывающая ограниченное подмножествоестественного языка, встречающееся в словаре. На основе таким образом полученных отношений был создан тезаурус. Как показывают авторы статьи, такойподход значительно увеличивает точность извлечения, но при этом требует и значительного увеличения экспертных ресурсов: требуется одновременно и большееколичество работы, и большее количество компетенций26Представляется, что подход с привлечением толковых словарей, перспективен в том отношении, что при извлечении тезаурусных отношений используютсяэкспертные ресурсы. При применении данного метода опираются на приведенныев словарях толкования.
Последние представляют собой тексты на ограниченномподмножестве естественного языка с относительно фиксированной синтаксической структурой. Они, как правило, содержат лексемы, находящиеся в тезаурусных отношениях с толкуемым лексическим значением (см. 1.3).1.2.6Методы, использующие текстовые корпусаВ качестве ресурса для составления тезауруса можно использовать корпустекстов на естественном языке без аннотации. Херст показал [63; 64], что существуют конструкции, которые однозначно определяют гипо-гиперонимическиеотношения в корпусах новостных или информационных текстов.
В частности,был предложен набор лексико-синтаксических шаблонов для извлечения гипонимов, например, «such NP as NP», «NP, NP or other NP» и др. Далее в работе былпредложена некоторая схема для расширения множество таких шаблонов автоматически. Данная работа одна из пилотных работ по технологии бутстрэппингашаблонов для автоматического извлечения отношений из текстаПозже Навильи [89] показал, каким образом возможно искать такие конструкции автоматически с помощью машинного обучения. Для этого он разработал формализм Word Class Lattices. В статье описано применение машинногообучения для пополнения множества правил итеративным подходом, основанномна чередовании двух шагов:– порождение новых контекстов опираясь на имеющиеся правила,– расширение набора правил опираясь на набранное множество контекстов.В работе решалась задача извлечения определений из текстов Wikipedia иВеб-корпуса для английского языка.
На основании экспериментов, описанных вработе, можно сделать вывод, что метод извлечения шаблонов имеет достаточно высокую точность, но низкую полноту. К тому же, качество шаблонов существенным образом зависит от корпуса, из которого они извлекаются (результаты27для шаблонов, извлеченных из Википедии, на материале Википедии были существенно выше, чем результаты на материале Веб-корпуса).1.2.7 Методы, использующие дистрибутивные семантические моделиДистрибутивные семантические также модели представляют интерес в качестве источника данных для построения тезаурусов. Создание модели требуетлишь наличия большого корпуса без аннотации.
Основной целью создания модели является определение семантической близости между разными языковымиединицами (лексемами или лексическими значениями). В совокупности с алгоритмами восстановления иерархии по матрице расстояний такой подход кажетсясамым простым.Из первых экспериментов стало очевидно, что одна из больших проблемпри использовании дистрибутивных моделей состоит в различении синонимов,гипонимов и гиперонимов. Многие работы посвящены исключительно проблемам классификации типов семантических связей, гипотеза о существовании которых выдвинута автоматически по дистрибутивной модели.Несмотря на то, что для применения дистрибутивной модели в качестве исходного материала требуется только корпус текстов, такие подходы не являютсянаименее ресурсоёмкими. Показано, что качество семантической модели существенно зависит от размера корпуса [37], от его сбалансированности, и от качества предварительной обработки: удаления дубликатов, рекламных сообщений ипрочих артефактов.Таким образом, оказывается, что при кажущейся простоте этот метод не является простым для применения к необеспеченным ресурсами языкам.
На текущий момент метод выдаёт низкую точность предсказания и классификации отношений.1.2.8Сравнение методовПриведенные выше методы можно обобщить в таблице 128методвручнуюкраудсорсингконвертациялогиипереводпримерRoget, ШведоваWiktionary, Yarnонто- RuWordNetГельфенбейн(wordnet.ru)извлечение из тол- Oliveira (Onto.PT)ковых словарейвекторные моделиNavigliсвойстватрудоёмко, очень качественноне очень высокое качество, достижим большой объёмлегко, требует специальных ресурсовлегко, много ошибок, не отражает специфику языкаограниченная сложность высокая точностьлегко, низкое качествоТаблица 1 –– Сравнение методов составления тезаурусовКак видно из таблицы по мере уменьшения ручного труда и уменьшениядоли экспертных источников уменьшается трудоемкость метода, однако, при этомтеряется качество.Важным шагом построения электронного тезауруса является переход от набора отношений, связывающих между собой лексемы, к набору отношений, связывающих между собой лексические значения.
Такой переход является частнымслучаем задачи разрешения семантической неоднозначности. Область разрешения семантической неоднозначности является значительным самостоятельнымразделом прикладной лингвистики, поэтому мы не стали включать обзор методов разрешения неоднозначности в настоящей раздел, а привели его ниже, в разделе 4.2.1.3Постановка задачи: уточнение параметровТаким образом, в настоящей главе во-первых, были рассмотрены различные подходы к определению и описанию тезаурусных отношений. Был проведенанализ существующих ресурсов, содержащих информацию о семантических отношениях между языковыми единицами.
Это позволило конкретизировать условия решаемой в исследовании задачи: установить типы анализируемых языковых29единиц и ограничить список рассматриваемых тезаурусных отношений (см. также ). В настоящей работе единицами, между которыми устанавливаются отношения, являются лексические значения (ср. PWN и RuThes). Такой подход позволяетпри решении задачи использовать толкования, приписанные лексическим значениям в толковом словаре.
Обычно в толкованиях лексического значения содержатся термины, находящиеся в родовидовых отношениях с определяемым значением, либо его синонимы. В силу того, что преимуществом тезаурусов типаPWN является их иерархическая организация, в центре внимания работы — гипогиперонимические отношения.Во-вторых, были последовательно рассмотрены методы построения тезаурусов, т. е. методы определения тезаурусных отношений между языковыми единицами, начиная от методов, основанных на ручном труде экспертовлексикографов и заканчивая полностью неконтролируемыми методами (группировки семантически близких языковых единиц методами дистрибутивной семантики).
Как видно из обсуждения выше, первый класс методов слишком трудозатратный, в то время как последний не всегда имеет точность, необходимую дляприложений АОТ. К тому же, большинство таких методов применимы к лексемамбез учета их многозначности и не умеют распознавать различные типы семантических отношений.В настоящей работе выбран подход, основанный на извлечении отношенийиз словарей. Такой подход обеспечивает высокую точность, требует малых ресурсов лексикографа, и при этом сохраняет специфику языка, поэтому позволяетиспользовать построенные тезаурусы в типологических исследованиях.
Как и внекоторых других работах [45], возможности метода исследуются на материалесуществительных.Выбранный подход предполагает следующие шаги:– подготовка корпуса толкований (глава 2),– извлечение из словарных толкований омонимичных отношений, т. е. тезаурусных отношений, в которых место лексического значения занимаетлексема (глава 3),– дизамбигуация извлечённых отношений, т. е.
замена участвующей в тезаурусном отношении лексемы на наиболее соответствующее отношениюлексическое значение (глава 4).Результатом такой последовательности являются цепочки связанных лексических значений. Полученные данные не являются полноценным электронным30тезаурусом и требуют дополнительной проверки, объединения синонимов, и объединения в единую таксономию. Важно отметить, что несмотря на необходимостьдополнительной обработки такие цепочки значительно уменьшают труд составителя электронного тезауруса. Кроме того, они представляют ценность и как самостоятельный лингвистический ресурс: такие цепочки применимы в задачах АОТ,для решения которых используют электронные тезаурусы. Наконец, этот ресурсприменим для верификации и пополнения существующих тезаурусов.
Таким образом, как уже отмечалось выше, преимуществом такого подхода является снижение трудозатрат экспертов за счет использования в качестве корпуса для машинной обработки экспертных ресурсов, а применение методов автоматическогосемантического анализа.31Глава 2. Толковые словари как источник полуструктурированных данныхВ главе 1 обсуждаются различные методы построения тезауруса. Метод сиспользованием существующих экспертных лексикографических ресурсов представляется перспективным. Именно этот метод находится в центре внимания внастоящей работе. Эффективность метода зависит от выбора такого ресурса в качестве источника для извлечения отношений.