Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 17
Текст из файла (страница 17)
Однако такие образцы как animal/food (животное-пища),plant/food (растение- пища), animal/skin (животное-шкура), language/people (язык-народ)хорошо бы различать, поскольку, как представляется они употребляются в разных типахтекстов.Поэтому нужны дополнительные исследования критериев кластеризации значенийдля информационно-поисковых задач.В работе сравниваются два дополнительных критерия группировки значений.Первый критерий заключается в том, чтобы группировать значения, которые встречаютсяв одних и тех же текстах. Для этого используется семантически размеченный значениямиWordNet корпус Semcor (Landes и др., 1998).
Второй критерий группирует значения,которые получают одни и те же переводы в нескольких языках. Пересечение кластеров,построенных на основе этих двух критериев, составляет 55-60 процентов, что показываетнекоторую корреляцию между кластерами, но оставляет сомнения в полезности каждогоиз критериев.В заключении авторы работы (Chugur и др., 2000) рассматривают основные типыотношений между различными значениями (см. п.2.5.2.1), которые могут привести кполезным кластерам значений для информационного поиска.Рассматривается следующие четыре типа отношений между значениями:- обобщение/спецификация – автогипонимия;- метонимия;- метафора;- омонимия.В таблице 2.1.
приводится корреляция между типами отношений междузначениями и полезностью кластера для информационного поиска:Метонимия ОбобщениеМетафораОмонимияКластеры, полезные4 (27%)11 (73%)00для инф. поискаЗначения, которые5 (45%)03 (27%)3 (27%)нужно различатьТаблица 2.1. Корреляция между типами отношений междузначениями многозначного слова и возможными кластерами значений дляинформационного поиска из работы (Chugur и др., 2000).Проведенный анализ типов отношений между значениями слова показал, что:- типобобщение/спецификацияобразуетполезныйкластердляинформационного поиска;- типы метафора и омонимия не приводят к полезным кластерам дляинформационного поиска;- отношение метонимии ведет себя двояко, что требует дополнительныхисследований.В работе (Gonzalo, 2004) подчеркивается, что проведенные эксперименты покластеризации значений привели к выводу, что типология отношений между разнымизначениями многозначных слов является более полезной, чем формирование кластеровзначений, поскольку «прикладная» близость значений зависит от приложения.62Например, указание, что одно из значений является метафорой исходногозначения, является важным различием для приложений информационного поиска ивопросно-ответных систем, поскольку такие значения относятся к разным тематическимполям.
Однако для приложений машинного перевода это различие может бытьнесущественно, поскольку метафорический перенос может быть сходным в разныхязыках.В работе (Fellbaum, Miller, 2006) подводится итог всем исследованиям по«прикладному» объединению значений, введению недоопределенности значений.Подчеркивается, что кластеризация значений может проводиться на основе различныхвзаимоисключающихкритериев(семантических,синтаксических,предметноориентированных), что, видимо, подтверждает мысль работ (Chugur и др., 2000; Gonzalo,2004) о разной значимости разных подразделений значений для конкретных приложенийавтоматической обработки текстов.По причине упомянутой позиции авторов ресурса никаких значительныхизменений в структуре значений WordNet не производилось.Проблема автоматического выбора значений WordNet в практическихприложениях может быть смягчена за счет использования информации из семантическиразмеченного по значениям WordNet корпуса текстов SemCor (Landes и др., 1998).Корпус SemCor представляет собой подмножество известного Брауновскогокорпуса и включает 352 текста.
В 186 текстахвсе знаменательные слова(существительные, прилагательные, глаголы, наречия) размечены следующейинформацией: часть речи, лемма, значение по WordNet. В остальных текстах размеченытолько глаголы. Всего размечено около 200 тысяч слов.В последних версиях WordNet значения упорядочены по мере встречаемости вэтом корпусе (первое значение соответствует самому частотному значению).В экспериментах по автоматическому разрешению многозначности слов частоиспользуется информация о самом частотном значении слова в корпусе SemCor, котороевыбирается в сложных случаях (подробнее см. раздел 10.2).2.5.3 Проблемы описания отношений между синсетами существительныхМногие исследователи использовали для своих экспериментов, прежде всего,синсеты существительных из WordNet.
Поэтому особое внимание и обсуждениеисследователей было посвящено системе отношений между этими синсетами. В данномразделе мы рассмотрим наиболее активно обсуждавшиеся вопросы установленияотношений между синсетами.Во-первых, это так называемая «теннисная» проблема - проблема нехваткиотношений между синсетами, относящимися к одной и той же тематической области(Miller, 1998). Во-вторых, мы рассмотрим дискуссию по поводу принципов установленияотношений гипонимии-гиперонимии.2.5.3.1. «Теннисная проблема»Одной из серьезных проблем WordNet, препятствующей его использованию вприложениях, является так называемая «теннисная проблема»: принадлежащие однойпредметной области, сфере деятельности, ситуации синсеты оказываются очень далекодруг от друга в структуре WordNet.Дж.
Миллер (Miller, 1998) пишет, что, если кто-либо захочет обратиться к WordNet,чтобы узнать о специализированном словаре теннисной области, то выяснится, что вWordNet очень много слов из этой сферы, но они совершенно разделены, будучивключенными каждый в свою классификацию: синсет теннисный инвентарь включен виерархию артефактов, синсет теннисный корт включен в иерархию местоположений,различные синсеты теннисных ударов в иерархию действий. Получается, что63существительные, которые часто употребляются в одних и тех же текстах, в WordNet неимеют между собой никаких общих отношений. Такая же проблема возникает,естественно, с тематической лексикой из других областей деятельности.Отсутствие такого рода отношений оказывает серьезное негативное воздействие наиспользование WordNet в автоматических процедурах разрешения лексическоймногозначности, вызывает проблемы в информационном поиске.В ряде исследований было предложено решать данную проблему введением вWordNet информации о принадлежности синсетов определенным тематическим доменам.Домены, такие, как «теннис», «политика» или «образование», группируют синсеты всценарии или схемы.
Так, домен «теннис» включает такие синсеты, как «гейм»,«теннисный мяч», «теннисная ракетка», «тай-брейк» и т.д.Работа (Magnini, 2000) описывает процесс создания иерархической системы такихдоменов и процедуру автоматизированной приписки доменов синсетам WordNet.Разработка иерархической системы доменов началась с 250 рубрик, собранных поразличным словарям и затем была дополнена и уточнена на базе Десятичнойклассификации Дьюи. Была получена иерархия из 115 доменов, организованных по 4уровням иерархии, включающая, например, такие домены как, например, «сельскоехозяйство», «археология», «астрология», «биология», «ветеринария» и др..Кроме того, была выделена специальная область, в которую входят синсетыWordNet, не принадлежащие никаким тематическим доменам, поскольку они могутупотребляться в текстах многих предметных областей.
Такая специальная предметнаяобласть получила название Factotum.Область Factotum включает два типа синсетов:- «общие» синсеты, которые трудно отнести к какой-либо предметной области,например, человек, мужчина, день. Эти синсеты располагаются обычно высоков иерархии WordNet и содержат очень многозначные слова:Man 1 – an adult male person (мужчина)Man 3 – the generic use of the word to refer to any human being (человек)Date 1 – day of the month (день месяца)Date3 – appointment, engagement (назначение);синсеты, которые можно рассматривать как стоп-синсеты: числа, дни недели,цвета. Такие синсеты могут встретиться в самых разнообразных контекстах, нообычно их вклад в содержание текста невелик.Всего область Factotum включает 6450 синсетов, включая 2780 стоп-синсетов и3670 «общих» синсетов.Для того чтобы разметить все множество синсетов WordNet, была реализованаавтоматизированная процедура, состоящая из следующих шагов:-1) Вручную размечается относительно небольшое количество синсетов верхнегоуровня,2) Автоматически по связям (гипонимия, тропонимия, меронимия, антонимия)пометки распространяются на другие синсеты,3) Можно задать исключения, например, для синсета кресло парикмахера(barber_chair), которое является частью парикмахерской (barbershop) и поэтомуполучает домен КОММЕРЦИЯ (COMMERCE).Процедура была выполнена только для существительных.В работе приводятсяданные о количестве приписанных в результате автоматизированной приписки синсетовдля некоторых доменов:64Сельское хозяйствоАрхеология24847Питание2563Астрология16Биология20266Медицина2660Ветеринария36 и др.В настоящее время разметку последних версий WordNet по тематическим областямможно получить с сайта http://wndomains.itc.it/wordnetdomains.htmlВместе с тем остаются вопросы по отношению к введению в систему, построеннуюна основе одних единиц, набора других единиц с неопределенным относительно исходныхединиц статусом среди которых:- вариативность возможного набора доменов;- небольшая наполненность некоторых доменов, и большое количество синсетовв других доменах;- необходимость разных систем доменов для разных задач;- отсутствие полностью выверенной разметки синсетов набором доменов(выверить вручную очень трудоемко, если выверять в процессе решенияразличных задач, то далеко не все проблемы (неточности, ошибки)) припискиудастся быстро обнаружить.2.5.3.2.
Проблемы родовидовых отношений WordNet.Как уже указывалось в разделе 2.1, основным принципом установления отношенийв Wordnet было применение так называемых диагностических высказываний. В частности,для установления отношений гипоним-гипероним использовалось проверочноевысказывание: An X is a (kind of) Y (X - это Y). Однако в процессе экспериментов идискуссий выяснилось, что такому высказыванию могут удовлетворять несколькосовершенно разных отношений между синсетами (Miller, 1998).Одной из серьезных проблем, приводящих к неправильным путям иерархии и,следовательно, препятствующих применению в приложениях автоматической обработкитекстов, является проблема установления таких отношений, когда вышестоящее понятиечастично характеризует нижестоящее.