Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 63
Текст из файла (страница 63)
рис. 16.4).Как мы видели со значениями слова окно, для аккуратного описания этогозначения посредством понятий и непротиворечивых отношений нам пришлось разбить надва понятия то, что было описано в толковом словаре как подзначения одного и того жезначения.Приведем еще пример значения толкового словаря, требующего при описании вонтологии разбиения на два понятия.Для описания значения лексемы покрывало:Покрывало –1. Кусок ткани, предназначенный для покрывания чего-либо, покрывающий чтолибо // легкое одеяло, обычно служащее для покрывания постели днемдолжны быть введены два понятия ПОКРЫВАЛО (ПОКРЫВАЮЩАЯ ТКАНЬ) иПОСТЕЛЬНОЕ ПОКРЫВАЛО, как вид первого понятия, а сама лексема покрывалоописывается как текстовый вход к обоим понятиям. Соответствующий фрагменттезауруса показывает, что это два действительно отдельных понятия:ПОКРЫВАЛО (ПОКРЫВАЮЩАЯ ТКАНЬ)спокрывалоНИЖЕНАКИДКАНИЖЕПОПОНАНИЖЕПОСТЕЛЬНОЕ ПОКРЫВАЛОспокрывалоНИЖЕЧАДРАКак мы видим, представление значений многозначного слова посредствомсовокупности понятий со специфическим набором отношений может приводить кувеличению количества значений, что частично и объясняет тот феномен, что в WordNetсреднее количество значений оказалось больше, чем в толковых словаряхсоответствующей величины.Мы присоединяемся к мнению авторов работ (Chugur и др., 2000, Gonzalo, 2004),что часть проблем по выбору близких значений многозначных слов может быть снята,если некоторым образом установить отношение между этими значениями.
Вопросзаключается в том, какого рода отношения между значениями могут быть описаны вонтологии для автоматической обработки текстов, и как их использовать в случаяхнеопределенности при выборе значения. Эти вопросы будут рассмотрены в следующемразделе.16.4.2. Описание отношений между значениями многозначного слова вонтологии для автоматической обработки текстовКак мы уже упоминали в разделе 2.5.2, многозначность слов разделяется на дваосновных подвида омонимию и полисемию.
В свою очередь, полисемия может бытьподразделена на такие подвиды как метафора, метонимия, автогипонимия, а такжевыделяется регулярная полисемия.Понятно, что проблемы с разбиением на понятия возникают у полисемичныхзначений. При этом именно полисемия, в отличие от омонимии, рассматривается какявление коренным образом присущее языку: «Полисемия – это одно из основных средствконцептуализации нового опыта. Человек не может понять нового, не имея какого-то«данного», поэтому он вынужден использовать «старые» знаки и приспосабливать их кновым функциям, распространять их на другие ситуации» (Кустова, 2004).
Неслучайно,232поэтому, что термины предметной области, которые в идеале должны быть точными иоднозначными, демонстрируют массовые примеры полисемических значений.Для трех и более значений слова могут быть рассмотрены различныеконфигурации связей между значениями (Кронгауз, 2001).Значения могут иметь нетривиальную общую часть. Такой тип связи называетсярадиальным. Общая часть их значений называется инвариантом (или общим значением).В частном случае общая часть может совпадать с один из значений.
Так устроенотолкование слова кромка СРЯ. Фактически третье значение (кромка – вообще край чеголибо) в той или иной форме присутствует в составе первых двух.Другим возможным типом связи, объединяющей три значения, являетсяцепочечная связь. Значения А и Б имеют общую часть, значения Б и В имеют общуючасть, значения А и В не имеют общей части.Цепочечная полисемия представлена, например, тремя значениями лексемы чай:1. Вечнозеленое дерево или кустарник, из высушенных листьев которогоприготовляется ароматный напиток2.
Ароматный напиток, настоянный на этих листьях3. ЧаепитиеЧасто отношения между значениями полисемичного слова могут бытьсмешанными: радиально-цепочечными.Именно на полезность вышеперечисленных отношений для описания отношениймежду значениями в лингвистических онтологиях указывалось в работе (Gonzalo, 2004).Однако здесь нужно не забывать о двух важных обстоятельствах.Во-первых, онтология описывает отношения не между лексемами, а междуобъектами и сущностями внешнего мира, и, таким образом, между лексемами кактекстовыми входами каких-то понятий могут быть установлены только онтологическиеотношения между понятиями. Так, например, метафорические отношения междузначениями не должны находить отражение в онтологии, поскольку есть ассоциациятолько между названиями – между объектами никаких отношений нет. Мы не будем,таким образом, устанавливать отношения между понятиями СОТОВАЯ СВЯЗЬ иПЧЕЛИНЫЕ СОТЫ, только по той причине, что для названия понятия СОТОВАЯ СВЯЗЬбыла использована метафора с пчелиными сотами.Во-вторых, онтология не может описывать все существовавшие ранее миры.
Онасодержит отношения между сущностями в существующем сейчас мире илисуществовавшие еще недавно. Тот факт, что когда-то данные сущности были связаны, неможет быть отражено в онтологии.Таким образом, в онтологии естественно могут быть отражены такие отношениямежду значениями как метонимия, поскольку «метонимическая связь, то есть связь посмежности, имеет место не между смыслами, а между объектами действительности»(Падучева, 2007), именно такое отношение существует между обсуждавшимисязначениями слова окно.
Для описания отношений между понятиями, соответствующимиметонимии значений, в тезаурусе РуТез используются отношения часть-целое иотношение онтологический зависимости (см. гл.9, п. 17.4. и рис.16.4).Другим типом отношения между значениями, которое может быть отображенопосредством онтологических отношений между понятиями, является отношениеавтогипонии (обобщения), поскольку это отношение соответствует родовидовымотношениям между понятиями онтологии.Отметим, при этом, что совокупности плохо разделимых значений многозначныхслов, чаще всего, связаны именно с этими типами отношений между значениями.233ПРОДУКТ ТРУДАВышеВышеIs_aПРОЕМ В СТЕНЕпроемВышВышеaВышОКОННЫЙПРОЕМокноОнтологзависит.ОКОННАЯ РАМАВышеДВЕРНОЙПРОЕМдверьОнтологзависитdependenceДВЕРНОЙ. БЛОКцелоеwhole СТЕКЛООКОННОЕцелоеeДВЕРНАЯДОСКАокнодверьРис. 16.4.
Фрагмент понятийной сети тезауруса, представляющий значения слов окно идверь. Над чертой указаны имена понятий, под чертой – текстовые входы.16.5. Словосочетания как источники понятий в лингвистической онтологииОднойизсерьезныхпроблемвзаимоотношениймежду понятиямилингвистической онтологии и значениями языка, является вопрос о том, в каких случаяхзначения словосочетаний должны быть отражены как понятия онтологии.Проблема описания значений словосочетаний как понятий в лингвистическойонтологии относится к более широкой проблеме отбора словосочетаний для описания вкомпьютерных словарях (Лукашевич, 1995; Bentivogli, Pianta, 2004).
С одной стороны, чембольше в компьютерных словарях описано словосочетаний, тем меньше проблем сразрешением многозначности отдельных слов, больше будет зафиксированоспецифических случаев сочетаемости. С другой стороны, бесконечное количествосуществующих словосочетаний все равно требует формулирования каких-либо критериев.Так, в работах Большакова И.А. (Большаков, 2009) предлагается набирать в специальнуюбазу Кросс-лексика все встретившиеся словосочетания вручную. Однако возникаютсерьезные вопросы о полноте и представительности такой базы.Традиционным подходом является описание в компьютерных словаряхсемантически связанныхсловосочетаний (идиом, фразеологизмов), которыедемонстрируют какие-либо отклонения в синтаксическом и/или семантическом поведении(Баранов, Добровольский, 1991; Добровольский, 2005).
Спектр таких устойчивыхсловосочетаний очень широк: от жестко фиксированных словосочетаний, которые могутрассматриваться как "слово с пробелами", до словосочетаний, которые подчиняютсяпрактически всем синтаксическим и семантическим правилам языка лишь за некоторымисключением. В последнем случае сразу обнаружить такую особенность может бытьвесьма сложно.В работе (Sag и др., 2002) обсуждается еще один важный вид словосочетаний,называемых авторами институциональными выражениями.
Для таких выраженийхарактерно то, что по большей части эти выражения выглядят как свободные234словосочетания, однако их компоненты не всегда могут быть заменены синонимами.Кроме того, частотность такого словосочетания очень высока по сравнению с темисловосочетаниями, которые образованы заменой слов-компонентов на синонимы.Примером таких словосочетаний является словосочетание phone booth (телефоннаябудка). Так, и в русском, и в английском языке попытка замены слова booth (будка) надругие слова, например, кабина, приводит к многократному снижению частотностиупотребления.На сложность обнаружения такого рода несвободных словосочетаний указываетсяв работе (Белоногов, Хорошилов, 2005).
Носителям русского языка кажется, что смыслтаких словосочетаний, как электронная вычислительная машина, подводная лодка,теория массового обслуживания, сухопутные войска, военно-воздушные силы, и смыслсложного слова пылесос складываются из смыслов входящих в их состав слов. На самомделе это не так. Например, русский термин электронная вычислительная машинаобозначается на английском языке словом computer (вычислитель), в котором ничего«электронного» в явном виде не отмечается; русский термин подводная лодкаобозначается сложным словом submarine (буквально «под морем»), в котором понятие«лодка» отсутствует; термин теория массового обслуживания - словосочетанием queryingtheory (теория очередей), которое не содержит явных признаков понятия «массовоеобслуживание»; термин сухопутные войска - сложным словом land-forces (наземныесилы), без признаков ―сухопутности‖; термин военно-воздушные силы - словосочетаниемair forces (буквально «воздушные силы»), в котором понятие «военный» в явном виде необозначено; термин пылесос - словосочетанием vacuum cleaner (буквально «вакуумныйочиститель» в составе которого нет понятий «пыль» и «сосать»).В работе (Белоногов, Хорошилов, 2005) этот феномен объясняется тем, что всловесных формулировках наименований понятий могут быть отображены не всепризнаки понятий, а только незначительное их число.
Часто это бывают не самые важныепризнаки, характеризующие содержание понятий, а лишь некоторые отличительныепризнаки, позволяющие выделить эти понятия среди множества других.В естественном языке, в котором «все связано со всем», понятия, как некоторыесоциально значимые устойчивые мыслительные образы, могут обладать огромнымколичеством признаков. Но этим мыслительным образам присваиваются наименования ввиде отдельных слов или (значительно чаще) в виде словосочетаний, состоящих изнескольких слов. Наименование понятия, на основе некоторых частичных признаковисходной сущности, приводит к тому, что сущность может быть именована разнымиспособами на основе разных признаков, и тогда возникает синонимия, котораяпрактически никак не следует из значений отдельных слов.В (Белоногов, Хорошилов, 2005) приводятся следующие примеры такихсинонимов-словосочетаний:Абсолютная жесткость – бесконечно большая жесткость,Абсолютная температура – температура Кельвина,Наклонный путь для сортировки вагонов – путь сортировочной горкиНаклоны головы в поперечной плоскости – наклоны головы к правому и левомуплечу.В (Тер-Минасова, 2007) указывается, что имеется большое количествословосочетаний, которые не являются явно заранее данными, но «свобода» образованиякоторых ограничена какими-либо факторами.