Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 61
Текст из файла (страница 61)
Миллер (Lenat et.al., 1995). Единицей описания в тезаурусе является немножество синонимичных слов или терминов как в тезаурусе WordNet, а понятие,отражающее значимые классы сущностей, различаемых людьми в мире, в современнойобщественной жизни, в психической жизни людей.Такие сущности бесконечноразнообразны, обладают индивидуальными особенностями. Учет всех таких особенностейведет к чрезвычайно запутанной картине мира (Kuznetsov и др., 2007; Cimiano и др., 2004),непригодной для прикладного применения.Значения слов и выражений, существующие в современных естественных языках,позволяют нам выделить главное, существенное для современной жизни людей. Так,например, созвездия выделяются из других возможных совокупностей звезд, посколькупомогают людям ориентироваться в пространстве и указывать местоположение объектовна звездном небе (Gangemi et.al.
2001).При этом понятия тезауруса РуТез должны быть отличимы друг от друга, иметьуникальные свойства в системе понятий (см.п.5.1.). Использование в качестве едиництезауруса таких отличимых понятий позволяет единым образом представлять лексическиезначения литературного языка и значения терминов предметной области, болеепоследовательно описывать систему отношений между понятиями и тем самым облегчаетформальный вывод на отношениях, позволяет отображать единым образом системузначений разных языков (Добров, Лукашевич, 2005; Loukachevitch, 2009a).Понятию может соответствовать несколько синонимичных текстовых выражений текстовых входов понятия.
Слова и словосочетания, значения которых представлены какссылки на одни и те же понятия тезауруса, будем называть онтологическими синонимами.От онтологических синонимов не требуется, чтобы они могли заменять друг друга вкаких-либо предложениях. Значения онтологических синонимов должны иметьодинаковый набор отношений с другими понятиями тезауруса:Таким образом, онтологическими синонимами могут являться:- слова, являющиеся разными частями речи (стабилизация, стабилизироваться,стабилизационный), то есть представлять собой дериваты, так называемыесинонимы в широком смысле (Апресян, 1995),- языковые выражения, относящиеся к разным языковым стилям (коммунальнаяквартира, коммуналка),- однословные выражения, устойчивые выражения, свободные словосочетания,выражающие одно и то же понятие (аэропорт - воздушные ворота, газ –газообразное вещество).В частности, нейтральные и уменьшительные названия сущностей (стол, столик)мы относим к одному и тому же понятию (в отличие от русского WordNet – RussNet(Азарова и др., 2003)), поскольку, на наш взгляд, использование таких названий неприводит к реальному изменению соотношений между понятиями – любой стол можетбыть назван столиком в некотором контексте.
Причем невозможно четко указатьпричины, по которым было употреблено уменьшительное название: стол был рассмотренкак маленький, как любимая вещь или просто это такая манера разговора. Если нетчеткого, независимого от контекста различия между значениями, то отдельное понятие незаводится,Подобно FrameNet (Fillmore и др., 2003) несовершенный и совершенный видыодного и того же глагола (выбрать, выбирать) также рассматриваются как онтологическиесинонимы. Глаголы-делимитативы (Зализняк, Шмелев, 2000), описывающие некоторую«порцию» действия, оцениваемую как небольшую и ограниченную по времени,рассматриваются как онтологические синонимы к глаголу, от которого они образованы,224например, погулять – гулять, почитать – читать, побегать – бегать и т.п.
Однократныеи многократные действия (куснуть – кусать, моргнуть – моргать, плюнуть – плевать)также описываются как онтологические синонимы.Таким образом, в тезаурусе РуТез мы пытаемся соблюдать правило разработкионтологии, заключающееся в том, чтобы разные имена одних и тех же сущностей не велик образованию разных понятий, а были объединены как онтологические синонимы одногои того же понятия.16.2.
Имя понятия и толкованиеДля работы с понятиями, анализа результатов автоматической обработки текстов,важно, чтобы понятие имело понятное, однозначное и компактное имя, передающееосновной объем этого понятия.С этой точки зрения, оперирование длинными рядами синонимов как в WordNet неочень удобно. Кроме того, если в WordNet синсет состоит из одного многозначного слова,то пояснить его можно с помощью толкования, что также очень длинно, или с помощьюгиперонима, который также может быть неоднозначным.В тезаурусе РуТез каждое понятие должно иметь однозначное имя, котороепостроено на базе его текстовых входов, и должно быть понятным носителю языка.Имена понятий могут быть следующих видов:- однозначное слово: КАБЕЛЬ;- однозначное словосочетание, являющееся одним из текстовых входов понятия:КАБИНЕТ ВРАЧА, КАБИНЕТ РЕСТОРАНА;- неоднозначное словосочетание с пометой подобно пометам, используемым втрадиционных информационно-поисковых тезаурусах.
В качестве пометыиспользуется по возможности текстовый вход одного из вышестоящих понятий:КАБАЧОК (РАСТЕНИЕ), КАБАЧОК (ПЛОД);- пара синонимов– текстовыхвходов понятия через запятую:ИРРАЦИОНАЛЬНЫЙ,ЛОГИЧЕСКИНЕОБЪЯСНИМЫЙ;ПОТНЫЙ,МОКРЫЙ ОТ ПОТА. В отличие от ресурсов типа WordNet в тезаурусе РуТезпара синонимов в названии понятия должна однозначно идентифицировать сутьпонятия.
Использование таких названий понятий особенно полезно в техслучаях, когда принимается решение совместить в одном понятии значениянесколько различающихся слов. Это решение удобно зафиксировать в названиипонятия, например, ПАМЯТНИК, МОНУМЕНТ.Если есть такая возможность, то есть если среди текстовых входов понятия,имеется существительное или именная группа, то имя понятия делается на основесуществительного (именной группы).Понятие может иметь комментарий, который пишется в случае необходимости и неявляется частью имени понятия.
Это также практика, принятая при разработкетрадиционных информационно-поисковых тезаурусов.16.3. Ввод понятий для группы близких по смыслу словКак известно, в естественном языке есть значительно количество близких посмыслу групп слов – квазисинонимов (см. разделы 5.3.1, 5.5). Выделяя понятия на основезначений таких квазисинонимов, мы пытаемся обеспечить, чтобы введенное понятиеимело четкое, независимое от контекста отличие от родового понятия и от такназываемых понятий-сестер, то есть видовых понятий к тому же родовому понятию.Поскольку в настоящее время понятия тезауруса РуТез не имеют внутреннейструктуры в виде фреймовых элементов или атрибутов, то отличительные свойствапонятия могут проявляться в наборе отношений с другими понятиями или в особенностяхассоциированных с понятием онтологических синонимов.225Таким образом, основными принципами работы с квазисинонимами являютсяследующие:- необходимо искать различия между квазисинонимами, которые не исчезают взависимости от контекстаупотребления квазисинонимов и приводят кформированию разных рядов онтологических синонимов или к разнымотношениям с другими понятиями,- найденные различия между квазисинониами фиксируются вводом понятий соднозначными именами.Работу с квазисинонимами рассмотрим на примере плохо различимых синсетов изWordNet, отражающих значение сходства (см.
раздел 5.5).На первом шаге необходимо для тезаурусного описания признакиквазисинонимов, то есть такие признаки, в зависимости от которыхтребуетсяустановление разных отношений с другими понятиями тезауруса.В совокупности английских слов со значением сходства (similarity), такимэлементом значения, например, является сходство по внешним характеристикам:likeness, alikeness, similitude -- (similarity in appearance or character or naturebetween persons or things; ``man created God in his own likeness'' ) – сходство повнешности, характеру или природе между людьми или объектами.resemblance -- (similarity in appearance or external or superficial details).Это означает, что в языке значимым является сходство по внешнимхарактеристикам и нужно отразить этот факт соответствующим понятием.На втором шаге необходимо подыскать подходящее название такому понятию. Вкачестве названия может выступать однозначное словосочетание, однозначное слово стаким значением, или пара синонимов, пересечение значений которых однозначноидентифицирует данное понятие.В случае квазисинонимов к слову similarity, таким названием понятия можетслужить словосочетание Similarity in appearance (34700 страниц в поисковой системеGoogle).
Понятие вводится в тезаурус с таким названием.На третьем шаге необходимо найти разные способы выражения этого же понятияв виде словосочетаний и отдельных слов, например, resemblance in appearance, similarityof appearance, external resemblance и др., Все эти варианты добавляются в качестветекстовых входов к понятию.226SIMILARITYresemblance, likenessSIMILARITY IN APPEARANCEresemblance in appearance, similarity of appearance,external resemblance, resemblance, likeness, alikenessMUTUALRESEMBLANCEsymmetrical resemblanceMIRROR IMAGEreflection, reflexion, mirrorreflection, mirror symmetry,reflection symmetrySPLITTINGIMAGEРис 16.1. Фрагмент совокупности отличимых понятий, отражающих значенияквазисинонимов слова similarity.На четвером шаге для отражения значений слов, которые часто выражают именноэто понятие, но могут использоваться и для выражения сходства вообще, например,resemblance, такое слово указывается как текстовый вход к понятию SIMILARITY INAPPEARANCE и как текстовый вход к более общему понятию SIMILARITY.В случае если независимых от контекста характеристик для различения значенийквазисинонимов, найти не удается, то необходимо представить их в виде одного понятия.Для большей ясности имя такого понятия может быть составлено, как пара соединенных вэтом понятии синонимов.В качестве основы для примера представления значений квазисинонимов нарусском языке возьмем синонимические ряды, представленные в синонимическом словареНОСС (Апресян и др., 2003).
Этот словарь интересен тем, что его словарная статьясодержит подробный перечень сходных черт и различий синонимов. На основе такойсловарной статьи разбора удобно показать, какие различия приводят к представлениюсинонимического ряда словаря в виде онтологических синонимов одного и того жепонятия (то есть такой же синонимический ряд сохраняется и в рамках РуТез онтологии),а для значений каких слов, представленных в данном словаре, как синонимы, введенынесколько понятий, и, таким образом, в рамках тезауруса РуТез они синонимами неявляются.В качестве первого примера рассмотрим пару синонимов памятник, монумент.В словаре НОСС (Апресян и др., 2003 стр. 257) указываются следующие различияэтой пары слов:- в память о конкретном человеке обычно ставится памятник, о группе людей – ипамятник, и монумент, о событии – монумент; идеи воплощаются вмонументах;227-у монументов есть способность увековечивать подвиг живых людей;по форме сооружения памятник часто представляет собой изображениеувековечиваемого объекта;монумент обычно больше по размерам;пропагандистская роль больше свойственна монументам.Анализ примеров употребления этих синонимов показывает, что различия,указанные в п.1, 2, 3, выполняются лишь по умолчанию, имеется достаточное числопримеров употребления обоих синонимов в связи со всеми возможными типамиувековечиваемых сущностей:В память о конкретном человеке может быть установлен монумент:Монумент выдающемуся исследователю севера Западной Сибири, лесоводу,этнографу Александру Дунину-Горкавичу торжественно откроется в ХантыМансийске.
(http://ural.rian.ru/culture/20070614/81566803.html).В память события может быть установлен памятник:На Пролетарской площади вновь оборудован сквер, в котором установленпамятник Победы (http://www.megatula.ru/site/tulskii_krai/raionnye_centry/67/)Памятник может быть поставлен идее:Он сказал, что это не первая акция вандалов в отношении памятника русскоармянской дружбы (http://www.patriarchia.ru/db/text/56928.html)Памятник может быть поставлен при жизни:Маргарет Тэтчер, которой в Британии при жизни поставили памятник, узнала,чтоамериканцыееназывали"провинциальнойматроной".(http://www.rg.ru/2007/10/29/tetcher.html)Кроме того, авторы указывают, что различия нейтрализуются при повторной,сокращенной номинации того же сооружения (там же, стр.258):На площади - установлен первый памятник нашего города Петербурга.