Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 62
Текст из файла (страница 62)
Монумент был открыт в 1782 г.основателюТаким образом, у слов монумент и памятник не нашлось ни одного четкогоразличающего свойства или отношения, которые бы привели к отнесению значений этихслов к разным понятиям, и эти два слова должны рассматриваться как онтологическиесинонимы.В качестве второй пары синонимов, которую мы проанализируем с помощьюсловаря НОСС (Апресян и др., 2003), рассмотрим пару слов водитель, шофер.При рассмотрении этих слов авторы словаря указывают следующее различие:«шофер управляет только автомобилем или автобусом, водитель и другимитранспортными средствами (стр.53)». Из этого замечания понятно, что шофер и водительне могут быть онтологическими синонимами, поскольку водитель должен иметьотношения с понятиями, соответствующими словам вагоновожатый, судоводитель, ашофер – нет. Это означает, что для отражения значений этих слов необходим ввод, покрайней мере, двух понятий с названиями ВОДИТЕЛЬ ТРАНСПОРТНОГО СРЕДСТВА иВОДИТЕЛЬ АВТОМОБИЛЯ.
Видовыми понятиями для понятия ВОДИТЕЛЬТРАНСПОРТНОГО СРЕДСТВА будут такие понятия как ВАГОНОВОЖАТЫЙ,СУДОВОДИТЕЛЬ.В то же время, носители языка ощущают эти слова как синонимы (см. такжеАлександрова, 1999). Чтобы отразить и это ощущение, и способность расширительного228употребления, необходимо слово водитель представить как текстовый вход к двумпонятиям ВОДИТЕЛЬ ТРАНСПОРТНОГО СРЕДСТВА и ВОДИТЕЛЬ АВТОМОБИЛЯ.Водитель транспортного средства(водитель)ТранспортныйработникСудоводительВодитель автомобиля(водитель)Вагоновожатый(водитель трамвая)Профессиональный водитель(шофер)ТаксистЛичный водитель(личный шофер)Рис. 16.2.
Понятийная структура, соответствующая близким позначению словам водитель и шоферСначала представляется, что слово шофер должно быть отнесено как текстовоевыражение к понятию ВОДИТЕЛЬ АВТОМОБИЛЯ, но можно заметить, что водителиавтомобилей могут быть любителями, и профессиональными работниками, а слово шофервсе-таки относится к профессиональным водителям. Таким образом, онтологическийанализ пары синонимов показал, что для адекватного отражения системы понятий,скрывающихся за близкими по смыслу словами водитель и шофер, нужно использоватьтри понятийные единицы: ВОДИТЕЛЬ ТРАНСПОРТНОГО СРЕДСТВА, ВОДИТЕЛЬАВТОМОБИЛЯ, ШОФЕР (ПРОФЕССИОНАЛЬНЫЙ ВОДИТЕЛЬ) (см.
рис.16.2).Необходимость принятия решений о представлении значений близких по смыслуязыковых выражений посредством совокупности понятий возникает и в конкретныхпредметных областях.Так, ситуации кредитования соответствуют такие слова и словосочетания как:кредитование, кредит, кредитная услуга, кредитное обслуживание, кредитная операция,выделение кредита, выдача кредита, выделение кредитных средств, предоставлениекредита и др. Имеется специфика употребления конкретных выражений из этого списка.Однако неправильным является введение дополнительных понятий онтологии дляотражения именно специфики употребления. И в данном случае каждое вводимое понятиедолжно иметь четкий набор отличительных отношений. До тех пор, пока такие отличия невыделены, все такие выражения должны представляться как онтологические синонимы.16.4.
Ввод понятий для группы близких значений одного словаС проблемой многозначности слов (лексической многозначностью) сталкиваютсякак разработчики онтологических ресурсов для автоматической обработки текстов, так иразработчики онтологий для других приложений.229В первом случае разработчики четко понимают, что выделение дополнительныхзначений в описании ляжет дополнительным грузом на систему обработки, котораядолжна будет делать автоматический выбор между значениями.Разработчики понятийных ресурсов, не связанных с обработкой текстов наестественном языке, сталкиваются с проблемой многозначности в процессе анализапредметной области, когда необходимо выделить необходимый набор понятий.
Этапроцедура как раз и может быть затруднена лексической многозначностью, например, втаких случаях, когда значения слова значительно связаны между собой, поскольку разныезначения многозначных слов, представленные как одно и то же понятие, могутнекорректно вести себя в приложениях.Как мы уже указывали в разделе 2.5.2.2., попытки объединить слишком большоеколичество значений WordNet, чтобы снизить проблему выбора значений приавтоматической обработке текстов, не привели к выработке общепринятых критериевтакого объединения. В результате исследований способов кластеризации значенийWordNet в работе (Gonzalo, 2004) был сделан вывод, что ненужно склеивать, соединятьблизкие значения многозначных слов, правильнее прописывать отношения между этимизначениями, поскольку в разных приложениях автоматической обработки текстовсущественны разные типы близости значений.В любом случае разработчик лингвистической онтологии должен иметь четкиепринципы, регулирующие выделение и представление близких значений многозначныхслов.16.4.1.
Принципы разделения значений в тезаурусе РуТезВ основу представления значений многозначных слов набором понятий в тезаурусеРуТез используются следующие принципы:1) Чтобы быть отраженным в отдельном понятии, значение должно иметьнезависимые от контекста отличия от других значений.2) Эти отличия выражаются, прежде всего, в наличии специфических синонимовили отношений с другими понятиями тезауруса.3) В качестве синонимов часто хорошо проявляют отдельное значениемногословные синонимы.
Наличие разных синонимов является одним изважнейших факторов, делающих необходимым разделение значений и впрактике составления традиционных толковых словарей (Апресян, 2006, Atkins,1993).4) Если для значения удается найти такие отличающие его синонимы иотношения, мы предпочитаем выделять такое значение в отдельное понятие,даже если имеется относительно близкое значение того же слова. Мы полагаем,что соединение значений с разными синонимами и отношениями в однопонятие единственно ради целей облегчения разрешения многозначности,приведет к проблемам на следующих этапах обработки текста, например,неточное отношение между понятиями может привести к неправильномулогическому выводу.5) Между понятиями, соответствующими близким по смыслу значениям, должнобыть установлено онтологическое отношение, которое позволяет смягчитьвыбор значения в сложных случаях.Действительно, совмещение разных значений в одном понятии приводит к тому,что у одного понятия описывается несовместимый набор отношений, например,родовидовых отношений.
Именно на эту проблему указывал Н.Гуарино (Guarino, 1998),анализируя в онтологии MikroKosmos, понятие ОКНО, которому было приписано двародовых отношения к понятиям АРТЕФАКТ и МЕСТО.230В нашей практике была попытка соединить в одном понятии два значения словапродавец. Например, в толковом словаре (БТС, 1998) выделяются два значения словапродавец:Продавец –1. Работник магазина, отпускающий товар покупателю. Продавец универмага.2. Тот, кто продает что-то.
Продавец цветов, Продавец на рынке.Близость такого рода значений такова, что возникает желание сопоставить этимдвум значениям одну понятийную единицу.Субъект деятельностиТорговыйработникПродавец(Продавец 2)Продавец (торговый работник)(Продавец 1)ТорговаяорганизацияПерепродавецРис. 16.3. Структура понятий тезауруса РуТез,соответствующая значениям слова продавецОднако продавец1 имеет словосочетание-синоним продавец магазина. Кроме того,продавец1 может рассматриваться как вид торговых работников, но продавец2 не являетсяторговым работником. Зато у продавец2 могут быть такие виды как, например, фирмапродавец, которые невозможны для Продавец1.
Отображение значений Продавец1 иПродавец2 как одного понятия приведет к тому, что понятие ФИРМА-ПРОДАВЕЦокажется подвидом понятия ТОРГОВЫЙ РАБОТНИК, что приведет к проблемам вразличных приложениях, использующих тезаурус. На рис. 16.3. изображено современноеописание значений слова продавец в тезаурусе РуТез.Рассмотрим подробнее толкование обсуждаемого в (Guarino, 1998, Nirenburg,Raskin, 2004) значения слово окно и применим предлагаемый нами анализ.В Большом толковом словаре (БТС, 1998) это значение толкуется следующимобразом: отверстие в стене здания или стенке какого-л.
транспортного средства длясвета и воздуха; застекленная рама, закрывающая это отверстие….Как видно, в описании одного значения совмещено рассмотрение окна какотверстия и как рамы, то есть артефакта, что имеет свою прямую аналогию в английскомязыке, и было воспроизведено в описаниях отношений онтологии MikroKosmos.Действительно, многие языки совмещают эти два значения в одном слове. Такое жесовмещение происходит и со значениями подобных слов, например, слова дверь.В то же время в языке имеются другие средства – посредством словосочетаний,четко назвать каждое из совмещенных значений, а именно, окно как отверстиеназывается оконный проем, дверь как отверстие называется дверной проем, окно какартефакт называется оконная рама, дверь как артефакт называется дверная плита.Совмещение значений в одном понятии делает словосочетание оконный проем синонимомсловосочетания оконная рама, а дверной проем синонимом словосочетания двернаяплита, затрудняется описание отношений с понятиями проемов и рам.231Таким образом, на наш взгляд, должны быть введены отдельные понятияОКОННЫЙ ПРОЕМ, ОКОННАЯ РАМА с текстовым входом окно, а также понятияДВЕРНОЙ ПРОЕМ, ДВЕРНАЯ ПЛИТА с текстовым входом дверь (см.