Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 65
Текст из файла (страница 65)
В английском языке простой вексель называетсяpromissory note, а переводной вексель - bill of exchange. Имеется международнаяконвенция по векселям, в которой обсуждаются оба вида векселей, но не используетсяникакой обобщающий термин. Эквивалент все-таки имеется, это выражения bills and notesи bills of exchange and promissoty notes. На запрос ‖bills and notes‖ поисковая системаGoogle находит 140 тысяч документов, а на запрос ―bills of exchange and promissory notes‖40 тысяч документов.23916.5.2.7 Перестановка слов ведет к разным понятиямЕсли перестановка слов или соответствующих понятий в частотномсловосочетании ведет к совершенно другому частотному словосочетанию, то необходимозафиксировать соответствующие понятия. Так, например, работник профсоюза при сменепорядка слов превращается в профсоюз работников, и это является дополнительнымоснованием для ввода понятия РАБОТНИК ПРОФСОЮЗА.Так, на дату 8 октября 2009 среди первых 10 документов выдачи поисковойсистемы Google по запросу работник профсоюза только 3 документа из 10 релевантныэтому запросу.
В поисковой системе Яндекс на первой странице выдачи по этому запросуне было ни одного релевантного документа.Глава 16.6. Языковые выражения как текстовые входы понятий.Каждое вводимое понятие должно быть снабжено списком слов и словосочетаний,с помощью которых можно сослаться в тексте на вводимое понятие – текстовых входов.
Вкачестве таких текстовых входов могут быть отдельные слова (существительные,прилагательные, глаголы), а также именные и глагольные группы. Текстовый вход можетбыть многозначным (иметь другие значения), тогда он должен быть помечен какмногозначный. Для лучшего распознавания в тексте текстовые входы тезауруса РуТезснабжаются последовательностью нормализованных форм всех составляющихмногословного выражения (мужской род, именительный падеж, единственное число).Языковые выражения (слова, словосочетания, термины), которые были описаныкак текстовые входы одного и того же понятия, становятся неразличимыми с точки зренияРуТез онтологии – онтологическими синонимами.В тезаурусе РуТез большое значение уделяется работе со словосочетаниями нетолько как с источниками новых понятий, но и в качестве пополнения синонимическихрядов.
Поскольку в процессе нашей работы выяснилось, что многие слова имеютмногословные синонимы, то такие синонимы специально ищутся и ими пополняютсясинонимические ряды текстовых выражений, связанных с понятием. Такие многословныесинонимы особенно важно найти для многозначных слов, поскольку многословныесинонимы уже становятся однозначными (подробнее см. раздел 16.6.3).Как уже указывалось в разделе 16.1, онтологические синонимы не всегда являютсясинонимами в том смысле, что не всегда возможны замены в предложении одногоонтологического синонима на другой, сохраняющие грамматическую правильность илогическую истинность предложения. Однако онтологические синонимы понятия должныбыть эквивалентны относительно отношений этого понятия с другими понятиямитезауруса. Как показала практика, нарушение этого принципа, неаккуратное объединениеязыковых выражений в рамках ряда онтологических синонимов, рано или позднопроявляет себя в ошибках при автоматической обработке текстов, находится приложение,для которого неучтенное различие языковых выражений оказывается существенным.16.6.1.
Типы онтологических синонимовРассмотрим основные типы онтологических синонимов:1. Лексические синонимы (собственно синонимы):а) полные синонимы (в том числе синонимы-дублеты):аванс — предоплата,космонавт — астронавт,мятеж — бунт;б) синонимы, отражающие различные языковые стили:240лошадь — конь,коммунальная квартира — коммуналка;в) синтаксические синонимы:жилищное строительство — строительство жилья,авария на транспорте — транспортная авария,контроль за вооружениями — контроль над вооружениями,г) словосочетания, синонимичные отдельным словам:болид – космический болид,болид – гоночный болид;2. Словообразовательные онтологические синонимы,а) словообразовательные варианты:калькуляция — калькулирование,природоохранный — природоохранительный;б) дериваты:приватизация — приватизировать,охрана природы — природоохранный;в) видовые пары глаголов:видеть – увидеть,снять – снимать;г) уменьшительные формы существительных:стол – столик,двор – дворик;д) глаголы-делимитативы (Зализняк, Шмелев, 2000):гулять – погулять,читать – почитать,бегать – побегать;е) однократные и многократные действия:куснуть – кусать,моргнуть – моргать,плюнуть – плевать.3.
Общепринятые в информационно-поисковых тезаурусах условные синонимы:а) сокращения:врачебно-трудовая экспертная комиссия — ВТЭК,автозаправочная станция — АЗС;б) сложные и сложносокращенные слова:строительные материалы – стройматериалыжилищный фонд — жилфонд,авиационная охрана лесов — авиалесоохрана;в) некоторые антонимы:доверие правительству — вотум недоверия правительству,правовое обеспечение — правовой вакуум;241г) существительные, обозначающие лиц мужского и женского пола:спортсмен — спортсменка,владелец — владелица.4.
Другие типы:а) образные наименования:авианосец — плавучий аэродром,взрывные работы — мирный взрыв,биржевая операция — игра на бирже,атомная энергетика — мирная ядерная деятельность,аэропорт — воздушные ворота;б) фрагменты толкования (используются только в случае реального употребления втекстах):банковская тайна — тайна банковского счета,боеголовка — головная часть индивидуального наведения;в) энциклопедические синонимы, то есть такие языковые выражения,тождественность которых вытекает из "энциклопедических знаний", поскольку известно,что для сокращенного выражения нет других интерпретаций:альтернативная гражданская служба — альтернативная военная служба —альтернативная служба,внутренние войска — войска МВД,космический корабль многоразового использования – корабль многоразовогоиспользования – многоразовый корабль;плавающая процентная ставка – плавающая ставкаг) словосочетания с исключением внутреннего компонента (синонимы типа в) и г)названы в (Гринев-Гриневич, 2008) эллиптическими синонимами:безналичный порядок расчета — безналичный расчет,вечерняя форма обучения — вечернее обучение,д) словосочетания, представляющие собой различные реализации одного изактантов главного слова термина:встреча на высшем уровне — встреча в верхах,автомобиль инвалида — автомобиль с ручным управлением,призыв в армию — призыв на воинскую службу;е) словосочетания, несущие в себе дополнительную модальность по отношению косновному словосочетанию:хирургическая операциявмешательство;—хирургическаяпомощь—хирургическоеж) словосочетания, совпадающие в одной своей части, а в другой — состоящие изситуационно связанных слов:безопасность судоходства — безопасность кораблей — безопасность на море,защита вкладов — защита вкладчиков.16.6.2.
Формирование синонимического ряда понятияПонятия в тезаурусе РуТез могут иметь достаточно большие ряды онтологическихсинонимов. Приведем пример синонимического ряда, включающего несколько типовсинонимов для понятия ОХРАНА ПРИРОДЫ (по алфавиту):242Защита окружающей природной средыЗащита природной средыЗащита природыЗащищать природуОхрана природной средыОхрана природыОхранять природуПриродозащитаПриродозащитныйПриродоохранныйПриродоохранительныйПриродоохранная деятельностьПриродоохранная работаПриродоохранные мероприятияПриродоохранные мерыСохранение окружающей природной средыСохранение природной средыСохранение природыСохранять природуСохранять природную средуКак видно, синонимический ряд понятия может содержать значительно количествосинтаксических вариантов словосочетаний, некоторые словосочетания образуютсязаменой слова-компонента на синоним.
Установление соответствия таких текстовыхвходов понятию является наиболее простым способом обнаружения понятия в текстеХранение таких синтаксических синонимов не предусматривается в традиционныхинформационно-поисковых тезаурусах, поскольку они были предназначены для ручногоиндексирования индексаторами, которые легко могут обнаруживать такие варианты втексте.Однако, понятно, что автоматически такие варианты обнаруживать может бытьсложно, поскольку не все возможные варианты реализуются в тексте, некоторые из нихменяют значение. Например, слова объект и предмет являются синонимами в одном иззначений, но словосочетания учебный предмет и учебный объект имеют разные значения.В английском языке замена слова forest на близкое по смыслу слово wood всловосочетании forest fire (лесной пожар), приводит к совершенно другому значениюсловосочетания: wood fire (дровяное отопление).Поэтому при ведении тезауруса РуТез важным правилом является зафиксироватьмаксимальное число реально существующих онтологических синонимов.
При вводенового понятия в онтологию:- необходимо предложить максимально возможное число разного родасинонимических текстовых входов вводимого понятия,- проверить реальное употребление предложенных языковых выражений втекстах Интернет. Для ввода выражения необходимо, чтобы данное выражениеупотреблялось, по крайней мере, в нескольких сотнях разных документовИнтернет, относящихся к современной деловой прозе.В ходе различных экспериментов, при тестировании компьютерных приложений наоснове тезауруса при обнаружении языкового выражения, которое может бытьрассмотрено как новый текстовый вход существующего понятия, оно обязательнофиксируется в соответствующем синонимическом ряде.16.6.3.
Словосочетания, синонимичные отдельным словамБольшое количество отдельных лексем могут иметь синонимы-словосочетания.243Найденные многословные синонимы могут служить хорошими кандидатами наназвание понятия, ясно и однозначно выражая содержание понятия. Однозначныесловосочетания, синонимичные отдельному многозначному слову, могут в значительноймере помочь в автоматической процедуре разрешения многозначности. Наконец, прианализе значений слов с плавающим значением или группы близких по смыслу слов,использование многословных конструкций позволяет выделить в этой группе сложносвязанных значений отчетливые подразделения и зафиксировать эти подразделения в видесовокупности понятий (см.
раздел 16.4.1.).Рассмотрим подробнее типы словосочетаний, синонимичных отдельным словам.Большинство словосочетаний, синонимичных отдельному слову, включают в свойсостав это слово или его дериват.Известными примерами таких словосочетаний являются, описанные в (Мельчук,1974), словосочетания с использованием родовых понятий вида Gener (C0)->Q(C0), гдеQ(C0) – обозначает некоторый дериват от С0, например, республика = республиканскоегосударство [C0=республика, Gener (C0) = государство, Q(C0) = республиканский].Известным видом словосочетаний, синонимичных глаголам и часто являющихсяоднозначными, являются фразеологические синонимы оказать помощь=помочь, оказатьсопротивление=сопротивляться, принимать решение – решать.На самом деле, словосочетания, синонимичные значениям многозначного слова,весьма разнообразны.
Часто они образуются из исходного слова или его деривата и изнаиболее значимого слова из толкования.Например, в (БТС, 1998) первое значение слова агрессия толкуется следующимобразом: «вооруженное нападение государства или группы государств на какое-тогосударство…». Как синоним этого значения слова агрессия активно употребляетсясловосочетание вооруженная агрессия.Часто у каждого из значений многозначного слова имеется свой однозначныйсиноним-словосочетание.Например, слово болид имеет два значения (БТС, 1998):1. Очень яркий крупный метеор2. Гоночная машина со сверхмощным двигателем.Соответственно достаточно употребительны словосочетания космический болидкак синоним к первому значению слова и гоночный болид как синоним ко второмузначению.Если рассматривать основные типы структур словосочетаний-синонимов кмногозначным существительным, то подавляющее большинство таких словосочетанийпредставляют собой следующие конструкции (исходное слово С0):-А(С0)+Gener(C0):авангард3 = авангардное искусство, архив1 = архивное учреждение, авиация2= авиационная техника, экология2 = экологическая система;-Gener(C0)+C0 в родительном падеже:авангард3 = искусство авангарда, авангард4 = произведения авангарда,экспедиция2 = отдел экспедиции, чай3 = настой чая.Такие конструкции становятся возможными из-за метонимической связи междузначениями: внутри словосочетания многозначное слово обычно употребляется взначении, отличном от значения целого выражения.-С0+(существительное в родительном падеже) или прилагательное+С0.Зависимые существительные и прилагательные могут в таких словосочетанияхвыражать достаточно широкий спектр характеристик значения слова, например:- его целое (бородка2 = бородка ключа),244происхождение (болид1 = космический болид, челюсть2 = искусственнаячелюсть),- назначение (блок1 = подъемный блок, бревно2 = гимнастическое бревно),- типы его актантов (арест2 = арест имущества, адаптация2 = адаптациятекста),- а также другие значимые характеристики (карьер2 - открытый карьер, брак1 –зарегистрированный брак).Реже встречаются конструкции с предлогами, которые обычно передаютназначение предмета: экран2=экран для показа, штопор1=штопор для бутылок.Предложные конструкции синонима-словосочетания также могут основываться наметонимии значений слова: шахматы1=игра в шахматы, шерсть4= ткань из шерсти.Таким образом, явление активного употребления однозначных словосочетанийсинонимов для многозначных слов достаточно распространено.