Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 64
Текст из файла (страница 64)
Поэтому исследование образований этогорода, то есть таких, которые, с одной стороны, не являются фразеологическимиединицами, а с другой – не обладают способностью вполне свободно создаваться в речи,связано с большими трудностями. Так, даже простейшие, казалось бы, абсолютносвободные словосочетания blue sky (голубое небо), white tablecloth (белая скатерть) явно235социолингвистически обусловлены. В культурном опыте говорящих по-английскипредметы мысли tablecloth и white сочетаются вполне естественно, привычно,закономерно, так как скатерти белого цвета общеприняты и широко распространены,кроме того, наличие белой скатерти, как правило, свидетельствует, о торжественном илиофициальном приеме, праздничном обеде и т.п. Точно также сочетание blue sky …употребляется в речи настолько регулярно, что вряд ли можно говорить от свободномсочетании элементов blue и sky каждым отдельным носителем языка.В предметных областях вопрос об извлечении словосочетаний обычно обсуждаетсякаквопросизвлечениятерминологическихсловосочетаний.Имеющиесятерминологические списки, относящиеся к текущей предметной области, обычноохватывают лишь малую часть тех терминоподобных словосочетаний, которыевстречаются в текстах.
Эксперты предметной области могут иметь очень различныемнения по поводу терминологичности того или иного словосочетания (Браславский,Соколов 2007).Таким образом, спектр словосочетаний с особенностями очень широк, и нужнынекоторые формализованные принципы для отражения словосочетания в компьютерныхсловарях, и, в частности, в структуре понятий лингвистической онтологии.16.5.1. Принципы, предлагаемые для отбора словосочетаний длявключения в словари систем автоматической обработки текстовВ работах (Bentivogli, Pianta, 2004; Calzolari и др., 2002; Pearce, 2001) обсуждаетсясовокупность принципов, которые могут служить (в сочетании) основанием для внесениясловосочетания в компьютерный словарь:- высокая частотность,- высокая степень ассоциации, то есть более частое употребление друг с другом,чем с другими словами,- синонимичность лексической единице (например, отдельному слову),- значительная многозначность компонентов,- словосочетание обозначает тип объекта, например, телефонная будка,письменный стол.
Именно типы объектов обладают набором разных свойств,многие из которых могут быть использованы для называния этого типа, врезультате чего возникают интересные синонимы, интересные переводы надругой язык (см. предыдущий раздел)В работе (Pearce, 2001) предлагается использовать для извлечения устойчивыхсловосочетаний синонимы, описанные в тезаурусе WordNet. Поскольку одним из частыхсвойств семантически связанных словосочетаний является ограничение на замену одногоиз слов словосочетания синонимом, то предлагается исследовать сочетания синонимов содними и теми же словами по корпусу, затем перепроверять в Интернет. Если разницачастотностей таких словосочетаний значительна, то можно предлагать частотноесловосочетание как устойчивое. Например, сравнивая употребление слов-синонимовbaggage и luggage в сочетаниях с различными словами, можно обнаружить, что толькоbaggage употребляется с таким прилагательным как emotional.
Таким образом, можнопредположить, что словосочетание "emotional baggage" является устойчивым.Как указывалось в разделе 1.1.2, разработчики информационно-поисковыхтезаурусов традиционно выделяют особое внимание отбору многословных терминов длявключения в тезаурусы.Так, ГОСТ 7.25 указывает, что допускается включать словосочетания в тезаурус,если в качестве опорного слова они содержат существительное и если выполнено одно изследующих условий:- значение словосочетания не выводится из значений его компонентов (черныйящик);236хотя бы один из компонентов словосочетания не употребляется в составедругих сочетаний или употребляется всегда в другом смысле (торговля навынос),- для данного словосочетания в словнике ИПТ существуют полные синонимы,- отдельные слова словосочетания имеют слишком широкое значение,- имеется общепринятая аббревиатура.Американский стандарт Z39.19 помимо вышеперечисленных случаев приводиттакже критерий общепринятости термина профессиональным сообществом, например,data processing - обработка данных.
Кроме того, этот стандарт указывает, что введениемногословного дескриптора позволяет избегать ложных корреляций, например, разбиениетермина Library science (наука о библиотеках = библиотековедение), может привести кнахождению документов о научных библиотеках (science library).Таким образом, мы видим, что различные авторы предлагают различные критериии соображения для включения многословных конструкций в словари компьютерныхсистем, что значительно затрудняет принятие решения в конкретных случаях.-16.5.2. Ввод понятий тезауруса РуТез на основезначений многословных выраженийТезаурус РуТез содержит большое количество понятий, которые соответствуютзначениям словосочетаний.
Критерием ввода такого понятия является возможностьотражения в этом понятии информации, которую невозможно или трудно выразить,используя понятия, соответствующие отдельным словам этого словосочетания. Такимобразом, новое понятие в тезаурусе – это точка приложения дополнительной информации,которую система автоматической обработки текстов может использовать в процессе своейработы. При этом частотные и другие статистические характеристики употреблениясловосочетания не являются, в подавляющем большинстве случаев, решающимиоснованиями включения соответствующего понятия в тезаурус. Такие характеристикислужат обычно лишь дополнительными факторами, заставляющими обратить внимание насловосочетание.Информацию, которую может фиксировать дополнительно введенное понятие,можно разделить на несколько видов (Добров и др., 2002b).16.5.2.1.
Существует и важноВ любой предметной области существует небольшое число сущностей, которыеочень важны в данной ПО. Соответствующие им термины и другие языковые выраженияочень частотны в текстах области. Такие сущности должны быть отражены в онтологии.Например, в общественно-политической жизни Российской Федерации важны такиепонятия как ПРЕЗИДЕНТ РОССИЙСКОЙ ФЕДЕРАЦИИ, ПРАВИТЕЛЬСТВОРОССИЙСКОЙ ФЕДЕРАЦИИ.Если введенные в онтологию понятия имеют фиксированное число видовыхпонятий, то они должны быть отражены в онтологии.Еще одним важным видом информации является информация о том, что у двухпонятий имеется общий подвид, например,АДМИНИСТРАТИВНЫЙ ШТРАФявляетсявидомпонятийАДМИНИСТРАТИВНОЕ НАКАЗАНИЕ и ШТРАФ.Кроме того, понятия, которые формулируют основания для видового делениянекоторого родового понятия, также являются важными для онтологии.Например, кредиты делятся на рублевые и валютные, краткосрочные идолгосрочные. Поэтому важными понятиями онтологии кредитной сферы являютсяпонятия ВАЛЮТА КРЕДИТА и СРОК КРЕДИТА.23716.5.2.2.
Словосочетание имеет «интересные» синонимыОбнаружение синонимических текстовых входов, в том числе сокращенных слов,аббревиатур часто приводит к введению нового понятия для фиксации найденнойсинонимии. При этом разнообразие синонимичных текстовых выражений часто указываетна важность соответствующего понятия.Например, словосочетание газовая колонка имеет синоним газовыйводонагреватель. Словосочетание покупательская тележка имеет синонимы магазиннаятележка и тележка для покупок.Словосочетание работник профсоюза имеет такие синонимы как профсоюзник ипрофработник, а лекарство растительного происхождения - синоним фитопрепарат.Подробнее о видах онтологических синонимов см. раздел 16.6.1.16.5.2.3.
Отношения, которые не следуют из структуры словосочетанияПринципом, используемым для оценки необходимости ввода понятия во многиетезаурусы и онтологии, является то, что многословный термин имеет отношения, которыене следуют из его структуры. Такие отношения могут быть по отношению к нижестоящимпо иерархии понятиям:ФАЗЫ ЛУНЫ – ПОЛНОЛУНИЕ,НОВОЛУНИЕИЗБРАНИЕ ПАПЫ РИМСКОГО - КОНКЛАВИли к вышестоящим понятиям:НАЛОГОВОЕ СТИМУЛИРОВАНИЕНАЛОГОВАЯ ПОЛИТИКА-ЛЬГОТНОЕНАЛОГООБЛОЖЕНИЕ,ПОЛОВАЯ ДОСКА - НАПОЛЬНОЕ ПОКРЫТИЕПонятие может иметь как вышестоящие, так и нижестоящие отношения, неследующие из структуры его текстовых входов:НАПОЛЬНОЕ ПОКРЫТИЕ – ОТДЕЛОЧНЫЕ МАТЕРИАЛЫ, ЛИНОЛЕУМ,ПАРКЕТ16.5.2.4. Достройка уровней тезаурусаВажным принципом дополнения тезауруса является принцип «замыкания»,который имеет два подвида.Во-первых, если новое, по тем или иным причинам введенное понятие породилоновый нижестоящий уровень тезауруса, то он должен быть дополнен другимисущественными понятиями того же уровня.
Например, если как нижестоящие понятие дляпонятия ПРИМЕНЕНИЕ ОРУЖИЯ вводится понятие ПУСК РАКЕТЫ, то необходимовводить, например, понятие СТРЕЛЬБА ИЗ ПУШКИ, как второй важнейший видприменения оружия в данной области.Этот принцип является одновременно и ограничивающим: если мы собираемсяввести понятие нового уровня, то мы должны оценить последствия этого шага: сколькоеще понятий этого уровня мы собираемся ввести; если потенциальных понятий этогоуровня слишком много, то нужно сразу оценить, на основе каких принципов мыограничим ввод.С другой стороны, может возникнуть и обратная ситуация: найдено и введенонесколько понятий, имеющих общие черты, необходимо найти обобщающее понятие.Например, в онтологию вводятся понятия ЗАГОРОДНАЯ ДАЧА, ВИЛЛА, УСАДЬБА,характерными особенностями которых является то, что они представляют разные виды238загородного жилья ЗАГОРОДНЫЙ ДОМ.тогдаобобщающимпонятиемможетслужитьпонятие16.5.2.5.
Словосочетание однозначно, а его компоненты многозначныФактор неоднозначности слов-компонентов однозначного словосочетания можеттакже приводить к вводу понятий.Это происходит, например, в тех случаях, когда однозначное словосочетаниесостоит из слов с большим количеством разных значений, например, операция со счетом,ведение счета, снятие со счета, ведение огня, принять в ведение, перевод средствВ других случаях один из компонентов словосочетания мог бы сочетаться с любымзначением другого слова-компонента словосочетания.
Тем не менее, в реальностисловосочетание употребляется только с одним значением многозначного словакомпонента. Например, в словосочетании одноразовый станок слово станок может бытьтолько в значении станок для бритья.16.5.2.6. Ввод понятия на основе сочинительной конструкцииВ некоторых случаях удобно ввести понятие, которому в языке соответствуетсочинительная конструкция, например, ГОСУДАРСТВЕННАЯ И МУНИЦИПАЛЬНАЯСОБСТВЕННОСТЬ, ОПЕКА И ПОПЕЧИТЕЛЬСТВО.Ввод таких понятий связан с выполнением нескольких критериев:- у такого понятия имеются характерные свойства, атрибуты, отношения,которые отличают его от вышестоящих и нижестоящих понятий.- текстовый вход, значение которого послужило основой введения понятия,очень частотен, например, при поиске в поисковой системе Яндекс на запрос"государственная и муниципальная собственность" находится более 17 тысячдокументов- понятие может иметь и другие текстовые входы более традиционной формы, новозможно менее частотные, например, синонимом выражения «государственнаяи муниципальная собственность» может быть рассмотрен термин «публичнаясобственность», менее распространенный в современной российской деловойпрозе экономики и права,- существуют частотные термины, в которые входит такое выражение, например,орган опеки и попечительства,- у исходного термина существует перевод на другой язык в виде отдельногослова или именной группы, например, английскими текстовыми входамипонятия ОПЕКА И ПОПЕЧИТЕЛЬСТВО являются термины guardianship иlegal guardianship.Встречаются и обратные ситуации, когда в русском языке, имеется однословныйтермин, а на другом языке его можно передать только с помощью сочинительнойконструкции, которая, действительно, очень часто используется.Например, в русском языке имеется термин вексель, который подразделяется напростой вексель и переводной вексель.