Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 93
Текст из файла (страница 93)
Понятие SABOTAGE было поставлено в соответствиепонятию ВРЕДИТЕЛЬСТВО. Англоязычный ряд для русского понятия САБОТАЖ имеетследующий вид: employee sabotage, labor sabotage, sabotage by employees, silent sabotage,workers sabotage. Англоязычный ряд для русского понятия ДИВЕРСИЯ таков: sabotageattack, enemy sabotage, sabotage by enemy, sabotage explosion.В качестве другого примера рассмотрим значение англоязычного слова brother-inlaw, для которого в русском языке нет ни соответствующего слова, ни употребительногословосочетания.
В таких случаях заводится понятие со специальной пометкой #,обозначающей, что русского эквивалента нет. Понятие снабжается русским пояснением.Отношение с другими понятиями тезауруса показывает соотношение русских ианглийских понятий:BROTHER-IN-LAWВЫШЕKINSMANНИЖЕBROTHER OF HUSBANDНИЖЕBROTHER OF WIFE-----# ДЕВЕРЬ ИЛИ ШУРИНРОДСТВЕННИК-МУЖЧИНАДЕВЕРЬШУРИНИногда подобная сочинительная конструкция употребляется и самими носителямиязыка для заполнения лексической лакуны. Так, в разделе 16.5.2.6 мы уже упоминалиотсутствие отдельного слова, значение которого соответствует значению русскоязычноготермина вексель.
Как уже указывалось, векселя делятся на простые векселя (promissorynotes или просто notes) и переводные (bills of exchange или просто bills). Значениютермина вексель соответствует конструкция bills and notes (80000 употреблений в Google).348В ряде случаев взгляд с точки зрения английского языка помог подобрать болееадекватное понятийное представление для значений многозначных русскоязычных слова.В качестве яркого примера можно привести слово масло, которое в разных контекстахпереводится butter или oil.По русским толковым словарям не очень понятно, как лучше представить значенияслова масло, как они представлены в словосочетаниях сливочное масло, растительноемасло, минеральное масло, топленое масло.Русскоязычные толковые словари (Словарь Ефремовой, БТС, словарь Ожегова)подразделяют значения по признаку использования или неиспользования в пищу.
СловарьЕфремовой выделяет два подзначения в одном значении по признаку использования илинеиспользования в пище:1.1) Жидкое или твердое жировое вещество, искусственно добываемое из веществрастительного,минеральногоилиживотногопроисхождения.2) Пищевой продукт животного или растительного происхождения.Словарь (Ожегов, Шведова, 1995) выделяет по тому же признаку два отдельныхзначения. Словосочетания сливочное масло, животное масло указываются как примеры кпервому значению, а словосочетание бить масло – ко второму значению.Словарь (БТС, 1998) также выделяет два подзначения.
Второе подзначениенесколько отличается и выглядит так:Пищевой продукт, получаемый путем сбивания сливок; сливочное масло.Причем словосочетание топленое масло, получаемое обычно из сливочного масла,дано как пример к первому подзначению.Как и сколько понятий тезауруса правильно создать на базе таких толкований, неочень ясно.При создании двуязычной онтологии такой беспорядок в русскоязычныхисточниках усложняется тем, что в качестве переводов в этих употреблениях слова маслоиспользуются два разных слова: butter и oil. Значение слова butter соответствует русскомусливочное масло, а значение слова oil в словаре Encartha толкуется следующим образом:oil – 1. thick greasy liquid: a liquid fat, obtained from plant seeds, animal fats, mineraldeposits, and other sources, that does not dissolve in water and will burn.Из этого толкования можно понять, что oil1 – это жидкий жир.
Мы решили принятьпредставление значений слова масло именно на базе их английского перевода, посколькуполучившиеся понятия обладают набором характерных свойств, отличающих их отдругих понятий.Таким образом, этим толкованиям соответствуют два понятия МАСЛО (ЖИДКИЙЖИР) и СЛИВОЧНОЕ МАСЛО, со следующими наборами отношений:МАСЛО (ЖИДКИЙ ЖИР)смасло, масляный, жирное маслоВЫШЕЖИДКОСТЬВЫШЕЖИРНИЖЕМИНЕРАЛЬНОЕ МАСЛОНИЖЕРАСТИТЕЛЬНОЕ МАСЛОАСЦ2МАСЛЯНАЯ КРАСКА349СЛИВОЧНОЕ МАСЛОсмасло, масляный, сливочное масло, животное маслоВЫШЕЖИВОТНЫЙ ЖИРВЫШЕМОЛОЧНАЯ ПРОДУКЦИЯАСЦ2ТОПЛЕНОЕ МАСЛОЕще раз подчеркнем, что такой выбор понятий был сделан не в угоду англоязычнойлексикализации, а потому, что английский язык подсказал наиболее адекватное разбиениесуществующих явлений на различимые понятия.Для уточнения англоязычной части лингвистической онтологии – тезауруса РуТез(так же как и для русского языка) проводится процедура вычитки значений слов почастотному списку, который был получен на основе коллекций газетных статей GlasgoGerald и Los Andgeles Times (1994-1995 гг.), предоставленных в процессе участия вконференции по многоязычному поиску CLEF .Заключение к главе 23В настоящее время тезаурус РуТез продолжает развиваться.
В сфере общейлексики продолжается подбор наилучшего понятийного представления для значенийнаиболее частотных слов, вводятся словосочетания, позволяющие четче разграничить этизначения.Общественно-политический тезаурус пополняется за счет вхождения впрофессиональные понятийные системы. Также пополнение Общественно-политическоготезауруса происходит за счет уточнения значений общей лексики.Продолжает развиваться и уточняться англоязычная часть тезауруса РуТез.350Глава 24. Онтология по естественным наукам и технологиям24.1. Проблемы разработки онтологии в сфере естественных наукДля профессионального, в том числе научно-технического, поиска информациичасто требуется обеспечение поиска, основанного на знаниях, – использованиесинонимов, возможности автоматического расширения запроса, возможностейавтоматического анализа результатов запроса и помощь в интерактивном поиске.Традиционными средствами тематического поиска научной информации в течениемногих лет являлись информационно-поисковые тезаурусы.
Однако, как мы ужеуказывали, такие тезаурусы создавались для их использования в процессе ручногоиндексирования и поиска, и не обеспечивают эффективного информационного поиска вавтоматических режимах обработки текстов. Кроме того, отношения между терминами,используемые в традиционных информационно-поисковых тезаурусах считаютсянедостаточно формализованными, субъективными.Создание формализованных онтологических ресурсов в сфере естественных науксвязано с рядом проблем.Во-первых, такие ресурсы должны быть достаточно большой величины, включаядесятки тысяч понятий, что обычно снижает возможность их формальных описаний.Во-вторых, формализация ограничивается развивающейся природой науки, чтопроявляется в существовании различных теорий, частичным пониманием введенныхпонятий.В-третьих, (Tsujii, Ananiadou, 2005) указывают на такую проблему, какгипотетическая природа онтологий.
В логических онтологиях классификационная схемасуществует до описания конкретных явлений. В то время как в научных онтологияхклассификационная схема должна наилучшим образом объяснить наблюдаемые явления.Нахождение наилучших классификационных схем – это важнейший научный результат,помогающий объяснить и описать явления.Наконец, в научных сферах понятия неразрывно связаны с терминами, ихязыковыми представителями.Все эти факторы дали возможность предположить, что для создания онтологии всфере естественных наук может быть использована структура лингвистической онтологиитезауруса РуТез, характеризующимся небольшим набором формализованных отношенийи серьезной опорой на значения реально существующих языковых единиц – слов исловосочетаний.В 2004 году были начаты работы по разработки Онтологии по естественнымнаукам и технологиям ОЕНТ (Добров и др., 2005; Добров, Лукашевич, 2006).
Широтавыбранной области, сочетание разных наук связано с тем, что для конкретных разделовтой или иной естественной науки необходимы знания из разных разделов этой же наукиили других наук, а также математики. Действительно, значимой проблемой приструктуризации знания в пределах одной области науки является трудность вотграничении данной области от других, либо исследующих те же объекты, либоприменяющих аналогичные подходы. С другой стороны, доступ к знанию такихродственных научных подходов был бы крайне интересен каждому исследователю.Начало работ над Онтологией по естественным наукам и технологиям означало,что было принято решение раздельно разрабатывать две разные онтологии для анализатекстов в общественно-политической сфере (газетные статьи, новостные сообщения,законодательные акты, международные договоры) и научных публикаций.Решение о разделение онтологий было связано с несколькими серьезнымифакторами.351Во-первых, обе онтологии достаточно объемны, включают десятки тысяч понятийи отношений, при этом большая часть понятий общей онтологии обычно не используетсяв текстах естественных наук, и наоборот, научные понятия, по большей мере, не нужныдля анализа таких общезначимых документов, как газетные статьи, информационныесообщения, законодательные акты.Во-вторых, разделение онтологий снижает многозначность описанных слов ивыражений.В-третьих, предполагалось, что существует несоответствие, так называемой,«бытовой» картины мира и научной картины мира.
То есть отношения, описанные иправильные в рамках одной онтологии, должны быть изменены в рамках другойонтологии.И наконец, последнее (по перечислению, но не по важности) эти две онтологииотличаются по способам рассмотрения внешнего мира: онтология РуТез рассматриваетмир через призму современного цивилизованного общества: что известно о мирезначимому количеству образованных людей современного общества, что важно(воздействует, используется) в существовании современного общества. Онтология вобласти естественных наук и технологий исключает из рассмотрения аспектыобщественного мировосприятия и должна описывать в виде онтологической моделиустоявшиеся воззрения современной науки, основываясь на материалах научныхпубликаций.Вместе с тем, хотелось бы отметить, что существуют типы текстов, для анализакоторых могут понадобиться обе онтологии, работающие одновременно, и поэтому нужноиметь четкое представление об отражении сходных явлений в разных контекстах.К числу текстов, требующих, как представляется, использования обеих онтологийотносятся:- анализ соответствий между требованиями технического регулирования иописанием производственных процессов;- документы вида «заявки/отчеты» о научном исследовании,- инвестиционные заявки, связанные с промышленным внедрением научныхисследований.В следующих разделах будут подробно рассмотрены этапы создания онтологииОЕНТ.24.2.