Тезаурусы в задачах информационного поиска. Лукашевич (2010) (Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf), страница 8
Описание файла
PDF-файл из архива "Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf", который расположен в категории "". Всё это находится в предмете "анализ текстовых данных и информационный поиск" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст 8 страницы из PDF
Отношение Выше-НижеМногие руководства и стандарты (Z39.19; Will, 2004) подчеркивают, чтоиерархическиеотношениявинформационно-поисковыхтезаурусахдолжныустанавливаться в тех случаях, когда отношения истинны независимо от контекста, только в таких случаях дескрипторы информационно-поискового тезауруса могут бытьорганизованы в иерархии. Эта рекомендация связана с тем, что обычно винформационном поиске очень трудно четко определить контекст употребления терминаи понять, применимо ли в данном контексте то или иное отношение.Так, в (Will 2004) указывается, что для мышей можно указать, что они грызуны,поскольку это внутренняя характеристика мышей.
В то же время неправильно указывать,что мыши – вредители, поскольку имеются лабораторные мыши и домашние мыши,которые не являются вредителями.Американский стандарт на информационно-поисковые тезаурусы (Z39.19)предлагает при описании родовидовых отношений использовать тест «все-некоторые».Например, все мыши являются грызунами, но некоторые мыши являются вредителями.Шемакин Ю.И. (Шемакин, 1974) также подчеркивает, что одна из наиболеераспространенных ошибок при построении классификационных схем заключается в том,что ассоциативная связь между понятиями, основанная на возможном применении илииспользовании кого-то одного свойства, принимается за родовидовую связь.
Так,например, ошибкой является, если в тезаурусе понятие НИТРОГЛИЦЕРИН связано29родовидовой связью с понятием ВЗРЫВЧАТЫЕ ВЕЩЕСТВА, хотя как химическоесоединение оно находит применение и в других областях (например, в медицине). Родоваясвязь между понятиями в аналогичных ситуациях сохраняется лишь тогда, когда данныйпредмет (процесс) имеет только одно применение (например, ТРОТИЛ применяетсятолько как взрывчатое вещество и поэтому может быть связан родовидовой связью толькос БРИЗАНТНЫМИ ВЗРЫВЧАТЫМИ ВЕЩЕСТВАМИ).1.2.1.2. Отношение Часть-ЦелоеОтношение Часть-Целое относится к иерархическим отношениям тезауруса. Этоотношение используется в информационно-поисковых тезаурусах значительно реже, чемродовидовое отношение ВЫШЕ-НИЖЕ.
В конкретных тезаурусах часто принимаетсярешение описывать отношение ЧАСТЬ-ЦЕЛОЕ как обобщенное отношение ВЫШЕНИЖЕ (Мдивани, 2004), или как отношение АССОЦИАЦИИ (Методика, 1973) (см. раздел1.2.2).Американский стандарт z39.19 подчеркивает, что отношение ЧАСТЬ-ЦЕЛОЕ втезаурусах должно устанавливаться в тех случаях, когда одно понятие включено в другоепонятие независимо от контекста, тогда дескрипторы могут быть организованы виерархии. Обычно приводится следующий список независимых от контекста отношенийЧАСТЬ-ЦЕЛОЕ, впрочем, список не считается исчерпывающим:1) системы и органы тела:нервная системацентральная нервная системамозг2) географические объекты:РоссияРостовская областьРостов-на-Дону3) дисциплины и сферы деятельности:наукабиологияботаниказоология4) иерархически организованные общественные, политические военныеструктуры:батальонротавзводВ тех случаях, когда имеется множественная принадлежность части к целому, томежду такими терминами не должно устанавливаться иерархическое отношение.
Междутакими дескрипторами может быть установлено отношение ассоциации. Например,карбюраторы являются частями не только автомобилей. Поэтому дескрипторыКАРБЮРАТОР и АВТОМОБИЛЬ не должны быть связаны отношением ЧАСТЬ-ЦЕЛОЕ втезаурусе.Но даже так строго ограничиваемое установление отношений ЧАСТЬ-ЦЕЛОЕможет иметь проблемы. Так, в работе (Smith и др., 2004) указывается на проблемы вустановлении отношений ЧАСТЬ-ЦЕЛОЕ в онтологии генов GO, которая, по сути,является информационно-поисковым тезаурусом.Авторы указывают на три разных интерпретации отношения ЧАСТЬ_ЦЕЛОЕ вэтом ресурсе:301) A является частью В означает, что A иногда является частью B в том смысле,что каждый пример A в некоторый момент своего существования становитсячастью В, понимаемой как часть-целое между конкретными сущностями, тоесть в некоторые момент своего существования А является частью В, а в другиене является.2) A является частью В означает, что A может быть частью В в смысленезависимого от времени отношения между классами: класс A является частьюкласса В, если существует класс С, являющийся подклассом В, для которого всепримеры А являются частями C и все примеры С содержат в качестве частейпримеры А.3) A является частью В означает, что словарь A включен в словарь В, например,онтология клеточных компонентов включается в онтологию генов.1.2.1.3.
Обобщенные отношения ВЫШЕ-НИЖЕНесмотря на то, что современный стандарт на разработку тезаурусов Z39.19рекомендует описывать иерархические отношения так, чтобы семантические классывышестоящего понятия и нижестоящего понятия совпадали, на практике разработчикитезаурусов часто использовали обобщенное отношение ВЫШЕ-НИЖЕ, нарушающее этотребование. Например, в тезаурусе EUROVOC (EUROVOC, 2001) можно найтиследующие примеры отношений ВЫШЕ-НИЖЕ, в которых вышестоящее понятиепредставляет собой сферу деятельности или процесс, а нижестоящее понятие имеетдругой семантический тип.АВИАЛИНИИВЫШЕВОЗДУШНЫЙ ТРАНСПОРТАВТОСТОЯНКИВЫШЕКОММУНАЛЬНОЕ ХОЗЯЙСТВОЗЕМЛИ ПОД ПАРОМВЫШЕАГРОТЕХНИКААДМИНИСТРАТИВНАЯ ОТВЕТСТВЕННОСТЬВЫШЕАДМИНИСТРАТИВНОЕ ПРАВООБЪЕКТЫ АКВАКУЛЬТУРЫВЫШЕАКВАКУЛЬТУРАБАЗЫ ДАННЫХВЫШЕОБРАБОТКА ДАННЫХ.Также в тезаурусах в качестве обобщенного отношения ВЫШЕ-НИЖЕ может бытьпредставлены отношения ЧАСТЬ-ЦЕЛОЕ, например, в тезаурусе AGROVOC находимследующие пример такого отношения:МОЛОЧНЫЙ ЖИРВЫШЕМОЛОКО.1.2.2.
Отношения ассоциацииОсновным назначением установления ассоциативных отношений междудескрипторами информационно-поискового тезауруса является то, что установлениетакой связи может указать дополнительные дескрипторы, полезные при индексированииили поиске.Отношение ассоциации является неиерархическим.
Ассоциативное отношениенаиболее трудно определить. Российский стандарт на создание информационно31поисковых тезаурусов указывает, что «ассоциативное отношение является объединениемотношений, не входящих в иерархические отношения или в отношения синонимии.Допускается включать в ассоциативное отношение все виды отношений, кромесинонимии и отношения род — вид» (ГОСТ 7.25-2001).Другие источники стараются изложить более подробные принципы установленияассоциативных отношений, поскольку в противном случае отношение будетпроставляться непоследовательно (Aitchinson, Gilchrist, 1987).Американский стандарт описывает наиболее общее правило установленияассоциативного отношения между дескрипторами таким образом, что это отношениестоит устанавливать между двумя дескрипторами, если при употреблении одного терминадругой термин как бы подразумевается.
Более того, один термин часто есть необходимыйэлемент определения другого термина, например, термин клетка составляет необходимуючасть определения термина цитология.Более конкретно типы ситуаций, в которых необходимо установить ассоциативныеотношения по версии Американского стандарта, могут быть следующими.Если дескрипторы принадлежат одной иерархии, то ассоциативные отношенияустанавливаются в следующих случаях:- между видами одного и того же понятия, когда их значения пересекаются,например, английские слова ship и boat, которые не являются эквивалентными,но в то же время во многих контекстах являются взаимозаменимыми.- между понятиями, одно из которых происходит от другого, например,поскольку известно, что мул – это помесь осла и лошади, то ассоциативноеотношение должно быть установлено между дескрипторами мул – осел и мул –лошадь.Случаи, в которых необходимо установить отношения, между дескрипторами,принадлежащими разным иерархиям, являются достаточно разнообразными:1) научная дисциплина – объект изучения или специалист в этой дисциплине:математика – математикневрология - нервная система2) операции или процессы и их агент или инструмент:контроль температуры – термостатохотник – охота3) объекты или процессы и их контрагенты:растения – гербициды4) действия и их продукты:ткачество – тканьслезоотделение – слеза5) действия и их цели:переплетное дело – книга6) объекты и вещества и их свойства (уникальные свойства – unique):яды – токсичностьжидкость – поверхностное натяжение7) понятия, связанные причинно-следственной связью:смерть – оплакивание8) понятия и единицы их измеренияэлектрический ток - амперАвторы конкретных тезаурусов могут вводить свои правила описанияассоциативных отношений.
Так, в тезаурусе EUROVOC ассоциативные отношения32устанавливаются в случаях, когда между дескрипторами существуют следующиеотношения (EUROVOC, 2001):- причина;- инструмент;- иерархические отношения, когда полииерархия возможна, но запрещена ипоэтому заменяется на ассоциацию;- отношения сопутствия, следования во времени или пространстве;- материал;- свойство, особенность;- предмет действия, процесса, отрасли знаний;- локализация- сходство, подобие- антонимия.При такой расплывчатости отношения АССОЦИАЦИИ возникает вопрос, на какиеисточники можно опереться при описании этих отношений. При создании тезаурусаконкретной предметной области может использоваться несколько различных источниковассоциативных отношений.Во-первых, используются тексты данной предметной области. Анализ такихтекстов позволяет вскрыть реальные типы смысловых отношений, характерных дляданной предметной области.