Тезаурусы в задачах информационного поиска. Лукашевич (2010) (Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf), страница 7
Описание файла
PDF-файл из архива "Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf", который расположен в категории "". Всё это находится в предмете "анализ текстовых данных и информационный поиск" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст 7 страницы из PDF
В идеалетезаурусу должны предшествовать целостное лингвистическое описание языка науки,25данной отрасли знания, работа по стандартизации соответствующей терминологии.Однако связь должна быть и обратной: слова и словосочетания, выделенные в качестведескрипторов в лучших тезаурусах, следует рекомендовать и в качестве стандартныхтерминов для тех или иных понятий (Герд, 2005).1.1.2. Критерии ввода многословных дескрипторовПоскольку в текстах предметной области может встречаться достаточно многочастотных словосочетаний, то обычно стандарты на тезаурусы вводят правила включениятерминологических словосочетаний в тезаурусыТак, ГОСТ 7.25 указывает, что допускается включать словосочетания в словниктезауруса, если в качестве опорного слова они содержат существительное, и есливыполнено одно из следующих условий:- значение словосочетания не выводится из значений его компонентов, например,- ЧЕРНЫЙ ЯЩИК, АБСОЛЮТНО ЧЕРНОЕ ТЕЛО, ЦАРСКАЯ ВОДКА;- хотя бы один из компонентов словосочетания не употребляется в составедругих сочетаний или употребляется всегда в другом смысле, например,ТОРГОВЛЯ НА ВЫНОС, ЛЕГКАЯ ПРОМЫШЛЕННОСТЬ;- для данного словосочетания в словнике тезауруса существуют полныесинонимы, например, НАТРИЯ ХЛОРИД = ПОВАРЕННАЯ СОЛЬ;- данное словосочетание является устойчивым словосочетанием с именемсобственным:.
ТАБЛИЦА МЕНДЕЛЕЕВА, ЗАКОН БОЙЛЯ-МАРИОТТА;- отдельные слова словосочетания имеют слишком широкое значение, например,слово машины в словосочетаниях: СТРОИТЕЛЬНЫЕ МАШИНЫ,ЭЛЕКТРИЧЕСКИЕ МАШИНЫ;- для данного словосочетания в словнике тезауруса существует общепринятаяаббревиатура, например,:ПОВЕРХНОСТНО-АКТИВНЫЕ ВЕЩЕСТВА - ПАВ,УНИВЕРСАЛЬНАЯ ДЕСЯТИЧНАЯ КЛАССИФИКАЦИЯ - УДК,ИНФОРМАЦИОННО-ПОИСКОВЫЙ ТЕЗАУРУС - ИПТ,ЭЛЕКТРОННО-ВЫЧИСЛИТЕЛЬНАЯ МАШИНА - ЭВМ;- разбиение словосочетаний на отдельные компоненты приводит к потереважных для поиска семантических связей.
Так, разбиение языкового выраженияЯЗЫК ПРОГРАММИРОВАНИЯ не позволяет установить связи с такимиязыковыми выражениями как «АЛГОЛ», «КОБОЛ», «ФОРТРАН».Словосочетания, которые не удовлетворяют перечисленным условиям, разбиваютна компоненты.Американский стандарт Z39.19 помимо вышеперечисленных случаев приводиттакже критерий общепринятости термина профессиональным сообществом, например,data processing – обработка данных.Кроме того, этот стандарт указывает, что введение многословного дескрипторапозволяет избегать ложных корреляций, например, разбиение термина Library science(наука о библиотеках = библиотековедение), может привести к нахождению документов онаучных библиотеках (science library).В работе (Шемакин, 1974) на примере терминов научно-технического тезауруса(Шемакин, 1972) приводятся следующие принципы ввода многословных дескрипторов:- значение одного из терминов изменилось бы в результате комбинации.Например, термин ПОСАДОЧНЫЕ ПЛОЩАДКИ нельзя представитькомбинацией терминов ПОСАДКА и ПЛОЩАДКА, поскольку это привело бык несвойственному в данном случае использованию термина ПОСАДКА;26------термин-словосочетание обозначает некоторую физическую целостность илиспецифическое вещество (например, ЦИФРОВЫЕ ВЫЧИСЛИТЕЛЬНЫЕМАШИНЫ, ПЕРЕКИСЬ ВОДОРОДА);термин-словосочетание имеет один или несколько синонимов на уровнесловосочетания, или синонимия существует только на уровне словосочетания, аненауровнеотдельныхслов,образующихсловосочетания(ПОЛУПРОВОДНИКОВЫЕ ТРИОДЫ – ТРАНЗИСТОРЫ);термин-словосочетание употребляется только в единственном илимножественном числе (например, АВТОМАТИЧЕСКИЙПЕРЕВОД,АНГЛИЙСКИЙ ЯЗЫК, СТРОИТЕЛЬНЫЕ МАТЕРИАЛЫ);для термина словосочетания существует общепринятая аббревиатура,составленная из первых букв компонентов словосочетания (ЭЛЕКТРОННЫЕЦИФРОВЫЕ ВЫЧИСЛИТЕЛЬНЫЕ МАШИНЫ – ЭЦВМ);для некоторых элементов термина-словосочетания мала вероятностьиспользования вне данного словосочетания (например, ОБЗОР ВЕЕРНЫМЛУЧОМ, ЭТАЖЕРОЧНЫЕ МИКРОМОДУЛИ);один из элементов термина-словосочетания снимает омонимию другого:АВТОМАТЫ: АВТОМАТЫ ДОЗИРОВАНИЯ, АВТОМАТЫ КУРСА;словосочетанияявляютсяединственнымспособомуменьшенияинформационного шума, то есть выдачи документов, не соответствующихзапросу.Например,еслиразложитьтермины-словосочетанияПРЕОБРАЗОВАТЕЛИ ПОСЛЕДОВАТЕЛЬНОГО КОДА В ПАРАЛЛЕЛЬНЫЙиПРЕОБРАЗОВАТЕЛИПАРАЛЛЕЛЬНОГОКОДАВПОСЛЕДОВАТЕЛЬНЫЙ на составляющие их терминологические элементы, тобез указателей роли и связи между этими терминоэлементами их невозможноразличить.1.1.3.
АскрипторыНекоторое понятие может быть выражено с помощью двух разных или большегоколичества терминов, один из которых выбирается в качестве основного термина –дескриптора. Дескриптор фактически рассматривается как представитель терминов,выражающих такое же или почти такое же понятие, то есть устанавливается отношениеэквивалентности между терминами.Отношение эквивалентности между терминами включает три подтипа:- собственно синонимы,- лексические варианты,- квазисинонимы.Основными видами синонимов, включаемыми в тезаурусы, являются следующие:- термины различного происхождения,- общеупотребительные слова и научные термины,- общеупотребительные термины и жаргонные или диалектные выражения и др.Лексические варианты отличаются от синонимов тем, что они представляют собойнекоторую модификацию одного и того же выражения, например, различное написание,аббревиатуры, и т.п.В качестве аскрипторов часто могут использовать квазисинонимы, то есть такиетермины, значения которых, вообще говоря, различаются, но которые рассматриваютсякак эквиваленты для целей тезауруса, например, как квазисинонимы часторассматриваются антонимы (ядерная опасность – ядерная безопасность).Другим частым видов квазисинонимов является случай, когда в качестведескриптора рассматривается некий обобщающий тип, а его подвиды описываются какаскрипторы к этому дескриптору.27Аскрипторы, не совпадающие по значению, вводятся по ГОСТу в следующихслучаях: относительными синонимами (если случаи несовпадения значенийнесущественны для задач ИПТ):СТОЛ = ДИЕТА = ПИТАНИЕ,БЮРО = КОНТОРА = ФИРМА,ВИНТ = БОЛТ.Допускается установление эквивалентности также между единицами, различнымипо значению, но семантически связанными, в тех случаях, когда отождествление этихпонятий полезно для функционирования информационной системы:УСТОЙЧИВОСТЬ = НЕУСТОЙЧИВОСТЬ,ТОРГОВЛЯ == ПРОДАЖА,РЕКА = РУЧЕЙ,МАСЛО = СМАЗКА.Например, в тезаурусе LIV Исследовательской службы Конгресса США статьядескриптора Transplantation of organs, tissues ets.
(ТРАНСПЛАНТАЦИЯ ОРГАНОВ,ТКАНЕЙ и др.) содержит такие аскрипторы как medical transplantation, organtransplantation, Skin grafting, Surgical tranplantation, Tissue transplantation, некоторые изкоторых соответствуют объемлющему понятию ТРАНПЛАНТАЦИИ, а некоторыепредставляют видовые понятия (Skin grafting) (LIV, 1994).В этом же тезаурусе термин deflation (дефляция) включено в качестве аскриптора втезаурусную статью дескриптора inflation (инфляция), поскольку разработчики считают,что это разные проявления одного и того же более общего понятия.Как правило, авторы тезаурусов предпочитают вводить квазисинонимы дляпонятий, которые рассматриваются как периферийные по отношению к основной областиразрабатываемого тезауруса.1.2. Отношения в информационно-поисковых тезаурусахГОСТ 7.25 указывает, что основными типами отношений, обычно отражаемых винформационно-поисковых тезаурусах являются следующие:- род—вид,- часть — целое,- причина — следствие,- сырье — продукт,- административная иерархия,- процесс — объект,- функциональное сходство,- процесс — субъект,- свойство — носитель свойства,- антонимия.Такие содержательные типы связей между дескрипторами, чаще всего, неотражаются в подробном перечне отношений тезауруса, а записываются с помощьюнебольшого набора отношений, которые обычно разделяются на два класса:иерархические и ассоциативные.
Иерархические отношения обычно рассматриваются какнесимметричные и транзитивные.281.2.1. Иерархические отношенияИерархические отношения в тезаурусе могут использоваться в трех логическиразличных и взаимно исключающих ситуациях, а именно для установления следующихотношений:- родовидовое отношение- отношение часть-целое- отношение пример-класс.Американский стандарт на разработку тезаурусов (Z39.19) приводит общуюрекомендацию для установления иерархических отношений:каждый вышестоящий дескриптор должен относиться к тому же базисномусемантическому типу, что и нижестоящий дескриптор, например, оба(нижестоящий и вышестоящий) дескрипторы могут обозначать предмет,действие, свойство и т.п.Например,АНАТОМИЯ (ДИСЦИПЛИНА) и ЦЕНТРАЛЬНАЯ НЕРВНАЯСИСТЕМА относятся к разным типам понятий, поэтому они не могут быть соединеныиерархическими отношениями.Дескрипторы ЦЕНТРАЛЬНАЯ НЕРВНАЯ СИСТЕМА и МОЗГ относятся к органамживого организма и поэтому могут быть соединены иерархически.Некоторые авторы обсуждают необходимость ограничения иерархических уровнейв тезаурусе.
Так, Герд А.С. (Герд, 2005), указывает, что практический опыт показывает,что иерархическая глубина тезауруса не должна превышать некоторого порога, иначе онбудет громоздким и неудобным в эксплуатации. Авторы работы (Методика, 1973) такжеподчеркивают, что не рекомендуется использовать более 9 уровней иерархии.Ограничение числа уровней иерархии достигается исключением слишкомконкретных для данной предметной области дескрипторов. Считается, что для отражениятаких конкретных дескрипторов индексатор может выбрать и более общий дескриптор.Кроме того, учитывается еще и фактор субъективности: чем больше уровнейиерархии в тезаурусе, тем больше вероятность, что для отражения одного и того жесодержания индексаторы могут выбрать дескрипторы с разных уровней иерархии.1.2.1.1.