Главная » Все файлы » Просмотр файлов из архивов » PDF-файлы » Тезаурусы в задачах информационного поиска. Лукашевич (2010)

Тезаурусы в задачах информационного поиска. Лукашевич (2010) (Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf), страница 7

PDF-файл Тезаурусы в задачах информационного поиска. Лукашевич (2010) (Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf), страница 7 Анализ текстовых данных и информационный поиск (63259): Книга - 10 семестр (2 семестр магистратуры)Тезаурусы в задачах информационного поиска. Лукашевич (2010) (Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf) - PDF, страница 7 (6322020-08-25СтудИзба

Описание файла

PDF-файл из архива "Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf", который расположен в категории "". Всё это находится в предмете "анализ текстовых данных и информационный поиск" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .

Просмотр PDF-файла онлайн

Текст 7 страницы из PDF

В идеалетезаурусу должны предшествовать целостное лингвистическое описание языка науки,25данной отрасли знания, работа по стандартизации соответствующей терминологии.Однако связь должна быть и обратной: слова и словосочетания, выделенные в качестведескрипторов в лучших тезаурусах, следует рекомендовать и в качестве стандартныхтерминов для тех или иных понятий (Герд, 2005).1.1.2. Критерии ввода многословных дескрипторовПоскольку в текстах предметной области может встречаться достаточно многочастотных словосочетаний, то обычно стандарты на тезаурусы вводят правила включениятерминологических словосочетаний в тезаурусыТак, ГОСТ 7.25 указывает, что допускается включать словосочетания в словниктезауруса, если в качестве опорного слова они содержат существительное, и есливыполнено одно из следующих условий:- значение словосочетания не выводится из значений его компонентов, например,- ЧЕРНЫЙ ЯЩИК, АБСОЛЮТНО ЧЕРНОЕ ТЕЛО, ЦАРСКАЯ ВОДКА;- хотя бы один из компонентов словосочетания не употребляется в составедругих сочетаний или употребляется всегда в другом смысле, например,ТОРГОВЛЯ НА ВЫНОС, ЛЕГКАЯ ПРОМЫШЛЕННОСТЬ;- для данного словосочетания в словнике тезауруса существуют полныесинонимы, например, НАТРИЯ ХЛОРИД = ПОВАРЕННАЯ СОЛЬ;- данное словосочетание является устойчивым словосочетанием с именемсобственным:.

ТАБЛИЦА МЕНДЕЛЕЕВА, ЗАКОН БОЙЛЯ-МАРИОТТА;- отдельные слова словосочетания имеют слишком широкое значение, например,слово машины в словосочетаниях: СТРОИТЕЛЬНЫЕ МАШИНЫ,ЭЛЕКТРИЧЕСКИЕ МАШИНЫ;- для данного словосочетания в словнике тезауруса существует общепринятаяаббревиатура, например,:ПОВЕРХНОСТНО-АКТИВНЫЕ ВЕЩЕСТВА - ПАВ,УНИВЕРСАЛЬНАЯ ДЕСЯТИЧНАЯ КЛАССИФИКАЦИЯ - УДК,ИНФОРМАЦИОННО-ПОИСКОВЫЙ ТЕЗАУРУС - ИПТ,ЭЛЕКТРОННО-ВЫЧИСЛИТЕЛЬНАЯ МАШИНА - ЭВМ;- разбиение словосочетаний на отдельные компоненты приводит к потереважных для поиска семантических связей.

Так, разбиение языкового выраженияЯЗЫК ПРОГРАММИРОВАНИЯ не позволяет установить связи с такимиязыковыми выражениями как «АЛГОЛ», «КОБОЛ», «ФОРТРАН».Словосочетания, которые не удовлетворяют перечисленным условиям, разбиваютна компоненты.Американский стандарт Z39.19 помимо вышеперечисленных случаев приводиттакже критерий общепринятости термина профессиональным сообществом, например,data processing – обработка данных.Кроме того, этот стандарт указывает, что введение многословного дескрипторапозволяет избегать ложных корреляций, например, разбиение термина Library science(наука о библиотеках = библиотековедение), может привести к нахождению документов онаучных библиотеках (science library).В работе (Шемакин, 1974) на примере терминов научно-технического тезауруса(Шемакин, 1972) приводятся следующие принципы ввода многословных дескрипторов:- значение одного из терминов изменилось бы в результате комбинации.Например, термин ПОСАДОЧНЫЕ ПЛОЩАДКИ нельзя представитькомбинацией терминов ПОСАДКА и ПЛОЩАДКА, поскольку это привело бык несвойственному в данном случае использованию термина ПОСАДКА;26------термин-словосочетание обозначает некоторую физическую целостность илиспецифическое вещество (например, ЦИФРОВЫЕ ВЫЧИСЛИТЕЛЬНЫЕМАШИНЫ, ПЕРЕКИСЬ ВОДОРОДА);термин-словосочетание имеет один или несколько синонимов на уровнесловосочетания, или синонимия существует только на уровне словосочетания, аненауровнеотдельныхслов,образующихсловосочетания(ПОЛУПРОВОДНИКОВЫЕ ТРИОДЫ – ТРАНЗИСТОРЫ);термин-словосочетание употребляется только в единственном илимножественном числе (например, АВТОМАТИЧЕСКИЙПЕРЕВОД,АНГЛИЙСКИЙ ЯЗЫК, СТРОИТЕЛЬНЫЕ МАТЕРИАЛЫ);для термина словосочетания существует общепринятая аббревиатура,составленная из первых букв компонентов словосочетания (ЭЛЕКТРОННЫЕЦИФРОВЫЕ ВЫЧИСЛИТЕЛЬНЫЕ МАШИНЫ – ЭЦВМ);для некоторых элементов термина-словосочетания мала вероятностьиспользования вне данного словосочетания (например, ОБЗОР ВЕЕРНЫМЛУЧОМ, ЭТАЖЕРОЧНЫЕ МИКРОМОДУЛИ);один из элементов термина-словосочетания снимает омонимию другого:АВТОМАТЫ: АВТОМАТЫ ДОЗИРОВАНИЯ, АВТОМАТЫ КУРСА;словосочетанияявляютсяединственнымспособомуменьшенияинформационного шума, то есть выдачи документов, не соответствующихзапросу.Например,еслиразложитьтермины-словосочетанияПРЕОБРАЗОВАТЕЛИ ПОСЛЕДОВАТЕЛЬНОГО КОДА В ПАРАЛЛЕЛЬНЫЙиПРЕОБРАЗОВАТЕЛИПАРАЛЛЕЛЬНОГОКОДАВПОСЛЕДОВАТЕЛЬНЫЙ на составляющие их терминологические элементы, тобез указателей роли и связи между этими терминоэлементами их невозможноразличить.1.1.3.

АскрипторыНекоторое понятие может быть выражено с помощью двух разных или большегоколичества терминов, один из которых выбирается в качестве основного термина –дескриптора. Дескриптор фактически рассматривается как представитель терминов,выражающих такое же или почти такое же понятие, то есть устанавливается отношениеэквивалентности между терминами.Отношение эквивалентности между терминами включает три подтипа:- собственно синонимы,- лексические варианты,- квазисинонимы.Основными видами синонимов, включаемыми в тезаурусы, являются следующие:- термины различного происхождения,- общеупотребительные слова и научные термины,- общеупотребительные термины и жаргонные или диалектные выражения и др.Лексические варианты отличаются от синонимов тем, что они представляют собойнекоторую модификацию одного и того же выражения, например, различное написание,аббревиатуры, и т.п.В качестве аскрипторов часто могут использовать квазисинонимы, то есть такиетермины, значения которых, вообще говоря, различаются, но которые рассматриваютсякак эквиваленты для целей тезауруса, например, как квазисинонимы часторассматриваются антонимы (ядерная опасность – ядерная безопасность).Другим частым видов квазисинонимов является случай, когда в качестведескриптора рассматривается некий обобщающий тип, а его подвиды описываются какаскрипторы к этому дескриптору.27Аскрипторы, не совпадающие по значению, вводятся по ГОСТу в следующихслучаях: относительными синонимами (если случаи несовпадения значенийнесущественны для задач ИПТ):СТОЛ = ДИЕТА = ПИТАНИЕ,БЮРО = КОНТОРА = ФИРМА,ВИНТ = БОЛТ.Допускается установление эквивалентности также между единицами, различнымипо значению, но семантически связанными, в тех случаях, когда отождествление этихпонятий полезно для функционирования информационной системы:УСТОЙЧИВОСТЬ = НЕУСТОЙЧИВОСТЬ,ТОРГОВЛЯ == ПРОДАЖА,РЕКА = РУЧЕЙ,МАСЛО = СМАЗКА.Например, в тезаурусе LIV Исследовательской службы Конгресса США статьядескриптора Transplantation of organs, tissues ets.

(ТРАНСПЛАНТАЦИЯ ОРГАНОВ,ТКАНЕЙ и др.) содержит такие аскрипторы как medical transplantation, organtransplantation, Skin grafting, Surgical tranplantation, Tissue transplantation, некоторые изкоторых соответствуют объемлющему понятию ТРАНПЛАНТАЦИИ, а некоторыепредставляют видовые понятия (Skin grafting) (LIV, 1994).В этом же тезаурусе термин deflation (дефляция) включено в качестве аскриптора втезаурусную статью дескриптора inflation (инфляция), поскольку разработчики считают,что это разные проявления одного и того же более общего понятия.Как правило, авторы тезаурусов предпочитают вводить квазисинонимы дляпонятий, которые рассматриваются как периферийные по отношению к основной областиразрабатываемого тезауруса.1.2. Отношения в информационно-поисковых тезаурусахГОСТ 7.25 указывает, что основными типами отношений, обычно отражаемых винформационно-поисковых тезаурусах являются следующие:- род—вид,- часть — целое,- причина — следствие,- сырье — продукт,- административная иерархия,- процесс — объект,- функциональное сходство,- процесс — субъект,- свойство — носитель свойства,- антонимия.Такие содержательные типы связей между дескрипторами, чаще всего, неотражаются в подробном перечне отношений тезауруса, а записываются с помощьюнебольшого набора отношений, которые обычно разделяются на два класса:иерархические и ассоциативные.

Иерархические отношения обычно рассматриваются какнесимметричные и транзитивные.281.2.1. Иерархические отношенияИерархические отношения в тезаурусе могут использоваться в трех логическиразличных и взаимно исключающих ситуациях, а именно для установления следующихотношений:- родовидовое отношение- отношение часть-целое- отношение пример-класс.Американский стандарт на разработку тезаурусов (Z39.19) приводит общуюрекомендацию для установления иерархических отношений:каждый вышестоящий дескриптор должен относиться к тому же базисномусемантическому типу, что и нижестоящий дескриптор, например, оба(нижестоящий и вышестоящий) дескрипторы могут обозначать предмет,действие, свойство и т.п.Например,АНАТОМИЯ (ДИСЦИПЛИНА) и ЦЕНТРАЛЬНАЯ НЕРВНАЯСИСТЕМА относятся к разным типам понятий, поэтому они не могут быть соединеныиерархическими отношениями.Дескрипторы ЦЕНТРАЛЬНАЯ НЕРВНАЯ СИСТЕМА и МОЗГ относятся к органамживого организма и поэтому могут быть соединены иерархически.Некоторые авторы обсуждают необходимость ограничения иерархических уровнейв тезаурусе.

Так, Герд А.С. (Герд, 2005), указывает, что практический опыт показывает,что иерархическая глубина тезауруса не должна превышать некоторого порога, иначе онбудет громоздким и неудобным в эксплуатации. Авторы работы (Методика, 1973) такжеподчеркивают, что не рекомендуется использовать более 9 уровней иерархии.Ограничение числа уровней иерархии достигается исключением слишкомконкретных для данной предметной области дескрипторов. Считается, что для отражениятаких конкретных дескрипторов индексатор может выбрать и более общий дескриптор.Кроме того, учитывается еще и фактор субъективности: чем больше уровнейиерархии в тезаурусе, тем больше вероятность, что для отражения одного и того жесодержания индексаторы могут выбрать дескрипторы с разных уровней иерархии.1.2.1.1.

Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5232
Авторов
на СтудИзбе
423
Средний доход
с одного платного файла
Обучение Подробнее