Главная » Просмотр файлов » Тезаурусы в задачах информационного поиска. Лукашевич (2010)

Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 57

Файл №1185451 Тезаурусы в задачах информационного поиска. Лукашевич (2010) (Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf) 57 страницаТезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451) страница 572020-08-25СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 57)

Они являютсяонтологиями, поскольку описывают понятия внешнего мира и отношения между ними,которые устанавливаются в соответствии с требованием правомочности расширениязапроса по иерархии связей при информационном поиске.Эти ресурсы принадлежат к особому классу онтологий, так называемымлингвистическим онтологиям (см. раздел 4.4), поскольку введение понятий взначительной мере мотивируется значениями языковых единиц, относящихся кпредметной области ресурса.В то же время они являются тезаурусами, поскольку каждое понятие связано снабором языковых выражений (слов, терминов, словосочетаний), которыми это понятиеможет быть выражено в тексте, - такой набор текстовых входов понятий необходим дляиспользования онтологий для автоматической обработки текстов.211Основным лингвистическим ресурсом, разработанным на основе упомянутыхпринципов, является тезаурус русского языка РуТез, и в следующих разделах будутподробно рассмотрены структура и характеристики этого ресурса.15.2.

Тезаурус РуТез: Общая структураТезаурус РуТез – это иерархическая сеть понятий. Каждое понятие имеет имя.Для сопоставления с текстом каждое понятие снабжается набором текстовыхвыражений («текстовых входов», «терминов»), значения которых соответствует данномупонятию. В качестве таких текстовых входов могут выступать однословныесуществительные, прилагательные, глаголы, именные и глагольные группы. Количествотаких текстовых входов понятий может быть достаточно велико, например, превышать 20единиц.

При вводе нового понятия делаются специальные усилия, чтобы максимальноподробно перечислить его возможные текстовые входы.Каждое понятие связывается отношениями с другими понятиями тезауруса РуТез.Набор отношений тезауруса специально подобран для эффективной работы винформационно-поисковых приложениях.Особенностью тезауруса РуТез (как и других тезаурусов) является то, чтопонятия не имеют внутренней структуры в виде атрибутов (фреймовых элементов), тоесть свойства понятий описываются только посредством отношений с другимипонятиями.Как уже указывалось, подавляющее число понятий тезауруса РуТез базируются назначениях существующих языковых выражений. В отличие от ресурсов типа WordNetтакими выражениями могут не только общеупотребительная лексика илексикализованные выражения, но и термины в широкой предметной областисовременной жизни общества, которую мы называем Общественно-политическойобластью.Вопросы соотношения лексики и терминологии, причины совмещения их в одномресурсе будут рассмотрены в следующем разделе.15.3.

Соотношение лексики и терминологии.Общественно-политическая область15.3.1. Разделение лексики и терминологии.Подавляющее большинство текстов, хранимых в современных электронныхколлекциях и нуждающихся в эффективной обработке и поиске, принадлежат к такназываемой деловой прозе и содержат как общеупотребительную лексику, так итерминологию конкретных предметных областей.Однако общеупотребительные слова и термины изучаются представителямиразличных научных дисциплин – лексикологами и терминологами.

Для описания общейлексики и терминологии создаются различные ресурсы.Так, предполагается, что ресурсы типа WordNet описывают, прежде всего, общуюлексику языка. В Принстонском WordNet можно найти достаточное количество терминовиз разных областей, особенно широко представлены термины из биологическойсистематики. Представляется, что включение терминов в WordNet не носило системныйхарактер, а было связано с тем, что в разных предметных областях существуют иерархии,удобные для внесения в тезаурус.Это подтверждается тем, что разработчики тезаурусов в рамках проектаEuroWordNet, а также других европейских ворднетов строже ограничивают внесение всвои тезаурусы синсеты, относящиеся именно к общеупотребительному языку. Так, какмы указывали в разделе 3.3.2, разработчики датского ворднета DanNet отказываютсявносить в свой ресурс удобный обобщающий синсет, поскольку полагают, что он212соответствует значению термина из сферы страхования. Предполагается, что длятерминологии предметных областей должны создаваться отдельные тезаурусы (см.

раздел3.3.7).Остановимся подробнее на вопросах различия общей лексики и терминологии.В настоящее время, наиболее общепринятым определением термина являетсяследующее определение: термин – это слово или словосочетание, номинирующеепонятие определенной области знания или действительности (Суперанская и др., 2003;Лейчик, 1994; Володина, 1996; Шелов, 2003; Гринев-Гриневич, 2008).Таким образом, первое различие заключается в том, что термин относится копределенной предметной области, терминологией владеют профессионалы в даннойпредметной области, а общая лексика известна многим людям, вне сферы ихпрофессиональных занятий.Кроме того, определение термина устанавливает связь термина с понятиемпредметной области.

Основоположник Венской школы терминологии Э.Вюстер(Wűster,1979) подчеркивал, что одно из существенных различий между методамиисследования, используемых лингвистами и терминологами, заключается в том, чтотерминологи начинают свое рассмотрение с понятия, которое должно быть точноопределено и не зависит от своего наименования, а лексикологи начинают с языковоговыражения. Поэтому традиционно терминологи говорят о понятиях, а лингвисты означениях.

Х.Фелбер (Felber, 1984) также подчеркивает, что «если в лингвистикесодержание слова и его форма рассматриваются как одна единица, то в терминологиипонятие и его обозначение ... отделены друг от друга».Во многих работах подчеркивается, что и понятие, и лексическое значениеотносятся к категориям мышления, при этом между ними есть существенные различия.Значение включает в себя помимо понятийного содержания (сигнификативноденотативного компонента значения), такие компоненты как оценочный, стилистический,сочетаемостный.

Значение включает лишь различительные черты объектов, иногдаотносительно поверхностные, а понятия охватывают их наиболее глубокие существенныесвойства.В связи со значениями общей лексики иногда говорят о наивных или бытовыхпонятиях (Апресян, 1995; Шелов, 2003; Герд, 2005), которые противопоставляютсясодержательным или научным понятиям.

Считается, что наивное понятие включает лишьразличительные черты объектов, иногда относительно поверхностные, а научные понятияохватывают их наиболее глубокие существенные свойства.К важным свойствам термина относят также его точность и однозначность(Суперанская и др., 2003; Шелов, 2003; Sager, 1990). Так, в работе (Суперанская и др.,2003) подчеркивается, что термин должен относиться непосредственно к понятию, ондолжен выражать понятие ясно, значение термина должно быть точным и не должнопересекаться по значению с другими терминами, значение термина не должно зависеть отконтекста.

Гринев-Гриневич (Гринев-Гриневич, 2008) перечисляет более 10 признаковтерминов и требований, предъявляемые к терминам. Таким образом, приводитсязначительное количество свойств, отграничивающих термин от лексической единицыобщего языка.Как отдельный способ формирования терминов рассматривается превращение втермин общеупотребительного слова - терминологизация, когда общеупотребительноеслово получает новое терминологическое значение в конкретной предметной области. Вто же время широко распространен и обратный процесс - детерминологизация, когдапоявившийся в некоторой специальной области термин становится словом общейлексики.В работе (Суперанская и др., 2003) отмечается, что при этом специальное значениев общей лексике редуцируется, термин приобретает прагматические свойства, которых онпрежде был лишен, то есть возникает новое слово с терминологическим значением,213требующее уже не дефиниции, а толкования.

Породивший новое слово термин остается всвоем терминологическом поле без изменений. Таким образом, считается, что фактическипри процессе детерминологизации появляется омоним термина.В то же время имеет значительное число работ, показывающих относительностьвышеперечисленных различий между общей лексикой и терминами.Так, помимо лексики, которая может использоваться в тексте любой тематики,имеется тематическая общеупотребительная лексика, тесно связанная с терминологиейсоответствующей предметной области.С.Д.

Шелов (Шелов, 2003) указывает, что теоретическом плане соотношение«специальное понятие» - «неспециальное понятие» и основанное на нем разграничение«термин-нетермин» вряд ли могут считаться совершенно ясными и подлежатдальнейшему исследованию. В.Н. Хохлачева отмечает: «разграничение «специальныхобъектов и понятий с «неспециальными» - далеко не очевидный факт» (Хохлачева, 1981).При текущем уровне онтологического моделирования и специальные, и «наивныепонятия» моделируются в рамках одних и тех же онтологических структур, что, вчастности, как раз и делается в рамках построения иерархических систем значений типаWordNet (Climent и др., 1996; Miller и др., 1990).Создавая ворднеты для своих языков, лингвисты выстраивают значения слов иязыковых выражений в виде иерархических систем, пытаются найти схожие понятия дляразличных языков, выстраивают верхний независимый от языка уровень таких систем,пытаются использовать созданные структуры для общеупотребительного языка какзаготовку для автоматизированного выявления понятийных систем в конкретныхпредметных областях (Vossen, 2001; Buitellar, Sacalenau, 2001).

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6418
Авторов
на СтудИзбе
307
Средний доход
с одного платного файла
Обучение Подробнее