Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 57
Текст из файла (страница 57)
Они являютсяонтологиями, поскольку описывают понятия внешнего мира и отношения между ними,которые устанавливаются в соответствии с требованием правомочности расширениязапроса по иерархии связей при информационном поиске.Эти ресурсы принадлежат к особому классу онтологий, так называемымлингвистическим онтологиям (см. раздел 4.4), поскольку введение понятий взначительной мере мотивируется значениями языковых единиц, относящихся кпредметной области ресурса.В то же время они являются тезаурусами, поскольку каждое понятие связано снабором языковых выражений (слов, терминов, словосочетаний), которыми это понятиеможет быть выражено в тексте, - такой набор текстовых входов понятий необходим дляиспользования онтологий для автоматической обработки текстов.211Основным лингвистическим ресурсом, разработанным на основе упомянутыхпринципов, является тезаурус русского языка РуТез, и в следующих разделах будутподробно рассмотрены структура и характеристики этого ресурса.15.2.
Тезаурус РуТез: Общая структураТезаурус РуТез – это иерархическая сеть понятий. Каждое понятие имеет имя.Для сопоставления с текстом каждое понятие снабжается набором текстовыхвыражений («текстовых входов», «терминов»), значения которых соответствует данномупонятию. В качестве таких текстовых входов могут выступать однословныесуществительные, прилагательные, глаголы, именные и глагольные группы. Количествотаких текстовых входов понятий может быть достаточно велико, например, превышать 20единиц.
При вводе нового понятия делаются специальные усилия, чтобы максимальноподробно перечислить его возможные текстовые входы.Каждое понятие связывается отношениями с другими понятиями тезауруса РуТез.Набор отношений тезауруса специально подобран для эффективной работы винформационно-поисковых приложениях.Особенностью тезауруса РуТез (как и других тезаурусов) является то, чтопонятия не имеют внутренней структуры в виде атрибутов (фреймовых элементов), тоесть свойства понятий описываются только посредством отношений с другимипонятиями.Как уже указывалось, подавляющее число понятий тезауруса РуТез базируются назначениях существующих языковых выражений. В отличие от ресурсов типа WordNetтакими выражениями могут не только общеупотребительная лексика илексикализованные выражения, но и термины в широкой предметной областисовременной жизни общества, которую мы называем Общественно-политическойобластью.Вопросы соотношения лексики и терминологии, причины совмещения их в одномресурсе будут рассмотрены в следующем разделе.15.3.
Соотношение лексики и терминологии.Общественно-политическая область15.3.1. Разделение лексики и терминологии.Подавляющее большинство текстов, хранимых в современных электронныхколлекциях и нуждающихся в эффективной обработке и поиске, принадлежат к такназываемой деловой прозе и содержат как общеупотребительную лексику, так итерминологию конкретных предметных областей.Однако общеупотребительные слова и термины изучаются представителямиразличных научных дисциплин – лексикологами и терминологами.
Для описания общейлексики и терминологии создаются различные ресурсы.Так, предполагается, что ресурсы типа WordNet описывают, прежде всего, общуюлексику языка. В Принстонском WordNet можно найти достаточное количество терминовиз разных областей, особенно широко представлены термины из биологическойсистематики. Представляется, что включение терминов в WordNet не носило системныйхарактер, а было связано с тем, что в разных предметных областях существуют иерархии,удобные для внесения в тезаурус.Это подтверждается тем, что разработчики тезаурусов в рамках проектаEuroWordNet, а также других европейских ворднетов строже ограничивают внесение всвои тезаурусы синсеты, относящиеся именно к общеупотребительному языку. Так, какмы указывали в разделе 3.3.2, разработчики датского ворднета DanNet отказываютсявносить в свой ресурс удобный обобщающий синсет, поскольку полагают, что он212соответствует значению термина из сферы страхования. Предполагается, что длятерминологии предметных областей должны создаваться отдельные тезаурусы (см.
раздел3.3.7).Остановимся подробнее на вопросах различия общей лексики и терминологии.В настоящее время, наиболее общепринятым определением термина являетсяследующее определение: термин – это слово или словосочетание, номинирующеепонятие определенной области знания или действительности (Суперанская и др., 2003;Лейчик, 1994; Володина, 1996; Шелов, 2003; Гринев-Гриневич, 2008).Таким образом, первое различие заключается в том, что термин относится копределенной предметной области, терминологией владеют профессионалы в даннойпредметной области, а общая лексика известна многим людям, вне сферы ихпрофессиональных занятий.Кроме того, определение термина устанавливает связь термина с понятиемпредметной области.
Основоположник Венской школы терминологии Э.Вюстер(Wűster,1979) подчеркивал, что одно из существенных различий между методамиисследования, используемых лингвистами и терминологами, заключается в том, чтотерминологи начинают свое рассмотрение с понятия, которое должно быть точноопределено и не зависит от своего наименования, а лексикологи начинают с языковоговыражения. Поэтому традиционно терминологи говорят о понятиях, а лингвисты означениях.
Х.Фелбер (Felber, 1984) также подчеркивает, что «если в лингвистикесодержание слова и его форма рассматриваются как одна единица, то в терминологиипонятие и его обозначение ... отделены друг от друга».Во многих работах подчеркивается, что и понятие, и лексическое значениеотносятся к категориям мышления, при этом между ними есть существенные различия.Значение включает в себя помимо понятийного содержания (сигнификативноденотативного компонента значения), такие компоненты как оценочный, стилистический,сочетаемостный.
Значение включает лишь различительные черты объектов, иногдаотносительно поверхностные, а понятия охватывают их наиболее глубокие существенныесвойства.В связи со значениями общей лексики иногда говорят о наивных или бытовыхпонятиях (Апресян, 1995; Шелов, 2003; Герд, 2005), которые противопоставляютсясодержательным или научным понятиям.
Считается, что наивное понятие включает лишьразличительные черты объектов, иногда относительно поверхностные, а научные понятияохватывают их наиболее глубокие существенные свойства.К важным свойствам термина относят также его точность и однозначность(Суперанская и др., 2003; Шелов, 2003; Sager, 1990). Так, в работе (Суперанская и др.,2003) подчеркивается, что термин должен относиться непосредственно к понятию, ондолжен выражать понятие ясно, значение термина должно быть точным и не должнопересекаться по значению с другими терминами, значение термина не должно зависеть отконтекста.
Гринев-Гриневич (Гринев-Гриневич, 2008) перечисляет более 10 признаковтерминов и требований, предъявляемые к терминам. Таким образом, приводитсязначительное количество свойств, отграничивающих термин от лексической единицыобщего языка.Как отдельный способ формирования терминов рассматривается превращение втермин общеупотребительного слова - терминологизация, когда общеупотребительноеслово получает новое терминологическое значение в конкретной предметной области. Вто же время широко распространен и обратный процесс - детерминологизация, когдапоявившийся в некоторой специальной области термин становится словом общейлексики.В работе (Суперанская и др., 2003) отмечается, что при этом специальное значениев общей лексике редуцируется, термин приобретает прагматические свойства, которых онпрежде был лишен, то есть возникает новое слово с терминологическим значением,213требующее уже не дефиниции, а толкования.
Породивший новое слово термин остается всвоем терминологическом поле без изменений. Таким образом, считается, что фактическипри процессе детерминологизации появляется омоним термина.В то же время имеет значительное число работ, показывающих относительностьвышеперечисленных различий между общей лексикой и терминами.Так, помимо лексики, которая может использоваться в тексте любой тематики,имеется тематическая общеупотребительная лексика, тесно связанная с терминологиейсоответствующей предметной области.С.Д.
Шелов (Шелов, 2003) указывает, что теоретическом плане соотношение«специальное понятие» - «неспециальное понятие» и основанное на нем разграничение«термин-нетермин» вряд ли могут считаться совершенно ясными и подлежатдальнейшему исследованию. В.Н. Хохлачева отмечает: «разграничение «специальныхобъектов и понятий с «неспециальными» - далеко не очевидный факт» (Хохлачева, 1981).При текущем уровне онтологического моделирования и специальные, и «наивныепонятия» моделируются в рамках одних и тех же онтологических структур, что, вчастности, как раз и делается в рамках построения иерархических систем значений типаWordNet (Climent и др., 1996; Miller и др., 1990).Создавая ворднеты для своих языков, лингвисты выстраивают значения слов иязыковых выражений в виде иерархических систем, пытаются найти схожие понятия дляразличных языков, выстраивают верхний независимый от языка уровень таких систем,пытаются использовать созданные структуры для общеупотребительного языка какзаготовку для автоматизированного выявления понятийных систем в конкретныхпредметных областях (Vossen, 2001; Buitellar, Sacalenau, 2001).