Диссертация (1137511), страница 9
Текст из файла (страница 9)
Также авторы словарей накладывают строгие ограничения на организацию толкований (несколькоподробнее см. [2]). Однако соблюдение всех принципов описания лексем в соответствии с предлагаемым в рамках такого подхода шаблоном очень трудоемкаязадача. Объем словников этих словарей на данный момент ограничен.Итак, в этом разделе мы показали, что работа составителей словарей может как упрощать, так и усложнять автоматическое извлечение данных из сло41варя. Для извлечения тезаурусных отношений наибольший интерес представляет разметка в словаре морфологической информации, семантических связей, значений слов в толкованиях и отсылках.
Для русского языка существуют словари,содержащие информацию о значении слов в отсылках, т. е. содержащих в структурированном представлении информацию о синонимических и деривационныхотношениях. Далее необходимо рассмотреть словарное толкование, как неструктурированный источник, включающий в себя информацию о других тезаурусныхотношениях, в первую очередь, гипо-гиперонимии.2.3 Типы толкованийВыше было показано, что информация, включаемая в толкование, как и порядок её подачи, различается по словарям.В то время, как словарные статьи по мере развития лексикографии включали в себя больше различных видов информации, толкования становились болеелаконичными и вписывались в небольшое количество всё более узко заданныхшаблонов.
Одной из мотиваций для этого служило желание разместить на томже количестве печатных листов больше информации. Это требование влечёт засобой сокращение длины толкования. В поиске наименее многословных толкований лексикографы нашли лишь небольшое количество способов подачи, которые передают всю необходимую информацию, но при этом остаются понятнымипользователю словаря.Важным вопросом для настоящей работы является то, каким образом мыможем воспользоваться знаниями о наличии нескольких шаблонов толкований.Ниже будет подробно описано применение лексико-грамматических шаблоновдля извлечения данных из толкований — по существу этот метод приводит к некоторой классификации толкований, на которую опираются алгоритмы извлечения.Отсюда вытекает ещё один интересный вопрос, на который мы попытаемся ответить в настоящей работе: насколько априорная стандартизация нескольких типовтолкований, опираясь на которую составители словарей формулируют толкования, похожа на апостериорную классификацию, наиболее выгодную для автоматического извлечения данных.42Чтобы приблизиться к этим вопросам посмотрим на то, какие типы толкований рекомендуют использовать авторы учебников по лексикографии.
НапримерКомарова в учебнике по терминологии [21] выделяет шесть типов толкований1 :– Родовидовые определения описывают отношения частное–общее. Например:«ТАЙМЕР1 : Прибор, служащий для отсчета заданного времени и сигнализирующий о его наступлении.»– Партитивные определения описывают меронимо-холонимические отношения.Например: «СТВОЛ1 : Надземная, самая мощная и толстая часть дерева или кустарника, несущая на себе ветви; стебель.»– Операциональные определения описывают способ вычисления определяемойвеличины (применимы только к величинам). Например: «ФОНДОЁМКОСТЬ1 :Экон.
Отношение основных производственных фондов к производственнойпродукции.»– Комбинированные определения — к этому классу относят определения, в которых можно выделить части других типов определений.Например: «ТАНГЕНС1 :Матем. Тригонометрическая функция, равная отношению синуса к косинусу.»– Отсылочные определения — по существу не являются определениями, а отсылают читателя к собственно определению.
Как правило, описывают отношениясинонимии или деривации. Например: «БЫЧОК1 см. Бык.», «РАФИНИРОВАНИЕ1 :см. Рафинировать.»– Энциклопедические определения. Например: «БРЮМЕР1 : Второй месяц французского республиканского календаря, действовавшего в 1793 – 1805 гг. (18брюмера 8 года республики (9 ноября 1799 г.) произошёл государственный переворот, в результате которого Наполеон Бонапарт оказался у власти).»Приведённые примеры позволяют нам проиллюстрировать поставленные вопросы. Как правило, автоматическая классификация опирается на признаки лексические, морфологические и синтаксические. Реже прибегают к поверхностномусемантическому анализу, так как каждый переход от признаков поверхностныхк признакам более глубинным сопровождается снижением точности выделенияпризнаков.
С точки зрения морфологических и синтаксических признаков приведённые родовидовые определения не отличимы от операциональных и дажепартитивных. Партитивные и операциональные определения могут выделятьсявыбором лексики для вершины определения — это вопрос, подлежащий провер1 Здесьи далее все примеры в настоящем разделе взяты из Большого толкового словаря русского языкапод ред. Кузнецова43ке. Разница же между комбинированными и энциклопедическими определениямине формализована вовсе. С другой стороны, можно заметить, что для выделениятезаурусных отношений проведение чёткой границы между выбранными типамиопределений может не играть решающей роли. Так, например, как в родовидовых,так и в операциональных, комбинированных и энциклопедических толкованияхсинтаксической вершиной толкования оказывается лексема, которую допустимос некоторыми оговорками принять за прямой или косвенный гипероним определяемого лексического значения.Сравним наши наблюдения с другой классификацией определений.
Шелов [9] приводит следующую классификацию:– Родовидовые определения описывают отношения частное — общее, при этомобщее называют родовым понятием, и определение даёт признаки, отделяющиеописываемое видовое понятие (частное).– Перечислительные определения: экстенсиональные, описывающие ряд когипонимов или денотативные, описывающие синонимический набор. Например: «ЛУКАВСТВО1 : Хитрость, коварство».
«ТОСКА1 : Тяжёлое гнетущее чувство,душевная тревога, грусть, уныние.»– Контекстуальные определения, которые характеризуются точным перечнемвсех контекстов, задающих значение определяемой лексемы. Например:«СЫНОК2 : В обращении пожилого или взрослого человека к молодому мужчине,юноше, мальчику.»– Операциональные определения, которые описывают либо операции, необходимые для получения значения определяемого понятия, либо операциональныесвойства денотата.Перечислительный тип определений примечателен тем, что из одного определения такого типа возможно извлечь не одно, а сразу несколько тезаурусныхотношений. При этом такой тип определений не указывает, какого рода отношения в этом случае возникают.
Из двух приведённых примеров первый (лукавство)описывает синонимический набор из трёх лексем. Второй пример задаёт один синонимический набор: тоска, грусть, уныние, — и указывает на наличие двух отношений общее–частное между данным синонимическим набором и семантическойединицей, включающей лексему «тревога», а также между тем же синонимическим набором и «чувством».
Из общих знаний мы догадываемся, каким образомдве последние лексемы связаны между собой, однако само определение не содержит этой информации.44Перечислительные определения могут быть источником и более сложныхотношений. Рассмотрим ещё один пример: «МАТЕРИАЛИЗМ1 : Одно из двух главных (наряду с идеализмом) направлений в философии утверждающее первичность материи, природы, бытия, объективной действительности по отношению ксознанию, мышлению и рассматривающее сознание и мышление как неотъемлемое познаваемое свойство материи.» Здесь определение содержит перечисление,находящееся не в вершинном положении с синтаксической точки зрения.
Из такого определения следует, что некоторые значения лексем «материя», «природа»,«бытие», «объективная действительность» являются ко-гипонимами неназванного в определении понятия.Согласно приведённой классификации, контекстуальные определения могут опираться как на лексический, так и на денотативный контекст. Отнесениеопределения к типу контекстуальных в некоторых случаях (как в приведённом)может быть легко выполнено автоматически, в некоторых случаях является и вовсе спорным.
Рассмотрим пример: «СКАЛЬП : Кожа с волосами, снятая с головыпобеждённого врага (обычно как военный трофей у некоторых диких племён).»Такое определение можно отнести к родовидовому определению, так как в нёмзадано родовое понятие «кожа с волосами» и видовые признаки. Но так же такоеопределение можно отнести и к контекстуальным, так как видовые признаки указывают на контекст, в котором кожа с волосами становится скальпом. Таким образом, контекстуальные определения наряду с родовидовыми, операциональными, комбинированными, и энциклопедическими можно отнести к группе типов,которые трудно автоматически различить между собой, при этом необходимостьтакого разделения не вполне очевидна.2.4 Современные толковые словари русского языкаВыше мы отметили, что для целей настоящей работы наиболее интереснысловари, созданные или значительно обновлённые в период 1990–2010 гг.
Крометого, мы можем достаточно точно наложить ограничения и на размер интересующих нас словарей. Полнота составляемого тезауруса требует от нас использование самого большого из удовлетворяющих остальным критериям словарей. Приэтом словарь должен содержать как можно меньше лексических значений за пре45делами активного лексикона современного носителя языка, что с очевидностьюисключает из нашего рассмотрения большие и средние словари согласно приведённой выше классификации.Перечислим словари, которые допустимо было бы использовать в качествеисточников в настоящей работе.
Здесь мы приводим лишь словари, содержащиеизменения или пополнения после 1990 года. Перечисляем их в порядке убыванияобъёма. Малые и школьные толковые словари при этом оставляем за рамками рассмотрения как заведомо не охватывающие полный активный лексикон.– Большой академический словарь русского языка. Публикация словаря началасьв 2004 году и на момент написания настоящего текста не закончена.
Под этимназванием известно третье издание словаря современного русского литературного языка, изначально опубликованного в 1950–1965 гг. Заявленный объёмсловаря 150 тысяч лексем. На момент написания настоящей работы опубликовано 24 тома из 30 запланированных. Словарь является классическим примером большого словаря в смыслах, указанных выше в описании типологиисловарей. Одной из своих целей словарь ставит описание и активного, и пассивного лексикона. Поэтому в качестве источника для настоящей работы онявляется избыточным.– Русский семантический словарь под ред.
Н. Ю. Шведовой. В описанной вышеклассификации словарь является идеографическим, то есть наиболее близок кклассическому тезаурусу. Словарь описывает около 300 тысяч лексических значений.– Новый словарь русского языка под ред. Т. Ф. Ефремовой. Словарь является толково-словообразовательным словарем.
Словарь впервые опубликован в2000 году. Словарь содержит 136 тысяч словарных статей и около 250 тысячлексических значений. Издание словаря состоит из двух томов.– Большой толковый словарь русского языка под ред. С. А. Кузнецова. Разработкасловаря началась в 1989 году, и за время разработки словарь был значительнопополнен неологизмами.