Диссертация (1137511), страница 7
Текст из файла (страница 7)
Представляется, что источник должен удовлетворять следующим требованиям:– источник должен быть частично-структурированным лексикографическим ресурсом,– источник должен быть одноязычным, а в рамках настоящей работы, русскоязычным,– источник должен быть представлен в электронном виде,– источник должен допускать возможность выбора лексики по части речи — последнее требование не является ключевым для построения электронных тезаурусов, и обусловлено выбранными ограничениями поставленной нами в главе 1 задачи.Таким требованиям удовлетворяют электронные представления толковыхсловарей.
Для выбора словаря необходимо рассмотреть следующие вопросы: каквыглядел бы идеальный источник корпусных данных — толковый словарь, — какие толковые словари существуют, какие доступны для русского языка. Толковый словарь представляет собой частично-структурированный текстовый ресурс.Необходимо рассмотреть, какова структура толкового словаря: как устроена словарная статья, что собой представляет толкование, и какие ограничения накладывает практическая лексикография на формулировку толкования. Рассмотрениесуществующих русскоязычных толковых словарей с этих точек зрения помогает выбрать для настоящей работы словари, в наибольшей мере удовлетворяющие описанным выше требованиям. Поскольку словарь не является полностьюструктурированным источником, необходимым шагом является подготовка корпуса толкований, удобного для автоматической обработки.Настоящая глава отвечает на эти вопросы.
В ней описывается процесс выбора словаря и подготовки корпуса словарных толкований. Здесь мы будем опираться в основном на материалы русскоязычной лексикографии, и лишь по необходимости будем привлекать другой лексикографический опыт.322.1 Типы словарейПри создании толкового словаря лексикограф предполагает основным пользователем читателя, человека.
Использование словарей в качестве ресурса для извлечения данных в большинстве случаев не соответствует цели создания толкового словаря вовсе, и лишь немногие современные толковые словари предусматривают автоматическую обработку их материалов. В силу этого, хотя в работе обращается внимание на такие важные параметры словарей, как конкретные целиих создания, потенциальная аудитория, на которую словарь ориентирован, принципиальными для исследования оказываются другие параметры.Основное внимание в настоящем разделе уделяется вопросу о том, какие типы информации можно извлечь из словаря прямым или косвенным образом, какую можно ожидать точность извлечения и как объём извлечённой информациисоотносится с объёмом самого словаря.
Кроме того, описывая свойства толковыхсловарей, мы будем удерживать в голове применимость работы к широкому кругуязыков и эпох, толковые словари для которых не всегда соответствуют требованиям современной лексикографии.Для того, чтобы выбрать словарь, удовлетворяющий указанным выше требованиям, необходимо рассмотреть, какие типы толковых словарей существуют,какими параметрами они различаются.2.1.1Классификация толковых словарейПрежде всего рассмотрим, какие параметры словарей следует учитыватьпри выборе толкового словаря для проведения экспериментов.Общепринятой классификацией в русской лексикографической традицииявляется классификация, предложенная Львом Владимировичем Щербой [8]. В«Опыте общей теории лексикографии» [8] он предложил несколько критериев дляописания словаря:– по задаче: нормативный словарь (академического типа) — описывающийсловарь (словарь-справочник),33– по объекту: энциклопедический словарь (объект — понятие) — общийсловарь (объект — слово),– по полноте: тезаурус (включающий решительно все слова, встречающиеся в описываемом корпусе текстов) — обычный словарь,– по порядку представления материала: обычный (толковый или переводной) словарь — идеологический (идеографический) словарь,– по множеству описываемых языков: толковый словарь — переводной словарь,– по хронологической принадлежности описываемой лексики: исторический словарь — неисторический словарь.В противопоставлении словарей по задаче (а точнее, по шкале нормативности –описательности) наибольший интерес для нас представляет та лексика и тееё описания, которые совпадают в нормативных и описательных словарях.
Именно такая лексика должна составлять ядро электронного тезауруса. Однако впоследствии тезаурус необходимо расширять. И здесь вопрос выбора типа словаряобуславливается его применением. В силу того, что работа ориентирована на создание электронных тезаурусов, применимых к живой речи, нам интересны такиесловари, в которых отражается реальное использование языка его носителями, ане идеальные нормы. Итак, в этом вопросе выбор становится однозначным: насинтересуют описывающие словари, словари-справочники.Казалось бы, в противопоставлении по объекту наибольший интерес длянас должен представлять энциклопедический словарь, который уже сам по себе содержит значительные части структуры, близкие к желаемому электронномутезаурусу.
Однако и здесь следует свериться с изначально поставленными намицелями. Рассмотрим для примера толкования первого значения лексемы ГРИБ (см.пример 2.1) в разных словарях.Приведенные на рисунке 2.1 толкования показывают, что словари различаются по синтаксической вершине словарного толкования. Так, в словарях Даля,Ушакова и Малом академическом словаре вершиной именной группы (далее ИГ)является РАСТЕНИЕ.
Иными словами, в этих словарях для данного значения лексемы ГРИБ в качестве гиперонима выбрана лексема РАСТЕНИЕ. В словарях Ожегова,Ефремовой и Викисловаре в качестве гиперонима выбрана лексема ОРГАНИЗМ. Длясравнения, в Википедии выбран термин «плодовое тело». Здесь словари Даля,Ушакова, МАС проявляют себя как более общие словари, в то время как словари Ожегова, Ефремовой, Викисловарь и Википедия уклоняются в сторону энцик34СловарьДаль [6]Толкованиерастение более или менее мясистое, без веток, без листьев,без цвета.Ушаков [7]Низшее споровое растение, состоящее б.
ч. из ножки и шляпки.МАС [24]Низшее растение, лишенное хлорофилла, размножающеесягл. образом спорами.Ожегов, Шведо- Особый организм, не образующий цветков и семян и размножающийся спорами,ва [13]Особый организм, сочетающий признаки как растения, так иЕфремова [20]животного, обычно размножающийся спорами и состоящий изкорешка и шляпки,Викисловарь [30] организм [2], относящийся к грибам [1] или [2]Википедия [31]разговорно-обиходное название плодовых тел грибовмакромицетовРисунок 2.1 –– Толкования первого значения лексемы ГРИБ разными толковымисловарями.лопедичности.
Отметим, что приведённые цитаты из словарей преследуют здесьцелью проиллюстрировать различие подходов к формулировке толкований, а неиллюстративным материалом для выбора материала исследования. Две группытолкований различаются тем, что они опираются на разные картины мира. В первом случае, толкование соответствует так называемой «наивной» картине мира,во втором — родовое понятие выбирается в соответствии с некоторой научнойтаксономией.Проблема соотношения научной и наивной классификации в толкованиях ив тезаурусах стоит достаточно остро.
Она активно обсуждается как в традиционной лексикографии, так и в области компьютерной лексикографии, а также инженерии знаний при разработке различных онтологий, применимых в системах АОТ(ср., например, [4], [9], [5], [26] и др.). Проблема состоит в том, что, с одной стороны, при анализе текстов ограниченной предметной области необходимо ресурсы,отражающие понятийную структуру данной предметной области. Такие ресурсыдолжны содержать терминологию этой области и информацию об отношенияхмежду терминами. С другой стороны, употребление лексем в реальных текстах,даже посвященных узкой предметной области, нередко опирается именно нанаивную картину мира.
Вопрос о сложности разграничения терминологических и наивных понятий обсуждается в частности С. Д Шеловым [9]. В работе35Н. В. Лукашевич [26] этой проблеме отведен специальный раздел. В качестве ещеодного примера несовпадения таксономических классов можно привести примерлексемы АРАХИС. Арахис относится к семейству бобовых. Однако в наивной картине мира эта лексема связана с родовым понятием ОРЕХ. Подробно о сложности,возникающие при установлении родового понятия для лексем, относящихся к бытовой лексики обсуждаются в [12].Цель настоящей работы — извлечение отношений для тезауруса, пригодного для обработки текстов разных жанров и тематик, способного предсказыватьязыковые свойства лексических единиц, в противопоставление априорной онтологической модели.
Это обстоятельство определяет выбор словаря, ориентированного на наивную картину мира, а не энциклопедического.Следующим критерием Л. В. Щерба ставит полноту словаря. Здесь нужноотметить, что в настоящей работе мы используем термин «тезаурус» в значении,отличном от того, которое использовал Щерба. Этот критерий имеет небольшоезначение для настоящей работы. При этом стоит заметить, что так как разработка большого толкового словаря занимает длительное время, часть периферийнойлексики, описанной в нём, может начать устаревать уже к моменту публикациисловаря. Это не является недостатком для академического или учебного словаря,и наоборот придаёт любому толковому словарю способность описывать не толькомомент развития языка, но и некоторую эпоху. В случае же использования словаря для компьютерной обработки это может представлять трудности.
В частности, малоупотребительные слова могут оказаться омонимичными современнымчастотным лексемам и стать дополнительным источником ошибок.В качестве четвертого критерия Л. В. Щерба использует порядок изложения. Понятие идеографического словаря в том значении, в котором его употребляет Л. В. Щерба, близко к понятию тезаурус, используемому в настоящей работе.Однако данный тип словарей не ставит целью выявить различные значения однойлексемы и установить для них связь посредством тезаурусных отношений с другим лексическими единицами. В настоящей же работе единицей анализа являетсялексическое значение, а не лексема.Противопоставление одноязычных и переводных словарей для данной работы не релевантно. Задача настоящей работы состоит в том, чтобы извлечь и привести в структурированное представление данные об онтологической структуреодного выбранного языка.
Любое вплетение в исходные материалы иностранныхязыков представляется нам как влекущее за собой интерференцию языков и спо36собное повлиять на создаваемую таксономическую картину мира. Некоторые иллюстрации такой интерференции были описаны в главе 1. Поэтому естественнымобразом нас интересует использование исключительно одноязычных словарей вкачестве источника данных.Последний критерий классификации словарей: деление на исторические ине исторические словари. Историческим он называет словарь, составители которого ставят своей целью охватить лексику достаточно большого историческогопериода. Стоит, впрочем, отметить, что любой словарь включает в себя не мгновенный срез языка, а лексику некоторого исторического периода.