Главная » Просмотр файлов » Диссертация

Диссертация (1137511), страница 7

Файл №1137511 Диссертация (Методы автоматического выделения тезаурусных отношений на основе словарных толкований) 7 страницаДиссертация (1137511) страница 72019-05-20СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 7)

Представляется, что источник должен удовлетворять следующим требованиям:– источник должен быть частично-структурированным лексикографическим ресурсом,– источник должен быть одноязычным, а в рамках настоящей работы, русскоязычным,– источник должен быть представлен в электронном виде,– источник должен допускать возможность выбора лексики по части речи — последнее требование не является ключевым для построения электронных тезаурусов, и обусловлено выбранными ограничениями поставленной нами в главе 1 задачи.Таким требованиям удовлетворяют электронные представления толковыхсловарей.

Для выбора словаря необходимо рассмотреть следующие вопросы: каквыглядел бы идеальный источник корпусных данных — толковый словарь, — какие толковые словари существуют, какие доступны для русского языка. Толковый словарь представляет собой частично-структурированный текстовый ресурс.Необходимо рассмотреть, какова структура толкового словаря: как устроена словарная статья, что собой представляет толкование, и какие ограничения накладывает практическая лексикография на формулировку толкования. Рассмотрениесуществующих русскоязычных толковых словарей с этих точек зрения помогает выбрать для настоящей работы словари, в наибольшей мере удовлетворяющие описанным выше требованиям. Поскольку словарь не является полностьюструктурированным источником, необходимым шагом является подготовка корпуса толкований, удобного для автоматической обработки.Настоящая глава отвечает на эти вопросы.

В ней описывается процесс выбора словаря и подготовки корпуса словарных толкований. Здесь мы будем опираться в основном на материалы русскоязычной лексикографии, и лишь по необходимости будем привлекать другой лексикографический опыт.322.1 Типы словарейПри создании толкового словаря лексикограф предполагает основным пользователем читателя, человека.

Использование словарей в качестве ресурса для извлечения данных в большинстве случаев не соответствует цели создания толкового словаря вовсе, и лишь немногие современные толковые словари предусматривают автоматическую обработку их материалов. В силу этого, хотя в работе обращается внимание на такие важные параметры словарей, как конкретные целиих создания, потенциальная аудитория, на которую словарь ориентирован, принципиальными для исследования оказываются другие параметры.Основное внимание в настоящем разделе уделяется вопросу о том, какие типы информации можно извлечь из словаря прямым или косвенным образом, какую можно ожидать точность извлечения и как объём извлечённой информациисоотносится с объёмом самого словаря.

Кроме того, описывая свойства толковыхсловарей, мы будем удерживать в голове применимость работы к широкому кругуязыков и эпох, толковые словари для которых не всегда соответствуют требованиям современной лексикографии.Для того, чтобы выбрать словарь, удовлетворяющий указанным выше требованиям, необходимо рассмотреть, какие типы толковых словарей существуют,какими параметрами они различаются.2.1.1Классификация толковых словарейПрежде всего рассмотрим, какие параметры словарей следует учитыватьпри выборе толкового словаря для проведения экспериментов.Общепринятой классификацией в русской лексикографической традицииявляется классификация, предложенная Львом Владимировичем Щербой [8]. В«Опыте общей теории лексикографии» [8] он предложил несколько критериев дляописания словаря:– по задаче: нормативный словарь (академического типа) — описывающийсловарь (словарь-справочник),33– по объекту: энциклопедический словарь (объект — понятие) — общийсловарь (объект — слово),– по полноте: тезаурус (включающий решительно все слова, встречающиеся в описываемом корпусе текстов) — обычный словарь,– по порядку представления материала: обычный (толковый или переводной) словарь — идеологический (идеографический) словарь,– по множеству описываемых языков: толковый словарь — переводной словарь,– по хронологической принадлежности описываемой лексики: исторический словарь — неисторический словарь.В противопоставлении словарей по задаче (а точнее, по шкале нормативности –описательности) наибольший интерес для нас представляет та лексика и тееё описания, которые совпадают в нормативных и описательных словарях.

Именно такая лексика должна составлять ядро электронного тезауруса. Однако впоследствии тезаурус необходимо расширять. И здесь вопрос выбора типа словаряобуславливается его применением. В силу того, что работа ориентирована на создание электронных тезаурусов, применимых к живой речи, нам интересны такиесловари, в которых отражается реальное использование языка его носителями, ане идеальные нормы. Итак, в этом вопросе выбор становится однозначным: насинтересуют описывающие словари, словари-справочники.Казалось бы, в противопоставлении по объекту наибольший интерес длянас должен представлять энциклопедический словарь, который уже сам по себе содержит значительные части структуры, близкие к желаемому электронномутезаурусу.

Однако и здесь следует свериться с изначально поставленными намицелями. Рассмотрим для примера толкования первого значения лексемы ГРИБ (см.пример 2.1) в разных словарях.Приведенные на рисунке 2.1 толкования показывают, что словари различаются по синтаксической вершине словарного толкования. Так, в словарях Даля,Ушакова и Малом академическом словаре вершиной именной группы (далее ИГ)является РАСТЕНИЕ.

Иными словами, в этих словарях для данного значения лексемы ГРИБ в качестве гиперонима выбрана лексема РАСТЕНИЕ. В словарях Ожегова,Ефремовой и Викисловаре в качестве гиперонима выбрана лексема ОРГАНИЗМ. Длясравнения, в Википедии выбран термин «плодовое тело». Здесь словари Даля,Ушакова, МАС проявляют себя как более общие словари, в то время как словари Ожегова, Ефремовой, Викисловарь и Википедия уклоняются в сторону энцик34СловарьДаль [6]Толкованиерастение более или менее мясистое, без веток, без листьев,без цвета.Ушаков [7]Низшее споровое растение, состоящее б.

ч. из ножки и шляпки.МАС [24]Низшее растение, лишенное хлорофилла, размножающеесягл. образом спорами.Ожегов, Шведо- Особый организм, не образующий цветков и семян и размножающийся спорами,ва [13]Особый организм, сочетающий признаки как растения, так иЕфремова [20]животного, обычно размножающийся спорами и состоящий изкорешка и шляпки,Викисловарь [30] организм [2], относящийся к грибам [1] или [2]Википедия [31]разговорно-обиходное название плодовых тел грибовмакромицетовРисунок 2.1 –– Толкования первого значения лексемы ГРИБ разными толковымисловарями.лопедичности.

Отметим, что приведённые цитаты из словарей преследуют здесьцелью проиллюстрировать различие подходов к формулировке толкований, а неиллюстративным материалом для выбора материала исследования. Две группытолкований различаются тем, что они опираются на разные картины мира. В первом случае, толкование соответствует так называемой «наивной» картине мира,во втором — родовое понятие выбирается в соответствии с некоторой научнойтаксономией.Проблема соотношения научной и наивной классификации в толкованиях ив тезаурусах стоит достаточно остро.

Она активно обсуждается как в традиционной лексикографии, так и в области компьютерной лексикографии, а также инженерии знаний при разработке различных онтологий, применимых в системах АОТ(ср., например, [4], [9], [5], [26] и др.). Проблема состоит в том, что, с одной стороны, при анализе текстов ограниченной предметной области необходимо ресурсы,отражающие понятийную структуру данной предметной области. Такие ресурсыдолжны содержать терминологию этой области и информацию об отношенияхмежду терминами. С другой стороны, употребление лексем в реальных текстах,даже посвященных узкой предметной области, нередко опирается именно нанаивную картину мира.

Вопрос о сложности разграничения терминологических и наивных понятий обсуждается в частности С. Д Шеловым [9]. В работе35Н. В. Лукашевич [26] этой проблеме отведен специальный раздел. В качестве ещеодного примера несовпадения таксономических классов можно привести примерлексемы АРАХИС. Арахис относится к семейству бобовых. Однако в наивной картине мира эта лексема связана с родовым понятием ОРЕХ. Подробно о сложности,возникающие при установлении родового понятия для лексем, относящихся к бытовой лексики обсуждаются в [12].Цель настоящей работы — извлечение отношений для тезауруса, пригодного для обработки текстов разных жанров и тематик, способного предсказыватьязыковые свойства лексических единиц, в противопоставление априорной онтологической модели.

Это обстоятельство определяет выбор словаря, ориентированного на наивную картину мира, а не энциклопедического.Следующим критерием Л. В. Щерба ставит полноту словаря. Здесь нужноотметить, что в настоящей работе мы используем термин «тезаурус» в значении,отличном от того, которое использовал Щерба. Этот критерий имеет небольшоезначение для настоящей работы. При этом стоит заметить, что так как разработка большого толкового словаря занимает длительное время, часть периферийнойлексики, описанной в нём, может начать устаревать уже к моменту публикациисловаря. Это не является недостатком для академического или учебного словаря,и наоборот придаёт любому толковому словарю способность описывать не толькомомент развития языка, но и некоторую эпоху. В случае же использования словаря для компьютерной обработки это может представлять трудности.

В частности, малоупотребительные слова могут оказаться омонимичными современнымчастотным лексемам и стать дополнительным источником ошибок.В качестве четвертого критерия Л. В. Щерба использует порядок изложения. Понятие идеографического словаря в том значении, в котором его употребляет Л. В. Щерба, близко к понятию тезаурус, используемому в настоящей работе.Однако данный тип словарей не ставит целью выявить различные значения однойлексемы и установить для них связь посредством тезаурусных отношений с другим лексическими единицами. В настоящей же работе единицей анализа являетсялексическое значение, а не лексема.Противопоставление одноязычных и переводных словарей для данной работы не релевантно. Задача настоящей работы состоит в том, чтобы извлечь и привести в структурированное представление данные об онтологической структуреодного выбранного языка.

Любое вплетение в исходные материалы иностранныхязыков представляется нам как влекущее за собой интерференцию языков и спо36собное повлиять на создаваемую таксономическую картину мира. Некоторые иллюстрации такой интерференции были описаны в главе 1. Поэтому естественнымобразом нас интересует использование исключительно одноязычных словарей вкачестве источника данных.Последний критерий классификации словарей: деление на исторические ине исторические словари. Историческим он называет словарь, составители которого ставят своей целью охватить лексику достаточно большого историческогопериода. Стоит, впрочем, отметить, что любой словарь включает в себя не мгновенный срез языка, а лексику некоторого исторического периода.

Характеристики

Список файлов диссертации

Методы автоматического выделения тезаурусных отношений на основе словарных толкований
Свежие статьи
Популярно сейчас
А знаете ли Вы, что из года в год задания практически не меняются? Математика, преподаваемая в учебных заведениях, никак не менялась минимум 30 лет. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6384
Авторов
на СтудИзбе
308
Средний доход
с одного платного файла
Обучение Подробнее