Главная » Просмотр файлов » Диссертация

Диссертация (1137511), страница 15

Файл №1137511 Диссертация (Методы автоматического выделения тезаурусных отношений на основе словарных толкований) 15 страницаДиссертация (1137511) страница 152019-05-20СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 15)

Кластеризация задаёт такие ограничения основываясь нена тексте правил, а на наличии в корпусе сходных по структуре толкований.Ответ на второй вопрос получен аналогично тому, как оценивалась надёжность извлечения каждого типа отношений. Последовательность действий для ответа на этот вопрос такова: для каждого типа правил группировать все кластеры,к которым применено выбранное правило, затем оценить общий объём группы иточность применения правила в группе.В таблице 9 приведены все использованные правила. Описания правил переведены из машиночитаемого формата в описания. Правила, приведённые в кавычках (например, «человек») назначают всем лексическим значениям в кластереодин и тот же гипероним.

Остальные правила описывают, лемма какого слова втолковании задаёт отношение для определяемого лексического значения.78Кластер №0ВИЗАВИ2 : Тот, кто находится напротивВИЗИТЁР1 : Тот, кто пришёл с визитом.ВИНОВНИК2 : Тот, кто является причиной, источником чего-л.Кластер №18ГОРГОНА2 : О злой, сварливой женщине.ГРЕНАДЕР2 : О рослом, плечистом, сильном человеке.ДЕБИЛ2 : О тупом, несообразительном человеке.Кластер №46ДВУЛЕТНИК1 : Растение, живущее два года и дающее семена на второй годпосле посева.ДЕКЛИНАЦИЯ1 : Отклонение, уклонение.ДЕКОМПОЗИЦИЯ1 : Разделение, расчленение какой-л. сложной структуры насоставляющие части.Рисунок 3.7 –– Примеры результатов кластеризации толкований.Результатом работы алгоритма является набор троек [лексическое значение – отношение – слово].3.5 ОбсуждениеПриведённые оценки верны для выбранного словаря и выбранного количества кластеров, которое задаёт количество работы для аннотатора. Кажется разумным предполагать, что для других словарей тот же подход будет иметь сравнимуюточность, однако это гипотеза, которая требует проверки.

Кажется более интересным применить методы машинного обучения для определения типа кластера ивыбора правила автоматически: в результате станет доступным полностью автоматическое превращение словаря в набор тезаурусных отношений. В этом случаедля того, чтобы построить значительную часть тезауруса для нового языка достаточно иметь один или несколько машиночитаемых словарей и морфологическийанализатор.79На рисунке 3.7 приведено несколько примеров кластеров толкований. Кластеры 0 и 18 являются примерами кластеров, в которых действительно собраныпохожие по структуре и тезаурусным отношениям толкования. Кластер 46 является примером неудачной кластеризации.Лексико-грамматические шаблоны для кластеров 0 и 18 очевидны и самикластеры возможно описать не только с точки зрения лексико-грамматическихшаблонов, но и дать им понятное описание.

Гиперонимом для всех слов в кластере 0 является лексема «человек», хотя в кластере вхождения её в толкованияотсутствуют.В кластер 18 собраны метафорические лексические значения. Использование предлога «о», «об» кажется надёжным признаком метафоричности для Большого толкового словаря, хотя такое требование не приведено в инструкции (согласно инструкции словаря соответствующие метафорическим значениям рубрики смыслового сдвига и смыслового варьирования обозначаются пометами / и //соответственно). Например, «АВГУР, -а; м.

[лат. augur от avis - птица] 1. Ирон.О том, кто держит в тайне от других свои познания, кто делает вид, что посвящёнв особые тайны. 2. В древнем Риме: жрец, толковавший волю богов, предсказывающий будущее по поведению птиц (крику, полёту и т.п.).»Кластер 46 приведён как пример кластера, в который собраны толкования,не имеющие принципиально одинаковую структуру. Очевидно, признаком длякластеризации в данном случае являлось наличие запятой среди первых нескольких слов. В этом кластере встречаются толкования двух видов:– сочинительная конструкция, перечисляющая синонимы определяемого лексического значения,– гипероним определяемого лексического значения, сопровождающийся дополнением в виде причастного оборота.Вследствие описанного выше устройства процедуры извлечения отношений синонимия представлена в корпусе не в виде множества синонимичных значений, а в виде отдельных отношений между парами синонимов.

Таким образомперед составителем тезауруса ещё остаётся открытой задача объединения синонимических множеств.Как видно из примера 3.8, полученных данных о семантических отношениях недостаточно для того, чтобы автоматически получить ответ, гипонимом какого лексического значения является ФОНДООТДАЧА1 : показателем степени, экономическим показателем, величиной экономического показателя или показателем80Лексическое значениеОтношение ИзвлечённаялексемаСЛУЧАЙ2 : непредвиденное событие, происшествиеhypernymСОБЫТИЕРАСПОРКА3 : болванка.synonymБОЛВАНКАФОНДООТДАЧА1 : Экономический показатель эффекhypernymПОКАЗАТЕЛЬтивности использования основных фондов — количество продукции на рубль основных производственныхфондов.ЧЕРНОРИЗЕЦ1 : Монах, чернец.hypernymМОНАХСЕСТРИНСТВО1 : Совокупность монахинь, сестер вhypernymСОВОКУПНОСТЬженском монастыре.ХЛЕБНИЦА2 : Тарелка, корзинка для хлеба.synonymКОРЗИНКАБУКВОЕДСТВО2 : выискивание мелочейhypernymВЫИСКИВАНИЕПОКАЗАТЕЛЬ1 : Данные, по которым можно судить оhypernymДАННЫЕразвитии, ходе, свойствах и качествах чего-л.ПОКАЗАТЕЛЬ2 : То, при помощи чего складываются таhypernymДАННЫЕкие данныеhypernymЦИФРАПОКАЗАТЕЛЬ3 : Цифра или буква, обозначающая степень, в которую возводится данное число или выражение.ПОКАЗАТЕЛЬ4 : Отношение скорости света в пустоте кhypernymОТНОШЕНИЕскорости света в данной среде.Рисунок 3.8 –– Примеры отношений, извлечённых в ходе эксперимента.преломления.

Построению автоматического инструмента для ответа на этот вопрос посвящена глава 4.3.6 ВыводыВ настоящей главе мы провели два эксперимента по извлечению тезаурусных отношений на корпусе словарных толкований. В главе предложен и протестирован новый метод извлечения отношений, который мы относим к классу методовс частичным привлечением учителя.Предложенный подход, состоящий в кластеризации, за которой следует аннотация, применим к задаче извлечения тезаурусных отношений. Этот подходпозволяет обобщать большие объёмы данных применяя ограниченные усилия81Тип отношениягиперонимиясинонимиягипонимиядоменкосвенная гиперонимиямеронимияэкземпляр классахолонимиявсегоОбозначение отношения Количество отношенийis-a53482synonym-of8285hypernym-of2169domain772hyponym-of-hyponym-of416part-of283instance255has-part9965761Таблица 10 –– Количество извлечённых отношений каждого типа.эксперта-аннотатора.

Значимое свойство такого подхода в том, что он позволяет выделять в наборе данных не только частотные типы толкований, но и менеечастотные, если они являются существенно обособленными.Комбинация полуавтоматического машинного обучения с правиловым подходом позволила получить большое увеличение точности извлечения отношений(на 25%) по сравнению с опубликованными правиловыми подходами.Ещё одним важным инструментом, применённым в настоящей главе, является применение лексико-грамматических триграмм в качестве признака для машинного обучения. Смешанные n-граммы позволяют машинному обучению реагировать на некоторые синтаксические свойства текста, но не требуют ни синтаксического анализа, ни больших объёмов корпусов для обучения.

Для корпусов с ограниченным подмножеством естественного языка или новых языков этоявляется существенным свойством, так как синтаксические анализаторы общегоназначения либо показывают неприемлемо низкую точность анализа, либо вовсеотсутствуют.Результатом применения описанных методов к корпусу толкований Большого толкового словаря является корпус отношений, представленных в виде троек[лексическое значение – тип отношения – лексема]. Количество различных типовотношений в полученном корпусе представлено в таблице 10. Некоторые типыотношений требуют пояснений. Отношения меронимии, холонимии и экземпляркласса имеют общепринятые значения.82Несколько особенностей имеет полученное в корпусе представление отношения гипо-гиперонимии.

Такие отношения трактуются в данном случае болеешироко: требуется, чтобы указанная в качестве гиперонима лексема указывалана обобщенное понятие по отношению к гипониму, однако не требуется, чтобы эта лексема обозначала обобщающее понятие, соответствующее какой-либоаприорной онтологической модели, или было наименее обобщающим из всех возможных. В некоторых случаях само толкование содержит два гиперонимичных копределяемому лексическому значению понятия, одно из которых является обобщением другого. Например, из толкования АЛЛЕРГОЛОГ1 : Врач - специалист в области аллергологии.

извлекаются отношения: «АЛЛЕРГОЛОГ1 → ВРАЧ» и «ВРАЧ → СПЕЦИАЛИСТ». Значимо для последующей дизамбигуации также то, что лексема ВРАЧиспользуется в обоих случаях в одном и том же значении. В этом случае для болееудалённого по значению понятия указывался тип отношения «косвенная гиперонимия». Т. е. такое отношение указывает на то, что у аннотатора имеется готовыйпример понятия менее общего, но обобщающего тот же исходный термин.Для некоторых понятий указано более одного гиперонима: всего в корпусе6677 таких случаев. Такие правила возникали в нескольких случаях:– если в следствие неудачной кластеризации аннотатору не удалось описать единое правило, общее для всех толкований в кластере — в этом случае для каждого значения гипонима на последующих этапах обработки необходимо выбратьтолько одну лексему гиперонима;– если в силу ошибок морфологического разбора или неудачной кластеризацииправила, которые предполагались синонимичными, указывали на различныесловоупотребления — в этом случае также необходимо из указанных гиперонимов выбрать один;– если толкование содержит две лексемы, каждая из которых независимо от другой может служить гиперонимом определяемому значению;– если толкование содержит две лексемы, синонимичные между собой, и являющиеся гиперонимом по отношению определяемому лексическому значению —в этом случае аннотатор ставит помету «hypernym-synonym»; такие случаи значительно упрощают пополнение синсетов, описывающих гипероним, однакотребуют для дизамбигуации применения других приёмов, нежели описанные вследующей главе.Наконец, в таблице отношение гипо-гиперонимии представлено двумявзаимно-обратными отношениями: гипонимии и гиперонимии.

Здесь название83выбирается с точки зрения того, в какой роли относительно определяемого лексического значения находится извлечённая лексема. С точки зрения последующейобработки мы не можем в отношении гипонимии поменять местами описания общего и частного и пополнить тем самым общий набор гипо-гиперонимическихотношений. В случае отношений гиперонимии гипоним задан конкретным лексическим значением, а для гиперонима указана лексема без уточнения релевантного для отношения значения этой лексемы.

Характеристики

Список файлов диссертации

Методы автоматического выделения тезаурусных отношений на основе словарных толкований
Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6384
Авторов
на СтудИзбе
307
Средний доход
с одного платного файла
Обучение Подробнее