Главная » Просмотр файлов » Диссертация

Диссертация (1137511), страница 13

Файл №1137511 Диссертация (Методы автоматического выделения тезаурусных отношений на основе словарных толкований) 13 страницаДиссертация (1137511) страница 132019-05-20СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 13)

Такое возможно, например, если во многих толкованиях в кластере очевидным для эксперта и регулярным сточки зрения лексико-грамматических шаблонов образом проявляется несколькоотношений с определяемым лексическим значением.Наличие таких рекомендаций по аннотации эксперту указывает на то, что напредыдущем шаге — кластеризации — ошибочное объединение нескольких типов толкований в один кластер имеет большее негативное влияние на выделениеотношений, чем разделение группы похожих толкований на несколько кластеров.673.4.3Признаки, используемые для кластеризацииЦелью кластеризации является объединение вместе толкований одного типа. Мы предполагаем, что для толкований одного типа возможно составить одинлексико-грамматический шаблон для извлечения отношений.

Опираясь на анализ,выполненный в разделе 2.3, можно предположить, что:– первых нескольких слов в толковании достаточно для того, чтобы определитьтип толкования, лишь в редких случаях определяющие признаки оказываютсяв середине или конце толкования;– типу толкования соответствует некоторый грамматический шаблон; например,нередко некоторое значение лексемы определяется через словосочетание «прилагательное + существительное», где существительное задает гиперонимический класс: «КРЕМ3 : Косметическая мазь.»;– некоторые типы толкований содержат специальные слова (слова-маркеры), которые определяют грамматический-шаблон данного типа толкований (например, «ЧАСТЬ + существительное в родительном падеже», «ТО, ЧТО + глагол»);такие слова обычно находятся в верхней части частотного списка слов, построенного по словарю;– составители словаря стараются придерживаться стандартизованных формулировок в толкованиях; поэтому лингвистические признаки, описывающие толкования одного типа, должны быть частотными в корпусе словарных толкований.Таким образом, представляется, что лингвистическими признаками, по которым следует кластеризовать толкования являются лексические признаки токенов, входящих в толкование (т.

е. лексемы и/или словоформы из толкования), и ихграмматические признаки, а также разные комбинации грамматических, лексических признаков n-граммных цепочек токенов в толковании. При кластеризацииследует учитывать ограниченное множество токенов из толкования (только первые m токенов). Ниже будем говорить о толковании, имея в виду такое усеченноетолкованиеЧтобы подобрать наилучший набор признаков для кластеризации толкований, дающий лучшее качество, была проведена серия экспериментов. Тестирование проводилось для следующих наборов признаков:– лексические униграммы: словоформа (word), лемма (lemma);– частеречные униграммы: часть речи (pos);68признакзначениявходные данные: полный морфологический разборОчень{очень=ADV=}долгое{долгий=A=вин,ед,полн,сред}время{время=S,сред,неод=вин,ед}.лексические униграммыword«Очень», «долгое», «время»lemma«очень», «долгий», «время»частеречные униграммыpos«ADV», «A», «S»грамматические тегиgr_atom«ADV», «A», «вин», «ед», «полн»,«сред», «S», «неод»составные морфологические униграммыgr«=ADV=», «=A=вин,ед,полн,сред»,«=S,сред,неод=вин,ед»«», «вин,ед,полн,сред», «вин,ед»mutable_grimmutable_gr«ADV», «A», «S,сред,неод»лексико-грамматические триграммы(lemmas, immutable_gr, immutable_gr)«[очень – A – S,сред,неод]»«[ADV – долгий – S,сред,неод]»(immutable_gr, lemmas, immutable_gr)(immutable_gr, immutable_gr, lemmas)«[ADV – A – время]»Таблица 6 –– Признаки, извлекаемые из толкования «ВЕК6 : Очень долгое время.».Порядок и кратность признаков не важны, каждый признак взят в кавычки.

Впервом разделе приводится полный разбор предложения морфологическиманализатором.– грамматические теги, рассматриваемые как отдельные признаки независимодруг от друга (gr_atom);– составные морфологические униграммы: полный набор грамматических признаков слова как один признак в виде неделимого строкового описания (gr); словоизменительные морфологические признаки слова в виде неделимого строкового описания (mutable_gr), словохарактеризующие морфологические признаки слова в виде неделимого строкового описания (immutable_gr);69– контекстные признаки: каждому токену ставился в соответствие «триграммный» признак (один из вышеназванных признаков самого токена и его соседей), т.

е. в качестве признака для токена из толкования выбирались лексикограмматические триграммы, где некоторые токены в триграмме представленылексическими признаками, а некоторые — грамматическими (см. [47], а такжеподробное описание и анализ в разделе 3.4.4); такие триграммы соответствуютшаблонам:(lemmas, immutable_gr, immutable_gr),(immutable_gr, lemmas, immutable_gr),(immutable_gr, immutable_gr, lemmas)Описанные признаки проиллюстрированы в таблице 6.Последний признак соответствует представлению об эффективности именно лексико-грамматических шаблонов в задачах извлечения информации (см., например, [28])Для каждого из признаков составлен частотный словарь его значений покорпусу толкований. В качестве признаков кластеризации в каждом из прогоновиспользуются 200 самых частотных значений для одного из вышеперечисленныхпризнаков (например, в качестве признака «лемма» из 25508 лемм, встретившихся в тестовом наборе данных в качестве признаков были выбраны 200 самых частотных лемм).

Это ограничение преследует две цели: во-первых, снизить размерность данных для кластеризации и уменьшить их разреженность (так называемое «проклятие высокой размерности» [70]), а во-вторых, уменьшить средииспользуемых признаков количество бессодержательных, т. н. «шумных» признаков, которые значительно ухудшают качество работы алгоритмов машинногообучения. Ограничиваясь только самыми частотными признаками, мы исходилииз того, что в словаре представлено ограниченное количество частотных лексикограмматических шаблонов ограничено не более, чем несколькими сотнями.

Соответственно, с высокой вероятностью в толковании должны присутствовать наиболее частотные признаки.При кластеризации использовалась модель «мешка слов» («one hot»). Признаки были приведены к векторному представлению [72]. Вектор составлялся издвух частей: во-первых, значения каждого из признаков для каждого из трёх первых слов толкования, во-вторых, усреднённое значение для всех слов в толковании. Последнее с очевидностью имеет меньший разброс значений и потому играет роль для алгоритма кластеризации лишь в случаях совпадения начальных70признаков, и служит для разделения по разным кластерам толкований, имеющихпохожее начало, но существенные различия в конце толкования, т.

е. таких толкований, у которых принадлежность к определённому типу не проявляется в началетекста. Как показано в разделе 2.3, таких толкований в корпусе присутствует лишьнезначительное количество.Таким образом, для кластеризации контекстов используется следующее век∑торное представление контекста: fc = f1 ∥f2 ∥f3 ∥ N1 Ni=1 fi , где fi векторное представление токена, занимающего позицию i в толковании, N число слов в толковании, ∥ обозначает конкатенацию векторов.3.4.4 Лексико-грамматические n-граммыКорпус словарных толкований имён существительных является примеромкорпусов текстов на ограниченном естественном языке [108]. Как показано в [36],синтаксические анализаторы общего назначения показывают неудовлетворительные результаты при применении их к корпусам данного типа. В то же время русский язык является языком с богатой морфологией, и диагностическими признаками синтаксических конструкций служат морфологические характеристики словоформ.

Кроме того, «ключевыми» для некоторых типов синтаксических отношений являются лексические единицы, например, предлоги или относительныеместоимения (ср., КОТОРЫЙ является маркером относительного предложения). Таким образом, в качестве признака можно использовать лексико-грамматическиетриграммы: такие триграммы, в которых участвует один лексический признак идва грамматических.Дадим точное определение. Пусть дан корпус, в котором каждый токенпредставлен набором признаков: словоупотребление, лемма, часть речи, падеж,время, и т.п. Шаблоном длины 3 назовём любую тройку из названий типов признаков. Например: [«лемма» – «часть речи» – «лемма»]. Зададимся теперь какимлибо конкретным шаблоном длины 3.

Лексико-грамматической триграммой с выбранным шаблоном длины 3 является триграмма, составленная из токенов корпуса, в которой i-ый токен представлен признаком, указанном в i-ом элементешаблона. Например: [ОЧЕНЬ – «прилагательное» – ВРЕМЯ].71Номер токена1POSVtoken Отколовшийся[POS – token]-биграмма(V234PRSPROSотчего-л.

кусок.от)( PR чего-л. )( SPRO кусок. )Таблица 7 –– Пример предложения и извлечённых из неголексико-грамматических биграмм с шаблоном [POS – token]На основе данных определений нетрудно сформулировать определенияшаблона длины n и лексико-грамматической n-граммы с данным шаблоном длины n.Пример лексико-грамматической биграммы приведён на 7. Разным комбинациям лексических и грамматических признаков соответствуют разные шаблоны.3.4.5Материалы и методыЭксперимент проводился с использованием пар [лексема – толкование] изкорпуса, полученного в главе 3.Для кластеризации и метода главных компонент были использованы алгоритмы, реализованные в пакете Scikit-learn [95] для языка программирования Python 3 [106].

Характеристики

Список файлов диссертации

Методы автоматического выделения тезаурусных отношений на основе словарных толкований
Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6518
Авторов
на СтудИзбе
302
Средний доход
с одного платного файла
Обучение Подробнее