Главная » Просмотр файлов » Принципы построения морфологического парсера для разноструктурных языков

Принципы построения морфологического парсера для разноструктурных языков (1101399), страница 3

Файл №1101399 Принципы построения морфологического парсера для разноструктурных языков (Принципы построения морфологического парсера для разноструктурных языков) 3 страницаПринципы построения морфологического парсера для разноструктурных языков (1101399) страница 32019-03-13СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 3)

Именно так устроена13лексема, разобранная в первом примере.Основы лексем и флексии перечисляются в разных файлах: stems.txt иparadigms.txt. Флексии в файле paradigms.txt объединены в парадигмы. Вкаждой парадигме перечисляются флексии одного словоизменительного типа, т.е. показатели, позволяющие получить все формы любой лексемы,принадлежащей к этому словоизменительному типу. Каждый такойсловоизменительный тип имеет название; в файле с лексемами указывается, ккакому словоизменительному типу относится каждая лексема. Такаяорганизация данных имеет параллели с грамматическим словарём Зализняка:файл stems.txt соответствует основному содержанию словаря, где указываютсяслова со ссылками на словизменительные типы, а файл paradigms.txt —расположенным в вводной части словаря словоизменительным таблицам.Не вдаваясь в подробности, мы приведём здесь пример описания лексемыиз осетинского словаря и фрагменты парадигмы того словоизменительноготипа, к которому она принаждежит:-lexemelex: арцstem: арц.|арц.|æрц.paradigm: N1gramm: N,inanim,nonhumЭта лексема имеет три основы, каждая из которых употребляется снекотоым подмножеством флексий из парадигмы N1.

При каждой флексиипарадигмы указано, какой вариант основы с ней может использоваться. Нижеприводится фрагмент парадигмы N1:-paradigm: N1-flex: <1>.ы14gramm: sg,gengloss: GEN-flex: <0>.æнgramm: sg,datgloss: DAT-flex: <2>.ттægramm: pl,nomgloss: PL-flex: <2>.тт|ыgramm: pl,gengloss: PL|GENУказание глосс и разбиения на морфемы не является обязательным инеобходимо только в том случае, когда создателям корпуса нужно получитьглоссированные тексты.Уже с помощью самых базовых средств, описанных выше, форматUniParser позволяет одинаково легко описывать словоизменение языков разнойморфологической структруры: суффиксы, префиксы, инфиксы, полиаффиксыописываются в этом формате с помощью одинаковых средств.Кроме приведённых выше средств для описания лексики и словоизмененияязыка в файлах stem.txt и paradigms.txt, в формате UniParser предусмотрен ряддругих конструкций для описания различных морфологических явлений.Регулярные чередования в основе могут быть описаны не только полнымперечислением основ.

Одним из альтернативных способов это сделать являетсявозможность записать часть основы в флексию, указав, что при глоссированииэта часть не должна считаться частью флексии (этот способ удобен, например,при описании беглых гласных в основе, которые имеются в одних формах, ноотсутствуют в других). Другим способом является задание правила,автоматичекси порождающего все или часть основ из одной с помощью языка15регулярных выражений.

Ссылка на такое правило может быть указана припарадигме какого-либо словоизменительного типа, в результате чего оно будетприменено автоматически ко всем лексемам этого типа. Такой способ являетсяболее сложным, однако он позволяет описать любое регулярное изменение воснове.Несколько разделов посвящено делению на морфемы и глоссированию. Впростом случае, когда аффикс разбивается на последовательно соединённыедруг с другом морфемы, глоссы приписываются им так, как в примере выше(флексия <2>.тт|ы). Однако имеется несколько сложных случаев: разрывныеморфемы, которым должна соответствовать одна глосса, возможностьмаркирования нулевого показателя и другие.

В соответствующих разделахглавы 2 предлагаются решения этих проблем.Для решения проблемы агглютинативных языков, для которыхперечисление всех комбинаций аффиксов было бы слишком трудоёмкойзадачей, предусмотрено разбиение парадигмы на несколько подпарадигм.Например, если в языке к основе существительного могут последовательноприсоединяться показатель числа, показатель падежа и показательпосессивности, формат UniParser даёт возможность описать отдельно эти трипарадигмы (т.

е. наборы числовых, падежных и посессивных показателей,включая нулевые) и поставить ссылки с одной на другую, указав тем самым,что после любого числового показателя в словоформе должен следоватьпадежный, а после любого падежного — посессивный. Для описаниясочетаемости аффиксов или возможности отсутствия каких-то аффиксов вцепочке предлагаются специальные средства.В формате также имеются средства для описания редупликации (спомощью регулярных выражений), вариативности основ и аффиксов, формисключений и дополнительных сведений об элементах словаря (например,переводов лексем на другие языки).Описание продуктивного словообразования16Под продуктивной словообразовательной моделью в формате UniParserпонимается правило, позволяющее для каждой лексемы x из некоторого«естественного множества» X регулярным образом получить другую лексему x’.Под естественным множеством лексем здесь понимается множество, котороеможно задать небольшим количеством простых грамматических илифонетических критериев, например, «все переходные глаголы» или «всесуществительные с основой, заканчивающейся на согласный».Задание продуктивных словообразовательных моделей может существенноупростить работу по наполнению словаря, поскольку при наличии такой моделисловарь автоматически пополняется лексемами, образованными с её помощью.Поэтому формат UniParser предусматривает набор средств для описаниярегулярного словообразования.

Вся информация о словообразовательныхмоделях содержится в файле derivations.txt.В соответствующем разделе главы 2 приводится обзор дискуссии опроблеме противопоставления словоизменения и словообразования. Решение отом, описывать ли данное явление как словоизменительное илисловообразовательное, при создании корпусов приходится принимать довольночасто. В связи с этим в исследовании предлагаются практические криетрии длявыбора способа описания (экономия усилий при описаний и предполагаемыепоисковые запросы к корпусу) и их следствия.Базовым элементом файла derivations.txt является описание однойпродуктивной словообразовательной модели (деривации).

В описании этоймодели указывается, какие изменения необходимо внести в свойства исходной(деривируемой) лексемы, чтобы получить из неё деривированную, и можетуказываться, к каким лексемам эта деривация применима. Описание деривациивыглядит в целом так же, как описание лексемы, за тем исключением, чтовместо перечисления свойств — основы, грамматических значений и т.

п., вдеривации перечисляются правила, позволяющие получить значения этихсвойств для деривированной лексемы.17Ниже приведён пример из осетинского языка — образование перфективнойформы глагола при помощи преверба ных-:-deriv-type: V-nyxlex: <0>ных[.]ынstem: ных[.].regex-stem: х[^ъ].*gramm: +pv,pv-nyГрамматические пометы при применении подобных правил могутдобавляться к пометам дерирвируемых лексем (как в данном случае) илизаменять их. Ссылка на деривационное правило может быть указана приконкретной лексеме или в парадигме; в последнем случае словарь будетпополнен деривированными формами всех лексем данногословоизменительного типа.Важной проблемой при описании словообразования является возможностьнаследования дериваций, т.

е. применения нескольких последовательныхдериваций. По умолчанию деривированная лексема не наследует дериваций,ссылки на которые имеются у исходной лексемы. Такому решению естьнесколько причин. Во-первых, если, например, у глагола «плавать» заданыдеривации, делающие из него причастие «плавающий» и существительное«плавание», то у причастия не должно быть деривации, делающей из негосуществительное, а у существительного — деривации, делающей из негопричастие. Во-вторых, если бы деривации наследовались, то при ростеколичества дериваций общее количество производных лексем росло бы какфакториал, причём среди них было бы много повторов (некторые деривациикоммутативны).Тем не менее, очевидно, что некоторые деривации должны наследоватьсядеривированными лексемами.

В формате UniParser предусмотрены18специальные средства для описания правил наследования. Чтобы производныелексемы могли наследовать некоторые деривации, при задании ссылки надеривацию используется числовой параметр recurs_class, по умолчаниюравный нулю. Производные лексемы, полученные с помощью дериваций, укоторых recurs_class = n, наследуют те и только те деривации, у которыхrecurs_class < n. Если ссылка на деривацию d1 наследуется лексемой,деривируемой при помощи деривации d2 и при ссылке на деривацию d1 в полеstem явно указана основа, значение этого поля в деривированной лексемепретерпевает те же изменения, что и основа самой лексемы.С помощью похожих механизмов в формате UniParser описываютсярегулярное словосложение и инкорпорация.Описание аналитических конструкцийХотя разметка аналитических конструкций не являлась первоочереднойцелью (и далеко не всегда может быть выполнена автоматически с нужнойстепенью точности), в формате UniParser предусмотрена возможность ихописания.

Этим средством имеет смысл пользоваться только в тех случаях,когда элементы конструкции довольно жёстко связаны друг с другом (например,при описании греческого кондиционалиса / будущего времени, где частица иглагольная форма, входящая в конструкцию, могут быть разделены не более чем3 словами из закрытого списка).В заключительных разделах шдавы 2 приводится обзор дополнительныхфайлов, с помощью которых можно задать равноценные варианты написания(например, указать, что ё в русских текстах может быть заменено на е), знакипрепинания, используемые в данном языке и символы, которые при анализеследует игнорировать.Глава 3 посвящена обоснованию применимости формата UniParser длярешения широкого спектра задач при разметке текстов на разноструктурныхязыках. В ней представлен ряд нетривиальных морфологических явлений из19конкретных языков и показано, как эти явления могут быть описаны в рамкахформата UniParser.

Эта глава состоит из следующих разделов.1.Сингармонизм. На примере калмыцкого языка показано, как можноописать выбор одного из нескольких показателей, различающихся рядомгласного, без явного указания типа основы при каждой лексеме. На примеревенгерского языка показано, что такой способ не всегда является оптимальным,и в некоторых случаях более рациональным подходом является указание типаоснов.2.Агглютинация. В этом разделе рассматривается луговой марийскийязык.

Этот язык является агглютинирующим, при этом именноесловоизменение осложнено тем, что показатели числа, падежа и посессивностимогут присоединяться к основе в разном порядке; конкрентный набор разныхвариантов порядка следования зависит от падежа. Эта проблема успешнорешается с помощью задания нескольких подпарадигм с дополнительнымиограничениями.3.Полисинтетизм и «грамматика порядков». На примере адыгейскогоязыка показывается, как формат UniParser может быть использован дляописания языка, имеющего множество словоизменительных префиксов исуффиксов, занимающих определённые позиции относительно основы. Крометого, в этом пункте обсуждается проблема невозможности различить припоиске наборы граммем, отличающиеся лишь их порядком следования из-затого, что набор граммем обычно рассматривается как «мешок свойств».4.Трансфиксы.

Характеристики

Список файлов диссертации

Свежие статьи
Популярно сейчас
А знаете ли Вы, что из года в год задания практически не меняются? Математика, преподаваемая в учебных заведениях, никак не менялась минимум 30 лет. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6539
Авторов
на СтудИзбе
301
Средний доход
с одного платного файла
Обучение Подробнее