Принципы построения морфологического парсера для разноструктурных языков (1101399), страница 2

Файл №1101399 Принципы построения морфологического парсера для разноструктурных языков (Принципы построения морфологического парсера для разноструктурных языков) 2 страницаПринципы построения морфологического парсера для разноструктурных языков (1101399) страница 22019-03-132019-03-13СтудИзба

Принципы построения морфологического парсера для разноструктурных языков

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 2)

В частности, в его задачи не входит снятиеомонимии: каждой словоформе должны быть приписаны все разборы,возможные с точки зрения переданного парсеру описания. При необходимоститакой парсер в качестве самодостаточного модуля может быть встроен в болеекрупную систему (например, включающую графический интерфейс длясоздания словаря и описания грамматики, интерфейс для ручной правкиглоссированного текста или средства для снятия омонимии).4. Применить созданные формат и парсер на практике, использовав их дляразметки текстов на нескольких разноструктурных языках с дальнейшимиспользованием размеченных текстов в реальных корпусах.На защиту выносятся следующие положения:1.В условиях необходимости создания большого количества языковыхкорпусов с морфологической разметкой наиболее рациональной стратегией7является разработка таких инструментов, позволяющих работать сразноструктурными языками, как единый формат записи данных о грамматике иуниверсальный парсер.2.Создание формата и системы со свойствами, пригодными для такогоиспользования, теоретически и практически возможно.Научная новизна исследования состоит в том, что впервые был созданформат описания грамматики со свойствами, перечисленными выше, и спомощью данного формата и парсера были впервые созданы корпусанескольких разноструктурных языков.Теоретическая значимость исследования состоит в том, что были изученыпроблемы, возникающие при создании крупных корпусов с морфологическойразметкой (в частности, при формализованном описании их грамматики), ибыли предложены варианты их решения.Практическая значимость исследования состоит в том, что был разработанформат описания лексики и грамматики языка, обладающий рядом свойств,которые позволяют эффективно использовать его при создании корпусов.

Спомощью парсера, работающего с данным форматом, были созданы корпусаалбанского, калмыцкого, лезгинского и осетинского языков, а в настоящиймомент создаются корпуса новогреческого и бурятского языков. Результатыисследования могут использоваться для создания корпусов других языков.Основным материалом исследования послужили данные (тексты играмматические описания), обработанные в ходе создания корпусов албанского,калмыцкого, лезгинского и осетинского языков в 2011 г.Апробация работы. Основные положения работы были представлены и8обсуждены на заседании кафедры теоретической и прикладной лингвистикифилологического факультета МГУ, на рабочих семинарах отделениятеоретической и прикладной лингвистики и в рабочих группах, занимающихсясозданием перечисленных выше корпусов, а также опубликованы (см. списокпубликаций).Структура работы.

Работа состоит из введения, трёх глав, заключения,библиографии и приложения. Объём работы (без приложений и библиографии)составляет 182 страницы.Краткое содержание работыВо введении (глава 1) описываются предмет, цели и задачи исследованияи их обоснование, а также даётся обзор существующих средств дляавтоматической морфологической разметки текстов.Глава 2 является основной частью работы. В этой главе приводится полноеописание предлагаемого формата UniParser с обоснованием выборареализуемых в нём решений и соответствия их требованиям, предъявленным вглаве 1.В формате UniParser описание языка построено в целом по словеснопарадигматической модели: базовыми единицами описания являются лексема ипарадигма, а не отдельные морфемы; впрочем, для описания языков с богатойагглютинативной аффиксацией предусмотрены специальные механизмы.Понятием морфемы в этом формате можно вообще не пользоваться — делитьсложные показатели на морфемы и проводить лингвистически корректнуюграницу между основой и словоизменительными показателями необходимотолько в том случае, если пользователю нужна возможность глоссированиятекстов.Все сведения о языке содержатся в нескольких словарных файлах,9имеющих обычный текстовый формат (plain text) и кодировку UTF-8.

Вотдельных файлах хранится информация о лексике языка, о грамматике, опродуктивном словоизменении и т. д. Ниже приводится общий список файлов,за которым следует описание каждого из них.Основные файлы:stems.txt — список лексем, для которых указываются основы,словоизменительные классы и любая другая лексическаяинформация, т. е. та информация, которая должна быть приписанакаждой словоформе данной лексемы;paradigms.txt — список словоизменительных показателей,объединённых в парадигмы разных словоизменительных типов;derivations.txt — список продуктивных словообразовательныхмоделей;clitics.txt — список клитик, которые пишутся слитно с опорнымсловом или отделяются знаком, отличным от пробела;stem_conversion.txt — список правил, позволяющих автоматическиполучать одни алломорфы основ из других;periphrastic_forms.txt — список аналитических форм.Вспомогательные файлы:punc.txt — список знаков препинания;ignore.txt — список символов, которые парсер должен игнорировать;equiv.txt — список пар символов, которые должны считатьсяэквивалентными при анализе текста.Вспомогательные файлы имеют тривальную структуру: это просто спискиэлементов (например, знаков пунктуации), в которых на каждой строкенаходится один элемент.

Основные файлы содержат более сложнуюинформацию и поэтому должны иметь формат, позволяющий хранитьструктурированные данные. Эти файлы устроены по-разному, поскольку онипредназначены для хранения информации разного типа, однако все они10основаны на известном формате YAML. Хотя наиболее часто применяющимсядля хранения структурированных данных форматом является XML, YAML былвыбран из-за его большей удобочитаемости и меньшей избыточности посравнению с XML.Из всех файлов обязательными для работы являются только stems.txt иparadigms.txt. Отсутствие остальных файлов означает либо то, чтосоответствующие механизмы не будут использоваться (как в случае сословообразованием), либо то, что будут использованы значения по умолчанию(как в случае со знаками препинания).При описании языка используется только графическое представление слов,т.

е. то, как слово выглядит в реальном тексте; в формате UniParser неиспользуются фонемные или какие-либо «глубинные» представления слов, несовпадающие с графическим. Причина такого решения — обеспечениепростоты теоретической базы, относительной независимости от тех или иныхтеоретических рамок и практическая направленность: формат предназначен впервую очередь для разметки текстов для крупного корпуса, написанных в томчисле на языках с давно сложившейся орфографической нормой, а несоставление полностью лингвистически корректного описания грамматикиязыка в формализованном виде.

В этом мы следуем за грамматическимсловарём Зализняка, где все основы и окончания приводятся только вграфическом виде.Основы и словоизменительные типыВ модели описания языка, принятой в формате UniParser, считается, что укаждой лексемы языка есть парадигма — множество словоформ, объединённыхпринадлежностью к одной лексеме, но, возможно, различающихсявыраженными в них грамматическими значениями. У каждой лексемы имеетсяканонический представитель, называемый начальной формой, или леммой.Также мы считаем, что каждую словоформу языка — или, по крайней мере,подавляющее их большинство — можно условно разделить на основу и11флексию. В первом приближении под основой понимается та частьсловоформы, которая не изменится при переходе к какой-нибудь другойсловоформе парадигмы, а под флексией — та, которая будет меняться.

При этомне предполагается, что основа или флексия является набором подряд идущихсимволов: в арабской словоформе katabtu «я написал» основой считаются буквыk-t-b, а флексией, соотвественно, a-a-tu.Естественно, в действительности часто случается, что лексема не обладаетодной основой, одинаковой во всех формах, — например, в случаесупплетивизма (иду — шёл) или регулярного чередования (лететь — лечу).Однако и в таком случае обычно всё же удаётся разделить словоформу наоснову и флексию, выделив несколько алломорфов основы. При этом каждаяфлексия с каким-то (или какими-то) из алломорфов может употребляться, а скакими-то — нет.

Чтобы описать лексику и словоизменение языка, нужноперечислить все алломорфы основы всех лескем, все возможные флексии иуказать, какой алломорф основы с какими флексиями сочетается, т. е. можетобразовать словоформу.Все морфологические единицы (основы и флексии) в формате UniParserзадаются строками, в которых могут использоваться буквы и ряд специальныхсимволов. Для описания основ и флексий наиболее важны буквы и точка.

Буквыимеют своё обычное значение, а точка означает место возможногоприсоединения другой морфологической единицы: точка в основе обозначаетместо присоединения флексии и наоборот. В частности, если точка находитсявнутри морфологической единицы, это означает, что она разрывна. Чтобыобразовать словоформу из основы и флексии, нужно совместить их, поставив наместо точек в основе соответствующие части флексии (или наоборот).Для примера возьмём русскую словоформу краю, в которой выделяетсяоснова «кра.» и флексия «.ю»1. Наложение основы и флексии, где точке в конце1 Подчеркнём, что речь идёт о «графических» основе и флексии — сегментах, на которые удобно разбитьсловоформу для описания словоизменения, но которые в отдельных случаях могут не иметь ничего общего слингвистически корректным делением словоформ на морфологические единицы.12основы соответствует флексия, а точке в начале флексии, соответственно,основа, даёт словоформу краю:к р а..юВ качестве более сложного примера рассмотрим арабскую словоформуkatabtu.

Её основу можно записать как «.k.t.b.» — типичный трёхбуквенныйсемитский корень, а флексию — как «.a.a.tu». Точки в основе означают, что ислева от основы, и справа, и в любом месте внутри может находиться частьфлексии. И основа, и флексия содержат по три непустых сегмента. Чтобысоединить их в одну словоформу, нужно совместить их, собирая сегментыосновы и флексии по порядку, начиная с первой части основы, т. е. действуя последующему алгоритму:1.

В начале основы стоит точка, поэтому переходим к флексии.2. Берём первый сегмент флексии — все символы от начала флексии допервой точки. Поскольку он пуст, не производим никаких действий и переходимк основе.3. Берём первый сегмент основы — k, добавляем его к словоформе; видимточку, переходим к флексии.4. Берём сегмент a, добавляем его к словоформе; видим точку, переходим коснове.5. ...Проиллюстрируем этот процесс совмещения таблицей:.k..at..ab..tuОднако во многих языках — например, в большинстве европейскихязыков, большинство основ и флексий выглядит намного проще: основа имеетединственную точку в конце, означающую, что флексия целикомприсоединяется справа от неё, а флексия имеет единственную точку в начале,показывающую, что основа находится слева от неё.

Характеристики

Тип файла

PDF-файл

Размер

197,2 Kb

Материал

Принципы построения морфологического парсера для разноструктурных языков

Тип материала

Кандидатская диссертация

Предмет

Филология

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов диссертации

principy-postroenija-morfologicheskogo-parsera-dlja-raznostrukturnyh-jazykov.rar

Принципы построения морфологического парсера для разноструктурных языков.pdf

Прочти меня!!!.txt

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.