Принципы построения морфологического парсера для разноструктурных языков (1101399), страница 2
Текст из файла (страница 2)
В частности, в его задачи не входит снятиеомонимии: каждой словоформе должны быть приписаны все разборы,возможные с точки зрения переданного парсеру описания. При необходимоститакой парсер в качестве самодостаточного модуля может быть встроен в болеекрупную систему (например, включающую графический интерфейс длясоздания словаря и описания грамматики, интерфейс для ручной правкиглоссированного текста или средства для снятия омонимии).4. Применить созданные формат и парсер на практике, использовав их дляразметки текстов на нескольких разноструктурных языках с дальнейшимиспользованием размеченных текстов в реальных корпусах.На защиту выносятся следующие положения:1.В условиях необходимости создания большого количества языковыхкорпусов с морфологической разметкой наиболее рациональной стратегией7является разработка таких инструментов, позволяющих работать сразноструктурными языками, как единый формат записи данных о грамматике иуниверсальный парсер.2.Создание формата и системы со свойствами, пригодными для такогоиспользования, теоретически и практически возможно.Научная новизна исследования состоит в том, что впервые был созданформат описания грамматики со свойствами, перечисленными выше, и спомощью данного формата и парсера были впервые созданы корпусанескольких разноструктурных языков.Теоретическая значимость исследования состоит в том, что были изученыпроблемы, возникающие при создании крупных корпусов с морфологическойразметкой (в частности, при формализованном описании их грамматики), ибыли предложены варианты их решения.Практическая значимость исследования состоит в том, что был разработанформат описания лексики и грамматики языка, обладающий рядом свойств,которые позволяют эффективно использовать его при создании корпусов.
Спомощью парсера, работающего с данным форматом, были созданы корпусаалбанского, калмыцкого, лезгинского и осетинского языков, а в настоящиймомент создаются корпуса новогреческого и бурятского языков. Результатыисследования могут использоваться для создания корпусов других языков.Основным материалом исследования послужили данные (тексты играмматические описания), обработанные в ходе создания корпусов албанского,калмыцкого, лезгинского и осетинского языков в 2011 г.Апробация работы. Основные положения работы были представлены и8обсуждены на заседании кафедры теоретической и прикладной лингвистикифилологического факультета МГУ, на рабочих семинарах отделениятеоретической и прикладной лингвистики и в рабочих группах, занимающихсясозданием перечисленных выше корпусов, а также опубликованы (см. списокпубликаций).Структура работы.
Работа состоит из введения, трёх глав, заключения,библиографии и приложения. Объём работы (без приложений и библиографии)составляет 182 страницы.Краткое содержание работыВо введении (глава 1) описываются предмет, цели и задачи исследованияи их обоснование, а также даётся обзор существующих средств дляавтоматической морфологической разметки текстов.Глава 2 является основной частью работы. В этой главе приводится полноеописание предлагаемого формата UniParser с обоснованием выборареализуемых в нём решений и соответствия их требованиям, предъявленным вглаве 1.В формате UniParser описание языка построено в целом по словеснопарадигматической модели: базовыми единицами описания являются лексема ипарадигма, а не отдельные морфемы; впрочем, для описания языков с богатойагглютинативной аффиксацией предусмотрены специальные механизмы.Понятием морфемы в этом формате можно вообще не пользоваться — делитьсложные показатели на морфемы и проводить лингвистически корректнуюграницу между основой и словоизменительными показателями необходимотолько в том случае, если пользователю нужна возможность глоссированиятекстов.Все сведения о языке содержатся в нескольких словарных файлах,9имеющих обычный текстовый формат (plain text) и кодировку UTF-8.
Вотдельных файлах хранится информация о лексике языка, о грамматике, опродуктивном словоизменении и т. д. Ниже приводится общий список файлов,за которым следует описание каждого из них.Основные файлы:stems.txt — список лексем, для которых указываются основы,словоизменительные классы и любая другая лексическаяинформация, т. е. та информация, которая должна быть приписанакаждой словоформе данной лексемы;paradigms.txt — список словоизменительных показателей,объединённых в парадигмы разных словоизменительных типов;derivations.txt — список продуктивных словообразовательныхмоделей;clitics.txt — список клитик, которые пишутся слитно с опорнымсловом или отделяются знаком, отличным от пробела;stem_conversion.txt — список правил, позволяющих автоматическиполучать одни алломорфы основ из других;periphrastic_forms.txt — список аналитических форм.Вспомогательные файлы:punc.txt — список знаков препинания;ignore.txt — список символов, которые парсер должен игнорировать;equiv.txt — список пар символов, которые должны считатьсяэквивалентными при анализе текста.Вспомогательные файлы имеют тривальную структуру: это просто спискиэлементов (например, знаков пунктуации), в которых на каждой строкенаходится один элемент.
Основные файлы содержат более сложнуюинформацию и поэтому должны иметь формат, позволяющий хранитьструктурированные данные. Эти файлы устроены по-разному, поскольку онипредназначены для хранения информации разного типа, однако все они10основаны на известном формате YAML. Хотя наиболее часто применяющимсядля хранения структурированных данных форматом является XML, YAML былвыбран из-за его большей удобочитаемости и меньшей избыточности посравнению с XML.Из всех файлов обязательными для работы являются только stems.txt иparadigms.txt. Отсутствие остальных файлов означает либо то, чтосоответствующие механизмы не будут использоваться (как в случае сословообразованием), либо то, что будут использованы значения по умолчанию(как в случае со знаками препинания).При описании языка используется только графическое представление слов,т.
е. то, как слово выглядит в реальном тексте; в формате UniParser неиспользуются фонемные или какие-либо «глубинные» представления слов, несовпадающие с графическим. Причина такого решения — обеспечениепростоты теоретической базы, относительной независимости от тех или иныхтеоретических рамок и практическая направленность: формат предназначен впервую очередь для разметки текстов для крупного корпуса, написанных в томчисле на языках с давно сложившейся орфографической нормой, а несоставление полностью лингвистически корректного описания грамматикиязыка в формализованном виде.
В этом мы следуем за грамматическимсловарём Зализняка, где все основы и окончания приводятся только вграфическом виде.Основы и словоизменительные типыВ модели описания языка, принятой в формате UniParser, считается, что укаждой лексемы языка есть парадигма — множество словоформ, объединённыхпринадлежностью к одной лексеме, но, возможно, различающихсявыраженными в них грамматическими значениями. У каждой лексемы имеетсяканонический представитель, называемый начальной формой, или леммой.Также мы считаем, что каждую словоформу языка — или, по крайней мере,подавляющее их большинство — можно условно разделить на основу и11флексию. В первом приближении под основой понимается та частьсловоформы, которая не изменится при переходе к какой-нибудь другойсловоформе парадигмы, а под флексией — та, которая будет меняться.
При этомне предполагается, что основа или флексия является набором подряд идущихсимволов: в арабской словоформе katabtu «я написал» основой считаются буквыk-t-b, а флексией, соотвественно, a-a-tu.Естественно, в действительности часто случается, что лексема не обладаетодной основой, одинаковой во всех формах, — например, в случаесупплетивизма (иду — шёл) или регулярного чередования (лететь — лечу).Однако и в таком случае обычно всё же удаётся разделить словоформу наоснову и флексию, выделив несколько алломорфов основы. При этом каждаяфлексия с каким-то (или какими-то) из алломорфов может употребляться, а скакими-то — нет.
Чтобы описать лексику и словоизменение языка, нужноперечислить все алломорфы основы всех лескем, все возможные флексии иуказать, какой алломорф основы с какими флексиями сочетается, т. е. можетобразовать словоформу.Все морфологические единицы (основы и флексии) в формате UniParserзадаются строками, в которых могут использоваться буквы и ряд специальныхсимволов. Для описания основ и флексий наиболее важны буквы и точка.
Буквыимеют своё обычное значение, а точка означает место возможногоприсоединения другой морфологической единицы: точка в основе обозначаетместо присоединения флексии и наоборот. В частности, если точка находитсявнутри морфологической единицы, это означает, что она разрывна. Чтобыобразовать словоформу из основы и флексии, нужно совместить их, поставив наместо точек в основе соответствующие части флексии (или наоборот).Для примера возьмём русскую словоформу краю, в которой выделяетсяоснова «кра.» и флексия «.ю»1. Наложение основы и флексии, где точке в конце1 Подчеркнём, что речь идёт о «графических» основе и флексии — сегментах, на которые удобно разбитьсловоформу для описания словоизменения, но которые в отдельных случаях могут не иметь ничего общего слингвистически корректным делением словоформ на морфологические единицы.12основы соответствует флексия, а точке в начале флексии, соответственно,основа, даёт словоформу краю:к р а..юВ качестве более сложного примера рассмотрим арабскую словоформуkatabtu.
Её основу можно записать как «.k.t.b.» — типичный трёхбуквенныйсемитский корень, а флексию — как «.a.a.tu». Точки в основе означают, что ислева от основы, и справа, и в любом месте внутри может находиться частьфлексии. И основа, и флексия содержат по три непустых сегмента. Чтобысоединить их в одну словоформу, нужно совместить их, собирая сегментыосновы и флексии по порядку, начиная с первой части основы, т. е. действуя последующему алгоритму:1.
В начале основы стоит точка, поэтому переходим к флексии.2. Берём первый сегмент флексии — все символы от начала флексии допервой точки. Поскольку он пуст, не производим никаких действий и переходимк основе.3. Берём первый сегмент основы — k, добавляем его к словоформе; видимточку, переходим к флексии.4. Берём сегмент a, добавляем его к словоформе; видим точку, переходим коснове.5. ...Проиллюстрируем этот процесс совмещения таблицей:.k..at..ab..tuОднако во многих языках — например, в большинстве европейскихязыков, большинство основ и флексий выглядит намного проще: основа имеетединственную точку в конце, означающую, что флексия целикомприсоединяется справа от неё, а флексия имеет единственную точку в начале,показывающую, что основа находится слева от неё.