Главная » Все файлы » Просмотр файлов из архивов » PDF-файлы » Принципы построения морфологического парсера для разноструктурных языков

Принципы построения морфологического парсера для разноструктурных языков

PDF-файл Принципы построения морфологического парсера для разноструктурных языков Филология (31792): Диссертация - Аспирантура и докторантураПринципы построения морфологического парсера для разноструктурных языков: Филология - PDF (31792) - СтудИзба2019-03-13СтудИзба

Описание файла

PDF-файл из архива "Принципы построения морфологического парсера для разноструктурных языков", который расположен в категории "". Всё это находится в предмете "филология" из Аспирантура и докторантура, которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата филологических наук.

Просмотр PDF-файла онлайн

Текст из PDF

На правах рукописиАрхангельский Тимофей АлександровичПРИНЦИПЫ ПОСТРОЕНИЯ МОРФОЛОГИЧЕСКОГО ПАРСЕРА ДЛЯРАЗНОСТРУКТУРНЫХ ЯЗЫКОВСпециальность 10.02.21 — прикладная и математическая лингвистикаАВТОРЕФЕРАТдиссертации на соискание ученой степеникандидата филологических наукМосква – 2012Работа выполнена на отделении теоретической и прикладной лингвистикифилологического факультета Федерального государственного бюджетногообразовательного учреждения высшего профессионального образования«Московский государственный университет имени М.

В. Ломоносова»НАУЧНЫЙ РУКОВОДИТЕЛЬ:член-корреспондент РАН,доктор филологических наук,профессорПлунгян Владимир АлександровичОФИЦИАЛЬНЫЕ ОППОНЕНТЫ:Рябцева Надежда Конатантиновнадоктор филологических наук,ведущий научный сотрудник(Институт языкознания РАН,зав. сектором прикладного языкознания)Иомдин Леонид Лейбовичкандидат филологических наук,старший научный сотрудник(Институт проблем передачи информации,ведущий научный сотрудниклаборатории компьютерной лингвистики)ВЕДУЩАЯ ОРГАНИЗАЦИЯ:ФГБУН «Институт проблем информатикиРоссийской академии наук»Защита диссертации состоится 26 декабря 2012 г. в ____ часовна заседании диссертационного совета Д 501.001.24 при МГУ им. М.

В. Ломоносовапо адресу: 119991, ГСП-1, Москва, Ленинские горы, МГУ,1-й корпус гуманитарных факультетов, филологический факультетС диссертацией можно ознакомиться в Научной библиотеке МГУ им. М. В.Ломоносова.Автореферат разослан __________________ 2012 г.Ученый секретарьдиссертационного совета(А. М.

Белов)2Общая характеристика работыДанное исследование посвящено изучению и решению проблем, которыевозникают при морфологической разметке языковых корпусов. В работепредлагается способ формализованного описания грамматики и лексикиязыков, охватывающий широкий круг морфологических явлений ипозволяющий использовать его при создании корпусов разноструктурныхязыков. Формат и построенный на его основе морфологический парсер былиуспешно использованы при создании ряда корпусов.Объектом исследования являются проблемы и специфические задачи,возникающие при создании крупных корпусов языков, обладающих сложнойморфологической системой.В настоящий момент благодаря развитию компьютерных технологийэлектронные корпуса языков стали повсеместно использоваться как инструментлингвистического исследования, а корпусная лингвистика за последние двадесятилетия стала одной из важных областей не только прикладной, но итеоретической лингвистики.

Одной из самых важных задач при составлениикорпуса языка является создание так называемого морфологическогоанализатора, или парсера — компьютерной системы автоматическогоморфологического анализа языка. С помощью морфологического парсера всемсловоформам из текстов на каком-либо языке, образующих корпус, ставится всоответствие начальная (словарная) форма, набор грамматическиххарактеристик и, возможно, другая информация, по которой пользователикорпуса смогут осуществлять поиск. Именно наличие такого рода разметкиделает корпус ценным инструментом лингвистического исследования. Есликорпус текстов относительно невелик (десятки или сотни тысячсловоупотреблений), такую разметку можно внести в текст вручную, безпомощи специальных средств.

Однако выполнить разметку большого корпусабез парсера практически невозможно — этим объясняется его исключительная3важность при создании корпусов.Если создание парсера для морофологически бедного языка (по крайнеймере, для языка с бедным словоизменением) — например, английского илифранцузского — не представляет больших проблем, создание парсера дляязыков с богатой морфологией и множеством нетривиальных морфологическихявлений может быть сопряжено со значительно большими трудностями.Создание такого парсера является сложной задачей, требующей больших затратвремени и ресурсов.Для некоторых существующих корпусов с морфологической разметкойбыли специально написаны парсеры, способные анализировать тексты на одномязыке.

Однако, учитывая постоянно увеличивающееся количество создаваемыхкорпусов, массовое применение такого решения представляется довольнонеэффективным. Каждый язык требует долгой совместной работыпрограммистов и лингвистов для создания с нуля очередной системыморфологического анализа. Между тем, с технической точки зрения этисистемы имеют много общего — и этот факт можно было бы выгодноиспользовать, выделив эту общую часть в отдельный продукт, который можномногократно применять при создании парсеров конкретных языков. Более того,эта общая часть может иметь вид цельной программной системы —универсального парсера, шаблонной программы, требующей для работы вкачестве парсера некоторого языка только специальным образом составленноеформальное описание этого языка.

При этом не только достигается экономиявремени составителей корпусов, но и отпадает необходимость в использованиитруда программиста.В настоящем исследовании предлагается способ именно такогоформализованного описания языка, учитывающий множество морфологическихявлений типологически разных языков и специфических проблем,возникающих при создании крупных языковых корпусов.4Актуальность исследования.

Несмотря на успехи, достигнутые в областикорпусной лингвистики за последние десятилетия, для подавляющегобольшинства языков всё ещё не созданы корпуса (и далеко не для всех языковэта задача является тривиальной), поэтому данная область имеет огромныйпотенциал развития. В настоящий момент существует небольшое количествоуниверсальных парсеров (или, по крайней мере, парсеров, претендующих навозможность их использования для анализа множества типологически разныхязыков). Однако все они обладают недостатками, по той или иной причинезатрудняющими их использование для разметки крупных корпусов.

В то жевремя создание пригодного для практического применения универсальногопарсера в настоящий момент является крайне важной задачей, решение которойпозволит упростить и ускорить создание таких корпусов.Цели исследования продиктованы описанными выше запросамисовременной корпусной лингвистики. Ниже они перечислены в порядкеубывания важности:1. Выявить круг проблем и задач, возникающих при создании крупныхкорпусов с морфологической разметкой.2. Учитывая полученные результаты, разработать формат описания лексикии грамматики языка, пригодный для использования универсальным парсером.Требования к этому формату таковы: Формат должен обладать достаточными средствами для описанияширокого спектра морфологических явлений, представленных втипологически различных языках. Формат и использующий его универсальный парсер должны бытьориентированы на разметку большого количества текстов для корпусов (вчастности, должна обеспечиваться достаточно высокая скоростьморфологического анализа). Формат должен быть ориентирован, в частности, на работу с5письменными текстами, созданными на языках с кодифицированнойорфографией; в нём должно учитываться исключительно графическоепредставление словоформ без обращения к их фонемному составу иликакой бы то ни было глубинной структуре. Формат должен давать возможность описать словоизменение, невынуждая при этом пользователя указывать разбиение словоформ наморфемы или составлять отдельные словари морфем. Формат должен быть в том числе доступен для использованиялингвистами без навыков программирования; в случаях, когда без этогоневозможно обойтись, необходимо прибегать к применению ужесуществующих и широко используемых средств вместо изобретениясобственных аналогов (в первую очередь это касается языка регулярныхвыражений). Файлы в данном формате должен иметь достаточно простуюструктуру, чтобы, во-первых, лингвист мог самостоятельно вносить в нихинформацию с применением самых простых текстовых редакторов,доступных для любой операционной системы, а во-вторых, эти файлымогли легко обрабатываться с применением одного из языковпрограммирования.Предполагается, что при составлении корпуса нужно руководствоватьсярядом правил, таких как теоретическая нейтральность или приоритет широтыпоисковых возможностей.

Требования к формату являются следствием этихпринципов и принципа экономии усилий при составлении описания языка.3. Создать пилотную версию универсального парсера, способнуюиспользовать большинство элементов данного формата. Требования,предъявляемые к парсеру, таковы.Парсер должен быть способен, во-первых, достаточно быстроанализировать тексты на языке, описываемом передаваемыми емуфайлами, а во-вторых, порождать парадигму каждой лексемы6описываемого языка для проверки правильности составленияграмматического описания.При наличии необходимой информации в предоставляемом емуописании языка парсер должен производить не толькограмматический анализ, но и глоссирование текста. Глоссированиедолжно осуществляться в соответствии с широко известнымилейпцигскими правилами глоссирования, а в случаях, нерегулируемых этими правилами, пользователю должна бытьпредоставлена возможность выбора способа глоссирования с учётомсуществующей практики.Парсер должен получать на вход тексты в обычном текстовомформате и выдавать размеченный текст в широко используемомформате XML, что позволит производить его дальнейшую обработкув других системах или непосредственное помещение их в корпус.При этом парсер не должен выполнять никаких других операций, обрастаяне свойственными ему функциями.

Свежие статьи
Популярно сейчас
А знаете ли Вы, что из года в год задания практически не меняются? Математика, преподаваемая в учебных заведениях, никак не менялась минимум 30 лет. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5173
Авторов
на СтудИзбе
437
Средний доход
с одного платного файла
Обучение Подробнее