Главная » Просмотр файлов » И.А. Волкова - Введение в компьютерную лингвистику. Практические аспекты создания лингвистических процессоров

И.А. Волкова - Введение в компьютерную лингвистику. Практические аспекты создания лингвистических процессоров (1157208), страница 3

Файл №1157208 И.А. Волкова - Введение в компьютерную лингвистику. Практические аспекты создания лингвистических процессоров (И.А. Волкова - Введение в компьютерную лингвистику. Практические аспекты создания лингвистических процессоров) 3 страницаИ.А. Волкова - Введение в компьютерную лингвистику. Практические аспекты создания лингвистических процессоров (1157208) страница 32019-09-18СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 3)

всех существительных среднего рода единственного числа совпадаетс формой И.п.;— форма В.п. одушевленных существительных любого рода множественного числасовпадает с формой Р.п.;— форма В.п. неодушевленных существительных любого рода множественногочисла совпадает с формой И.п.7Волкова И.А. Введение в компьютерную лингвистику.В парадигме всех существительных и прилагательных женского рода единственногочисла форма предложного падежа всегда совпадает с формой дательного падежа.В морфологической модели русского языка необходимо учесть наличие неизменяемыхсуществительных, т.е.

существительных, у которых все формы совпадают (например,«кофе», «метро»).Почти в каждом склоняемом или спрягаемом синтаксическом классе существуютлексемы, у которых не существуют некоторые формы соответствующей парадигмы(например, существительное «ножницы» не имеет форм единственного числа,прилагательное «рад» не имеет полных форм).

Такая морфологическая особенностьдолжна быть учтена в морфологической модели.Прилагательные русского языка имеют две сравнительные степени сильную(«краснее») и слабую («покраснее»), которая образуется путем прибавления и флексиисравнительной степени, и префикса.Самое большое количество форм имеют переходные глаголы несовершенного вида соследующими значениями ГП (на примере глагола делать):— инфинитив (делать),— настоящее время, ед. число, 1 лицо (делаю),— настоящее время, ед. число, 2 лицо (делаешь),— настоящее время, ед.

число, 3 лицо (делает),— настоящее время, мн. число, 1 лицо (делаем),— настоящее время, мн. число, 2 лицо (делаете),— настоящее время, мн. число, 3 лицо (делают),— прошедшее время, ед. число, мужской род (делал),— прошедшее время, ед. число, женский род (делала),— прошедшее время, ед.

число, средний род (делало),— прошедшее время, мн. число (делали),— повелительное наклонение, ед. число, 2 лицо (делай),— повелительное наклонение, мн. число, 2 лицо (делайте),— действительное причастие настоящего времени (делающий),— страдательное причастие настоящего времени (делаемый),— действительное причастие прошедшего времени (делавший),— страдательное причастие прошедшего времени (деланный),— деепричастие настоящего времени (делая),— деепричастие прошедшего времени (делав/делавши),— возвратные формы (с –ся/–сь): инфинитив (делаться); настоящее время, 3 лицо(делается, делаются); прошедшее время (делался, делалась, делалось, делались);действительное причастие настоящего времени (делающийся), действительноепричастие прошедшего времени (делавшийся).У всех непереходных глаголов нет никаких возвратных форм и форм страдательногозалога.У всех глаголов совершенного вида нет никаких форм настоящего времени (нопоявляются личные формы будущего времени) и страдательных форм.Существуют еще некоторые подклассы глаголов со своим набором форм (возвратные,многократные, двувидовые и безличные), но в рамках данного задания их можно нерассматривать.8Практические аспекты создания лингвистических процессоров.

Учебное пособие.Значения ГП:ГПЗначение ГПодушевленность одушевленностьнеодушевленность;род мужской,женский,средний;число единственное,множественное;падеж именительный,родительный, второй родительный,дательный,винительный,творительный,предложный, второй предложный;вид совершенный,несовершенный;лицо первое,второе,третье;залог действительный,страдательный;возвратность возвратность,невозвратность;время настоящее,прошедшее;наклонение-время настоящее,будущее,прошедшее,сослагательное,повелительное,инфинитив;степень сильная,слабая.2.3. Морфологическая база данныхМорфологическая база данных должна содержать всю информацию, необходимую дляработы процедур морфологического анализа и синтеза.9Волкова И.А.

Введение в компьютерную лингвистику.Если в выбранной морфологической модели принят словарь словоформ, то база данныхдолжна содержать все словоформы учитываемых лексем с указанием ихграмматических характеристик и принадлежности определенной лексеме.Если же в морфологической модели принят словарь основ (псевдооснов), то базаданных помимо основ учитываемых лексем должна содержать словарь списковфлексий (псевдофлексий), соответствующих каждому парадигматическому классу.С каждой флексией должен быть связан набор значений ГП, приписываемый основе сданной флексией.

Если в морфологической модели учитываются какие-либо типичныеособенности словоизменения (например, чередование букв в основе), то информация оних также должна храниться в базе данных.Морфологическая БД помимо лексем с регулярным словоизменением должнасодержать лексемы с отсутствующими формами («ножницы», «рад»), с супплетивнымиформами («лучше» для прилагательного «хороший»), неизменяемые существительные(«метро»).

Кроме того, БД обязательно должна содержать омонимичные лексемы(с полной и частичной омонимией).2.4. Морфологические анализаторы исинтезаторы ЕЯНа вход программе морфологического анализа поступает словоформа.Если программа работает со словарем словоформ, то задача морфологического анализасводится к задаче поиска заданной словоформы в базе данных, где с каждойсловоформой связаны ее грамматические характеристики.

Если словоформа в словаренаходится, то результатом морфологического анализа будут являться приписанные ейграмматические характеристики и начальная форма исходной лексемы, если жесловоформа в словаре не находится, значит она не принадлежит выбранномуподмножеству лексического состава ЕЯ.Если же программа работает со словарями основ и флексий или псевдооснов ипсевдофлексий, то имеет смысл все равно поискать исходную словоформу в словаре(она будет найдена, если соответствующая лексема неизменяемая или если даннаясловоформа имеет пустую флексию).Если словоформа в словаре не нашлась, то можно, например, отщепить от неепоследнюю букву (предположительно таким образом поделив словоформу на основу ифлексию) и поискать оставшуюся часть в словаре.

Если поиск опять оказалсянеуспешным, нужно отщепить две последние буквы и т.д. Процесс завершается, когдапроизведен поиск последнего варианта расщепления словоформы на основу и флексию.А это происходит, либо когда отщеплено столько последних букв, какова максимальнаядлина флексии (с учетом постфикса, например, –ся/–сь) в соответствующем ЕЯ (вслучае словаря основ и флексий), либо когда проанализирована пустая основа и всясловоформа как флексия (в случае словаря псевдооснов и псевдофлексий).При этом, если ни один из вариантов основы или псевдоосновы в словаре не находится,то заданная словоформа не принадлежит выбранному подмножеству лексическогосостава ЕЯ.

Если же какой-либо (или какие-либо, например, для словоформы «дома» —«дом-а» (сущ.) и «дома» (наречие)) вариант предположительной основы нашелся всловаре, надо проверить, может ли у данной основы быть предположительная флексия.Если да — результатом анализа словоформы являются грамматическиехарактеристики, связанные с флексией и начальная форма соответствующей лексемы,если нет — надо продолжить процесс расщепления исходной словоформы на основу ифлексию.10Практические аспекты создания лингвистических процессоров.

Учебное пособие.Отметим, что при использовании любого словаря результат морфологического анализав общем случае неоднозначен в силу наличия в ЕЯ морфологической омонимии.На вход программе морфологического синтеза поступают: а) лексема в начальнойформе и б) значения свободных грамматических переменных (в некотором заранееоговоренном виде), соответствующих запрашиваемой словоформе данной лексемы илизапрос на синтез всех форм заданной лексемы.Результатом работы программы морфологического синтеза является либо словоформа сзапрашиваемыми грамматическими характеристиками, либо все формы заданнойлексемы. Морфологический синтез также может оказаться неоднозначным в случаевариативности флексии в какой-либо форме слова или при морфологическойомонимии.11Волкова И.А.

Введение в компьютерную лингвистику.3. Синтаксический компонентлингвистического процессора ЕЯСинтаксис — раздел грамматики, изучающий процессы порождения речи:сочетаемость и порядок следования слов внутри предложения, а также общие свойствапредложения как автономной единицы языка и высказывания как части речи.Одним из центральных дискуссионных вопросов в области компьютерной лингвистикиявляется вопрос о том, каковы задачи и место синтаксического этапа анализа впроцессе определения смысла текста: речь идёт прежде всего о соотношениисинтаксического и семантического уровней анализа и вообще о целесообразностиразделения этих уровней в модели понимания ЕЯ. Существуют два принципиальноразличных подхода: модульный и интегральный.Системы модульного типа.

В этих системах каждому уровню лингвистическогоанализа соответствует отдельный компонент системы. Системы модульного типадопускают разные схемы взаимодействия компонентов (последовательная работа,параллельный перемежающийся анализ). Это не меняет существа дела: синтаксис исемантика обрабатываются в системе разными механизмами. При этом синтаксическийуровень понимания входного текста выделен в отдельный блок, преобразующий текст вего синтаксическое представление.Системы интегрального типа. В таких системах синтаксический и семантическийанализаторы (а часто и анализатор прагматического уровня) слиты в отдельный блок.Система ориентируется сразу на формирование (на основе текста) достаточно богатыхконцептуальных структур, а не на постепенную «глубинизацию» понимания, как этоимеет место в системах модульного типа. Здесь не предусматривается формированиесинтаксического представления входного текста.

Синтаксическая информацияиспользуется фрагментарно и лишь как вспомогательная.Системы интегрального типа успешно применяются пока только в ЕЯ-системах,работающих в предельно узкой проблемной области, и остается открытым вопрос отом, насколько они эффективны при обработке больших и разнообразных по тематикемассивов текстов. Наиболее интересными и перспективными представляются системымодульного типа. И в данной работе рассматриваются, в основном, именно такиесистемы.Среди сторонников систем модульного типа также нет полного единодушия, например,в вопросе о том, насколько развитым и «семантизированным» должен бытьсинтаксический этап анализа. Это находит отражение в разной степенидифференцированности синтаксических отношений, в разной глубине интерпретациисинтаксических отношений, а также в широте привлечения семантической информациипри построении синтаксической структуры входного предложения.3.1.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6384
Авторов
на СтудИзбе
308
Средний доход
с одного платного файла
Обучение Подробнее