И.А. Волкова - Введение в компьютерную лингвистику. Практические аспекты создания лингвистических процессоров
Описание файла
PDF-файл из архива "И.А. Волкова - Введение в компьютерную лингвистику. Практические аспекты создания лингвистических процессоров", который расположен в категории "". Всё это находится в предмете "практикум (прикладное программное обеспечение и системы программирования)" из 4 семестр, которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст из PDF
Московский государственныйуниверситет им. М.В. ЛомоносоваФакультет вычислительной математики и кибернетикиВолкова И.А.Введение в компьютерную лингвистику.Практические аспекты созданиялингвистических процессоров(Учебное пособие для студентов факультета ВМиК МГУ)Москва2006УДК 519.6+681.3.06Данное учебное пособие разработано в поддержку спецкурса «Компьютернаялингвистика», читаемого на факультете ВМиК для студентов 3-5 курсов. Приводятсяподробные пояснения и рекомендации.Рецензенты:проф.
Машечкин И.В.доц. Корухова Л.С.Волкова И.А.«Введение в компьютерную лингвистику. Практические аспекты созданиялингвистических процессоров. (Учебное пособие для студентов факультета ВМиКМГУ)»Издательский отдел факультета ВМиК МГУ(лицензия ЛР №040777 от 23.07.96), 2006 — 43 с.Печатается по решению Редакционно-Издательского Совета факультетаВычислительной Математики и Кибернетики МГУ им. М.В. Ломоносова.ISBN 5-89407-242-5© Издательский отдел факультетавычислительной математики икибернетики МГУим.
М.В. Ломоносова, 2006Замечания по данной электронной версииприсылайте на сmсmsu.infо@gmail.cоmСодержание1. Основныепонятияиопределениякомпьютернойлингвистики. ......................................................................................... 12. Морфологическийкомпонентлингвистическогопроцессора ЕЯ....................................................................................... 52.1.2.2.2.3.2.4.Морфологическая модель естественного языка. .........................................5Некоторые особенности и закономерности морфологии русскогоязыка.
................................................................................................................7Морфологическая база данных ......................................................................9Морфологические анализаторы и синтезаторы ЕЯ....................................103. Синтаксический компонент лингвистического процессора ЕЯ.... 123.1.3.2.3.3.3.4.3.5.3.6.3.7.Синтаксическая модель естественного языка.............................................12Модели представления синтаксической структуры предложения ...........13Типы формальных грамматик, используемых для описаниясинтаксиса естественного языка ..................................................................15Синтаксическая база данных........................................................................18Синтаксические анализаторы фраз ЕЯ........................................................18Синтаксические отношения (связи, зависимости) .....................................21О многовариантности синтаксического анализа ........................................224.
Семантический компонент ЕЯ-систем............................................. 244.1.4.2.4.3.4.4.Теория концептуальной зависимости Р. Шенка.........................................24Теория лингвистических моделей «СМЫСЛ⇔ТЕКСТ» ..........................30Падежные системы........................................................................................33Звук и смысл ..................................................................................................345. Прагматический компонент ЕЯ-систем ........................................... 375.1.5.2.Предмет изучения прагматического компонента.......................................37Анализ связного текста (дискурса)..............................................................39Практические аспекты создания лингвистических процессоров.
Учебное пособие.1. Основные понятия и определениякомпьютерной лингвистики.Компьютерная лингвистика изучает различные аспекты (теоретические,алгоритмические, программистские), связанные с реализацией всевозможных систем,обрабатывающих какие либо высказывания на ЕЯ (ЕЯ-систем).Можно выделить следующие основные классы ЕЯ-систем.Интеллектуальные вопрос-ответные системы. При разработке этих систем основноевнимание уделяется развитию моделей и методов, позволяющих осуществлять переводвысказываний на ЕЯ, относящихся к узким и заранее фиксированным проблемнымобластям, в формальное представление, интерпретацию этих высказываний игенерацию ответных высказываний на ЕЯ по заранее известным, фиксированнымправилам.Системы общения с базами данных. Основная задача таких систем заключается ввыполнении перевода запросов неподготовленных конечных пользователей базыданных с ЕЯ на формальный язык запросов к базе данных.Диалоговые системы решения задач.
Эти системы берут на себя не только функциидоступа к базе данных, но и функции интеллектуального монитора, обеспечивающегорешение заранее определенных классов задач (например, планирование путешествий,составление контрактов). Основное направление использования этих ЕЯ-систем —реализация естественноязыкового общения с экспертными системами.Системы обработки связных текстов. Эти системы занимаются обработкойтекстовой информации и речи.
Объем и разнообразие такой информации возрастает скаждым днем. Развитие и совершенствование систем автоматической обработкитекстов на ЕЯ (АОТ-ситем) в настоящее время является наиболее актуальным иперспективным. Примеры областей применения АОТ-систем: обучение естественномуязыку, автоматический перевод, автокорректоры, распознавание речи, синтез речи,автоматическое реферирование, поисковые системы.Практически любые ЕЯ-системы в той или иной форме имеют и используютморфологический компонент ЛП, некоторые из них так или иначе используют исинтаксический компонент ЛП.
Наиболее развитые и сложные ЕЯ-системы имеют всвоем составе также семантический и прагматический компоненты и анализируют нетолько отдельные предложения, но и входной текст в целом.Лингвистический процессор (ЛП) — комплекс программ, обеспечивающий анализ исинтез текстов на естественном языке. Задачей ЛП является разбор и «понимание»поступившей на вход фразы на ЕЯ (в случае анализа) или построение фразы ЕЯ,соответствующей формальному описанию ее смысла (в случае синтеза).В состав ЛП входят три вида обеспечения:— лингвистическое(формальнаямодельЕЯ,словари,грамматики,лингвистические таблицы, правила);— математико-алгоритмическое (трансляторы формальных языков, алгоритмыпереработки текстов):— программное.1Волкова И.А.
Введение в компьютерную лингвистику.Восприятие естественноязыковой информации машиной в широком смыслезаключается в распознавании смысла текста, которое осуществляется на основеавтоматических словарей и формальных грамматик.Текст можно определить как избыточную многоуровневую систему хранения ипередачи информации.Традиционно в ЕЯ выделяются следующие языковые уровни: морфологический,синтаксический, семантический (иногда и прагматический). На каждом языковомуровне используются свои структуры данных, которые обрабатываются и формируютсясоответствующими компонентами ЛП.
В целом ЛП можно рассматривать какмногоуровневый транслятор ЕЯ, переводящий (в случае анализа) входное предложениеЕЯ во внутреннее представление смысла этого предложения и наоборот в случаесинтеза. ЛП работает по следующей схеме:ПредложениеЕЯМорфологическийкомпонентМорфологическиеструктурыСинтаксическийкомпонентСловари,таблицы,списки...СинтаксическиеструктурыСемантическийкомпонентСемантическиеструктурыЛПСуществует два аспекта системного изучения языка, противопоставляющиеся по типуизучаемых отношений между единицами языка и/или языковыми конструкциями:парадигматика и синтагматика.Парадигматика — раздел науки о языке, занимающийся парадигматическимиотношениями (их классификацией, определением области действия и т.п.).
Другимисловами, парадигматика изучает языковую систему как совокупность лингвистическихклассов — парадигм.Парадигма — любой класс лингвистических единиц, объединенных по наличию у нихобщего признака или вызывающих одинаковые ассоциации. В одну парадигмуобъединяются языковые единицы, которые могут быть поставлены в соответствиеодному объекту или явлению: значению, ситуации, слову, классу слов и т.п.Часто термин «парадигма» используют как синоним термина «морфологическаяпарадигма», хотя в зависимости от языкового уровня, к которому относитсявыделяемый класс единиц, говорят о— морфологической парадигме,— синтаксической парадигме,— лексической парадигме,— словообразовательной парадигме.Морфологическая парадигма отражает реализацию грамматических категорий ихарактеризуется наличием инвариантной части (корня, основы), конечным перечнемграмматических значений и связанных с ними специальных формантов (например,окончаний).
Парадигмы слов одной части речи имеют одинаковое внутреннее2Практические аспекты создания лингвистических процессоров. Учебное пособие.устройство и одинаковый набор окончаний. Морфологическая парадигма обычноизображается как таблица форм, устанавливающая соответствие междуграмматическими значениями и средствами их выражения. Например, для слова«завод» морфологическая парадигма будет такой:Грамматическиезначения (число, падеж)ФлексииЕд.И.Р.Д.В.Т.П._ау_омеМн.И.Р.Д.В.Т.П.ыовамыамиахСинтаксическая парадигма — ряд структурно различающихся, но семантическисоотносительных синтаксических конструкций — предложений или словосочетаний,связанных в силу их семантической близости отношениями перифразы.
Например,Маша передала Пете книгу.Пете передана книга от Маши.Книга передана Машей Пете.Книга передана от Маши к Пете.Лексическая парадигма объединяет грамматически однородные слова, имеющиесемантическую общность. Например, слова-синонимы, или «утро — завтрак —будильник — кофе — восход».Словообразовательная парадигма объединяет однокоренные слова, имеющие одну иту же производящую основу и находящиеся на одной и той же ступенисловопроизводства. Например, делать, переделать, сделать, делающий,…; дело,деловой…Синтагматика — раздел науки о языке, занимающийся изучением синтагматическихотношений между знаками языка, возникающих между последовательнорасположенными его единицами при их непосредственном сочетании друг с другом вреальном потоке речи или в тексте.Синтагматика изучает отношения между единицами языка «по горизонтали», в отличиеот парадигматики, изучающей отношения между единицами языка «по вертикали».Синтагматические отношения непосредственно наблюдаемы и основаны на линейномоднонаправленности,характереречиисвойствееепротяженности,последовательности.
Элементы языка, следуя один за другим, образуют определенныеязыковые цепочки — синтагмы, внутри которых составляющие их элементы вступаютв синтагматические отношения.Поскольку почти все языковые единицы находятся в зависимости либо от того, что ихокружает в потоке речи, либо от тех частей, из которых они состоят сами, развитиепроцедур синтагматического анализа идет по двум направлениям: а) валентностный3Волкова И.А. Введение в компьютерную лингвистику.анализ и — шире — анализ сочетаемости языковых единиц и б) дистрибутивныйанализ.В широком смысле в языкознании под валентностью понимается общая сочетательнаяспособность слов и единиц иных языковых уровней.
В узком смысле понятиевалентности сопоставимо с понятием n-местного предиката в логике предикатов.Дистрибутивный анализ — метод исследования языка, основанный на изученииокружения (дистрибуции, распределения) отдельных единиц в тексте и неиспользующий сведений о полном лексическом или грамматическом значении этихединиц.Процедуры синтагматического анализа реализуют прежде всего приемы члененияязыковых последовательностей и определения их состава, а также особые способыобнаружения влияния одной единицы на другую или их взаимодействия.