Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf)
Описание файла
PDF-файл из архива "Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf", который расположен в категории "". Всё это находится в предмете "анализ текстовых данных и информационный поиск" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст из PDF
Министерство образования и науки Российской ФедерацииМосковский государственный институт электроники и математикиАВТОМАТИЧЕСКАЯ ОБРАБОТКАТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ ИКОМПЬЮТЕРНАЯ ЛИНГВИСТИКАРекомендовано УМО вузовпо университетскому политехническому образованиюв качестве учебного пособия для студентов высших учебных заведений,обучающихся по направлению 231300 — «Прикладная математика»Москва, 2011УДК 681.4ББК 32.813Б 79Рецензенты: д.т.н.
В.А. Галактионов (зав. отделом Института прикладнойматематики им. М.В. Келдыша РАН),к.филол.н., доцент Е.Б. Козеренко (зав. лабораторией«Компьютерной лингвистики и когнитивных технологийобработки текстов» ИПИ РАН)Б 79 Автоматическая обработка текстов на естественном языке и компьютернаялингвистика : учеб. пособие / Большакова Е.И., Клышинский Э.С., Ландэ Д.В.,Носков А.А., Пескова О.В., Ягунова Е.В. — М.: МИЭМ, 2011. — 272 с.ISBN 978–5–94506–294–8В учебном пособии рассматриваются базовые вопросы компьютернойлингвистики: от теории лингвистического и математического моделирования довариантов технологических решений.
Дается лингвистическая интерпретацияосновных лингвистических объектов и единиц анализа. Приведены сведения,необходимые для создания отдельных подсистем, отвечающих за анализ текстов наестественном языке. Рассматриваются вопросы построения систем классификации икластеризации текстовых данных, основы фрактальной теории текстовойинформации.Предназначено для студентов и аспирантов высших учебных заведений,работающих в области обработки текстов на естественном языке.УДК 681.4ББК 32.813© МИЭМ, 2011© Е.И.
Большакова, Э.С. Клышинский,А.А. Носков, О.В. Пескова, Е.В. Ягунова 2011Д.В.Ландэ,ОглавлениеЧасть I. ОСНОВЫ ТЕОРЕТИЧЕСКОЙ, ВЫЧИСЛИТЕЛЬНОЙ ИЭКСПЕРИМЕНТАЛЬНОЙ ЛИНГВИСТИКИ, или РАЗМЫШЛЕНИЯ О МЕСТЕЛИНГВИСТА В КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ (Ягунова Е.В.) ...........................7Предисловие (несколько слов от себя) .............................................................................7Глава 1.Язык. Текст.
Основы лингвистики и теории речевой коммуникации ......7§ 1.1. Язык. Введение ..........................................................................................7§ 1.2. Язык или языки. Текст или тексты. Основы речевой коммуникации10§ 1.3.
Лингвистика и лингвистики. Принцип моделирования. Цели,методы, задачи ..............................................................................................................12Глава 2.Слово — коллокация – синтаксические конструкции – текст. Единицаанализа и контекст. .................................................................................................17§ 2.1.словаря»Инвентарные и конструктивные единицы. Понятие «текущего17§ 2.2.
Избыточность. Контекстная предсказуемость .....................................21§ 2.3. Единица анализа и контекст. Коллокации и конструкции. ................23§ 2.4. Типы коллокаций и конструкций. Принцип шкалирования ...............30Глава 3.Семантическая и информационная структуры при анализе текстов и/иликоллекций.
Основные элементы этих структур .................................................44§ 3.1. Текст. Общие положения .......................................................................44§ 3.2. Анализ текста в парадигме когнитивных исследований.....................47§ 3.3. Анализ текста в парадигмах автоматического понимания текста .....49§ 3.4.
Коммуникативная и информационная (смысловая) структуры текста55§ 3.5. Избыточность. Компрессия текста. Свертки текста ............................63Глава 4.Объект исследования современной лингвистики текста. Текст vs.информационный поток.........................................................................................70§ 4.1.Объекты исследования современной лингвистики текста.Информационный поток ..............................................................................................70§ 4.2. Коллокации и конструкции как составляющие текстов .....................72§ 4.3.
Свертки для описания разных информационных объектов: оттекстов до информационных потоков ........................................................................80Список используемой литературы ..................................................................................833Часть II.Компьютерная лингвистика: методы, ресурсы, приложения (БольшаковаЕ.И.)90Глава 1.Введение ........................................................................................................90Глава 2.Задачи компьютерной лингвистики ...........................................................90Глава 3.Особенности системы ЕЯ: уровни и связи ................................................91Глава 4.Моделирование в компьютерной лингвистике .........................................94Глава 5.Лингвистические ресурсы ...........................................................................97Глава 6.Приложения компьютерной лингвистики .................................................99Глава 7.Заключение ..................................................................................................103Список использованной литературы ............................................................................103Часть III.Начальные этапы анализа текста (Клышинский Э.С.) ................................106Глава 1.Этапы анализа текста .................................................................................106Глава 2.Морфологический анализ и синтез ...........................................................109§ 2.1.
Словарный морфологический анализ и синтез ..................................109§ 2.2. Автоматизированное пополнение морфологического словаря ........116§ 2.3. Методы бессловарного морфологического анализа ..........................118§ 2.4. Коррекция орфографических ошибок.................................................122Глава 3.Постморфологический и предсинтаксический анализ ...........................125§ 3.1. Автоматизированное снятие омонимии .............................................125§ 3.2.
Постморфологический анализ .............................................................130§ 3.3. Синтаксическая сегментация ...............................................................137Часть IV.Инструментальные системы разработки приложений по автоматическойобработке текстов на естественном языке (Носков А.А.) ...............................................141Глава 1.Введение ......................................................................................................141Глава 2.Программные средства лингвистической обработки .............................142Глава 3.Представление лингвистических данных ................................................144§ 3.1. Подходы к представлению данных .....................................................144§ 3.2.
Лингвистическая разметка ...................................................................145§ 3.3. Лингвистические аннотации ................................................................145§ 3.4. Представления, основанные на абстракции .......................................147§ 3.5. Недоспецифицированные представления...........................................149Глава 4.Архитектура инструментальных ЕЯ-систем ...........................................151§ 4.1. Компонентная организация ..................................................................1514§ 4.2.
Процессы обработки текста .................................................................152Глава 5.Системы обработки ЕЯ-текстов ................................................................154§ 5.1. Системы на базе разметки ....................................................................154§ 5.2. Системы на базе аннотаций .................................................................155§ 5.3. Системы интеграции поверхностной и глубокой обработки ...........161§ 5.4.
Системы, развивающие отдельные аспекты обработки текста ........163§ 5.5. Прочие системы.....................................................................................166Список литературы ............................................................................................167Часть V.Алгоритмы классификации полнотекстовых документов (Пескова О.В.)170Глава 1.Алгоритмы классификации с учителем ...................................................170§ 1.1. Представление данных в задачах классификации текстов ...............170§ 1.2. Отбор терминов для классификации ...................................................172§ 1.3. Алгоритм "наивной" байесовской классификации............................175§ 1.4.
Алгоритм Роккио...................................................................................177§ 1.5. Алгоритм k-ближайших соседей .........................................................179§ 1.6. Алгоритм опорных векторов................................................................181§ 1.7. Алгоритм деревьев принятия решений ...............................................184§ 1.8. Алгоритм наименьших квадратов .......................................................186§ 1.9. Экспериментальная оценка результата классификации с учителем188§ 1.10.