Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448)
Текст из файла
Министерство образования и науки Российской ФедерацииМосковский государственный институт электроники и математикиАВТОМАТИЧЕСКАЯ ОБРАБОТКАТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ ИКОМПЬЮТЕРНАЯ ЛИНГВИСТИКАРекомендовано УМО вузовпо университетскому политехническому образованиюв качестве учебного пособия для студентов высших учебных заведений,обучающихся по направлению 231300 — «Прикладная математика»Москва, 2011УДК 681.4ББК 32.813Б 79Рецензенты: д.т.н.
В.А. Галактионов (зав. отделом Института прикладнойматематики им. М.В. Келдыша РАН),к.филол.н., доцент Е.Б. Козеренко (зав. лабораторией«Компьютерной лингвистики и когнитивных технологийобработки текстов» ИПИ РАН)Б 79 Автоматическая обработка текстов на естественном языке и компьютернаялингвистика : учеб. пособие / Большакова Е.И., Клышинский Э.С., Ландэ Д.В.,Носков А.А., Пескова О.В., Ягунова Е.В. — М.: МИЭМ, 2011. — 272 с.ISBN 978–5–94506–294–8В учебном пособии рассматриваются базовые вопросы компьютернойлингвистики: от теории лингвистического и математического моделирования довариантов технологических решений.
Дается лингвистическая интерпретацияосновных лингвистических объектов и единиц анализа. Приведены сведения,необходимые для создания отдельных подсистем, отвечающих за анализ текстов наестественном языке. Рассматриваются вопросы построения систем классификации икластеризации текстовых данных, основы фрактальной теории текстовойинформации.Предназначено для студентов и аспирантов высших учебных заведений,работающих в области обработки текстов на естественном языке.УДК 681.4ББК 32.813© МИЭМ, 2011© Е.И.
Большакова, Э.С. Клышинский,А.А. Носков, О.В. Пескова, Е.В. Ягунова 2011Д.В.Ландэ,ОглавлениеЧасть I. ОСНОВЫ ТЕОРЕТИЧЕСКОЙ, ВЫЧИСЛИТЕЛЬНОЙ ИЭКСПЕРИМЕНТАЛЬНОЙ ЛИНГВИСТИКИ, или РАЗМЫШЛЕНИЯ О МЕСТЕЛИНГВИСТА В КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ (Ягунова Е.В.) ...........................7Предисловие (несколько слов от себя) .............................................................................7Глава 1.Язык. Текст.
Основы лингвистики и теории речевой коммуникации ......7§ 1.1. Язык. Введение ..........................................................................................7§ 1.2. Язык или языки. Текст или тексты. Основы речевой коммуникации10§ 1.3.
Лингвистика и лингвистики. Принцип моделирования. Цели,методы, задачи ..............................................................................................................12Глава 2.Слово — коллокация – синтаксические конструкции – текст. Единицаанализа и контекст. .................................................................................................17§ 2.1.словаря»Инвентарные и конструктивные единицы. Понятие «текущего17§ 2.2.
Избыточность. Контекстная предсказуемость .....................................21§ 2.3. Единица анализа и контекст. Коллокации и конструкции. ................23§ 2.4. Типы коллокаций и конструкций. Принцип шкалирования ...............30Глава 3.Семантическая и информационная структуры при анализе текстов и/иликоллекций.
Основные элементы этих структур .................................................44§ 3.1. Текст. Общие положения .......................................................................44§ 3.2. Анализ текста в парадигме когнитивных исследований.....................47§ 3.3. Анализ текста в парадигмах автоматического понимания текста .....49§ 3.4.
Коммуникативная и информационная (смысловая) структуры текста55§ 3.5. Избыточность. Компрессия текста. Свертки текста ............................63Глава 4.Объект исследования современной лингвистики текста. Текст vs.информационный поток.........................................................................................70§ 4.1.Объекты исследования современной лингвистики текста.Информационный поток ..............................................................................................70§ 4.2. Коллокации и конструкции как составляющие текстов .....................72§ 4.3.
Свертки для описания разных информационных объектов: оттекстов до информационных потоков ........................................................................80Список используемой литературы ..................................................................................833Часть II.Компьютерная лингвистика: методы, ресурсы, приложения (БольшаковаЕ.И.)90Глава 1.Введение ........................................................................................................90Глава 2.Задачи компьютерной лингвистики ...........................................................90Глава 3.Особенности системы ЕЯ: уровни и связи ................................................91Глава 4.Моделирование в компьютерной лингвистике .........................................94Глава 5.Лингвистические ресурсы ...........................................................................97Глава 6.Приложения компьютерной лингвистики .................................................99Глава 7.Заключение ..................................................................................................103Список использованной литературы ............................................................................103Часть III.Начальные этапы анализа текста (Клышинский Э.С.) ................................106Глава 1.Этапы анализа текста .................................................................................106Глава 2.Морфологический анализ и синтез ...........................................................109§ 2.1.
Словарный морфологический анализ и синтез ..................................109§ 2.2. Автоматизированное пополнение морфологического словаря ........116§ 2.3. Методы бессловарного морфологического анализа ..........................118§ 2.4. Коррекция орфографических ошибок.................................................122Глава 3.Постморфологический и предсинтаксический анализ ...........................125§ 3.1. Автоматизированное снятие омонимии .............................................125§ 3.2.
Постморфологический анализ .............................................................130§ 3.3. Синтаксическая сегментация ...............................................................137Часть IV.Инструментальные системы разработки приложений по автоматическойобработке текстов на естественном языке (Носков А.А.) ...............................................141Глава 1.Введение ......................................................................................................141Глава 2.Программные средства лингвистической обработки .............................142Глава 3.Представление лингвистических данных ................................................144§ 3.1. Подходы к представлению данных .....................................................144§ 3.2.
Лингвистическая разметка ...................................................................145§ 3.3. Лингвистические аннотации ................................................................145§ 3.4. Представления, основанные на абстракции .......................................147§ 3.5. Недоспецифицированные представления...........................................149Глава 4.Архитектура инструментальных ЕЯ-систем ...........................................151§ 4.1. Компонентная организация ..................................................................1514§ 4.2.
Процессы обработки текста .................................................................152Глава 5.Системы обработки ЕЯ-текстов ................................................................154§ 5.1. Системы на базе разметки ....................................................................154§ 5.2. Системы на базе аннотаций .................................................................155§ 5.3. Системы интеграции поверхностной и глубокой обработки ...........161§ 5.4.
Системы, развивающие отдельные аспекты обработки текста ........163§ 5.5. Прочие системы.....................................................................................166Список литературы ............................................................................................167Часть V.Алгоритмы классификации полнотекстовых документов (Пескова О.В.)170Глава 1.Алгоритмы классификации с учителем ...................................................170§ 1.1. Представление данных в задачах классификации текстов ...............170§ 1.2. Отбор терминов для классификации ...................................................172§ 1.3. Алгоритм "наивной" байесовской классификации............................175§ 1.4.
Алгоритм Роккио...................................................................................177§ 1.5. Алгоритм k-ближайших соседей .........................................................179§ 1.6. Алгоритм опорных векторов................................................................181§ 1.7. Алгоритм деревьев принятия решений ...............................................184§ 1.8. Алгоритм наименьших квадратов .......................................................186§ 1.9. Экспериментальная оценка результата классификации с учителем188§ 1.10.
Характеристики
Тип файла PDF
PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.
Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.