Вопросы к экзамену (1126942)
Текст из файла
Вопросы к экзамену по с/к "Основы обработки текстов". 2015 г.1.2.3.4.5.6.7.8.9.10.11.12.13.14.15.16.17.18.19.20.21.22.23.24.25.26.27.28.29.30.31.32.33.34.35.36.37.38.39.40.41.42.Задачи обработки текста. Многозначность при обработке текста. Проблема понимания. ТестТьюринга. Китайская комнатаРегулярные выраженияКонечные автоматы, распознавание языка с помощью КАРегулярные языки и конечные автоматы. Построение КА для регулярных выраженийМодель N-грамм. Оценка вероятности высказыванияМодель N-грамм. Сглаживание (Лапласа, откат, интерполяция)Модель N-грамм. Оценка качества. Тренировочный и проверочный корпусаЗадача определения частей речи.
Существующие подходы. Алгоритмы, основанные на правилах.Алгоритмы, основанные на трансформации.Методы поиска словосочетаний. Использование мат. ожидания и дисперсии.Методы поиска словосочетаний. Проверка статистических гипотез. Т-критерий Стьюдента.Методы поиска словосочетаний. Проверка статистических гипотез. Критерий Хи-квадрат.Методы поиска словосочетаний. Проверка статистических гипотез. Критерий отношениеяправдоподобияИспользование скрытой марковской модели для определения частей речи. Алгоритм ВитербиМодели классификации. Наивный байесовский классификаторМодели классификации.
Логистическая регрессия, модель максимальной энтропииМодели классификации. Марковская модель максимальной энтропииМодели кластеризации. Иерархическая кластеризацияМодели кластеризации. Метод К-среднихТипы грамматик. Грамматика составляющих. Грамматика зависимостей. КатегориальнаяграмматикаКонтекстно-свободные грамматики. КС грамматики и регулярные языки. Банк деревьев.Синтаксический разбор. Разбор сверху вниз и снизу вверхСинтаксический разбор. Алгоритм Кока-Янгера-Касами (CKY parsing). Эквивалентность КС грамматикСинтаксический разбор. Группировка (chunking)Стохастические контекстно-свободные грамматики. Разрешение синтаксической многозначностиМоделирование языка.
Обучение стохастических КС грамматикВероятностная версия алгоритма Кока-Янгера-Касами. Оценка качестваПроблемы стохастический КС грамматик. Алгоритм Коллинза. Оценка качестваЛексическая семантика. WordNet. Значения словРазрешение лексической многозначности. Алгоритмы классификации. Самонастройка. Методыоценки качестваРазрешение лексической многозначности. Методы, основанные на словарях и тезаурусах. Вариантыалгоритма Леска. Методы оценки качестваСемантическая близость слов.
Подходы на основе тезаурусов. Методы оценки качестваСемантическая близость слов. Подходы на основе статистик. Методы оценки качестваВопросно-ответные системы. Общая архитектура. Обработка запросаВопросно-ответные системы. Общая архитектура. Извлечение фрагментов текстаВопросно-ответные системы. Общая архитектура. Обработка ответаАвтоматическое реферирование.
Общая архитектураМашинный перевод. Классические подходыСтатистический машинный перевод. Модель зашумленного канала. Модель перевода на основефраз. Выравнивание фраз. ДекодированиеСтатистический машинный перевод. Выравнивание слов. Модель IBM Model 1Статистический машинный перевод. Выравнивание слов. Тренировка моделей выравниванияСтатистический машинный перевод. Методы оценки качества. BLUEТематическое моделирование.
PLSA, LDA.
Характеристики
Тип файла PDF
PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.
Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.