2015 Экзаменационные вопросы и Теормин (с ответами) по курсу ММО (1185246)
Текст из файла
18
Экзаменационные вопросы и теормин по курсу
“Методы Машинного Обучения”
группа 521, 2015 год
лекции читали Майсурадзе А. И. (Арчил Иверьевич) и Сенько О. В. (Олег Валентинович)
Экзаменационные вопросы
Основы анализа данных (часть Майсурадзе)
-
Место и роль ИАД в современной структуре человеческой деятельности. Три уровня технологий анализа данных, их назначение. Понятие о моделировании реального мира в науке. Физическая модель. Модель “решателя”. Информационная модель. Эвристическая модель. Основной приём ИАД для связи предметных областей и фундаментальной математики (обучение и эксплуатация эвристической информационной модели).
-
Основные модели данных (dataframe, multidimensional, similarity tensor, transactional). Гомогенные и гетерогенные модели. Фундаментальные задачи ИАД и основные инструменты статистики.
-
Распределение фундаментальных задач ИАД и основных инструментов статистики по моделям данных: в разрезе исходных данных, в разрезе результатов.
Основные модели данных (часть Майсурадзе)
-
Модель данных «признаковое описание объектов». Понятие о шкалах значений атрибутов. Представление реляционными технологиями. Схемы «звезда» и «снежинка».
-
Многомерная модель данных. Группирование объектов как переход к многомерной модели данных. Аналитические пространства. Измерения и категории. Показатели. Детализация. Функции агрегирования, типы показателей по агрегированию.
-
Транзакционная модель данных. Связанные с ней задачи.
Классификация как задача (часть Майсурадзе)
-
Общая задача классификации. Понятие об обучении и использовании. Объект, модель, алгоритм-классификатор. Универсальные ограничения. Локальные ограничения. Оптимизационный подход.
-
Функционалы качества на размеченной выборке. Частотные функционалы качества. Случай бинарной классификации. Стоимостные функционалы качества. Несоответствие частотных и стоимостных функционалов качества человеческому поведению.
Подходы к многокритериальной оптимизации. -
Статистический подход к распознаванию (часть Сенько)
-
Понятие байесовского классификатора как оптимального алгоритма распознавания.
-
Классификаторы, основанные на использовании формулы Байеса. Линейный дискриминант Фишера.
-
Классификаторы, основанные на использовании формулы Байеса. Логистическая регрессия.
-
Метод k-ближайших соседей.
Практические навыки работы с данными (часть Майсурадзе)
-
Форматы представления информации. Текстовые файлы, их атрибуты, проблема определения атрибутов. Текстовые форматы представления таблиц: separated values, delimited text. Экранирование символов. Форматы представления транзакционных данных.
Диаграммы для наборов точек из R^n. -
-
Диаграммы для многомерной модели данных. Системы отчётности.
Регрессионный анализ (часть Сенько)
-
Простая регрессия. Множественная регрессия. Поиск коэффициентов по МНК. Недостатки МНК.
-
Трёхкомпонентное разложение ошибки регрессионных моделей.
-
Регуляризация по Тихонову. Гребневая регрессия, лассо, эластичные сети.
Метрические тензоры (часть Общая)
-
Тут везде нужна только постановка задачи кластеризации:
Модель данных «метрические тензоры», гомогенные и гетерогенные многомерные матрицы сходства. Группирование объектов как кластеризация по метрическим описаниям. Гомогенная кластеризация, бикластеризация, мультикластеризация. Основные типы результатов кластеризации (плоская, последовательная плоская, иерархическая, нечёткая, стохастическая, ранговая).
-
Плоская кластеризация. Задача и метод k-means.
-
Последовательная плоская кластеризация. Метод ФОРЕЛЬ.
-
Иерархическая кластеризация. Дивизивная. Агломеративная, функционалы связи (linkage).
Задачи точной реализации метрических тензоров. Корректность задачи (разрешимость, однозначность). Алгоритмическая сложность (на примере метрик Минковского). Метрическое многомерное шкалирование, его связь с методом главных компонент.
Задачи аппроксимации метрических тензоров. Неметрическое многомерное шкалирование. Функционалы стресса. Монотонные (изотонические) отображения, сохранение ранга метрического тензора. Достаточная размерность представления для неразрешимых задач.
Задача кластеризации как задача аппроксимации метрического тензора. Метрики на метриках, аппроксимация метрик метриками. Метрические деревья. Ультраметрические деревья. Филогенетические деревья, интерпретация длин ребёр и нетерминальных вершин в ультраметрических деревьях, гипотеза молекулярных часов. Гарантированное получение классов эквивалентности. Общая схема вычисления ближайшей ультраметрики.
Модели и методы ИАД (часть Сенько)
-
ROC анализ.
-
Линейная модель. Линейная машина как метод обучения линейной модели.
-
Метод опорных векторов.
-
Нейронные сети. Модель перцептрона Розенблатта. Метод его обучения. Теорема Новикова. Переход от сдвига к фиктивному признаку. Многослойные перцептроны. Метод обратного распространения ошибки. Функции активации, удобные для распространения ошибки. Возможность разделения любых множеств.
-
Решающие деревья.
-
Комбинаторно логические методы. Тестовый алгоритм.
-
Основы АВО. Алгоритмы типа КОРА.
-
Алгоритмы, основанные на голосования по наборам закономерностей.
Метод логических закономерностей. Метод статистически взвешенных синдромов.
-
Bagging. Boosting. Решающие леса (random forest).
Коллективные методы. Ошибка и выпуклые комбинации предикторов. Основы алгебраической коррекции.
-
Анализ выживаемости как задача.
Основы модели Кокса.
Теормин
-
Понятие о фундаментальных задачах ИАД (основные задачи машинного обучения). Принципы их группирования.
Понятие фундаментальный ИАД - При решении прикладных задач методами ИАД принято делить общую задачу на несколько подзадач (провести декомпозицию), каждая из которых уже известна и изучена. Исторически сложился некоторый набор таких подзадач, на которые удобно проводить декомпозицию. Именно такие задачи называют фундаментальными задачами ИАД.
-
Задачи обучения с учителем:
-
Задачи классификации - надо получить алгоритм, который может отнести произвольный объект к одному из заранее заданных классов
-
Задачи восстановления регрессии - надо получить алгоритм (регрессию), который каждому объекту распознавания сопоставит некоторое значение из бесконечного, непрерывного множества
-
Задачи обучения по прецедентам - классификатор или регрессия настраиваются по заданному конечному набору прецедентов - объектов с заранее известными правильными ответами.
-
Задачи прогнозирования - обычно прогнозирование сводится к классификации или восстановлению регрессии, когда один из признаков определяет время.
-
Задачи последовательного обучения - прецеденты приходят последовательно во времени (один за другим). Алгоритм постоянно донастраивается.
-
Архивирование, настройка модели источника - символы на архивацию приходят последовательно один за другим. (ИАД здесь нужен потому, что нужно уметь предсказывать будущие символы, чтобы кодировать самые популярные наименьшим количеством бит)
-
Задачи обучения без учителя:
-
Кластеризация (Сегментация) - надо разбить все множество объектов на непересекающиеся подмножества (кластеры, сегменты), в которых объекты в каком-либо смысле похожи друг на друга.
-
Нечеткая кластеризация, бикластеризация и т.д.
-
Иерархическая кластеризация (Таксономия) - надо построить дерево подмножеств, в котором каждый последующий слой является измельчением предыдущего.
Задачи с частичным обучением - кроме прецедентной информации имеется информация о том, что некоторый набор объектов действительно существует и будет использован в ходе решения прикладной задачи. То есть для настройки алгоритма можно использовать прецедентную информацию и информацию о существовании данных объектов. (например: база данных фотографий, ищем фотографии с лицами)
Выявление отклонений, детектирование:
-
Выявление ошибок в данных - (“так не может быть”). Поступающая информация может содержать ошибки. (например: неисправность измерительного прибора)
-
Выявление нетипичного поведения - (“так раньше не было”). Наша атомная электростанция раньше никогда не взрывалась. Мы не знаем, как выглядит станция, собирающаяся взорваться, но систему мониторинга создать должны.
-
Устранение отклонений из обучения (фильтрация) - необходимо выявить те прецедентные данные, которые мешают качественно настроить модель.
Задачи восстановления пропусков - решение обычно сводится к задачам классификации или восстановления регрессии
-
Заполнение пропусков в прецедентах - выбранный метод обучения модели требует, чтобы присутствовали все данные без пропусков.
-
Заполнение пропусков в описаниях распознаваемых объектов - настроенная модель требует, чтобы во вновь приходящих на обработку описаниях не было пропусков.
Анализ наборов (не учитываем время транзакции) Термин: анализ рыночной корзины
-
Поиск популярных наборов (например: чай и мёд часто покупают вместе)
-
Поиск ассоциативных правил (например: те, кто купил мёд, часто покупают чай)
Анализ последовательностей (учитываем время)
-
Поиск последовательных правил (например: если сегодня купил принтер, то через месяц купит картридж)
Анализ формальных понятий - формализация описания понятия в виде пары (объём, содержание)
-
Поиск формальных понятий
-
Построение и анализ решёток понятий
Для задач снижения размерности целевой признак отсутствует, в ней переходят от одних описаний к другим. Принято вводить невязку через метрику на пространстве описаний.
Типичный функционал качества агрегирует множество невязок между исходными и новыми описаниями.
-
Основные модели данных в ИАД. Признаковое описание объекта.
Данные могут быть гомогенными - т.е. однородными, и гетерогенными, т.е. неоднородными.
Модели для задания исходных данных (в целом все они конвертируемы из одной в другую)
-
Data Matrix (признаковое описание) (матрица значений атрибутов каждого объекта) – объекты гомогенные (однотипные).
-
Multi Dimensional. - Матрица Кросс-сочетания. – это n-мерный куб, получаемый за счёт декартова произведения матриц с некоторыми атрибутами (например, <simpson vs not simpson x male vs female x child vs adult>)
В каждой ячейке этой матрицы находятся объекты, которые обладают соответствующими признаками.
Показатель – это функция от множества объектов из ячейки.
-
Similarity Tensor - Используются гетерогенные объекты (т.е. разного типа)
Таблица (аналитическое пространство (тензор)) задаёт взаимодействие между конкретными объектами попарно. (т.е. фактически нам даны оценки похожести разнотипных объектов)
-
Transactional Data / Формальный контекст (когда носители типа bool) / Транзакционные данные
Пусть у предметной области есть понятие «элемент» и «носитель».
И каждому носителю соответствует некоторое количество элементов (называемое «транзакция» - это множество (дубликаты отсутствуют))
-
Основные модели данных в ИАД. Многомерная модель.
Основные модели данных в ИАД - см. вопрос 2 теормина
Многомерная модель - Multi Dimensinal
Информация в многомерной модели представляется в виде многомерных массивов, называемых гиперкубами. В одной базе данных, построенной на многомерной модели, может храниться множество таких кубов, на основе которых можно проводить совместный анализ показателей. Конечный пользователь в качестве внешней модели данных получает для анализа определенные срезы или проекции кубов, представляемые в виде обычных двумерных таблиц или графиков.
В клетках этого многомерного куба находятся объекты, обладающие соответствующими признаками
Большинство систем OLAP (Online Analytical Processing) – используют такое представление.
Характеристики
Тип файла документ
Документы такого типа открываются такими программами, как Microsoft Office Word на компьютерах Windows, Apple Pages на компьютерах Mac, Open Office - бесплатная альтернатива на различных платформах, в том числе Linux. Наиболее простым и современным решением будут Google документы, так как открываются онлайн без скачивания прямо в браузере на любой платформе. Существуют российские качественные аналоги, например от Яндекса.
Будьте внимательны на мобильных устройствах, так как там используются упрощённый функционал даже в официальном приложении от Microsoft, поэтому для просмотра скачивайте PDF-версию. А если нужно редактировать файл, то используйте оригинальный файл.
Файлы такого типа обычно разбиты на страницы, а текст может быть форматированным (жирный, курсив, выбор шрифта, таблицы и т.п.), а также в него можно добавлять изображения. Формат идеально подходит для рефератов, докладов и РПЗ курсовых проектов, которые необходимо распечатать. Кстати перед печатью также сохраняйте файл в PDF, так как принтер может начудить со шрифтами.